Hogyan képes egy élettelen áramkör felismerni egy macskát a képen, vagy megírni egy verset? A mesterséges intelligencia nem varázslat, hanem egy rendkívül precíz statisztikai gépezet, amely az emberi agy működését próbálja utánozni – több-kevesebb sikerrel. De mit jelent valójában a „tanulás” egy gép esetében? Hol laknak a „gondolatok” a videókártyán, és mi köze a mátrixoknak a chatbothoz? Ebben a posztban a bitek és tranzisztorok szintjéig ásunk le, hogy megértsd: az AI valójában nem más, mint egy hatalmas, folyamatosan finomhangolt matematikai recept.
Ebben a két részes blogposzt sorozatban bemutatom közérthetően a mesterséges intelligencia alapjait.
Miért fontos érteni az AI alapjait?
Sokan csak „fekete dobozként” tekintenek az AI-ra, de a működésének ismerete több szempontból is kulcsfontosságú:
A félelem eloszlatása: Ha tudod, hogy az AI valójában csak számokkal végzett műveletek sorozata (mátrixszorzás), megszűnik a „terminátor-szerű” öntudatra ébredéstől való irracionális félelem. Érted a korlátait is.
Hatékonyabb használat: Aki tudja, hogyan működik a kontextus és a valószínűségszámítás, sokkal pontosabb utasításokat (promptokat) tud adni, és jobban ki tudja használni a rendszer képességeit.
Kritikus szemlélet: Az AI-tudatosság segít felismerni a hallucinációkat (amikor a gép magabiztosan hazudik) és az adatokból eredő részrehajlásokat (bias). Nem fogsz mindent készpénznek venni, amit egy chatbot ír.
Digitális írástudás: 2025-re az AI ismerete ugyanolyan alapvető elvárássá válik a munkaerőpiacon, mint régen az Office-csomag vagy az internet használata volt.
Az alapok: Programozás vs. AI
A hagyományos szoftverek és az AI közötti legfontosabb különbség a megközelítés módja.
- Hagyományos programozás: A fejlesztő előre megír minden szabályt („HA ez történik, AKKOR csináld azt”). Ha olyan helyzet adódik, amire nincs írott szabály, a program elakad.
- Mesterséges intelligencia: Nem szabályokat írunk, hanem megtanítjuk a gépet tanulni. Megmutatunk neki rengeteg példát (adatot), és hagyjuk, hogy ő maga fedezze fel az összefüggéseket és szabályszerűségeket.
A motor: Gépi tanulás (Machine Learning – ML)
Az AI szíve a gépi tanulás. Ez az a folyamat, amikor algoritmusokat használunk arra, hogy adatokból „tapasztalatot” szerezzenek. Ennek három fő típusa van:
1. Felügyelt tanulás (Supervised Learning)
Mint egy tanár és diák viszony. Megmutatjuk a gépnek a képet egy macskáról, és megmondjuk neki: „Ez egy macska”. Ezt megismételjük milliószor. Végül, ha mutatunk egy új képet, a gép felismeri a mintázatot, és magától tudja, hogy macska.
2. Felügyelet nélküli tanulás (Unsupervised Learning)
Ömlesztett adatot adunk a gépnek címkék nélkül. A feladata, hogy találjon benne struktúrát. Például: „Itt van 1000 vásárló kosara, csoportosítsd őket szokások szerint!”. Így működnek az ajánlórendszerek.
3. Megerősítéses tanulás (Reinforcement Learning)
A gép próba-szerencse alapon tanul. Ha jót lép (pl. egy sakkpartiban), „jutalmat” kap (pontszám nő), ha rosszat, „büntetést”. A célja a jutalom maximalizálása.
Az agy utánzása: neurális hálózatok (Deep Learning)
A mai modern AI (például a ChatGPT vagy a képgenerátorok) alapja a mélytanulás. Ez a gépi tanulás egy speciális ága, amely az emberi agy működését próbálja utánozni digitális neurális hálózatokkal.
Hogyan néz ez ki? Képzelj el sok rétegnyi „digitális neuront” egymás mögött.
- Bemeneti réteg (Input): Itt érkezik az adat (pl. egy kép minden egyes pixelének a színkódja).
- Rejtett rétegek (Hidden Layers): Itt történik a varázslat. Az adatok átfolynak ezeken a rétegeken. Minden neuron kapcsolatban áll a következő réteg neuronjaival.
- Kimeneti réteg (Output): A végeredmény (pl. „Ez a kép 98% valószínűséggel egy kutya”).

A tanulás mechanizmusa: Súlyok és Torzítások
A hálózat működésének kulcsa a „súlyok” (weights) állítgatása.
- Kezdetben a hálózat „buta”, a súlyok véletlenszerűek.
- Amikor átküldünk rajta egy adatot, ő tippel valamit (általában rosszat).
- Egy matematikai módszerrel (hiba-visszaterjesztés vagy backpropagation) kiszámoljuk, mennyit tévedett.
- A rendszer automatikusan finomhangolja a neuronok közötti kapcsolatok erősségét (súlyait), hogy legközelebb kisebb legyen a tévedés.
- Ezt a folyamatot milliárdszor ismételjük meg, amíg a hálózat „okos” nem lesz.
Generatív AI (LLM-ek)
A legújabb fejlemény, ami mostanában a hírekben szerepel, a nagy nyelvi modellek (Large Language Models – LLM).
Ezek a modellek nem csak felismernek (pl. „ez egy macska”), hanem alkotnak is.
A működés elve a valószínűségszámítás. Amikor az AI válaszol neked, nem „gondolkodik” a szó emberi értelmében. Azt számolja ki, hogy az eddig leírt szavak alapján statisztikailag melyik szó (vagy szótő) következik a legnagyobb valószínűséggel.
A modern modellek (Transformerek) képesek hatalmas mennyiségű szövegösszefüggést egyszerre látni, így értik a mondat elejét akkor is, ha a vége felé járunk. Ezért tudnak koherens, emberi jellegű szöveget alkotni.
Az AI tehát nem tudatos lény, hanem egy hihetetlenül bonyolult matematikai függvény, amelyet rengeteg adattal „kalibráltak” arra, hogy felismerje a mintákat, és ezek alapján kimeneteket generáljon vagy döntéseket hozzon.
A neurális háló tanulása
A neurális hálók tanulása valójában egy folyamatos finomhangolási folyamat. Nézzük meg a tanulás koreográfiáját.
A kapcsolatok (Súlyok/Weights)
Ez a legfontosabb rész! A rejtett rétegekben minden node össze van kötve az előző réteg összes node-jával. Ezek a kapcsolatok nem egyformák. Minden kapcsolathoz tartozik egy szám, amit súlynak (weight) hívunk. A súly határozza meg, hogy az egyik neuron mennyire „figyel” a másikra. Ha a súly nagy, az információ erősen átmegy; ha nulla közeli, akkor alig számít.
A node-ok közti „kapcsolat” nem egy dolog, hanem egy esemény. A fizikai valóságban nincs ott semmi (sem drót, sem szoftveres hivatkozás).
Bontsuk ki ezt, mert itt értjük meg a „mátrixok” szerepét (mint a Mátrix című filmben, nem véletlen az elnevezés).
Mi a kapcsolat valójában? (a mátrix-szorzás)
Ha lerajzolunk egy neurális hálót, vonalakat húzunk a körök közé. De a számítógép memóriájában nincsenek vonalak. Ehelyett táblázatok vannak. Képzeld el, hogy a bemeneti réteg 3 node-ból áll, a következő réteg pedig 4-ből. A kettő közötti „kapcsolatokat” egy 3×4-es táblázatban (mátrixban) tároljuk. Ez a táblázat maga a súlyok gyűjteménye.

Így működik a „kapcsolódás” pillanata:
- A gép veszi az első réteg számait (node-ok).
- Odateszi mellé a súlyok táblázatát (mátrix).
- Végrehajt egy matematikai műveletet: a mátrixszorzást. Ez az a pillanat, amikor az adatok „átfolynak” a kapcsolaton.
- A szorzás eredménye egy új számsor: ezek lesznek a következő réteg node-jai.
Tehát a kapcsolatot az biztosítja, hogy a processzor (GPU) összeszorozza az egyik réteg adatait a súlyok táblázatával. Ha nem végeznénk el a szorzást, a kapcsolat megszűnne létezni.
Hol helyezkednek el a súlyok? (a fizikai tárhely)
A súlyok pontosan ugyanott vannak, ahol a node-ok: a GPU memóriájában (VRAM).
Hogy konkrétabb legyek, amikor letöltesz egy AI modellt (pl. a Llama 3-at a gépedre), letöltesz egy 15 Gigabyte-os fájlt. Ez a fájl szinte kizárólag a súlyok listája. Egy végeláthatatlan számsor: 0.12, -0.45, 0.003, 1.2…
Amikor elindítod az AI-t, ez a 15 GB-nyi szám betöltődik a videókártyád memóriájába.
A fizikai elrendezés a memóriában
Képzeld el a memóriát egy óriási excel táblaként, ahol minden cellának van egy címe (pl. A1, A2…):
- A 2000-es címtől a 3000-esig laknak a bemeneti node-ok értékei (az épp feldolgozott adat).
- A 10 000-es címtől a 100 millióig laknak a Súlyok (a modell tudása).
A GPU feladata annyi, hogy villámgyorsan olvassa a 2000-es és a 10 000-es címeket, összeszorozza őket, és az eredményt beírja egy új helyre.
Egy konyhai analógia a teljes megértéshez
Hogy el tudd képzelni a különbséget a „node”, a „súly” és a „kapcsolat” között, süssünk egy sütit.
- Node (az összetevő): Ez a liszt a tálban. (Ez változik: ma liszt van benne, holnap cukor).
- Súly (a recept utasítása): Ez a receptkönyvben lévő szám: „Végy 30%-ot ebből”. (Ez fix, a recept része).
- Kapcsolat (a művelet): Ez az a mozdulat, amikor a mérleggel kiméred a lisztet a recept alapján.
Hol vannak fizikailag?
- A node (liszt) a konyhapulton van (ez a bemeneti adat a memóriában).
- A súly (a 30%-os utasítás) a receptkönyvbe van írva (ez a modell fájl a memóriában).
- A kapcsolat akkor jön létre, amikor te (a GPU) ránézel a könyvre, és a kezeddel kiméred az anyagot.
A node-ok a valóságban nem léteznek fizikai tárgyként. Nem fogsz találni egy kis golyót vagy chipet, amire rá van írva, hogy „én vagyok a 34-es számú neuron”.
Akkor mi a valóság?
Szoftver szinten: csak számok
A neurális háló (és benne a node-ok) valójában egy irdatlan hosszú táblázat (mátrix) a számítógép memóriájában.
Egy node fizikailag mindössze annyi, hogy a memóriában (RAM/VRAM) egy adott címen tárolunk egy tizedes törtet (pl. 0.753).
Amikor az AI „gondolkodik”, a processzor kiolvassa ezt a számot, összeszorozza egy másikkal, és beírja az eredményt egy új helyre.
Hardver szinten: a tranzisztorok
Bár maga a node csak egy szám, a kiszámítását fizikai eszközök végzik. Ezek a GPU-k (grafikus processzorok), mint például a híres NVIDIA H100 kártyák.
Egy ilyen chipen több milliárd apró kapcsoló (tranzisztor) van.
Ezek a tranzisztorok végzik el a villámgyors szorzásokat, amik a node-ok működéséhez kellenek.
Helyszín: az datközpont (Data Center)

Ha fizikailag meg akarod látogatni az AI-t, akkor egy hatalmas szerverparkba kell menned (pl. az USA-ba, Írországba vagy Hollandiába).
Itt, ezekben a hűtött csarnokokban, fekete fémdobozokban zúgnak azok a GPU-k, amelyek a memóriájukban tárolják a „node-okat” (a számokat), és másodpercenként billiószor módosítják azokat az elektromos áram segítségével.

Összegezve a „drótok” a neurális hálóban tisztán matematikai absztrakciók. A valóságban van egy nagy táblázatunk számokkal (ezek a súlyok/tudás), ami fixen ül a memóriában és van egy processzorunk (GPU), ami folyamatosan pörgeti a matekot (szorzásokat), ezzel virtuálisan létrehozva az összeköttetést az adatok között.
A matematika
Mi történik egy node-ban? Ahogy a „kapcsolódás” pillanatánál leírtam: amikor egy node információt kap az előző rétegből, egy egyszerű matematikai műveletet végez:
- Összegzés: megnézi az összes bejövő adatot, és megszorozza őket a hozzájuk tartozó súllyal.
- Hozzáadás: Hozzáad egy extra értéket, amit eltolásnak (bias) hívunk (ez segít a finomhangolásban).
- Aktiválás: Az eredményt átküldi egy „szűrőn” (aktivációs függvény). Ez dönti el, hogy a neuron „tüzeljen-e” (továbbadja-e az infót) vagy maradjon csendben.
Képletben egyszerűsítve:
Kimenet = Aktiváció((Bemenet x Súly) + Eltolás)
A tanulás folyamata
A „Hiba-visszaterjesztés” (Backpropagation)
A hálózat nem úgy tanul, hogy magol, hanem úgy, hogy hibázik, és kijavítja magát. Ez egy ciklikus folyamat:
1. Előre terjedés (a tipp)
A hálózat megkapja az adatot. Az adat átfolyik a node-okon és a súlyokon, majd a végén kiesik egy eredmény.
Például mutatunk neki egy 7-es számot. A hálózat (mivel még buta és a súlyok véletlenszerűek) azt mondja: „Ez egy 4-es”.
2. Hiba számítás (Loss Function)
Összehasonlítjuk a gép tippjét a valósággal.
Valóság: 7
Tipp: 4
Hiba (Loss): Nagy. A rendszer kiszámolja a különbséget matematikai pontossággal.
3. Visszaterjesztés (Backpropagation) – A „tanulás” pillanata
Ez a zseniális rész. A rendszer visszafelé indul el a kimenettől a bemenet felé. Minden egyes kapcsolatnál megvizsgálja: „Te mennyiben voltál felelős ezért a hibáért?” Ha egy node (és a hozzá tartozó súly) erősen hozzájárult a rossz tipphez, akkor a súlyát módosítjuk. Ha a súly túl nagy volt, csökkentjük. Ha túl kicsi, növeljük.
4. Frissítés (Optimizer)
A súlyokat egy icipicit átírjuk a helyes irányba. Nem állítjuk át teljesen (mert akkor a következő képnél megint nagyot tévedne), csak picit „lökünk” rajta. Ezt a módszert hívják gradiens ereszkedésnek (Gradient Descent).
Olyan ez, mintha egy sötét hegyről próbálnál lejönni a völgybe. Nem látsz semmit, csak a lábaddal érzed, merre lejt a talaj. Mindig abba az irányba lépsz egy kicsit, amerre lefelé visz az út (csökken a hiba).
Hány node képződik?
Fontos tisztázni egy tévhitet: a tanulás során általában nem képződnek új node-ok. A biológiai aggyal ellentétben (ahol nőhetnek új kapcsolatok), a mesterséges hálózat szerkezete statikus (rögzített).
A tervezés fázisa: A mérnökök előre eldöntik az építészetet (architektúrát).
- Hány réteg legyen?
- Hány node legyen egy rétegben? Ez a feladat nehézségétől függ. Egy egyszerű számfelismerőhöz elég lehet pár száz node. A ChatGPT-hez hasonló modelleknél ez a szám felfoghatatlanul nagy.
A paraméterek száma
Amikor azt hallod, hogy egy AI modell „70 milliárd paraméteres” (pl. Llama 2 70B), az nem a node-ok számát jelenti, hanem a kapcsolatok (súlyok) számát. Mivel minden node minden másikkal össze van kötve a következő rétegben, a kapcsolatok száma sokkal gyorsabban nő, mint a node-oké.
Például ha van két réteged, és mindkettőben 1000 node van, az máris 1 millió kapcsolatot (súlyt) jelent, amit a gépnek tanítania kell.
Végeredményben a neurális háló tanulása nem más, mint milliónyi kis tekerőgomb (súly) finomhangolása addig, amíg a bemenetre (kép a 7-esről) a helyes kimenetet (szám: 7) nem adja a rendszer a lehető legkisebb hibával.
Ebben a blogposztban áttekintettünk néhány alapfogalmat: a gépi tanulást, a neurális hálókat, a nagy nyelvi modelleket. A következő posztban szó lesz a gépi tanulás és futtatás közti különbségről, néhány problémáról mint például a hallucináció, megnézzük, hogy milyen programnyelven írják az AI-t és milyen hardvereken futtatják őket.
Tarts velem a második részben is.
A post-sorozat többi tagja

