Čo je LLM a ako fungujú veľké jazykové modely?

  • Home
  • Čo je LLM a ako fungujú veľké jazykové modely?
Monitor so zobrazením neurónovej siete a mozgu v modernom laboratóriu symbolizuje tréning a použitie LLM

Čo je LLM a ako fungujú veľké jazykové modely?

14 augusta, 2025 Patrik
352 Videní

Veľký jazykový model, skrátene LLM, je typ neurónovej siete trénovaný na obrovskom množstve textu tak, aby vedel predpovedať ďalší token vo vete. V praxi to znamená, že vie generovať súvislý text, odpovedať na otázky, sumarizovať dokumenty, vysvetľovať pojmy, pomáhať s kódom a ďalšie. Dnešné LLM sú postavené na architektúre nazývanej transformer, ktorej základ je mechanizmus pozornosti. Ten umožňuje modelu súčasne sledovať vzťahy medzi slovami v celom vstupe a nie iba postupne zľava doprava. Práve táto paralelná pozornosť spôsobila veľký skok v kvalite jazykových úloh.

Základ: tokenizácia a učenie sa predikcie

Model nepracuje priamo so slovami. Text si najprv rozdelí na menšie jednotky zvané tokeny. Najrozšírenejší prístup je BPE, teda Byte Pair Encoding. Ten rozkladá slová na podslová a vďaka tomu zvláda aj zriedkavé či nové výrazy. Alternatívou je SentencePiece, ktorý trénuje segmentáciu priamo z neupraveného textu a je nezávislý od konkrétneho jazyka. Oba prístupy znižujú veľkosť slovníka a zlepšujú generalizáciu na reálny jazyk.

Tréningový cieľ býva jednoduchý. Model číta sekvencie tokenov a učí sa pravdepodobnosť ďalšieho tokenu podľa kontextu. Napriek jednoduchosti sa na takto naučené reprezentácie dá nadviazať ďalším doladením na praktické úlohy.

Prečo sú transformery rýchle a presné

Kľúčová myšlienka transformera je self attention. Každý token si dynamicky určuje, ktorým iným tokenom má venovať viac pozornosti. Vďaka tomu model prirodzene zachytí dlhodobé závislosti, napríklad vzťah medzi podmetom a prísudkom na začiatku a konci dlhej vety. Transformery tak nahradili staršie rekurentné a konvolučné siete vo väčšine jazykových úloh.

Škálovanie a prečo na ňom záleží

Pri LLM sa často hovorí o miliardách parametrov. Nie je to samoúčelné. Empirické výskumy ukázali, že chyba modelu klesá približne podľa mocninového zákona so zvyšujúcim sa počtom parametrov, dát a výpočtového výkonu. Tieto vzťahy sa nazývajú škálovacie zákony a pomáhajú plánovať, aká kombinácia dát a výpočtu dá najlepší výsledok pre daný rozpočet.

Popri čistom zväčšovaní vznikli aj efektívnejšie architektúry. Príkladom sú Mixture of Experts a Switch Transformer, kde sa pre konkrétny vstup aktivuje iba malá podmnožina expertov. Model tak dosiahne veľmi vysoký počet parametrov, no výpočet na jeden token ostáva relatívne úsporný.

Od holého modelu k užitočnému asistentovi

Veľký predtrénovaný model ešte nemusí byť príjemný na používanie. Preto sa aplikuje doladenie s ľudskou spätnou väzbou, často skrátene RLHF. Postup býva trojstupňový. Najprv sa urobí dozorné doladenie na ukážkach žiaducich odpovedí. Potom hodnotitelia porovnávajú páry výstupov a z týchto porovnaní sa natrénuje odmeňovací model. Napokon sa pôvodný model optimalizuje tak, aby maximalizoval odmenu, teda preferencie ľudí. Tento prístup viedol k rodine modelov, kde menší model dokázal v preferenciách používateľov prekonať oveľa väčší nevytrénovaný model.

Myšlienka ľudských preferencií sa začala presadzovať už skôr vo všeobecnom posilňovanom učení, kde sa agent učil plniť ciele definované porovnávaním správania. V jazykových modeloch sa toto adaptovalo na hodnotenie textových odpovedí.

Ako si model spomína na fakty

Hoci LLM v parametroch ukladá veľa znalostí, ich aktualizácia je náročná. Preto sa presadila technika RAG, teda Retrieval Augmented Generation. Model si počas generovania vyhľadá relevantné pasáže vo vonkajšej databáze alebo v internom knowledge base a tieto fakty použije v odpovedi. Zlepšuje to aktuálnosť, faktickosť aj schopnosť pridať zdroje.

Silné a slabé stránky LLM

Silné stránky: univerzálnosť jedného modelu na mnoho úloh, dobrá práca s prirodzeným jazykom, rýchla adaptácia cez prompt alebo ľahké doladenie, škálovanie výkonu so zdrojmi.
Výzvy: citlivosť na prompt, halucinácie, obmedzené pracovné okno kontextu, nákladnosť tréningu, otázky bezpečnosti a spravodlivosti. Tieto oblasti sa riešia kombináciou RLHF, lepšej tokenizácie, dlhších kontextov, RAG a špecializovanými hodnotiacimi testami.

Kde dávajú LLM najväčší zmysel v praxi

AI Chatboty pre zákaznícku podporu a interné helpdesky
• Sumár a analýza dokumentov, zmlúv a e mailov
• Tvorba technickej dokumentácie a kontrolné zoznamy
• Asistencia pri programovaní a generovanie testov
• Inteligentné vyhľadávanie nad firemným knowledge base s RAG
• Rýchle prototypovanie nápadov a kreatívne písanie s kontrolou človeka

leave a comment