Slovník pojmov

44 kľúčových pojmov z oblasti AI a LLM vysvetlených po slovensky.

Základy (11)

Embedding

Vektorová reprezentácia

Hustá vektorová reprezentácia tokenu, slova alebo celého textu v mnohorozmernom priestore. Embeddingy zachytávajú sémantické vzťahy — podobné významy majú blízke vektory.

Fine-tuning

Doladenie modelu

Ďalšie trénovanie už predtrénovaného modelu na menšom špecializovanom datasete. Cieľom je prispôsobiť model konkrétnej úlohe alebo doméne bez nutnosti trénovať od nuly.

Inferencia

Inference

Proces, pri ktorom natrénovaný model generuje výstup na základe vstupného promptu. Na rozdiel od tréningu sa pri inferencii váhy modelu nemenia.

Kontext (Context Window)

Kontextové okno

Maximálny počet tokenov, ktoré model dokáže spracovať naraz (vstup aj výstup dohromady). Väčšie kontextové okno umožňuje pracovať s dlhšími dokumentmi, ale zvyšuje výpočtovú náročnosť.

zaklady

LLM

Large Language Model

Veľký jazykový model je typ neurónovej siete natrénovanej na obrovskom množstve textových dát. Dokáže generovať, sumarizovať a analyzovať text v prirodzenom jazyku.

zaklady

Pre-training

Predtrénovanie

Úvodná fáza tréningu, pri ktorej sa model učí zo širokého korpusu textových dát predpovedať nasledujúci token. Výsledkom je základný (foundation) model so všeobecnými jazykovými schopnosťami.

Prompt

Vstupný text / výzva

Text, ktorý používateľ zadá modelu ako vstup. Kvalita a štruktúra promptu výrazne ovplyvňujú kvalitu generovanej odpovede.

Token

Token

Základná jednotka textu, s ktorou jazykový model pracuje. Token môže predstavovať celé slovo, časť slova alebo interpunkčné znamienko. Počet tokenov ovplyvňuje rýchlosť aj cenu inferencie.

Tokenizácia

Tokenization

Proces rozdelenia vstupného textu na tokeny — menšie jednotky, ktoré model dokáže spracovať. Bežné algoritmy sú BPE (Byte Pair Encoding), WordPiece a SentencePiece.

zaklady
Pozri: token

Transfer Learning

Prenosové učenie

Technika, pri ktorej sa znalosti získané pri tréningu na jednej úlohe prenesú na inú, príbuznú úlohu. V kontexte LLM ide typicky o kombináciu predtrénovaného modelu a následného fine-tuningu.

Transformer

Transformer architektúra

Architektúra neurónovej siete predstavená v roku 2017 (článok „Attention Is All You Need"). Využíva mechanizmus pozornosti (attention) namiesto rekurencie, čo umožňuje efektívne paralelné spracovanie sekvencií.

Architektúra (8)

Attention (Self-Attention)

Mechanizmus pozornosti

Mechanizmus, ktorý umožňuje modelu pri spracovaní každého tokenu „venovať pozornosť" všetkým ostatným tokenom vo vstupe. Vďaka tomu model zachytáva závislosti medzi vzdialenými časťami textu.

Autoregressive Model

Autoregresívny model

Model, ktorý generuje výstup sekvenčne — každý nový token je podmienený všetkými predchádzajúcimi tokenmi. Väčšina moderných LLM (napr. GPT) sú autoregresívne modely.

architektura

Decoder

Dekodér

Časť transformeru zodpovedná za generovanie výstupnej sekvencie token po tokene. Používa kauzálnu (jednosmernú) pozornosť — každý token vidí len predchádzajúce tokeny.

Encoder

Enkodér

Časť transformeru, ktorá spracúva vstupnú sekvenciu a vytvára jej internú reprezentáciu. Enkodér používa obojsmernú (bidirectional) pozornosť — každý token vidí celý vstup.

architektura

Encoder-Decoder

Enkodér-Dekodér

Plná transformer architektúra kombinujúca enkodér aj dekodér. Enkodér spracuje vstup a dekodér generuje výstup s ohľadom na enkodérovu reprezentáciu. Typické použitie je preklad alebo sumarizácia.

architektura

Feed-forward Network

Dopredná neurónová sieť

Plne prepojená neurónová sieť aplikovaná na každý token nezávisle v rámci vrstvy transformeru. Zvyčajne pozostáva z dvoch lineárnych transformácií s nelineárnou aktivačnou funkciou medzi nimi.

architektura

Multi-head Attention

Viacnásobná pozornosť

Rozšírenie mechanizmu self-attention, kde sa paralelne počíta viacero „hláv" pozornosti. Každá hlava sa môže sústrediť na iný typ vzťahu medzi tokenmi, čím sa zvyšuje vyjadrovacia sila modelu.

architektura

Parameters (Parametre)

Parametre modelu

Numerické váhy neurónovej siete, ktoré sa nastavujú počas tréningu. Počet parametrov (napr. 7B, 70B, 405B) je hrubým indikátorom kapacity modelu. Viac parametrov zvyčajne znamená väčšiu vyjadrovaciu silu, ale aj vyššie nároky na výpočtové zdroje.

Tréning (8)

Alignment

Zarovnanie modelu

Proces zabezpečenia toho, aby správanie modelu bolo v súlade s ľudskými hodnotami, zámermi a bezpečnostnými požiadavkami. Zahŕňa techniky ako RLHF, DPO a Constitutional AI.

Constitutional AI

Ústavná AI

Prístup vyvinutý spoločnosťou Anthropic, kde model sám hodnotí a vylepšuje svoje odpovede na základe súboru pravidiel (ústava). Cieľom je znížiť potrebu ľudskej spätnej väzby pri zarovnávaní modelu.

trening

DPO

Direct Preference Optimization

Alternatíva k RLHF, ktorá obchádza nutnosť trénovať separátny reward model. Priamo optimalizuje jazykový model na základe párov preferencií (preferovaná vs. nepreferovaná odpoveď).

trening

Emergent Abilities

Emergentné schopnosti

Schopnosti, ktoré sa objavia až pri dostatočne veľkých modeloch a nie sú prítomné v menších verziách. Príkladmi sú matematické uvažovanie alebo riešenie úloh v niekoľkých krokoch.

Hallucinácia

Halucinácia modelu

Jav, keď model generuje text, ktorý znie presvedčivo, ale obsahuje fakticky nesprávne alebo vymyslené informácie. Je to jeden z hlavných problémov súčasných jazykových modelov.

RLHF

Reinforcement Learning from Human Feedback

Metóda tréningu, pri ktorej sa model zlepšuje na základe spätnej väzby od ľudských hodnotiteľov. Najprv sa natrénuje model odmien (reward model) a potom sa pomocou posilňovaného učenia optimalizujú odpovede hlavného modelu.

Scaling Laws

Škálovacie zákony

Empirické vzťahy medzi veľkosťou modelu, objemom trénovacích dát, výpočtovým výkonom a výslednou výkonnosťou. Tieto zákony umožňujú predpovedať zlepšenie modelu pri zvýšení jednotlivých faktorov.

Supervised Fine-tuning (SFT)

Doladenie s učiteľom

Fáza tréningu, pri ktorej sa model učí na pároch vstup–výstup pripravených ľudskými anotátormi. Zvyčajne predchádza RLHF a učí model formát inštrukcií a odpovedí.

trening

Praktické (9)

Few-shot Learning

Učenie z mála príkladov

Schopnosť modelu vykonať úlohu na základe niekoľkých príkladov uvedených priamo v prompte, bez akéhokoľvek ďalšieho tréningu. Príklady slúžia ako vzor očakávaného vstupu a výstupu.

Function Calling

Volanie funkcií

Schopnosť LLM generovať štruktúrovaný výstup (typicky JSON), ktorý zodpovedá definícii funkcie alebo API. Umožňuje modelu interagovať s externými nástrojmi a službami.

prakticke

Chain-of-Thought

Reťaz myšlienok

Technika promptovania, pri ktorej model explicitne generuje medzikroky svojho uvažovania pred finálnou odpoveďou. Výrazne zlepšuje výsledky pri matematických, logických a viacstupňových úlohách.

RAG (Retrieval-Augmented Generation)

Generovanie rozšírené o vyhľadávanie

Technika, pri ktorej model pred generovaním odpovede najprv vyhľadá relevantné dokumenty z externej databázy. Zvyšuje faktickú presnosť a umožňuje pracovať s aktuálnymi alebo proprietárnymi údajmi.

System Prompt

Systémový prompt

Špeciálna inštrukcia zadávaná modelu pred samotnou konverzáciou s používateľom. Definuje správanie, rolu a obmedzenia modelu. Používateľ ho zvyčajne nevidí.

prakticke

Temperature

Teplota (parameter)

Parameter ovplyvňujúci náhodnosť generovania. Nízka teplota (napr. 0.0) produkuje deterministickejšie a konzistentnejšie odpovede, vysoká teplota (napr. 1.0+) zvyšuje rozmanitosť a kreativitu výstupu.

prakticke

Top-p

Nucleus Sampling

Metóda vzorkovania, pri ktorej model vyberá ďalší token len z najmenšej množiny tokenov, ktorých kumulatívna pravdepodobnosť dosiahne hodnotu p. Napríklad top-p 0.9 znamená, že sa zvažuje len 90 % najpravdepodobnejších tokenov.

Vector Database

Vektorová databáza

Špecializovaná databáza optimalizovaná na ukladanie a rýchle vyhľadávanie vektorových embeddingov. Používa sa v RAG systémoch na sémantické vyhľadávanie najbližších dokumentov.

prakticke

Zero-shot Learning

Učenie bez príkladov

Schopnosť modelu vykonať úlohu len na základe textovej inštrukcie, bez akýchkoľvek príkladov v prompte. Svedčí o všeobecnom porozumení jazyku a úloh nadobudnutom počas predtréningu.

Bezpečnosť (4)

Content Filtering

Filtrovanie obsahu

Automatický proces detekcie a blokovania nevhodného, škodlivého alebo nebezpečného obsahu vo vstupe aj výstupe AI modelu. Môže byť realizovaný samostatným klasifikačným modelom alebo pravidlami.

Guardrails

Ochranné mantinely

Mechanizmy a pravidlá implementované okolo AI modelu s cieľom obmedziť nežiaduce výstupy. Zahŕňajú filtrovanie obsahu, systémové prompty, detekciu škodlivého obsahu a validáciu výstupov.

Jailbreak

Obídenie obmedzení modelu

Technika, pri ktorej sa špeciálne formulovaným promptom obídu bezpečnostné obmedzenia modelu, čím sa donúti generovať obsah, ktorý by za normálnych okolností odmietol.

Red Teaming

Červený tím / Adversariálne testovanie

Systematický proces testovania AI systému, pri ktorom sa tím špecialistov pokúša nájsť zraniteľnosti, nežiaduce správanie alebo spôsoby zneužitia modelu. Je kľúčovou súčasťou bezpečnostného hodnotenia pred nasadením.

bezpecnost

Pokročilé (4)

Agent (AI Agent)

AI Agent

Autonómny systém postavený na LLM, ktorý dokáže plánovať, rozhodovať sa a vykonávať akcie pomocou externých nástrojov (vyhľadávanie, spúšťanie kódu, volanie API). Iteratívne pracuje na splnení zadanej úlohy.

Benchmark

Porovnávací test

Štandardizovaný testovací dataset alebo súbor úloh určený na meranie a porovnávanie výkonnosti AI modelov. Príklady zahŕňajú MMLU, HumanEval, GSM8K, HellaSwag a ďalšie.

Mixture of Experts (MoE)

Zmes expertov

Architektúra, v ktorej model obsahuje viacero špecializovaných podmodulov (expertov) a smerovaciu sieť (router), ktorá pre každý token aktivuje len podmnožinu expertov. To umožňuje mať veľký celkový počet parametrov pri nižších výpočtových nárokoch na inferenciu.

Multimodálny Model

Multimodal Model

AI model schopný spracovať a generovať viaceré typy dát — napríklad text, obrázky, zvuk alebo video. Umožňuje úlohy ako popis obrázkov, vizuálne otázky a odpovede alebo generovanie obrázkov z textu.

pokrocile