Odhalení tajemství AI: Harvardští vědci našli 'gravitační zákon' pro učení velkých modelů
InovaceModerní systémy umělé inteligence, jako jsou ChatGPT nebo Gemini, jsou sice mimořádně výkonné, ale jejich vnitřní mechanismy zůstávají pro vědce velkou neznámou, takzvanou „černou skříňkou“. Skupina fyziků z Harvardovy univerzity se nyní pustila do rozluštění této záhady.
Moderní systémy umělé inteligence, jako jsou ChatGPT nebo Gemini, jsou sice mimořádně výkonné, ale jejich vnitřní mechanismy zůstávají pro vědce velkou neznámou, takzvanou „černou skříňkou“. Skupina fyziků z Harvardovy univerzity se nyní pustila do rozluštění této záhady. Vyvinuli zjednodušený matematický model učení v neuronových sítích, který lze analyzovat pomocí nástrojů statistické fyziky.
Současný výzkum umělé inteligence se podle vědců nachází v podobné fázi, jako byly rané planetární objevy Johannese Keplera. Existují sice empirické „škálovací zákony“, které ukazují, že výkon AI se zlepšuje s větším množstvím dat a velikostí modelu, ale chybí „Newtonovská“ teorie, která by vysvětlovala, proč tomu tak je. Jednou z největších záhad je takzvané „přeučování“ (overfitting): teoreticky by velké modely měly spíše memorovat data než se učit vzorce, ale v praxi často zobecňují lépe, čím jsou větší.
K vyřešení této matematické hádanky použil harvardský tým zjednodušené „hračkové modely“ (toy models), například ridge regresi. S pomocí principů renormalizační teorie ze statistické fyziky a analýzy vysokodimenzionálních datových fluktuací, které byly dříve považovány za pouhý šum, vědci zjistili, že tyto malé náhodné variace ve skutečnosti stabilizují proces učení a brání přeučování. Ve vysokodimenzionálních prostorech s miliony proměnných se mikroskopické detaily absorbují do několika parametrů, což umožňuje složitým systémům vykazovat jednoduché a stabilní chování ve velkém měřítku.
Tento průlomový výzkum, publikovaný v časopise Journal of Statistical Mechanics: Theory and Experiment (JSTAT), by mohl znamenat posun od pouhého empirického pozorování k fundamentální „teorii gravitace“ pro umělou inteligenci. Hlubší pochopení vnitřního fungování těchto systémů by mohlo vést k návrhu efektivnějších a spolehlivějších systémů umělé inteligence, které budou spotřebovávat méně energie a lépe řešit současné výzvy. Jak vysvětluje Alexander Atanasov, první autor studie, jde o zásadní krok k odhalení základních matematických zákonů, které umožňují velkým neuronovým sítím stabilizovat učení a vyhnout se přeučování.
Neuroscience News