Jak stážista pomohl stvořit AI, která změnila svět

V březnu 2016 svět ohromil umělá inteligence AlphaGo od Google DeepMind. V napínavé pětizápasové sérii porazila nejlepšího hráče světa Lee Sedola ve hře Go, což bylo označeno za historický moment ve vývoji AI.

Počátky projektu AlphaGo

Chris Maddison, tehdy student magisterského studia a nyní profesor na University of Toronto, pomohl projekt nastartovat. Vše začalo, když ho kontaktoval Ilya Sutskever, pozdější zakladatel OpenAI. Sutskever argumentoval, že pokud expert dokáže vybrat nejlepší tah v Go během půl sekundy, lze naučit neuronovou síť tuto schopnost napodobit. Tento argument Maddisona přesvědčil, aby se v létě 2014 připojil k Google Brain jako stážista.

Vývoj a první úspěchy

Po svém nástupu se Maddison připojil k malému týmu Aji Huang a Davida Silvera, kteří již na Go pracovali. Jeho úkolem bylo začít budovat neuronové sítě. Po mnoha neúspěšných pokusech se Maddison rozhodl pro nejjednodušší přístup: trénovat neuronovou síť na velkém množství expertních her s cílem předpovídat další tah. Tento přístup se ukázal jako klíčový pro rozvoj projektu. Na konci léta jeho sítě porazily Thore Graepela z DeepMind, což přesvědčilo vedení společnosti o potenciálu projektu a vedlo k alokaci dalších zdrojů.

Výzva porazit Lee Sedola

Během léta 2014 byl Lee Sedol vnímán jako nedosažitelný cíl. Maddison popisuje, jak se s každým vylepšením sítě ptal Aji Huang, jak blízko jsou Lee Sedolovi, a dostával odpověď, že Lee Sedol je „jeden kámen od Boha“.

Maddison opustil tým před velkým zápasem, aby se mohl soustředit na svou doktorskou práci, ačkoliv projekt nadále konzultoval. S hrdostí zmiňuje, že trvalo delší dobu, než jeho sítě překonaly. Finální verze AlphaGo, která hrála proti Lee Sedolovi, byla výsledkem rozsáhlého inženýrského úsilí velkého týmu.

Atmosféra v Soulu a dopad na AI

Zápasy v Soulu byly plné emocí a napětí. Maddison popisuje, jak na velkoplošných obrazovkách v ulicích města sledovaly miliony lidí přenos zápasu, což mu dalo pocit, že „východní Asie se zastavila v pohybu“.

AlphaGo položila základy pro současné velké jazykové modely (LLM). Podobně jako AlphaGo začínala předpovědí dalšího tahu experta, LLM začínají předpovědí dalšího slova. Oba systémy pak využívají zpětnovazební učení k doladění chování směrem k cíli – v případě AlphaGo k vítězství ve hře, u LLM k užitečnému použití.

Budoucnost AI a lidská role

Maddison zdůrazňuje, že klíčovými faktory pro pokrok v AI jsou dostatek dat pro předtrénování a kvalitní „reward signály“ pro následné učení. Věří, že AI může pomoci lidem lépe pochopit i krásu her jako Go. Přítomnost AI v deskových hrách, jako je šachy, nezničila jejich popularitu, ale naopak podtrhuje lidské mistrovství a zájem o hru.