Google DeepMind představuje 10 klíčových rysů pro přesné měření pokroku k umělé obecné inteligenci
InovaceGoogle DeepMind, přední výzkumná laboratoř v oblasti umělé inteligence, představila nový, přísnější rámec pro měření pokroku směrem k umělé obecné inteligenci (AGI).
Google DeepMind, přední výzkumná laboratoř v oblasti umělé inteligence, představila nový, přísnější rámec pro měření pokroku směrem k umělé obecné inteligenci (AGI). Cílem je odstranit dosavadní nejasnosti a spekulace, které provázejí diskuse o AGI, a nabídnout konkrétní způsob, jak posoudit, jak blízko se modely k tomuto technologickému cíli blíží.
Umělá obecná inteligence je definována jako hypotetický systém umělé inteligence, který by dokázal vyrovnat se lidské inteligenci v její obecné a vysoce adaptabilní formě. S rostoucím počtem úkolů, které dokážou zvládnout velké jazykové modely, se stále častěji objevují názory, že se technologie k tomuto prahu blíží. Dosud však chyběl jasný způsob, jak pokrok směrem k AGI hodnotit, což ponechávalo prostor pro subjektivní tvrzení a přehánění. Vědci z Google DeepMind doufají, že jejich rámec poskytne praktický plán a počáteční krok k přísnějšímu, empirickému hodnocení AGI.
Tým z Google DeepMind proto navrhl nový rámec inspirovaný kognitivní vědou, který rozděluje obecnou inteligenci do deseti klíčových schopností. Osm z nich tvoří základní kognitivní stavební kameny, identifikované na základě desetiletí výzkumu v psychologii, neurovědě a kognitivní vědě. Patří sem vnímání smyslových vstupů, generování výstupů (text, řeč, akce), učení, paměť, uvažování, schopnost soustředit pozornost, metakognice (schopnost uvažovat o vlastních mentálních procesech a řídit je) a exekutivní funkce (plánování a potlačování impulsů). Doplňují je dvě „složené schopnosti“, které vyžadují kombinaci několika základních kamenů: řešení problémů a sociální kognice, tedy schopnost rozumět sociálnímu kontextu a vhodně na něj reagovat.
Pro posouzení výkonu systémů umělé inteligence v každé z těchto oblastí vědci navrhují podrobit je široké škále kognitivních hodnocení zaměřených na konkrétní schopnosti. Současně by se měly shromažďovat referenční hodnoty od lidí, a to tak, že demograficky reprezentativní vzorek dospělých s minimálně středoškolským vzděláním by plnil stejné úkoly za identických podmínek. Výsledky těchto testů by pak mohly být zkombinovány do „kognitivních profilů“, které by ukázaly silné a slabé stránky modelu. Porovnáním s lidskými referenčními hodnotami by bylo možné určit, kdy systém dosahuje nebo překonává obecnou inteligenci průměrného člověka.
Rámec se zaměřuje na to, co systém dokáže, nikoli na to, jak to dělá, což znamená, že hodnocení je agnostické vůči základní technologii. Vědci však připouštějí, že v současné době neexistuje spolehlivý způsob měření mnoha identifikovaných kognitivních schopností, jako je metakognice, pozornost, učení a sociální kognice. Navíc mnoho nejlepších referenčních testů je veřejných, což znamená, že kritéria testování jsou snadno dostupná a mohla být již zahrnuta do tréninkových dat modelů. Autoři proto spolupracují s akademiky na vytváření robustnějších, neveřejných hodnocení, která by tyto mezery vyplnila. Užitečnost nového rámce bude záviset na tom, zda kritéria DeepMind skutečně vystihují podstatu lidské obecné inteligence a zda úspěch v těchto testech povede k lepšímu výkonu při řešení praktických problémů ve srovnání s užšími, specializovanými systémy umělé inteligence. I přes tyto výzvy představuje tento rámec, založený na kognitivní teorii a přísném hodnocení, významný krok vpřed v debatě o AGI.