Překvapivé zjištění: Proč se špičkové AI nedaří v jednoduchých hrách jako Nim?
InovaceAčkoli se zdálo, že umělé inteligence z řady Alpha od Google DeepMind dokážou zvládnout jakoukoli hru – od šachů po Go – objevily se překvapivé slabiny.
Ačkoli se zdálo, že umělé inteligence z řady Alpha od Google DeepMind dokážou zvládnout jakoukoli hru – od šachů po Go – objevily se překvapivé slabiny. Vědci nyní odhalili, proč se tyto špičkové AI systémy potýkají s některými zdánlivě jednoduchými hrami, což může pomoci identifikovat jejich slabá místa a zlepšit jejich trénink, aby se těmto „slepým místům“ v budoucnu vyhnuly.
Nový výzkum publikovaný v časopise Machine Learning popisuje celou kategorii her, takzvaných „nestranných her“, kde metoda tréninku AlphaGo a AlphaChess selhává. Na rozdíl od šachů, kde má každý hráč své vlastní figurky, v nestranných hrách oba hráči sdílejí stejné figurky a řídí se stejnými pravidly. Příkladem je hra Nim, která spočívá v odebírání zápalek z pyramidového uspořádání, dokud jednomu hráči nezůstane žádný legální tah. Důležitost Nim spočívá v tom, že jakákoli pozice v nestranné hře může být reprezentována konfigurací Nim pyramidy, což znamená, že poznatky z Nim platí pro všechny nestranné hry.
Jednou z klíčových vlastností Nim a dalších nestranných her je, že v každém okamžiku hry je snadné vyhodnotit stav hrací plochy a určit, který hráč má potenciál vyhrát. K tomu stačí použít matematickou paritní funkci, která vypočítá, zda hráč vyhrává, pokud hraje optimální tahy. Vědci Bei Zhou a Soren Riis se zaměřili na otázku, zda by AI trénovaná přístupem AlphaGo dokázala vyvinout reprezentaci této paritní funkce pouze tím, že by sama se sebou hrála Nim.
Výsledky byly překvapivé. Zatímco AI se na desce Nim s pěti řadami zlepšovala poměrně rychle, přidání pouhé jedné řady navíc způsobilo výrazné zpomalení tempa zlepšování. U sedmiřadé desky se zisky ve výkonu po 500 tréninkových iteracích prakticky zastavily. Výkon trénované AI byl na sedmiřadé desce nerozeznatelný od verze, která navrhovala tahy náhodně. To naznačuje, že jakmile se deska dostatečně zvětšila, systém nebyl schopen učit se z pozorování výsledků hry. Vědci dospěli k závěru, že Nim vyžaduje, aby se hráči naučili paritní funkci pro efektivní hru, a tréninkový postup, který tak dobře funguje pro šachy a Go, toho není schopen.
Tento závěr naznačuje, že zatímco AlphaZero vyniká v učení prostřednictvím asociací, selhává, když problém vyžaduje formu symbolického uvažování, které nelze implicitně odvodit z korelace mezi stavy hry a výsledky. I když pravidla hry umožňují jednoduchá rozhodovací pravidla, nelze očekávat, že trénink ve stylu Alpha AI umožní je identifikovat. Zhou a Riis také zjistili, že podobné problémy by se mohly objevit i u šachových AI trénovaných tímto způsobem, i když v šachu jsou konfigurace podobné Nim obecně vzácné. Problémem je, že optimální tahy v Nim často vyžadují dlouhé řetězce tahů, aby se prokázala jejich hodnota, což je pro AI obtížné zvládnout.