Rostoucí propast: Vědci řeší, jak porozumět AI, která nás chápe lépe než my ji

11. června 2026Inovace

Umělá inteligence se stává stále výkonnější, ale zároveň i záhadnější. Navzdory letům práce na takzvané „vysvětlitelné AI“ zůstávají nejpokročilejší systémy, jako jsou velké jazykové modely (LLM) za populárními chatboty, pro vědce z velké části „černými skříňkami“. Dokážou sice pozorovat, co AI dělá, ale nedokážou plně vysvětlit, jak dospívá ke svým závěrům, ani předpovědět, kdy selže.

S pronikáním LLM do společnosti vědci upozorňují, že okno pro pochopení „mysli“ AI se rychle uzavírá, zatímco vliv technologie narůstá. Eric Horvitz, hlavní vědecký pracovník Microsoftu, a Robert West z EPFL ve Švýcarsku nedávno zdůraznili potenciální problémy plynoucí z odsouvání interpretovatelnosti AI na vedlejší kolej. Vyzývají k vytvoření nových benchmarků a lepších nástrojů pro rozklíčování fungování strojových myslí.

Výzva je podobná snahám o pochopení naší vlastní mysli. Někteří vědci již využili přístup inspirovaný neurovědou, mapují vnitřní sítě AI na koncepty, cíle a uvažování. Jiní si vypůjčují metody z psychologie a s AI zacházejí jako s účastníkem behaviorálních studií. Sázky se zvyšují, neboť nástroje AI již ovlivňují, jak lidé vyhledávají informace, činí rozhodnutí a formují úsudky. S rostoucími schopnostmi AI by naše chápání mohlo zaostávat. Autoři zdůrazňují, že „zachování lidské agentury musí zůstat ústředním cílem“.

LLM jsou postaveny na umělých neuronových sítích, konkrétně na architektuře zvané transformátor. Tyto sítě, volně inspirované mozkem, propojují obrovské množství umělých neuronů do složitých architektur. Data vstupují do sítě a procházejí vrstvami výpočtů, které je transformují do výstupu, jako je text nebo kód. S pomocí zpětné vazby a opakovaného tréninku se síť učí a postupně zlepšuje. Inženýři následně využívají posilované učení a další metody, inspirované například ukládáním vzpomínek během spánku, aby AI zdokonalila své reakce a nezapomínala staré znalosti při učení nových úkolů. Klíčová inovace transformátorů, mechanismus „self-attention“, umožňuje AI selektivně se zaměřit na různé části dat, což zvyšuje efektivitu a výkon. Přesto vnitřní fungování hotových algoritmů zůstává skryté.

Počáteční snahy o otevření „černé skříňky“ AI zkoumaly, jak umělé neurony reagují na obrazy, a odhalily, že neuronové sítě budují stále sofistikovanější „představy“ o světě. Společnost Google Brain si vypůjčila metody z kognitivní psychologie ke studiu chování AI, zatímco jiní zkoumali, zda LLM dokážou napodobit aspekty „teorie mysli“ – schopnosti odvozovat, co si myslí a cítí ostatní. Tyto studie položily základ pro populární metodu zvanou mechanistická interpretovatelnost, kterou vede společnost Anthropic. Její výzkumníci propojili vzorce algoritmické aktivity s konkrétními koncepty a zpětně analyzovali části neuronových sítí, aby odhalili, jak vnitřní výpočty formují reakce.