Špičková AI si vymýšlí nemoci: Modely „vidí“ rentgeny, které jim nikdo neukázal, varují vědci
InovaceVelké jazykové modely (LLM) se od svého spuštění v roce 2022 potýkají s takzvanými „halucinacemi“, kdy sebevědomě generují přesvědčivé, avšak zcela chybné výstupy.
Velké jazykové modely (LLM) se od svého spuštění v roce 2022 potýkají s takzvanými „halucinacemi“, kdy sebevědomě generují přesvědčivé, avšak zcela chybné výstupy. Tento problém přetrvává i u nejsofistikovanějších modelů umělé inteligence a je obzvláště znepokojivý v oblasti zdravotnictví, kde se objevují případy od nebezpečných zdravotních rad až po nástroje, které si vymýšlejí neexistující léky.
Nový výzkum týmu ze Stanfordovy univerzity odhalil ještě znepokojivější jev v oblasti analýzy radiologických snímků, kde je AI dlouho prosazována jako klíčový nástroj. V dosud nepublikované studii vědci zjistili, že špičkové modely umělé inteligence, jako jsou OpenAI GPT-5, Google Gemini 3 Pro a Anthropic Claude Opus 4.5, snadno generovaly „podrobné popisy snímků a propracované zdůvodnění, včetně patologicky zkreslených klinických nálezů, pro snímky, které nikdy nebyly poskytnuty.“ Jinými slovy, AI modely si s jistotou vymýšlely odpovědi na otázky týkající se údajně doprovodného snímku, i když jim žádný snímek nebyl ukázán.
Tento jev, který se liší od běžných halucinací, kdy AI vyplňuje mezery v logickém rámci, byl týmem nazván „zrcadlové uvažování“ (mirage reasoning). Zahrnuje „konstrukci falešného epistemického rámce, tj. popis multimodálního vstupu, který uživatel nikdy neposkytl, a založení zbytku konverzace na něm, čímž se mění kontext daného úkolu,“ uvedli vědci. To naznačuje, že modely AI „podvádějí“ tím, že se ponoří do dat, na kterých byly trénovány, a zbytek si domyslí na základě pravděpodobnosti a obecných statistik, i když jde téměř výhradně o domněnky.
Spoluautor studie, doktorand Mohammad Asadi, vysvětlil, že AI modely využívají svou „nadlidskou paměť a jazykové dovednosti k maskování svých slabin v multimodálním porozumění.“ V jednom experimentu, kdy vědci odstranili snímky z vizuálních otázek napříč medicínou, vědou a technikou, všechny testované modely sebevědomě poskytovaly „popisy vizuálních detailů.“ V extrémním případě jeden model dosáhl nejvyššího hodnocení v benchmarku pro otázky a odpovědi týkající se rentgenových snímků hrudníku, aniž by měl přístup k jakýmkoli snímkům.
Když byly modely AI explicitně vyzvány, aby „hádaly odpovědi bez přístupu k obrázkům“, jejich výkon výrazně poklesl. To naznačuje, že si vedly mnohem lépe, když si nebyly vědomy, že jim chybí zásadní data. Asadi a jeho kolegové proto volají po zásadní revizi stávajících benchmarků, aby se předešlo negativním důsledkům, zejména v lékařském kontextu, kde chybné kalibrace AI mohou mít největší dopad. Navrhují nový rámec „B-Clean“, který identifikuje a odstraňuje kompromitované otázky, aby umožnil spravedlivé srovnání modelů založené na vizuálním vstupu.
Tyto znepokojivé poznatky přicházejí v době, kdy nemocniční manažeři stále více prosazují nahrazování radiologů umělou inteligencí. Pokud by byly tyto systémy nasazeny bez dostatečných bezpečnostních opatření, mohly by vést k alarmujícím falešným pozitivům, zejména v rostoucích „agentních systémech“, kde by chyba malého modelu mohla prostoupit celým systémem a způsobit nepředvídané výsledky. Asadi zdůrazňuje, že bychom měli „dvakrát přemýšlet, než je nasadíme do systémů určených pro uživatele/pacienty.“ Závěrem dodává, že „jen proto, že AI velmi přesvědčivě říká, že něco vidí, neznamená to, že to skutečně vidí.“ Je klíčové rozlišovat mezi nadlidskými jazykovými schopnostmi AI a jejími skutečnými schopnostmi v jiných úkolech.