Nový nástroj z Los Alamos zvyšuje důvěryhodnost AI: Odhaluje, kdy si modely „vymýšlí“

15. června 2026Inovace

Vědci z Los Alamos National Laboratory vyvinuli inovativní nástroj nazvaný Prelim Attention Score (PAS), který pomáhá odhalit, kdy výstup vizuálně-jazykového modelu umělé inteligence vychází ze skutečného obrazu a kdy se naopak příliš spoléhá na vlastní vygenerovaný text. Tento systém je považován za klíčový pro výrazné zvýšení bezpečnosti a důvěryhodnosti modelů umělé inteligence.

Manish Bhattarai, počítačový vědec z Los Alamos, uvedl, že PAS funguje jako interní monitor AI v reálném čase a je kompatibilní s většinou stávajících vizuálně-jazykových modelů s minimálními dodatečnými výpočetními nároky. Dosahuje špičkové přesnosti v detekci takzvaných „halucinací“ umělé inteligence, což vývojářům otevírá praktickou cestu k bezpečnějším a spolehlivějším multimodálním systémům AI.

Většina vizuálně-jazykových modelů je autoregresivní, což znamená, že každé nové slovo generují částečně na základě slov, která již vytvořily. Ačkoli to pomáhá modelům tvořit souvislé odpovědi, může to také vést k tomu, že se systém příliš opírá o svůj předchozí výstup namísto samotného obrazu. PAS sleduje předpovědi každého slova modelem a pomáhá identifikovat, odkud model čerpá informace a kde je pravděpodobné, že dojde k halucinacím. Nástroj následně zobrazí skóre, které uživatele upozorní na možnou přítomnost halucinací ve výstupu. Čím blíže je skóre PAS nule, tím méně pravděpodobné je, že model vytvořil halucinaci.

Mnoho autoregresivních vizuálně-jazykových modelů je založeno na architekturách transformátorů, což jsou hluboké neuronové sítě využívající vzorce pozornosti k vážení informací při generování výstupu. Tým z Los Alamos zkoumal, jak tyto modely věnují pozornost obrazu, textovému promptu a vlastním předběžně vygenerovaným slovům. Když je PAS integrován do pracovního postupu vizuálně-jazykového modelu, může běžet souběžně s modelem. Pro zmínky o objektech ve výstupu vypočítá skóre založené na pozornosti, které ukazuje, jak silně se model spoléhal na svá dříve vygenerovaná slova.

Nástroj PAS by mohl najít uplatnění v oblastech, kde vizuálně-jazykové modely analyzují obrázky, dokumenty, diagramy a text. Výzkumníci uvádějí, že by mohl v budoucnu podporovat kontroly spolehlivosti v oblastech, jako je lékařské zobrazování, analýza vědeckých dokumentů, inženýrské diagramy, dálkový průzkum a další vizuální pracovní postupy, kde by nepodložená tvrzení mohla ovlivnit následná rozhodnutí. Tým z Los Alamos představuje PAS na konferenci Computer Vision and Pattern Recognition 2026 v Denveru.

Interesting Engineering