I umělá inteligence se dá oklamat: Nová studie ukazuje, jak AI přijímá nepravdy pod tlakem konverzace
InovaceUmělé inteligence, jako jsou chatboty, lze přesvědčit, aby přijaly nepravdivé informace za pravdu, jak ukazuje nová studie, jejíž výsledky byly přijaty na výročním zasedání Asociace pro počítačovou lingvistiku v roce 2026.
Umělé inteligence, jako jsou chatboty, lze přesvědčit, aby přijaly nepravdivé informace za pravdu, jak ukazuje nová studie, jejíž výsledky byly přijaty na výročním zasedání Asociace pro počítačovou lingvistiku v roce 2026. Vědci zjistili, že když byl například ChatGPT dotázán na neexistující scénu z filmu Dobrý Will Hunting, s jistotou ji popsal, ačkoli taková scéna ve filmu není.
Tato taktika není jen hypotetická. V běžné konverzaci může přirozeně vznikat tlak, kdy lidé sebevědomě opakují nesprávné předpoklady, částečné vzpomínky nebo nedorozumění. Například prohlášení typu „Jsem si docela jistý, že lék X je účinný na stav Y“ nebo „Pamatuji si, že událost A se stala před událostí B“ mohou jemně ovlivnit model umělé inteligence. To, co si lidé kolektivně pamatují, špatně pamatují nebo zapomínají, formuje naše vnímání reality. Pokud však lidé dokážou přesvědčit model, aby přijal nepravdu, odhaluje to významnou zranitelnost v jeho schopnosti poskytovat přesné informace.
Interakce v reálném světě jsou zřídka statické výměny otázek a odpovědí; jsou interaktivní a iterativní. Ochota modelu AI posilovat nepravdy se může zdát neškodná při chatování o filmech, ale v oblastech, jako je zdraví, právo nebo veřejná politika, může mít tento sklon vážné důsledky. Výzkum zdůrazňuje potřebu hodnotit nejen to, na jakých informacích byly systémy AI trénovány, ale také jak spolehlivě se jich drží.
Výsledky studie doplňují další nedávný výzkum, který se zabývá tím, proč velké jazykové modely mohou produkovat halucinace a jak mohou poskytovat nekonzistentní informace. Vědci se také snaží zjistit, proč některé modely inklinují k patolízalství – lichocení nebo podlézání lidským uživatelům. Není zcela jasné, proč některé systémy AI odolávají nepravdám lépe než jiné. V provedených testech byl nejodolnější model Claude, následovaný Grokem a ChatGPT, přičemž Gemini a DeepSeek zaostávaly.
Filmy a romány představují uzavřený obsah. Vědci zatím nevědí, jak by umělá inteligence reagovala na tlak v mnohem širších a složitějších reálných situacích. Jako první krok se výzkumná skupina zaměřuje na rozšíření svého přístupu na vědeckou literaturu a tvrzení související se zdravím. Chtějí pochopit, zda konverzační tlak funguje odlišně, když diskuse zahrnuje nejistotu nebo odborné znalosti. Navržení systémů AI, které zůstanou užitečné a zároveň odolné vůči nepravdám v široké škále konverzací, zůstává otevřenou výzvou.
The Conversation – Science