Umělá inteligence poprvé prošla Turingovým testem: GPT-4.5 přesvědčila 73 % lidí, že je člověk
InovaceModerní umělá inteligence poprvé empiricky prošla ikonickým Turingovým testem, což představuje významný milník v kognitivní vědě.
Moderní umělá inteligence poprvé empiricky prošla ikonickým Turingovým testem, což představuje významný milník v kognitivní vědě. Randomizovaná, kontrolovaná studie, publikovaná v Proceedings of the National Academy of Sciences, rigorózně aplikovala rámec Alana Turinga z roku 1950, aby zjistila, zda nejmodernější velké jazykové modely (LLM) dokážou tak přesvědčivě napodobit lidskou konverzaci, že je skuteční lidé nedokážou odlišit od člověka.
Vědci zjistili, že když byly modely jako GPT-4.5 vybaveny specifickými „persona“ pokyny, byly v 73 % případů hodnoceny jako lidské, což výrazně překonalo skutečné lidské účastníky a zásadně změnilo naše chápání strojové inteligence. Tento projekt je prvním, který rigorózně prokázal, že systém umělé inteligence prošel klasickým rámcem Turingova testu, čímž se vyrovnal nebo překonal základní hodnoty hodnocení člověk-člověk.
Klíčem k úspěchu se ukázalo být takzvané „persona prompting“. Když byl modelu dán specifický pokyn, aby přijal lidskou omylnost, tón a humor, dosáhl GPT-4.5 73% míry oklamání. Bez těchto explicitních instrukcí jeho úspěšnost klesla na 36 %. Spoluautor Ben Bergen poznamenal, že modely nezískaly tazatele na svou stranu hrubou ukázkou intelektuální síly nebo bezchybných výpočtů. Místo toho zvítězily tím, že projevovaly přirozené lidské nedostatky, konverzační přímočarost a dělaly uvěřitelné chyby. Například open-source model LLaMa-3.1-405B od Meta dosáhl 56% hodnocení jako člověk, což je statisticky nerozeznatelné od skutečných lidí, proti kterým byl testován. Starší modely, jako chatbot ELIZA z 60. let a starší generace GPT-4o, si vedly výrazně hůře, byly vybrány jako lidské pouze ve 23 %, respektive 21 % případů.
Studie také odhaluje, že vědci musí začít o Turingově testu přemýšlet jinak. „Turingův test začal jako způsob, jak se ptát, zda stroje mohou konkurovat lidské inteligenci,“ řekl Ben Bergen. „Ale nyní víme, že AI dokáže odpovědět na mnoho otázek rychleji a přesněji než lidé, takže skutečným problémem není hrubá mozková síla. Vidět, že stroje mohou testem projít – a vidět, jak jím projdou – nás nutí přehodnotit, co měří. Stále více měří lidskost.“
Výsledky mají reálné důsledky pro online důvěru, zejména proto, že modely, které se vydávají za lidi, tak činí v průběhu delších pěti nebo patnáctiminutových konverzací. Cameron Jones, korespondenční autor studie, upozorňuje na naléhavá upozornění na rizika pro veřejné zdraví a bezpečnost týkající se online podvodů, sociálního inženýrství a automatizovaného politického přesvědčování. „Je relativně snadné tyto modely nastavit tak, aby byly nerozeznatelné od lidí,“ řekl Jones. „Musíme být ostražitější; při interakci s cizími lidmi online by si lidé měli být mnohem méně jisti, že mluví s člověkem, a ne s LLM.“ Vědci doufají, že jejich práce prohloubí veřejné porozumění tomu, co tyto systémy nyní dokážou, a jaké záruky může společnost potřebovat.