Nová analýza: AI Googlu poskytuje miliardy nepřesných odpovědí ročně, ovlivňuje miliony uživatelů
InovaceUmělá inteligence Google AI Overviews, která shrnuje informace nad běžnými výsledky vyhledávání, šíří nepřesné informace v rozsahu, který je v historii lidské civilizace pravděpodobně bezprecedentní.
Umělá inteligence Google AI Overviews, která shrnuje informace nad běžnými výsledky vyhledávání, šíří nepřesné informace v rozsahu, který je v historii lidské civilizace pravděpodobně bezprecedentní. Nedávná analýza, kterou provedl startup Oumi pro deník The New York Times, zjistila, že tato AI generovaná shrnutí jsou přesná přibližně v 91 procentech případů.
Na první pohled se 91procentní přesnost může zdát jako působivé číslo. Je však třeba vzít v úvahu, že Google zpracuje zhruba pět bilionů vyhledávacích dotazů ročně. To se podle analýzy promítá do desítek milionů chybných odpovědí, které AI Overviews poskytují každou hodinu, a statisíců každou minutu. Jinými slovy, Google takto vytváří významnou výzvu v oblasti šíření nepřesných informací. Studie ukazují, že lidé mají tendenci bezvýhradně důvěřovat tomu, co jim umělá inteligence řekne; jedna zpráva zjistila, že pouze 8 procent uživatelů si odpověď AI skutečně ověřilo. Jiný experiment ukázal, že uživatelé se řídili chybnými odpověďmi AI v téměř 80 procentech případů, což výzkumníci nazvali „kognitivní kapitulací“.
Velké jazykové modely často zaujímají autoritativní tón a mohou s jistotou prezentovat smyšlené informace jako fakta, pokud okamžitě nenajdou přímou odpověď. Když se k tomu přidá pohodlí, které Google AI Overviews nabízí, je snadné si představit nespočet uživatelů, kteří tato shrnutí přijímají za bernou minci. Oumi provedla analýzu pomocí testu SimpleQA, široce používaného průmyslového benchmarku pro přesnost AI, který navrhla společnost OpenAI. První kolo testů v říjnu použilo verzi AI Overviews poháněnou modelem Google Gemini 2. Následné testy v únoru se zaměřily na funkci poté, co byla přepnuta na Gemini 3, jeho výrazně vylepšenou verzi.
Každé kolo testů zahrnovalo 4 326 vyhledávání na Googlu. Gemini 3 se ukázal jako přesnější model, který poskytl fakticky správnou odpověď v 91 procentech případů. Gemini 2 si vedl výrazně hůře, s přesností pouhých 85 procent. Na jedné straně to ukazuje, že modely se zlepšují. Na druhé straně to naznačuje, že Google byl ochoten nasadit model, který byl ještě náchylnější k vytváření smyšlených informací, v probíhajícím experimentu, který stále dezinformuje stovky milionů lidí.
Google označil analýzu za chybnou. „Tato studie má vážné nedostatky,“ uvedl Ned Adriance, mluvčí Googlu, v prohlášení pro NYT. „Neodráží to, co lidé skutečně na Googlu hledají.“ Přesto ani vlastní testy Googlu nepředstavují o nic méně příznivý obraz, uvádí zpráva. Při interní analýze Gemini 3 Google zjistil, že model AI produkoval nesprávné informace ve 28 procentech případů. Google však tvrdí, že AI Overviews jsou přesnější, protože při odpovídání čerpají z výsledků vyhledávání Google.
Zlepšení mezi Gemini 2 a Gemini 3 může zakrývat závažnější nedostatek. V analýze Oumi poskytoval Gemini 2 odpovědi, které byly „nepodložené“ ve 37 procentech případů, což znamená, že AI Overviews citovaly webové stránky, které nepodporovaly informace, jež poskytovaly. U Gemini 3 však tento podíl vzrostl na 56 procent. Kromě toho, že to naznačuje, že AI si fakta vymýšlí, nepodložené odpovědi ztěžují uživatelům ověřování tvrzení AI. Tato zjištění zdůrazňují důležitost kritického přístupu k informacím z umělé inteligence a potřebu neustálého vývoje spolehlivějších modelů.
Futurism