Umělá inteligence úspěšně ověřuje fakta na sociálních sítích a získává větší shodu než lidé
InovaceVelké jazykové modely (LLM) prokazují slibné schopnosti v kontextovém ověřování faktů na sociálních sítích. Dokážou ověřovat sporná tvrzení prostřednictvím hloubkového výzkumu, syntetizovat důkazy z více zdrojů a ve velkém měřítku vytvářet vysvětlení.
Velké jazykové modely (LLM) prokazují slibné schopnosti v kontextovém ověřování faktů na sociálních sítích. Dokážou ověřovat sporná tvrzení prostřednictvím hloubkového výzkumu, syntetizovat důkazy z více zdrojů a ve velkém měřítku vytvářet vysvětlení. Dosavadní práce však hodnotily ověřování faktů pomocí LLM pouze v kontrolovaném prostředí, což ponechávalo otevřenou otázku, jak tyto systémy fungují v autentickém prostředí platforem.
Nová studie představuje první terénní hodnocení ověřování faktů založeného na LLM, které bylo nasazeno na živé platformě sociálních médií. Výzkumníci testovali výkon přímo prostřednictvím funkce AI writer v rámci X Community Notes po dobu tří měsíců. Jejich systém LLM, který je vícekrokovým procesem zpracovávajícím multimodální obsah (text, obrázky a videa), provádí webové a platformní vyhledávání a píše kontextové poznámky. Během testovacího období napsal 1 614 poznámek k 1 597 tweetům.
Výkon LLM byl porovnáván s 1 332 poznámkami napsanými lidmi ke stejným tweetům, přičemž bylo použito 108 169 hodnocení od 42 521 hodnotitelů. Přímé srovnání výsledků na úrovni poznámek bylo komplikováno rozdíly v načasování odeslání a expozici hodnocení mezi poznámkami LLM a lidskými poznámkami. Proto byly použity dvě doplňkové strategie: analýza na úrovni hodnocení, která modelovala individuální hodnocení, a analýza na úrovni poznámek, která vyrovnávala expozici hodnotitelů napříč typy poznámek. Analýza na úrovni hodnocení ukázala, že poznámky napsané LLM získaly více pozitivních hodnocení než lidské poznámky napříč hodnotiteli s různými politickými názory, což naznačuje potenciál pro dosažení mezistranického konsensu. Analýza na úrovni poznámek tento přínos potvrdila: mezi hodnotiteli, kteří hodnotili všechny poznámky u stejného příspěvku, dosáhly poznámky LLM výrazně vyšších skóre užitečnosti.
Zjištění studie demonstrují, že velké jazykové modely mohou ve velkém měřítku přispívat k vysoce kvalitnímu a široce užitečnému ověřování faktů. Zároveň zdůrazňují, že hodnocení v reálném světě vyžaduje pečlivou pozornost k dynamice platformy, která chybí v kontrolovaných prostředích. Tento výzkum otevírá cestu k efektivnějšímu řešení dezinformací a posiluje důvěryhodnost informací na sociálních sítích.
Human Progress