Co jsou AI pasti? Nové nástroje, které chrání data tvůrců a ztěžují umělé inteligenci trénink
InovaceAby se chatboty staly inteligentnějšími a užitečnějšími pro koncové uživatele, potřebují neustále asimilovat data. Tento proces je známý jako „trénink“.
Aby se chatboty staly inteligentnějšími a užitečnějšími pro koncové uživatele, potřebují neustále asimilovat data. Tento proces je známý jako „trénink“. Problém však spočívá v tom, že mnoho společností zabývajících se umělou inteligencí nikdy výslovně nepožádá o souhlas vlastníky dat předtím, než seškrabou jejich webové stránky a přidají data do korpusů velkých jazykových modelů (LLM), které chatboty pohánějí.
Někteří z těchto vlastníků dat, známí také jako tvůrci obsahu nebo držitelé duševního vlastnictví, se nyní brání. K tomu používají nástroje známé jako „tarpity“ neboli „AI pasti“. Jejich cílem je „otrávit“ základní LLM chatbota a tím snížit kvalitu jeho výstupů, což by potenciálně mohlo vést k odlivu koncových uživatelů. AI otrávení je proces poškození základního velkého jazykového modelu chatbota tak, aby chatbot poskytoval nesprávné, zavádějící nebo zcela nesmyslné výstupy. K tomuto poškození dochází oklamáním LLM, aby během svého tréninku asimiloval nesprávná data, což často zahrnuje seškrabávání každé možné webové stránky a obrázku, které najde.
Existuje mnoho způsobů, jak lze LLM otrávit, v závislosti na schopnostech LLM, které chce útočník narušit. Například, pokud by někdo chtěl otrávit LLM generující obrázky, mohl by použít techniku známou jako „Nightshading“. Ta spočívá v použití softwaru Nightshade k přidání neviditelné vrstvy k obrázku. Tato vrstva obsahuje pixely neviditelné pro lidské oko, ale viditelné pro scrapovací nástroje LLM. Tyto pixely pak způsobí, že umělá inteligence vnímá umělecké dílo, jako by bylo v jiném stylu, než ve skutečnosti je (například abstraktní namísto realistického), což brání LLM v napodobování skutečného stylu umělce.
Většina chatbotů se samozřejmě zabývá textem, nikoli obrázky, což činí nástroje pro otrávení, jako je Nightshade, nepoužitelnými proti neoprávněnému seškrabávání článků a blogů umělou inteligencí. V posledních několika letech se však objevuje nový typ nástrojů pro otrávení AI, které mají za cíl oklamat LLM, aby se trénovaly na zbytečných datech. Tyto nástroje jsou známé jako „tarpity“.
AI pasti jsou specifickým typem nástroje pro otrávení AI, který je navržen tak, aby oklamal crawlery, jež LLM používají, k ingestování zbytečných dat. Jelikož LLM pak používá tato „odpadní“ data k generování svých textových výstupů, budou tyto výstupy nesprávné, což snižuje kvalitu odpovědí AI a v konečném důsledku by mohlo odradit uživatele od používání chatbota. Existuje mnoho pastí, které mohou tvůrci obsahu a držitelé duševního vlastnictví přidat na své webové stránky, včetně Nepenthes, Iocaine a Quixotic. Když crawler LLM navštíví webovou stránku s pastí vloženou do jejího kódu, bude přesměrován k asimilaci automaticky generovaného, zbytečného textu, který je buď plný nesprávných informací (např. „Steve Jobs založil Microsoft v roce 1834“), nebo zcela nesmyslných informací (např. „barva vody je pepperoni“).