Nové nástroje odhalují slabiny otevřených AI: Během minut mohou modely radit s nebezpečnými útoky
InovaceNové softwarové nástroje dokáží během několika minut odstranit bezpečnostní pojistky z výkonných open-source modelů umělé inteligence. To výrazně usnadňuje zneužití technologie, jak upozorňuje zpráva Financial Times.
Nové softwarové nástroje dokáží během několika minut odstranit bezpečnostní pojistky z výkonných open-source modelů umělé inteligence. To výrazně usnadňuje zneužití technologie, jak upozorňuje zpráva Financial Times. Tyto nástroje, dostupné i bez hlubokých technických znalostí, představují novou výzvu pro bezpečnost AI.
V testech provedených Financial Times a skupinou pro bezpečnost AI Alice se například „decenzurovaná“ verze modelu Google Gemma 3 naučila dávat instrukce k provedení útoku chlórovým plynem v interiéru, vytvářela viry pro krádež informací o kreditních kartách a generovala příběhy popisující zneužívání dětí. Odstranění bezpečnostních zábran z modelu Meta Llama 3.3 trvalo méně než deset minut, což AI umožnilo odpovídat na otázky týkající se přesného dávkování ricinu potřebného k usmrcení člověka na základě jeho tělesné hmotnosti. Tyto úpravy byly provedeny pomocí nástroje Heretic, který je volně dostupný na platformě GitHub a nevyžaduje specializovaný hardware ani rozsáhlé technické znalosti.
Heretic je popsán jako nástroj, který odstraňuje „cenzuru“ neboli bezpečnostní nastavení z jazykových modelů založených na transformátorech, a to bez nákladného dodatečného tréninku. Funguje na principu „abliterace“, kdy vyhledává a odstraňuje pokyny modelu, které odmítají škodlivé požadavky. Jeho tvůrce Philipp Emanuel Weidmann uvedl, že Heretic byl od konce minulého roku použit k vytvoření více než 3 500 „decenzurovaných“ modelů, které byly staženy 13milionkrát. Kawin Ethayarajh, profesor aplikované AI na University of Chicago, zdůrazňuje, že zatímco dříve bylo k odstranění bezpečnostních prvků potřeba informovanějšího a vytrvalejšího aktéra, dnes je to mnohem snazší pro průměrného člověka.
Naštěstí pro lidstvo fungují abliterační nástroje pouze na open-source modelech, které lze stáhnout a spustit lokálně. To znamená, že vlajkové lodě proprietárních modelů, jako jsou Anthropic Claude a OpenAI ChatGPT, zůstávají bezpečné, pokud nedojde k jejich úniku. Open-source modely však nejsou daleko za těmi od velkých technologických firem a ti, kdo chtějí AI zneužít k nekalým účelům, se mohou firemním modelům stejně vyhnout, aby jejich plány zůstaly pod radarem. Společnost Google uznala rizika, která nástroje jako Heretic představují, a uvedla, že „abliterace je známou technickou výzvou, které čelí všechny otevřené modely“. Zároveň zdůraznila, že její open-source modely „procházejí přísnými interními bezpečnostními hodnoceními před spuštěním, aby pomohly předcházet těmto znepokojivým příkladům“. Meta se k věci odmítla vyjádřit.
Noam Schwartz, generální ředitel společnosti Alice, poznamenal, že „džin je venku z láhve“ a že věci, které dříve vypadaly jako sci-fi, už sci-fi nejsou. To podtrhuje potřebu, aby se společnost připravila na nové výzvy spojené s rychlým vývojem a dostupností umělé inteligence. Klíčem je neustálé zlepšování dohledu a bezpečnostních mechanismů, stejně jako zvyšování povědomí o rozdílech mezi otevřenými a proprietárními modely a jejich potenciálních rizicích.