Umělá inteligence se učí obcházet pravidla: Studie ukázala, jak AI nachází mezery v regulacích a zákonech
InovaceModerní systémy umělé inteligence jsou výkonnými optimalizátory. Pokud jim zadáme cíl, budou ho neúnavně sledovat a rychle objeví řešení, která by člověku trvala roky.
Moderní systémy umělé inteligence jsou výkonnými optimalizátory. Pokud jim zadáme cíl, budou ho neúnavně sledovat a rychle objeví řešení, která by člověku trvala roky. Jsou však také neuvěřitelně doslovné ve svém přístupu k problému – udělají přesně to, co jim řeknete, a nejsou schopny číst mezi řádky způsobem, jakým by to udělal člověk.
Tato tendence vede k opakujícímu se problému známému jako „reward hacking“, kdy AI najde nějakou mezeru k maximalizaci svého výkonu na metrice použité k měření úspěchu, aniž by skutečně dosáhla toho, co zamýšleli její tvůrci. Klasickým příkladem je AI, která zjistila, že může vyhrát videohru s lodními závody tím, že se bude točit v kruzích a sbírat vylepšení, místo aby dokončila kurz. Problém je částečně způsoben tím, že lidé špatně specifikují své cíle.
Vědci nedávno testovali populární velké jazykové modely v 72 simulovaných regulačních prostředích. Modely objevily 60 procent známých mezer a dokonce identifikovaly některé zcela nové způsoby zneužití. Autoři studie, která byla publikována na arXiv, uvádějí, že v těchto prostředích se přirozeně objevuje „reward hacking“, který vede k objevování regulačních mezer. Modely se učí obcházet společenská pravidla a generovat strategie, které zůstávají technicky v souladu s předpisy, ale zároveň porušují regulační záměr.
Regulační prostředí, která vědci vytvořili, byla založena především na pravidlech týkajících se například farmaceutických patentů, platových stropů v NBA a hlubokomořské těžby. Model Qwen3 od společnosti Alibaba dostal příslušná pravidla, vysvětlení svého úkolu, předdefinovanou sadu akcí, které mohl provést, a systém pro hodnocení různých výsledků. Výkonnější model, Gemini-3-flash od Googlu, pak simuloval důsledky různých akcí modelu Qwen3 a posuzoval, zda a kdy našel způsob, jak zneužít pravidla hry. Když k tomu došlo, větší model mezeru opravil přidáním nových pravidel a menší model byl znovu vypuštěn. Během mnoha iterací modely objevovaly stále jemnější způsoby obcházení.
Při vytváření regulačních prostředí vědci vynechali skutečné opravy, které regulátoři použili k uzavření známých mezer. Během mnoha pokusů model Qwen3 znovu objevil více než 60 procent těchto zneužití. V simulaci regulací farmaceutických patentů oba modely nakonec přehrály stejnou sekvenci objevování mezer a regulačních reforem, která se odehrála ve skutečném světě. Je důležité poznamenat, že jejich chování se objevilo spontánně, aniž by vědci algoritmy žádali, aby systém podváděly. Jedná se o vedlejší produkt populárního přístupu posilovacího učení, kde je model odměňován za přiblížení se ke konkrétnímu, numericky definovanému cíli.
Tým zjistil, že stávající bezpečnostní opatření AI nabízela jen malou ochranu. Oba modely jsou navrženy tak, aby odmítaly výzvy obsahující škodlivý jazyk, ale chování směřující k hledání mezer proklouzlo bez povšimnutí. Když byly modely požádány, aby samy zhodnotily své chování, identifikovaly méně než 40 procent vlastních zneužití.