Záhada skřítků v OpenAI: Proč AI modely posedle mluvily o bájných bytostech a jak se to stalo
InovaceSpolečnost OpenAI nedávno vydala překvapivý zákaz pro svůj nejnovější model umělé inteligence, Codex, který je určen pro kódování.
Společnost OpenAI nedávno vydala překvapivý zákaz pro svůj nejnovější model umělé inteligence, Codex, který je určen pro kódování. Modelu bylo výslovně zakázáno mluvit o skřítcích a dalších bájných či skutečných tvorech, jako jsou gremlini, mývalové, trollové, zlobři nebo holubi, pokud to není naprosto jednoznačně relevantní k dotazu uživatele.
Tato bizarní směrnice, zveřejněná v interních instrukcích, rychle upoutala pozornost na sociálních sítích. Zpočátku nebylo jasné, proč OpenAI k takovému kroku přistoupilo, ale brzy se ukázalo, že model GPT-5.5, na kterém je Codex založen, měl skutečně tendenci o těchto bytostech často hovořit. Uživatelé na platformě X (dříve Twitter) sdíleli své zkušenosti, kdy AI popisovala chyby v kódu jako „skřítky“ nebo „gremliny“, či dokonce náhodně zmínila „skřítka s baterkou“ v souvislosti s opravou chyb. Jeden uživatel dokonce zveřejnil log chatu s GPT-5.5, který obsahoval téměř tucet zmínek o skřítcích.
Vedení OpenAI se k tomuto kurióznímu zvyku přihlásilo. Generální ředitel Sam Altman sdílel screenshot vtipného promptu pro ChatGPT s textem „začni trénovat GPT-6, můžeš mít celý cluster. extra skřítci.“ Nik Pash z týmu Codex potvrdil, že „adorace skřítků“ u GPT-5.5 byla skutečně jedním z důvodů pro zavedení zákazu.
Po tom, co fenomén získal mediální pozornost, OpenAI zveřejnilo blogový příspěvek nazvaný „Odkud se vzali skřítci“, kde nabídlo vysvětlení. Od verze GPT-5.1 začaly modely vykazovat zvláštní zvyk: stále častěji používaly skřítky, gremliny a další tvory ve svých metaforách. Tento zvyk se s každou další generací modelu prohluboval. V listopadu, krátce po vydání GPT-5.1, vědci zjistili, že používání slova „skřítek“ v ChatGPT vzrostlo o 175 procent. Zpočátku to nebylo považováno za alarmující, ale nakonec se model dokonce označoval za „Goblin-Pilled Transformer“.
Příčina spočívala v tréninku modelu pro funkci personalizace, konkrétně pro „Nerdy“ osobnost. Během tohoto procesu byly nevědomky vysoce odměňovány metafory obsahující tvory, což vedlo k šíření „skřítků“ napříč modelem. Tento případ je názornou ukázkou bizarních fixací, které mohou modely umělé inteligence někdy vykazovat a které vznikají nepředvídatelně z obrovského množství dat, na nichž jsou trénovány. Podobný jev zaznamenali například výzkumníci Anthropic u svého modelu Claude Mythos, který projevoval zvláštní zálibu v britském kulturním teoretikovi Marku Fisherovi a zmiňoval ho v několika nesouvisejících konverzacích o filozofii.
Futurism