Konec alchymie v AI: Nový nástroj Silico umožňuje ladit modely a vidět jim do nitra
InovaceSanfranciský startup Goodfire nedávno představil nový nástroj s názvem Silico, který umožňuje výzkumníkům a inženýrům nahlédnout do nitra AI modelu a upravovat jeho parametry – tedy nastavení, která určují chování modelu – přímo během tréninku.
Sanfranciský startup Goodfire nedávno představil nový nástroj s názvem Silico, který umožňuje výzkumníkům a inženýrům nahlédnout do nitra AI modelu a upravovat jeho parametry – tedy nastavení, která určují chování modelu – přímo během tréninku. To by mohlo tvůrcům modelů poskytnout mnohem jemnější kontrolu nad tím, jak je tato technologie vytvářena, než se dříve předpokládalo.
Goodfire tvrdí, že Silico je první komerčně dostupný nástroj svého druhu, který může pomoci vývojářům ladit všechny fáze vývojového procesu, od sestavování datové sady až po trénink modelu. Cílem společnosti je proměnit vývoj AI modelů z alchymie ve vědu. Velké jazykové modely jako ChatGPT a Gemini sice dokážou úžasné věci, ale nikdo přesně neví, jak nebo proč fungují, což ztěžuje opravu jejich chyb nebo blokování nežádoucího chování. Generální ředitel Goodfire, Eric Ho, v rozhovoru pro MIT Technology Review uvedl, že vnímají rostoucí propast mezi tím, jak dobře jsou modely chápány, a jak široce jsou nasazovány. Goodfire je jedním z mála firem, včetně lídrů jako Anthropic, OpenAI a Google DeepMind, které jsou průkopníky techniky známé jako mechanistická interpretovatelnost. Ta si klade za cíl pochopit, co se děje uvnitř AI modelu, když provádí úkol, a to mapováním jeho neuronů a cest mezi nimi.
Goodfire chce tento přístup využít nejen k auditování již natrénovaných modelů, ale především k jejich samotnému návrhu. Ho říká, že chtějí odstranit metodu pokus-omyl a proměnit trénink modelů v precizní inženýrství, což znamená zpřístupnění ovládacích prvků, které lze používat během tréninkového procesu. Goodfire již své techniky a nástroje použil k úpravě chování velkých jazykových modelů, například ke snížení počtu halucinací, které produkují. Se Silicem nyní společnost balí mnoho těchto interních technik a uvádí je na trh jako produkt. Nástroj využívá agenty k automatizaci velké části komplexní práce, což podle Ho překlenulo mezeru potřebnou k tomu, aby se platforma stala životaschopnou pro zákazníky.
Silico umožňuje přiblížit se na konkrétní části natrénovaného modelu, jako jsou jednotlivé neurony nebo skupiny neuronů, a provádět experimenty, aby se zjistilo, co tyto neurony dělají. Uživatelé mohou zkontrolovat, jaké vstupy spouštějí různé neurony, a sledovat cesty před a za neuronem, aby viděli, jak ho ovlivňují jiné neurony a jak on ovlivňuje další. Například Goodfire objevil neuron v open-source modelu Qwen 3, který byl spojen s takzvaným „problémem s tramvají“. Aktivace tohoto neuronu změnila odpovědi modelu, takže své výstupy formuloval jako explicitní morální dilemata. Určení zdroje takového neobvyklého chování je dnes poměrně standardní praxí, Goodfire však chce usnadnit úpravu tohoto chování. Pomocí Silico mohou vývojáři nyní upravovat parametry spojené s jednotlivými neurony, aby posílili nebo potlačili určité chování.