Čínský Motubrain: Jeden AI mozek pro roboty, který se učí z chyb a zvládá až 10 úkolů najednou
InovaceSpolečnost ShengShu Technology představila Motubrain, jednotný model umělé inteligence navržený tak, aby fungoval jako univerzální mozek pro roboty.
Společnost ShengShu Technology představila Motubrain, jednotný model umělé inteligence navržený tak, aby fungoval jako univerzální mozek pro roboty. Tento systém integruje vnímání, uvažování, předvídání a akci do jednoho celku, čímž nahrazuje roztříštěné architektury, které se obvykle v robotice používají pro specifické úkoly.
Motubrain si klade za cíl snížit závislost na oddělených modulech pro snímání, plánování a provádění úkolů. Již nyní vykazuje silný výkon v benchmarkových testech, dosáhl skóre 63,77 na platformě WorldArena a průměrně 96,0 napříč 50 úkoly na RoboTwin 2.0. Je také jediným modelem, který překročil hranici 95,0 v náhodných prostředích.
Systém vychází z předchozí práce ShengShu v oblasti generativního videa prostřednictvím platformy Vidu. Využívá rozsáhlá video data k trénování robotů, aby rozuměli reálnému světu a interagovali s ním. Motubrain je navržen jako jednotný multimodální model, který se učí současně z videa, jazyka a akcí. To umožňuje robotům zpracovávat své okolí, předpovídat výsledky a jednat v reálném čase, aniž by museli přepínat mezi různými systémy.
Zakladatel ShengShu Technology Jun Zhu zdůrazňuje, že skutečný světový model musí být schopen vybudovat jednotnou reprezentaci reálného světa a předpovídat jeho vývoj. Model využívá architekturu Mixture-of-Transformers se třemi proudy k integraci vstupů z různých modalit. Tato konfigurace umožňuje robotům rozumět pokynům, předvídat změny prostředí a generovat vhodné akce v nepřetržité smyčce.
Na rozdíl od konvenčních systémů, které se silně spoléhají na označené datové sady, je Motubrain trénován pomocí širší směsi neoznačených videí, simulačních dat a záznamů úkolů od více robotů. Rámec latentních akcí extrahuje pohybové vzorce přímo z těchto vstupů, což snižuje potřebu ruční anotace. Tento přístup umožňuje efektivnější škálování modelu. Při interních hodnoceních si Motubrain udržel vyšší úspěšnost než konkurenční systémy s rostoucí složitostí úkolů i objemem tréninkových dat.
Motubrain dokáže provádět vícestupňové úkoly zahrnující až 10 atomických akcí, což je výrazně více než typické 2–3 akce, které zvládá mnoho současných robotických systémů. To umožňuje robotům dokončovat složitější aktivity v reálném světě v jedné sekvenci. V reálných testech roboti trénovaní s Motubrainem prokázali schopnost adaptace během provádění úkolu. Například, když úkol selhal uprostřed akce, systém dokázal selhání rozpoznat a pokusit se o něj znovu bez předchozího tréninku na tento konkrétní scénář.
Společnost uvádí, že model již používají robotické firmy v aktivních tréninkových programech v průmyslových, komerčních i domácích prostředích. Partnerství se společnostmi jako Astribot, SimpleAI a Anyverse Dynamics mají za cíl další rozšíření nasazení. ShengShu, podpořená investicí 293 milionů dolarů v rámci série B vedené Alibaba Cloud, tak staví Motubrain jako klíčový krok k univerzálním ztělesněným systémům umělé inteligence schopných fungovat v různých reálných prostředích.