Konec zmatených robotů: Microsoft AI učí stroje přesně plánovat úkoly a určovat místa akcí

26. března 2026Inovace

Microsoft ve spolupráci s akademickými výzkumníky vyvinul nový referenční test GroundedPlanBench, který má řešit přetrvávající problém v robotice. Roboti se totiž stále potýkají s tím, jak se současně rozhodovat, co dělat a kde to dělat. Většina současných systémů rozděluje tato rozhodnutí do dvou kroků: model pro vizi a jazyk nejprve vytvoří plán v přirozeném jazyce a poté jiný model tento plán převede na akce. Toto rozdělení často vede k chybám.

Problém se projevuje i u jednoduchých úkolů. Robot, kterému je řečeno, aby odhodil papírové kelímky, může zaměnit, který kelímek má vzít, nebo si dokonce vymyslet kroky, které nebyly požadovány. V nepřehledném prostředí se tyto chyby stávají častějšími. Děje se tak proto, že plánování a prostorové uvažování jsou řešeny odděleně, což umožňuje, aby chyby v jedné fázi ovlivnily tu následující.

Pro řešení tohoto problému tým vyvinul GroundedPlanBench, aby otestoval, zda modely umělé inteligence dokážou plánovat úkoly a zároveň přesně identifikovat, kde se má každá akce odehrát. Namísto spoléhání se pouze na text je každá akce spojena s konkrétním místem v obraze. Základní akce, jako je uchopení, umístění, otevření a zavření, jsou propojeny s objekty nebo pozicemi, což nutí systém spojovat rozhodnutí s fyzickým světem. Referenční test zahrnuje více než 1 000 úkolů vytvořených na základě skutečných interakcí robotů. Některé instrukce jsou přímé, například umístění lžíce na talíř, jiné jsou otevřenější, jako je úklid stolu. Tato kombinace je důležitá, protože roboti často selhávají, když jsou instrukce vágní. Jazyk, kterému lidé snadno rozumí, může být pro stroje příliš nejednoznačný, zvláště když se více objektů podobá.

Pro zlepšení výkonu tým vyvinul také tréninkovou metodu nazvanou Video-to-Spatially Grounded Planning (V2GP). Tento systém se učí z videí robotů provádějících úkoly. Detekuje, kdy robot interaguje s objekty, identifikuje tyto objekty a sleduje jejich pozice. Výsledkem je strukturovaný plán, který propojuje každou akci s konkrétním místem. Pomocí tohoto přístupu tým vygeneroval více než 40 000 uzemněných plánů, od jednoduchých jedno krokových akcí až po delší sekvence zahrnující až 26 kroků. Když byly modely trénovány na těchto datech, jejich výkon se zlepšil. Lépe vybíraly správné akce a propojovaly je se správnými objekty. Systém také snížil opakované chyby, jako je opakované jednání se stejnou položkou.

Výzvy však přetrvávají. Dlouhé a složité úkoly jsou obtížné, zejména když jsou instrukce nepřímé. Vědci uvedli, že „modely musí uvažovat o delších sekvencích akcí a udržovat konzistenci napříč mnoha kroky.“ Studie také porovnala tento přístup s tradičními systémy, které oddělují plánování a uzemnění. Tyto systémy se potýkaly s nejednoznačností a často mapovaly více akcí na stejný objekt nebo místo. Kombinací obou kroků do jediného procesu nový přístup snižuje tento nesoulad a udržuje rozhodnutí o akcích a lokacích pevně propojená.