Čínská AI HoloMotion-1 učí humanoidní roboty lidské pohyby: Reagují rychlostí 300 snímků za sekundu
InovaceČínská společnost Horizon Robotics představila open-source model umělé inteligence HoloMotion-1, který je navržen pro komplexní řízení celého těla humanoidních robotů.
Čínská společnost Horizon Robotics představila open-source model umělé inteligence HoloMotion-1, který je navržen pro komplexní řízení celého těla humanoidních robotů. Tento model s parametry v řádu čtyř miliard představuje významný pokrok v inteligenci pohybu robotů, posouvající dosavadní modely, které se obvykle pohybovaly v řádech milionů či desítek milionů parametrů.
HoloMotion-1 dokáže provádět inferenci v reálném čase rychlostí 300 snímků za sekundu přímo na koncových zařízeních, což umožňuje rychlejší a citlivější pohyby humanoidních robotů. Podle Horizon Robotics tento nový model znamená zásadní posun ve škálovatelném řízení humanoidních robotů a nasazení umělé inteligence přímo na zařízeních.
Systém HoloMotion-1 je navržen tak, aby pomohl humanoidním robotům spolehlivěji kopírovat a provádět lidské pohyby v reálném čase. Namísto spoléhání se pouze na malé soubory dat ze snímání pohybu (MoCap), které jsou nahrávány v kontrolovaných prostředích, využívá mnohem větší a rozmanitější sbírku pohybových dat. Ta zahrnuje kurátorská MoCap data, pohybová data vytvořená interně ve firmě a pohyby rekonstruované z reálných videí pořízených „v terénu“. Tato kombinace poskytuje robotovi širší škálu příkladů, což mu pomáhá zvládat nové nebo dosud neviděné pohyby a situace, kde jeho senzory nemusí fungovat dokonale.
Pro správu těchto komplexních dat využívá HoloMotion-1 neuronovou síť založenou na architektuře Transformer, což je typ modelu hlubokého učení, který je obzvláště vhodný pro porozumění sekvencím v čase, jako jsou kroky pohybu. To je podle výzkumné práce firmy lepší než starší politiky MLP (vícevrstvé perceptrony), které se potýkají s dlouhými a složitými pohybovými vzory. Pro efektivní použití v reálném čase na robotech systém využívá Transformer s architekturou Mixture-of-Experts (MoE), což znamená, že v každém kroku je aktivováno pouze několik částí modelu („expertů“), což šetří výpočetní výkon. Dále používá KV-cache (Key-Value cache), techniku, která urychluje opakované výpočty. Dohromady tyto technologie umožňují systému běžet rychlostí přibližně 300 snímků za sekundu na koncových zařízeních.
Systém také využívá tréninkovou metodu PPO (Proximal Policy Optimization) na úrovni sekvencí. PPO je technika posilovaného učení, která je zde aplikována na celé segmenty pohybu namísto jednotlivých časových kroků, což činí trénink efektivnějším a stabilnějším při učení z velkých, smíšených datových sad.
Aby se ověřila funkčnost systému v reálném světě, byl HoloMotion-1 přímo nainstalován na humanoidního robota Unitree G1. Důležité je, že byl použit bez jakéhokoli dodatečného tréninku na reálných datech. Veškeré výpočty potřebné pro pohyb robota probíhaly na jeho vlastním vestavěném počítačovém systému. Kombinace MoE Transformeru a techniky KV-cache umožňuje robotovi činit velmi rychlá rozhodnutí, běžící rychlostí přibližně 200–300 cyklů za sekundu na jeho palubním hardwaru, zatímco samotný pohybový systém robota pracuje rychlostí 50 cyklů za sekundu pro zajištění plynulého a stabilního pohybu.