Alibaba představuje AI mozky Qwen-Robot: Roboti se učí vnímat svět a plnit složité úkoly jako najít červený hrnek
InovaceČínská společnost Alibaba představila svou první rodinu modelů ztělesněné umělé inteligence (embodied AI) nazvanou Qwen-Robot.
Čínská společnost Alibaba představila svou první rodinu modelů ztělesněné umělé inteligence (embodied AI) nazvanou Qwen-Robot. Tato inovace propojuje velké jazykové modely s reálnými robotickými akcemi, což představuje významný krok v posouvání AI za hranice tradičních chatbotů a umožňuje strojům vnímat, uvažovat a interagovat s fyzickým světem.
Sada Qwen-Robot, vyvinutá laboratoří Tongyi společnosti Alibaba, je v současné době pilotně testována s vybranými firemními klienty Alibaba Cloud. Zahrnuje tři specializované modely: Qwen-RobotNav, zaměřený na navigaci a pohyb; Qwen-RobotManip, který se soustředí na fyzickou interakci a manipulaci s objekty; a Qwen-RobotWorld, který funguje jako model světa a předpovídá, jak se prostředí může měnit a jaké budou pravděpodobné výsledky akcí robota.
Alibaba uvádí, že její modely Qwen jsou velmi zdatné v chápání fyzického světa. Dokáží rozpoznávat objekty, rozumět prostorovým vztahům, následovat složité vizuální pokyny a uvažovat o reálném prostředí. Například model dokáže pochopit příkaz jako „Jdi do kuchyně, najdi červený hrnek, zvedni ho a polož na poličku.“ Propojení lidského jazyka a vizuálního chápání s motorickými akcemi robota je však náročné, protože tréninková data pro roboty se výrazně liší od dat z internetu a jejich sběr je nákladný.
Schopnosti modelů byly demonstrovány v praxi. Qwen-RobotNav byl předveden na čtyřnohém robotovi Unitree Go2, který byl vybaven hardwarem NVIDIA Jetson Thor a jedinou nízkorozlišovací kamerou. Robot úspěšně navigoval v neznámém bytě, následoval hlasové pokyny napříč několika místnostmi bez předem nahraných map a udržoval latenci inference 196 milisekund. Model Qwen-RobotManip, zaměřený na manipulaci, byl trénován na více než 38 000 hodinách open-source dat a nedávno dosáhl nejvyššího skóre v kategorii generalistů v benchmarku RoboChallenge pro reálnou robotiku.
Společnost Alibaba také představila Qwen-RobotClaw, rámec pro robotické agenty, který umožňuje modelům Qwen využívat sadu Qwen-Robot jako nástroje pro interakci s fyzickým světem. V jedné z ukázek agent hledal toaletu, identifikoval ceduli „mimo provoz“ a samostatně se přesměroval na jiné místo. Alibaba navíc zpřístupnila Chat2Robot, webovou platformu pro testování interakcí ztělesněné AI.
Tento krok Alibaby odráží širší průmyslový posun směrem k vytváření systémů umělé inteligence schopných chápat a interagovat s fyzickým světem. Globální konkurence v oblasti ztělesněné AI se zintenzivňuje, přičemž významní hráči jako Google DeepMind s Gemini Robotics a Nvidia se svými ekosystémy Cosmos, Isaac a GR00T, stejně jako řada startupů, aktivně vyvíjejí obecnou robotickou inteligenci. Čína posiluje svou pozici v této oblasti kombinací výrobních výhod s rostoucími investicemi do softwaru AI pro autonomní rozhodování.