Čína buduje obří databázi tváří pro realističtější roboty

Nový krok k realistickým humanoidním robotům

Humanoidní roboti se stávají stále obtížněji rozeznatelnými od skutečných lidí. Nová studie z Číny naznačuje jeden z důvodů, proč tomu tak je. Výzkumníci vyvinuli rozsáhlý 3D datový soubor obličejů a nový model umělé inteligence, který dokáže detekovat klíčové body obličeje přímo ze surových 3D dat, aniž by se spoléhal na 2D snímky nebo digitální šablony.

Překonání limitů současných technologií

Tato práce se zaměřuje na klíčovou výzvu při tvorbě realistických androidů a virtuálních lidí: umožnit jim vyjadřovat emoce, rozpoznávat identitu a přirozeně interagovat. Jedním z hlavních technických stavebních kamenů této schopnosti je trojrozměrná detekce klíčových bodů obličeje, která mapuje kritické body na tváři v 3D prostoru. Většina současných systémů se silně spoléhá na 2D texturování nebo syntetické 3D tváře. Tento přístup však může zavádět chyby, protože digitální modely se často liší od skutečné geometrie lidského obličeje a zarovnání textur není vždy přesné. Nová studie si klade za cíl tyto limity obejít prací přímo se skutečnými 3D skeny obličejů.

Rozsáhlá databáze a pokročilý AI model

Výzkum vedl profesor SONG Zhan z Shenzhen Institutes of Advanced Technology Čínské akademie věd společně s doktorem YE Yupingem z Fujian University of Technology. Tým k podpoře tohoto úsilí vybudoval vlastní systém pro akvizici 3D a 4D obličejových dat. Provedli standardizovaný sběr dat a sestavili databázi obsahující přibližně 200 000 vysoce věrných 3D skenů obličejů. Databáze dále zahrnuje 3D datový soubor s více výrazy obličeje, standardizovaný datový soubor 3D obličejových klíčových bodů, vysoce přesný 3D datový soubor lidského těla a dynamický 4D datový soubor obličejových výrazů. Tyto multimodální biometrické zdroje dohromady tvoří jednu z největších strukturovaných kolekcí reálných 3D dat lidských obličejů, jaké byly dosud hlášeny. Datový soubor byl vybrán do programu Fujian Province s 2025 High-Quality AI Dataset Program.

Místo toho, aby AI systém krmili texturovanými snímky, výzkumníci navrhli síť s grafovým pozornostním mechanismem spojeným s křivkami (curvature-fused graph attention network, CF-GAT), která zpracovává neuspořádané bodové mraky přímo. Bodový mrak reprezentuje geometrii obličeje jako soubor prostorových bodů, bez povrchových textur. Tým zavedl strategii vzorkování řízenou geometrií, která zjednodušuje sadu bodů při zachování klíčových informací o křivosti. Tato data o křivosti jsou kódována jako explicitní geometrický předpoklad a integrována do pozornostního mechanismu modelu. To umožňuje síti soustředit se na jemné lokální tvarové variace a zároveň modelovat globální vztahy napříč obličejem. Prostřednictvím své grafové pozornostní struktury CF-GAT předpovídá 3D souřadnice klíčových bodů přímo ze surových geometrických dat. Nespoléhá se na 2D textury ani předdefinované šablonové modely, čímž snižuje závislost na povrchovém vzhledu.

Budoucnost interakce člověka a stroje

Při testování model prokázal silnější odolnost vůči šumu a lepší generalizaci napříč různými tvary obličejů ve srovnání s konvenčními přístupy. Dosáhl také přesnější lokalizace jemných klíčových bodů, které jsou klíčové pro realistické výrazy a přesné sledování obličeje. Zjištění zdůrazňují, jak vysoce kvalitní, rozsáhlé datové sady mohou přímo ovlivnit výkon algoritmů. Trénováním na detailní reálné geometrii se model může naučit bohatší prostorové vzory a efektivněji se přizpůsobit reálné variabilitě. Tento pokrok by mohl podpořit realističtější humanoidní roboty, vylepšené biometrické systémy a expresivnější virtuální avatary. Jak se androidi stále častěji objevují v zábavním průmyslu, zdravotnictví a službách, základní geometrická inteligence může určovat, jak přirozeně budou působit na lidské uživatele. Studie byla publikována v IEEE Transactions on Circuits and Systems for Video Technology.