Humanoidiniai robotai tampa vis sunkiau atskiriami nuo tikrų žmonių. Naujas tyrimas iš Kinijos atskleidžia vieną iš priežasčių, kodėl taip nutinka.
Mokslininkai sukūrė didelio masto trimačių (3D) veidų duomenų rinkinį ir naują dirbtinio intelekto modelį, galintį nustatyti veido žymeklius tiesiogiai iš pirminių 3D duomenų, nesiremiant dvimačiais (2D) vaizdais ar skaitmeniniais šablonais.
Šis darbas sprendžia vieną svarbiausių realistiškų androidų ir virtualių žmonių kūrimo uždavinių: suteikti jiems gebėjimą išreikšti emocijas, patikimai atpažinti tapatybę ir natūraliai bendrauti.
Vienas esminių techninių šios srities elementų yra trimačių veido orientyrų (veido taškų) aptikimas – kritinių veido taškų žemėlapio sudarymas 3D erdvėje.
Dauguma esamų sprendimų smarkiai remiasi 2D tekstūrų žemėlapiais arba sintetiškai sukurtais 3D veidais. Toks požiūris gali įnešti paklaidų, nes skaitmeniniai modeliai dažnai skiriasi nuo realios žmogaus veido geometrijos, o tekstūrų suderinimas ne visuomet būna tikslus.
Naujajame tyrime siekiama šiuos apribojimus apeiti dirbant tiesiogiai su realiais 3D veidų skenavimais.
Tyrimą atliko profesorius Song Zhan iš Kinijos mokslų akademijos Šendženo pažangiųjų technologijų instituto kartu su dr. Ye Yuping iš Fudziano technologijos universiteto.
Didelio masto 3D duomenų rinkinių kūrimas
Norėdama pagrįsti šį darbą, komanda sukūrė specialią 3D ir 4D veidų fiksavimo sistemą. Buvo vykdomas standartizuotas duomenų rinkimas ir sudaryta duomenų bazė, kurioje sukaupta apie 200 000 aukštos raiškos 3D veidų skenavimų.
Duomenų bazę papildo ir keli papildomi rinkiniai: įvairių išraiškų 3D veidų duomenų rinkinys, standartizuotas 3D veido žymeklių rinkinys, didelio tikslumo 3D žmogaus kūno duomenų rinkinys bei dinaminis 4D veido išraiškų duomenų rinkinys.
Kartu šie daugiarūšiai biometriniai ištekliai sudaro vieną didžiausių iki šiol aprašytų struktūruotų realių 3D žmogaus veidų duomenų kolekcijų. Šis duomenų rinkinys buvo atrinktas į Fudziano provincijos 2025 metų aukštos kokybės dirbtinio intelekto duomenų programą.
Užuot pateikę dirbtinio intelekto sistemai tekstūromis papildytus vaizdus, tyrėjai sukūrė kreivėmis paremtą grafų dėmesio tinklą (Curvature-Fused Graph Attention Network, CF-GAT), kuris tiesiogiai apdoroja neordines taškų sankaupas. Taškų sankaupa (point cloud) apibrėžia veido geometriją kaip erdvinių taškų rinkinį be paviršiaus tekstūrų.
Komanda pritaikė geometrija paremtą mėginių ėmimo strategiją, kuri supaprastina taškų rinkinį, tačiau išsaugo svarbiausią kreivumo informaciją. Ši informacija užkoduojama kaip aiški geometrinė prielaida ir integruojama į modelio dėmesio mechanizmą. Dėl to tinklas gali sutelkti dėmesį į subtilius lokalius formos pokyčius ir kartu modeliuoti globalius ryšius visame veide.
Geometrija grįstas DI proveržis
Pasitelkdamas grafų dėmesio architektūrą, CF-GAT modelis prognozuoja 3D veido žymeklių koordinates tiesiogiai iš pirminių geometrinių duomenų. Jam nereikia nei 2D tekstūrų, nei iš anksto nustatytų šabloninių modelių, todėl sumažėja priklausomybė nuo paviršiaus išvaizdos.
Bandymų metu modelis parodė didesnį atsparumą triukšmui ir geresnį apibendrinimą skirtingų veido formų atžvilgiu, palyginti su tradiciniais metodais.
Be to, jis tiksliau lokalizavo smulkius veido orientyrus, o tai ypač svarbu kuriant realistiškas veido išraiškas ir preciziškai sekant veido judesius.
Tyrimo rezultatai pabrėžia, kokią tiesioginę įtaką algoritmų veikimui daro aukštos kokybės, didelio masto duomenų rinkiniai. Mokydamasis iš detalių realios geometrijos duomenų, modelis gali perprasti turtingesnius erdvinius dėsningumus ir efektyviau prisitaikyti prie realaus pasaulio įvairovės.
Šis proveržis gali prisidėti prie dar gyvesnių humanoidinių robotų kūrimo, tikslesnių biometrinio atpažinimo sistemų ir išraiškingesnių virtualių avatarų. Kadangi androidai vis dažniau pasitelkiami pramogų, sveikatos priežiūros ir paslaugų srityse, būtent pažangi geometrinė analizė gali nulemti, kaip natūraliai jie atrodys žmonių akyse.

