Dirbtinis intelektas (DI) sparčiai keičia žmonių santykį su technologijomis ir kasdieniu gyvenimu. Nuo kalbos atpažinimo iki regos ir kalbos modelių – naujos DI sistemos ne tik automatizuoja procesus, bet ir plečia žmonių bendravimo su skaitmeninėmis sistemomis galimybes. Tačiau mažesnių kalbų, tokių kaip lietuvių, atveju kyla nemažai iššūkių: trūksta duomenų, kalbai būdinga sudėtinga gramatika ir semantika, o tarptautiniu mastu jai skiriama ribotas dėmesys.
VILNIUS TECH Informacinių sistemų katedros lektorius Tautvydas Kvietkauskas, atlikęs tyrimą apie regos ir kalbos modelių perspektyvas lietuvių kalboje, pabrėžia, kad siekiant sėkmingos inovacijų sklaidos ir efektyvių DI sprendimų Lietuvoje itin svarbus glaudus akademinės bendruomenės, verslo ir valstybės institucijų bendradarbiavimas.
Plačiau papasakokite apie savo atliekamus tyrimus.
Mano tyrimai dar tik pradedami plėtoti. Bakalauro ir magistro studijų metu daugiausia gilinausi į vaizdo atpažinimą, tačiau doktorantūroje norėjosi savo žinias taikyti panašioje, bet kitokioje srityje. Su darbo vadovu, Informacinių sistemų katedros profesoriumi doc. dr. Pavelu Stefanovičiumi, nusprendėme spręsti klausimus, susijusius su regos ir kalbos (angl. vision-language) modelių taikymu lietuvių kalbai.
DI srityje šiandien jau tampa įprasta, kad vakar dienos naujienos rytoj gali būti laikomos technologiškai pasenusiomis. Gali nutikti taip, kad tai, ką nagrinėju šią savaitę, po pusmečio bus nebeaktualu technologiniu požiūriu. Tačiau lietuvių kalba išliks aktuali visada – nepriklausomai nuo to, kokios DI technologijos bus naudojamos.
Kaip regos ir kalbos modeliai gali pakeisti lietuviškai kalbančių žmonių bendravimą su skaitmeninėmis sistemomis?
Maždaug 2022 m., prasidėjus DI pasaulinio žinomumo ir naudojimo bumui, anglų kalba natūraliai tapo tarpininke tarp galutinio vartotojo ir DI, pavyzdžiui, bendraujant su pokalbių sistemomis. Per pastaruosius trejus metus atsirado galimybė ne tik rašyti, bet ir klausytis bei kalbėtis lietuvių kalba. Tačiau pasaulinio masto projektuose į taisyklingą lietuvių kalbą vis dar retai atsižvelgiama – dažnos gramatikos, skyrybos ir kirčiavimo klaidos.
Norėtųsi, kad ateityje lietuviškai kalbantiems žmonėms nereikėtų papildomų vertimo įrankių: jie galėtų natūraliai bendrauti lietuviškai, o DI sistemas naudotų taip pat sklandžiai, kaip ir anglų kalba kalbantys vartotojai.
Regos ir kalbos modeliais pagrįstos sistemos leistų, pavyzdžiui, įkelti nuotrauką ir lietuvių kalba paprašyti ją apibūdinti – sistema tai atliktų be papildomo vertimo. Žmonėms su regos negalia tokios sistemos realiu laiku galėtų tiksliai apibūdinti aplinkinius daiktus, jų savybes, net atstumus iki jų.
Jūsų tyrimuose nagrinėjami modeliai sujungia vaizdą ir kalbą. Kur matote didžiausią jų proveržį per artimiausius penkerius metus?
Daug kas jau sukurta ir taikoma praktikoje: lietuvių kalba vienose srityse veikia geriau, kitose – prasčiau, tačiau technologijos jau įdiegtos ir naudojamos.
Didžiausią proveržį, mano nuomone, išvysime robotizacijos srityje. Per artimiausius penkerius metus vis dažniau matysime lietuviškai kalbančius robotus – jų „akys“ fiksuos aplinką, o jie patys lietuviškai pasakys, ką mato aplink save.
DI „smegenys“ jau sukurtos ir gana sėkmingai veikia – pavyzdžiui, plačiai taikomas generatyvusis DI. Dabar belieka suteikti jam „kūną“ ir sukurti fizines sistemas, galinčias veikti realiame pasaulyje.
Kokie svarbiausi iššūkiai, bandant pritaikyti DI modelius mažesnėms kalboms, tokioms kaip lietuvių?
Didžiausias iššūkis – ne patys DI modeliai, o duomenys. Be kokybiškų duomenų negalima tikėtis gero modelio veikimo. Pagal turimą patirtį ir prieinamus šaltinius galima sakyti, kad lietuviškų duomenų yra palyginti nedaug. Norint pasiekti aukštą rezultatą, reikia milijonų, o kartais ir milijardų nuotraukų, sakinių, žodžių ar garso įrašų lietuvių kalba.
Be to, mažų šalių kalbos turi savitų gramatinių ir semantinių niuansų, daug perkeltinių prasmių ir žodžių daugiaprasmiškumo, kuris priklauso nuo sakinio konteksto. Pavyzdžiui, žodis „kasa“ gali reikšti ir pinigų surinkimo vietą, ir žmogaus organą, ir šukuosenos elementą.
Anglų kalba yra populiariausia pasaulyje, todėl duomenų ja gausu, o kitų, ypač mažų šalių, kalbų duomenų yra gerokai mažiau. Natūralu, kad globaliu mastu šioms kalboms skiriamas ir ribotas dėmesys.
Kaip jungumo vertybė atsispindi Jūsų akademinėje veikloje?
Man svarbu dalytis patirtimi ir išgirsti konstruktyvią kritiką – nuolat klausiu kolegų patarimų. Savo žiniomis dalinuosi su studentais, o jie neretai pateikia naujų įžvalgų ir leidžia pažvelgti į sprendžiamas problemas kitu kampu.
Su bakalauro ir magistro studijų studentais, kurių baigiamiesiems darbams vadovauju, tariamės dėl technologijų, duomenų ir tyrimų strategijų, nes jų temos glaudžiai susijusios su sritimi, kurią pats analizuoju.
Kalbos ir regos modelių lyginamasis tyrimas buvo atliktas bendradarbiaujant su įmonės „Neurotechnology“ darbuotojais – atsižvelgiant į jų patarimus ir praktinę patirtį. Taip pat esu dėkingas VILNIUS TECH Skaitmeninės gynybos kompetencijų centro kolegoms už galimybę tyrimų metu naudotis universiteto ištekliais.
Kur matote didžiausią jungumo potencialą tarp akademinių tyrimų, verslo ir valstybinių institucijų DI srityje Lietuvoje?
Didžiausias jungumo potencialas slypi duomenų rinkime ir tvarkyme. Kadangi DI pagrindas yra duomenys, jų trūkumas tiesiogiai riboja DI sprendimų kokybę.
Valstybė turi milžiniškus duomenų kiekius – dokumentus, vaizdus, geografinių informacinių sistemų žemėlapius ir kt. Tačiau trūksta inovatyvių sprendimų, kaip šiuos duomenis panaudoti. Akademinė bendruomenė gali pasiūlyti tokias inovacijas, tačiau tam reikalingas finansavimas. Verslas galėtų suteikti reikalingų lėšų ir, bendradarbiaudamas su valstybės institucijomis bei akademikais, diegti sukurtus sprendimus ne tik Lietuvoje, bet ir tarptautinėse rinkose.
DI modeliai vis labiau integruojami į kasdienį gyvenimą. Kaip sukurti jungtis tarp žmonių pasitikėjimo ir technologijų skaidrumo?
Pasitikėjimas atsiranda tada, kai nėra baimės. Kol žmonės bijos, kad DI atims jų darbo vietas, pasitikėjimas bus menkas. Tačiau verta prisiminti, kad panašių baimių kilo per visas pramonės revoliucijas, o vėliau žmonės persikvalifikuodavo ir atsirasdavo naujų profesijų.
Kalbant apie technologijų skaidrumą, žmonėms svarbu suprasti, kaip veikia DI, kodėl pateikiamas būtent toks atsakymas, iš kur gaunami duomenys. DI sistemos turėtų aiškiai paaiškinti savo sprendimų pagrindą: nurodyti naudojamų duomenų šaltinius ir pagrindinius modelio mokymo principus. Tokia skaidrumo kultūra padėtų mažinti baimes ir didinti visuomenės pasitikėjimą naujomis technologijomis.

