Lietuvoje netrukus pradės veikti pirmoji atvira gamtos ir biomedicinos mokslų duomenų saugykla. Joje bus ne tik kaupiami įvairūs duomenys, bet ir sudaromos sąlygos atkartoti mokslinius tyrimus.
Vilniaus universitete įdiegta maždaug 0,5 mln. eurų kainavusi duomenų saugojimo platforma bus atvira ir prieinama mokslininkams, studentams, įmonėms bei startuolių kūrėjams. Tikimasi, kad ši infrastruktūra ypač prisidės prie medicinos pažangos. Vienas pirmųjų joje vystomų projektų – sprendimas, turintis padėti gydytojams lengviau atpažinti širdies ligas.
Atvira saugykla gamtos ir biomedicinos mokslų duomenims
Naujoji duomenų saugykla įdiegta Vilniaus universiteto Duomenų centre, skirtame mašininiam mokymui ir kvantiniams skaičiavimams gamtos bei biomedicinos mokslų srityse. Centre bus kaupiami tiek jau turimi, tiek naujai gaunami heterogeniniai duomenys: vaizdai, tekstai, eksperimentų rezultatai ir kita informacija. Prie duomenų bus pridedama metainformacija, leidžianti atsekti jų kilmę, atlikti paiešką ir panaudoti juos naujiems tyrimams.

Duomenys bus prieinami visiems norintiems, vadovaujantis FAIR principais (findable, accessible, interoperable, reusable). Jie bus naudojami moksliniams tyrimams, mašininio mokymosi ir dirbtinio intelekto algoritmams kurti bei testuoti. Būtent toks buvo prieš kelerius metus įkurto centro tikslas.
Tyrimai, kuriuos galima patikrinti
VU Duomenų centro vadovė, Vilniaus universiteto Matematikos ir informatikos fakulteto profesorė Jurgita Markevičiūtė pabrėžia, kad duomenų atvėrimas ir atvirasis mokslas visame pasaulyje tampa įprasta praktika, todėl Lietuvai svarbu judėti ta pačia kryptimi. Pasak jos, tai atveria galimybes pažangai medicinos diagnostikos, kristalografijos ir kitose su gyvybės mokslais susijusiose srityse, leidžia kurti naujas technologijas ir ugdyti jaunąją tyrėjų kartą.
Pasitelkus centro skaičiavimo resursus, bus galima visiškai atkartoti anksčiau atliktus tyrimus: naudoti tuos pačius duomenis, paleisti savo modelius ir palyginti skirtingų tyrimų rezultatus.
Tai ypač svarbu atvirojo mokslo kontekste, nes leidžia įvertinti, ar tyrimų išvados yra patikimos ir tinkamos taikyti praktikoje. Iki šiol Lietuvoje trūko infrastruktūros, kuri suteiktų tokias galimybes. Be to, saugykloje bus laikomi ir pirminiai duomenys, ir jų kopijos, todėl pakartojus tyrimą bus galima išsaugoti ir naują jo versiją.
Kaip buvo kuriama duomenų saugojimo infrastruktūra?
Duomenų saugojimo platformą suprojektavo ir įdiegė technologijų bendrovė „3RTechnology“. Bendrovės vadovo Rėdo Šimelio teigimu, projekte naudota modulinė „Dell“ įranga, ant kurios sukurta visa duomenų saugojimo ir skaičiavimo architektūra.
Platformoje integruoti keturi skirtingi serverių modeliai, pritaikyti konkrečioms funkcijoms. Tarp jų – GPU akseleruotas serveris su keturiais „NVIDIA H100 80 GB SXM5“ akseleratoriais, skirtais mašininiam mokymui, dideliems dirbtinio intelekto modeliams ir sudėtingiems skaičiavimams. Platforma paremta atvirojo kodo (open-source) technologijomis ir suprojektuota taip, kad ateityje ją būtų galima lengvai plėsti.
R. Šimelis pažymi, kad tai vienas iš nedaugelio tokio sudėtingumo projektų Lietuvoje, kai daugiau nei 1 PB talpos greitoji CEPH pagrindu veikianti saugykla, daugiau nei 1 PB archyvinė saugykla ir GPU akseleruota dirbtinio intelekto infrastruktūra suprojektuotos kaip viena vientisa sistema.
Siekia palengvinti darbą gydytojams
VU Matematikos ir informatikos fakulteto doktorantas Jonas Mindaugas Rimšelis teigia, kad naujoji duomenų saugykla iš esmės pakeis jo vykdomo projekto, orientuoto į širdies ligų diagnostiką, galimybes.
Pasak doktoranto, širdies ir kraujagyslių ligos yra viena dažniausių mirties priežasčių Europoje. Vienas iš diagnostikos būdų – Holterio monitoravimas, tačiau šiuo metodu užfiksuojami EKG signalai dažnai būna triukšmingi. Jo komanda taiko difuzinius tikimybinius modelius, siekdama sumažinti triukšmus ir padėti gydytojams lengviau bei tiksliau identifikuoti širdies veiklos sutrikimus.
J. M. Rimšelio teigimu, naudodamasis naująja duomenų saugykla jis galės dirbti su gerokai didesniais duomenų kiekiais ir užtikrinti, kad sukurti modeliai būtų lengvai patikrinami bei pakartojami kitų tyrėjų. Tai turėtų sustiprinti pasitikėjimą rezultatais, sudaryti sąlygas glaudesniam bendradarbiavimui ir leisti nuolat tobulinti kuriamą sprendimą.

