DI atminties naudojimo problema gali būti išspręsta: „Google“ pristatė netikėtą sprendimą
„Google“ inžinieriai pristatė naują metodą, kuris gali iki 6 kartų sumažinti DI modeliams reikalingą darbinę atmintį. Technologija pavadinta „TurboQuant“ ir skirta vienai brangiausių didelių kalbos modelių vietų – pokalbio konteksto saugojimui.
Pagrindinis taikinys yra vadinamoji KV cache atmintis, kuri leidžia modeliui greitai prisiminti ankstesnes vartotojo žinutes. Be jos sistema turėtų nuolat iš naujo perskaičiuoti visą kontekstą, todėl atsakymai lėtėtų, o serverių sąnaudos augtų.
KV cache galima suprasti kaip trumpalaikę pokalbio atmintį, kurioje laikomi tarpinių skaičiavimų duomenys. Ilgesni kontekstai ir didesnis vartotojų skaičius reiškia, kad ši atmintis sparčiai „suvalgo“ gigabaitus, o duomenų centrams tenka investuoti į vis didesnius resursus.
Kas yra „TurboQuant“?
„TurboQuant“ remiasi kvantizacija, kai skaitinės reikšmės atvaizduojamos mažesniu bitų skaičiumi ir taip užima mažiau vietos atmintyje. „Google“ teigia, kad šį kartą svarbiausia naujovė yra dinaminis veikimas realiuoju laiku, kai KV cache suspaudžiama pokalbio metu.
Toks priėjimas yra techniškai sudėtingas, nes suspaudimas neturi pastebimai pabloginti atsakymų kokybės. Pagal pristatytą informaciją, siekiama mažinti atminties „butelio kaklelį“, kai ribojanti grandis tampa ne skaičiavimo galia, o būtent konteksto saugojimas.
Ką rodo bandymai ir kam tai naudinga?
„Google“ tyrėjai nurodo, kad metodas išbandytas su keliomis skirtingomis atvirojo kodo ir komercinėmis modelių šeimomis. Tokie testai svarbūs, nes leidžia įvertinti, ar sprendimas pritaikomas plačiau, o ne tik vienoje konkrečioje architektūroje.
„TurboQuant“ labiausiai aktualus paslaugoms, kuriose vienu metu aptarnaujama daug užklausų ir reikia ilgų kontekstų, pavyzdžiui, klientų aptarnavimo pokalbiams, dokumentų analizės asistentams ar paieškos sistemoms. Mažesnis atminties poreikis teoriškai leidžia tame pačiame serveryje aptarnauti daugiau vartotojų arba didinti konteksto ilgį.
„Šis metodas atrodo perspektyvus mažinant atminties key-value siaurąją vietą neaukojant modelių našumo“, – teigiama „Google“ pristatymo medžiagoje.
Ar tai reiškia pigesnę RAM?
Rinkoje seniai aptariama, kad duomenų centrų apetitas atminčiai auga dėl DI plėtros, todėl brangsta serverinė įranga ir jos komponentai. Vis dėlto vien technologinis proveržis dar negarantuoja, kad sutaupytas resursas automatiškai virs mažesne paklausa.
Ekspertai atkreipia dėmesį į vadinamąjį atšokimo efektą: jei atmintis tampa „pigesnė“ skaičiavimuose, dalis tiekėjų gali ne mažinti infrastruktūrą, o didinti modelių tikslumą, konteksto ilgį ar paslaugų apimtį. Tokiu atveju galutinis atminties poreikis gali ir toliau augti, o vartotojai kainų pokyčius pajus ne iš karto.
Kol kas „TurboQuant“ įvardijamas kaip laboratorinis sprendimas, kuriam reikia platesnės validacijos realiose sistemose. Jei technologija pasieks gamybinį lygį ir bus plačiai įdiegta, ji gali tapti vienu svarbių žingsnių mažinant DI paslaugų savikainą, tačiau kainų rinkoje tai priklausys nuo to, kaip pramonė panaudos sutaupytą atmintį.
Sekite mūsų naujienas patogiau
- Pridėkite mus kaip mėgstamiausią šaltinį „Google Discover“, kad nepraleistumėte svarbiausių naujienų.
- Taip pat galite mus nustatyti kaip pageidaujamą šaltinį „Google“ paieškoje.
