Didelių kalbinių modelių mokymas kainuoja itin brangiai. Svarbu ne tik turėti daug grafinių procesorių (GPU), bet ir kuo efektyviau juos išnaudoti. Didėjant modelių mastui, net ir menki neefektyvumo šaltiniai virsta milžiniškomis laiko bei energijos sąnaudomis.
Mokslininkų komanda iš MIT, bendradarbiaudama su partneriais, tokiais kaip „NVIDIA“, teigia radusi praktišką būdą susigrąžinti mokymo metu švaistomus skaičiavimus. Kai kuriais atvejais jiems pavyko bendrą mokymo laiką sutrumpinti beveik perpus.
Tikslinė problema slypi pastiprinamajame mokymesi (angl. reinforcement learning, RL), ypač vadinamojoje „išvyniojimo“ (angl. rollout) fazėje. Tai etapas, kai modelis sugeneruoja kelis galimus atsakymo variantus, kad „išmoktų“, koks elgesys veda prie geresnių rezultatų. Ši fazė itin svarbi loginio mąstymo ir samprotavimo gebėjimus lavinantiems LLM, tačiau ji yra labai lėta.
„Išvyniojimo“ fazė gali sudaryti net iki 85 % viso vykdymo laiko. Pagrindinė priežastis – vadinamoji „ilgosios uodegos“ pasiskirstymo (angl. long-tail distribution) problema: dauguma sugeneruotų atsakymų baigiami greitai, tačiau nedidelė jų dalis būna gerokai ilgesnė už vidurkį. Kadangi GPU turi sinchronizuotis, greičiau baigiantys skaičiavimus dažnai priversti „dykinėti“, laukdami vėluojančiųjų.
MIT komandos pasiūlytas sprendimas, pavadintas „Taming the Long Tail“ (TLT), tiesiogiai mažina šį švaistymą. Vietoje to, kad GPU liktų neveiklūs, kol generuojami itin ilgi atsakymai, TLT šį laiką panaudoja lengvo, „juodraštinio“ (angl. draft) modelio mokymui. Šis mažesnis modelis nuolat treniruojamas „skubos tvarka“ tuo pačiu metu, kai mokomas pagrindinis modelis.
Idėja remiasi spekuliatyviu dekodavimu (angl. speculative decoding) – technika, kai mažesnis modelis iš anksto prognozuoja kelis galimus ženklius (tokenus), o pagrindinis modelis juos vėliau lygiagrečiai patikrina. Tačiau tradicinis spekuliatyvus dekodavimas remiasi iš anksto fiksuotu „juodraštiniu“ modeliu, kuris pastiprinamojo mokymosi metu greitai pasensta, nes pagrindinis modelis nuolat kinta.
TLT pakeičia šią dinamiką. Mokydama „juodraštinį“ modelį tada, kai atsiranda proga, ir panaudodama resursus, kurie kitu atveju būtų nenaudojami, sistema užtikrina, kad mažesnis modelis išliktų suderintas su pagrindiniu. Tai pasiekiama nereikalaujant papildomo, specialiai tam skirto skaičiavimo laiko.
Atlikus bandymus su keliais loginį samprotavimą akcentuojančiais LLM ir realiais duomenų rinkiniais, rezultatai pasirodė įspūdingi. Tyrėjai fiksavo bendro mokymo paspartėjimą nuo 70 % iki 210 %, lyginant su stipriais atskaitos metodais. Daugeliu atvejų tai reiškia maždaug dvigubai greitesnį mokymą, o modelių tikslumas išliko nepakitęs.
Yra ir įdomi papildoma nauda: nuolat mokomas „juodraštinis“ modelis gali tapti vertingu galutiniu produktu. Kadangi jis treniruojamas kartu su pagrindiniu modeliu, tam tikromis aplinkybėmis jį galima panaudoti kaip efektyvų modelį išvedimui (angl. inference), kai reikia greitesnio ir pigesnio užklausų apdorojimo.
Šis darbas atskleidžia platesnę dabartinių dirbtinio intelekto tyrimų tendenciją – orientaciją į optimizavimą, o ne į aklą „žaliąją jėgą“. Užuot be galo didinus skaičiavimo klasterių apimtį, vis dažniau ieškoma būdų maksimaliai išspausti našumą iš jau turimos aparatūros.
Jei tokie metodai kaip TLT pasiteisins pramoniniu mastu, jie gali reikšmingai sumažinti tiek finansines, tiek aplinkosaugines sąnaudas, susijusias su naujos kartos loginio samprotavimo modelių mokymu.

