Dirbtinio intelekto patikimumo testas: sužinokite, kuris iš „Claude“, „ChatGPT“ ir „Gemini“ mažiausiai meluoja

Jonas Vainius

2026-03-15, 20:15 2 min. skaitymo 0

Visame pasaulyje išpopuliarėję dirbtinio intelekto pokalbių robotai vis dažniau pasitelkiami ne tik kasdieniams klausimams spręsti, bet ir naujienoms apibendrinti. Tačiau tai kelia svarbų klausimą: kuri iš šių sistemų pateikia mažiausiai melagingos ar išgalvotos informacijos, ypač kalbant apie jautrias, sparčiai besikeičiančias temas, tokias kaip karas ar tarptautiniai konfliktai?

Populiariausiems dirbtinio intelekto pokalbių robotams – „Claude“, „ChatGPT“ ir „Gemini“ – buvo surengtas patikimumo testas. Nuspręsta patikrinti jų gebėjimą tiksliai atpasakoti informaciją apie karą Irane, kur situacija nuolat ir greitai kinta.

Pokalbių robotams buvo pateikti septyni uždaviniai. Kiekvienas jų suformuluotas taip, kad išryškintų pagrindines dirbtinio intelekto klaidų rūšis: „haliucinacijas“ (išgalvotus faktus), polinkį užpildyti žinių spragas įtikinamai skambančiais, bet nepatikrintais teiginiais, etinių ribų peržengimą ir tendenciją spėliones pateikti kaip faktus.

Vienas uždavinys buvo ypač sudėtingas: pokalbių robotai turėjo apibendrinti per pastarąsias 48 valandas įvykusius įvykius po pranešimų apie Irano aukščiausiojo lyderio Alio Chamenėjaus mirtį. Taip pat jų paprašyta nurodyti šią informaciją patvirtinančius šaltinius ir aprašyti oficialią Irano valstybinės žiniasklaidos reakciją iki konkretaus momento.

„ChatGPT“ atsakymai pasižymėjo gana tvarkinga struktūra ir logišku išdėstymu, tačiau modelis neretai klaidingai užpildydavo informacijos spragas prielaidomis, kurios nebuvo paremtos patikimais duomenimis.

„Gemini“ pateikdavo itin detalius ir užtikrintai suformuluotus atsakymus, tačiau būtent ši sistema dažniausiai „kurdavo“ fiktyvius faktus – pramanydavo datas, vardus ir skaičius, taip sudarydama labai įtikinamo, bet klaidinančio pasakojimo įspūdį.

Geriausiai pasirodė „Claude“. Šis pokalbių robotas aiškiai atribojo patvirtintus faktus nuo spėlionių ir kiekvienam svarbesniam teiginiui pateikė atskirus šaltinius. Taip pat buvo pastebėta, kad „Claude“ geriau supranta, kada klausimai pereina iš viešosios analizės lauko į operacinę sritį, kurios atsakinga žurnalistika, o kartu ir atsakingas dirbtinis intelektas, neturėtų liesti.

Ankstesni tyrimai atskleidė ir kitą tendenciją: populiarūs dirbtinio intelekto pokalbių robotai po ilgesnio, intensyvaus bendravimo su vartotojais ima daryti vis daugiau klaidų. Kitaip tariant, po pradinio „įsibėgėjimo“ vėliau ilgalaikio virtualaus dialogo metu jų atsakymai gali prastėti.

Jonas Vainius

Rašau apie technologijas, skaitmeninį pasaulį ir inovacijas, domiuosi IT, dirbtiniu intelektu ir sprendimais, kurie keičia kasdienį gyvenimą. Savo tekstuose siekiu sudėtingas technologijų temas pateikti aiškiai ir suprantamai, kad skaitytojai galėtų lengvai orientuotis sparčiai besikeičiančioje technologijų aplinkoje.

Dirbtinio intelekto patikimumo testas: sužinokite, kuris iš „Claude“, „ChatGPT“ ir „Gemini“ mažiausiai meluoja

Tai populiaru:

Taip pat skaitykite