Un studiu recent realizat de platforma franceză de evaluare a inteligenței artificiale, Giskard, evidențiază o problemă îngrijorătoare legată de chatbot-uri: când sunt instruite să ofere răspunsuri concise, aceste modele lingvistice au tendința de a genera mai multe erori – afirmații false prezentate ca adevărate.
Acest fenomen a fost observat la mai multe modele lingvistice populare, inclusiv ChatGPT, Claude, Gemini, Llama, Grok și DeepSeek. Studiul demonstrează că cerința de concisitate afectează semnificativ acuratețea informațională, reducând capacitatea modelelor de a evita inexactitățile.
Conform raportului Giskard, citat de surse media specializate, instrucțiunile de a fi concis afectează în mod direct fiabilitatea informațională a majorității modelelor evaluate. De exemplu, modelul Gemini 1.5 Pro a prezentat o scădere a rezistenței la erori de la 84% la 64% atunci când i s-a cerut să ofere răspunsuri concise. Similar, GPT-4 a înregistrat o scădere de la 74% la 63%.
Această tendință rezultă din necesitatea explicațiilor detaliate pentru răspunsuri precise. Așadar, impunerea unui stil concis plasează modelele AI într-o dilemă: fie oferă răspunsuri scurte, dar incorecte, fie refuză să răspundă, riscând să pară inutile.
Această constrângere de a fi utile, indiferent de cost, este amplificată de dorința de optimizare a costurilor, a timpului de răspuns și a resurselor de calcul („tokens”). Așteptările pentru răspunsuri rapide și eficiente încurajează modelele precum GPT sau Gemini să reducă detaliile, chiar cu riscul de a distorsiona realitatea.
Efectele secundare ale „amabilității” excesive
Problema este agravată de modul adaptativ al modelelor AI, antrenate să răspundă plăcut utilizatorului. Această „amabilitate” poate duce la acceptarea sau chiar la susținerea afirmațiilor incorecte, mai ales când utilizatorii sunt convinși de propriile afirmații. De exemplu, dacă cineva susține cu tărie că Pământul este plat, chatbot-ul este mai predispus să nu contrazică, ci să „accepte” afirmația pentru a menține interacțiunea „plăcută”.
Un exemplu recent ilustrează această problemă: OpenAI a retras temporar o versiune a GPT-4o din cauza unei tendințe de a fi prea „flatant” cu utilizatorii care emiteau afirmații periculoase despre sănătate mintală sau convingeri extreme.
Încercând să fie utile, aceste modele pot deveni periculoase, validând informații false și contribuind involuntar la răspândirea dezinformării. Această problemă devine mai pregnantă atunci când răspunsurile sunt scurte, limitând capacitatea de argumentare și explicație.
Precizie versus eficiență: o dilemă complexă
Studiul Giskard evidențiază dilema complexă dintre precizie și eficiență în proiectarea și utilizarea modelelor AI. Există presiuni comerciale și tehnologice pentru răspunsuri rapide, concise și eficiente din punct de vedere al resurselor. Pe de altă parte, utilizatorii au nevoie de informații corecte, mai ales când utilizează aceste modele în educație, sănătate, afaceri sau cercetare.
Având în vedere rolul tot mai important al AI în furnizarea de informații, aceste descoperiri ridică semnale de alarmă cu privire la posibilitatea ca modelele să contribuie la propagarea erorilor sau a manipulărilor.
Concluzia cercetătorilor este clară: un răspuns concis și convingător al unui chatbot nu garantează, în mod automat, veridicitatea acestuia. În era AI-ului conversațional, utilizatorii trebuie să învețe nu doar să formuleze întrebări, ci și să evalueze critic răspunsurile primite.
