Performanța remarcabilă a modelului AI Maverick, parte a suitei Llama 4, anunțată de Meta, a fost pusă sub semnul întrebării. Compania a fost acuzată de manipulare într-un test de referință, prezentând o versiune „optimizată pentru plăcere” a produsului, nu modelul real.
Investigațiile au relevat că entuziasmul inițial față de performanța modelului s-a transformat rapid în suspiciune, urmată de acuzații explicite privind modificarea rezultatelor.
Lansarea modelului Maverick a fost însoțită de anunțul a două noi modele: Scout, conceput pentru interogări rapide, și Maverick, competitor pentru modele existente precum GPT-4o.
Potrivit comunicatului Meta, Maverick a obținut un scor înalt de 1417 în cadrul platformei LMArena, un sistem open-source de evaluare a performanțelor, unde utilizatorii votează cele mai bune răspunsuri.
Acest scor l-a plasat pe Maverick imediat după modelul Gemini 2.5 Pro, provocând stupoare în comunitatea de inteligență artificială.
Model „experimental” și prea prietenos de la Meta
Analiza detaliată a documentației Meta a relevat că modelul evaluat era diferit de versiunea disponibilă publicului. Acesta a fost „personalizat pentru a optimiza preferințele umane”, adică a fost programat să fie mai amical și mai agreabil în răspunsuri.
În esență, modelul a obținut scoruri ridicate prin atractivitate, nu prin inteligență.
Platforma LMArena a reacționat, criticând neclaritatea din partea Meta cu privire la faptul că varianta „Llama-4-Maverick-03-26-Experimental” era una specială.
O practică curentă în industria tehnologică
Experții în tehnologie nu sunt surprinși de această situație. „Frauda” în testele de performanță este o practică frecventă în industrie, de la ajustarea luminozității telefoanelor până la modificarea rezultatelor în testele AI.
Competiția intensă dintre producătorii de inteligență artificială creează tendința de a obține scoruri maxime pentru a promova produsele, chiar dacă prin metode discutabile.
Această practică, însă, riscă să afecteze încrederea în evaluările obiective ale performanțelor.
Pentru a demonstra superioritatea, companiile trebuie să prezinte nu doar scoruri de laborator, ci și experiențe reale, transparente și reproductibile. Altminteri, un chatbot „atractiv” poate fi doar o iluzie într-o competiție acerbă.
