meta-a-trisat-cu-inteligenta-artificiala:-ce-s-a-descoperit-despre-ai-ul-maverick,-din-suita-llama
0 3 minute 1 an

Performanța remarcabilă a modelului AI Maverick, parte a suitei Llama 4, anunțată de Meta, a fost pusă sub semnul întrebării. Compania a fost acuzată de manipulare într-un test de referință, prezentând o versiune „optimizată pentru plăcere” a produsului, nu modelul real.

Investigațiile au relevat că entuziasmul inițial față de performanța modelului s-a transformat rapid în suspiciune, urmată de acuzații explicite privind modificarea rezultatelor.

Lansarea modelului Maverick a fost însoțită de anunțul a două noi modele: Scout, conceput pentru interogări rapide, și Maverick, competitor pentru modele existente precum GPT-4o.

Potrivit comunicatului Meta, Maverick a obținut un scor înalt de 1417 în cadrul platformei LMArena, un sistem open-source de evaluare a performanțelor, unde utilizatorii votează cele mai bune răspunsuri.

Acest scor l-a plasat pe Maverick imediat după modelul Gemini 2.5 Pro, provocând stupoare în comunitatea de inteligență artificială.

Model „experimental” și prea prietenos de la Meta

Analiza detaliată a documentației Meta a relevat că modelul evaluat era diferit de versiunea disponibilă publicului. Acesta a fost „personalizat pentru a optimiza preferințele umane”, adică a fost programat să fie mai amical și mai agreabil în răspunsuri.

În esență, modelul a obținut scoruri ridicate prin atractivitate, nu prin inteligență.

Platforma LMArena a reacționat, criticând neclaritatea din partea Meta cu privire la faptul că varianta „Llama-4-Maverick-03-26-Experimental” era una specială.

O practică curentă în industria tehnologică

Experții în tehnologie nu sunt surprinși de această situație. „Frauda” în testele de performanță este o practică frecventă în industrie, de la ajustarea luminozității telefoanelor până la modificarea rezultatelor în testele AI.

Competiția intensă dintre producătorii de inteligență artificială creează tendința de a obține scoruri maxime pentru a promova produsele, chiar dacă prin metode discutabile.

Această practică, însă, riscă să afecteze încrederea în evaluările obiective ale performanțelor.

Pentru a demonstra superioritatea, companiile trebuie să prezinte nu doar scoruri de laborator, ci și experiențe reale, transparente și reproductibile. Altminteri, un chatbot „atractiv” poate fi doar o iluzie într-o competiție acerbă.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *