iunie 4, 2026

Microsoft pregătește gadgeturi cu agenți AI integrați fără aplicații

iunie 4, 2026

Semnul că instalația de climatizare a mașinii trebuie curățată

iunie 4, 2026

Digi România încheie contract de 196 milioane euro pentru un ChatGPT românesc

iunie 3, 2026

Roboții ruși, umanoizi, au avut performanțe slabe în fața publicului

iunie 3, 2026

De ce să vizitezi Delta Dunării, conform unei experiențe personale

iunie 3, 2026

Parlamentul European analizează posibilitatea de a schimba motorul de căutare implicit în Europa

Meta și AI-ul Maverick: Descoperiri șocante despre Llama

meta-a-trisat-cu-inteligenta-artificiala:-ce-s-a-descoperit-despre-ai-ul-maverick,-din-suita-llama

Performanța remarcabilă a modelului AI Maverick, parte a suitei Llama 4, anunțată de Meta, a fost pusă sub semnul întrebării. Compania a fost acuzată de manipulare într-un test de referință, prezentând o versiune „optimizată pentru plăcere” a produsului, nu modelul real.

Investigațiile au relevat că entuziasmul inițial față de performanța modelului s-a transformat rapid în suspiciune, urmată de acuzații explicite privind modificarea rezultatelor.

Lansarea modelului Maverick a fost însoțită de anunțul a două noi modele: Scout, conceput pentru interogări rapide, și Maverick, competitor pentru modele existente precum GPT-4o.

Potrivit comunicatului Meta, Maverick a obținut un scor înalt de 1417 în cadrul platformei LMArena, un sistem open-source de evaluare a performanțelor, unde utilizatorii votează cele mai bune răspunsuri.

Acest scor l-a plasat pe Maverick imediat după modelul Gemini 2.5 Pro, provocând stupoare în comunitatea de inteligență artificială.

Model „experimental” și prea prietenos de la Meta

Analiza detaliată a documentației Meta a relevat că modelul evaluat era diferit de versiunea disponibilă publicului. Acesta a fost „personalizat pentru a optimiza preferințele umane”, adică a fost programat să fie mai amical și mai agreabil în răspunsuri.

În esență, modelul a obținut scoruri ridicate prin atractivitate, nu prin inteligență.

Platforma LMArena a reacționat, criticând neclaritatea din partea Meta cu privire la faptul că varianta „Llama-4-Maverick-03-26-Experimental” era una specială.

O practică curentă în industria tehnologică

Experții în tehnologie nu sunt surprinși de această situație. „Frauda” în testele de performanță este o practică frecventă în industrie, de la ajustarea luminozității telefoanelor până la modificarea rezultatelor în testele AI.

Competiția intensă dintre producătorii de inteligență artificială creează tendința de a obține scoruri maxime pentru a promova produsele, chiar dacă prin metode discutabile.

Această practică, însă, riscă să afecteze încrederea în evaluările obiective ale performanțelor.

Pentru a demonstra superioritatea, companiile trebuie să prezinte nu doar scoruri de laborator, ci și experiențe reale, transparente și reproductibile. Altminteri, un chatbot „atractiv” poate fi doar o iluzie într-o competiție acerbă.

Tehnologie

Lasă un răspuns Anulează răspunsul

valentin-stan:-romania-imuna-a-insinuat-ca-raportul-congresului-american-despre-anularea-alegerilor-din-romania-este-un-fel-de-propaganda

De Preda Ioana

57 de minute

Valentin Stan: România consideră raportul Congresului american despre anularea alegerilor ca propagandă

Profesorul universitar Valentin Stan a afirmat că decizia de anulare a turului II al alegerilor prezidențiale, precum și acuzațiile legate de o influență externă exercitată prin platforma TikTok, trebuie fundamentate pe dovezi concrete. Comentariile lui au fost făcute în cadrul emisiunii „Marius Tucă Show,” difuzate […]

Local Ultimă Oră

sindicatul-meridian-a-initiat-procedura-pentru-declansarea-grevei-la-autoritatea-vamala-romana.-ce-nemultumiri-au-vamesii

De Gheorghe Alex

2 ore

Sindicatul Meridian a anunțat procedura pentru greva la Autoritatea Vamală Română

Sindicatul Meridian a notificat Autoritatea Vamală Română (AVR) cu privire la declanșarea unui conflict de muncă, ceea ce poate duce la organizarea unei greve dacă nu se ajunge la un acord în termen de 10 zile. Decizia vine ca urmare a nemulțumirilor angajaților din vama […]

Știri

generalul-virgil-balaceanu-vorbeste-despre-lipsa-de-actiune-a-aliatilor-europeni:-ma-astepta-sa-primim-de-la-francezi-un-sistem-antidrona-dupa-incidentul-de-la-galati.-nici-germania-nu-a-aparut-cu-initiative-de-aparare-a-regiunii-noastre,-desi-are-interes

De Preda Ioana

2 ore

Generalul Virgil Bălăceanu critică lipsa de inițiative a aliaților europeni pentru apărare

Generalul Virgil Bălăceanu, fost reprezentant al României la Comandamentul NATO de la Bruxelles, a afirmat că lipsa de acțiune a aliaților europeni în privința României persistă, fiind nevoie de discuții directe cu Germania, care are interese economice semnificative în regiune. Declarațiile au fost făcute în […]

Local Ultimă Oră

trump-sustine-ca-un-acord-de-pace-cu-iranul-ar-putea-fi-incheiat-in-weekend

De Pavel Tudor

2 ore

Trump afirmă că un acord de pace cu Iranul ar putea fi încheiat în weekend

Președintele american Donald Trump a declarat că Iranul este „destul de aproape” de a semna un acord de pace cu Statele Unite, perspectivă care ar putea fi realizată „în weekend”. El a spus că negocierile evoluează favorabil, iar punctul central al discuției îl reprezintă angajamentul […]

Internațional

microsoft-pregateste-gadgeturile-care-nu-mai-au-nevoie-de-aplicatii.-project-solara-aduce-agentii-ai-direct-pe-dispozitive

De Ștefan Rosu

2 ore

Microsoft pregătește gadgeturi cu agenți AI integrați fără aplicații

Microsoft dezvoltă un nou sistem de operare destinat gadgeturilor bazate pe inteligență artificială, proiect numit Project Solara, care ar putea schimba modul de interacțiune cu dispozitivele mici și purtabile. Platforma se va focaliza pe experiențe “agent-first”, înlocuind aplicațiile clasice cu agenți digitali capabili să execute […]

Tehnologie

guvernul-introduce-un-mecanism-de-evaluare-pentru-personalul-pnrr

De Gheorghe Alex

2 ore

Guvernul implementează un mecanism de evaluare pentru personalul PNRR

Executivul a introdus reguli noi pentru acordarea majorărilor salariale personalului implicat în implementarea PNRR, stabilind evaluări lunare ale performanței și condiționând sporul de până la 40% de atingerea unor indicatori specifici. Mecanism de evaluare lunar și condiționare a majorării salariale Un act normativ aprobat în […]

Economie