Un test simplu de logic a demonstrat diferențele de performanță între 53 de modele de inteligență artificială moderne, printre care Claude Sonnet 4.5, GPT-5.1, Llma și Mistral. Majoritatea modelelor au eșuat la întrebarea legată de modul cel mai eficient de a ajunge la o spălătorie auto aflată la 50 de metri distanță.
Rezultatele testului
Din cele 53 de modele de IA examinate, 42 au răspuns corect și au recomandat să se meargă pe jos spre spălătorie. La prima citire, doar 11 au oferit răspunsuri corecte. Modelele care au trecut testul sunt Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5 și GLM-5.
Pentru familiile de modele, cel mai adesea singurul model reușit a fost Opus 4.6 pentru Anthropic și GPT-5 pentru OpenAI. Astfel, performanța a fost mai bună pentru anumite versiuni ale acestor furnizori.
Modele cu răspunsuri eronate și motivări greșite
Toate modelele Llama și Mistral au dat răspunsuri greșite, susținând că mersul pe jos este mai eficient, deoarece distanța de 50 de metri este scurtă și mersul pe jos economisește combustibil și protejează mediul. În timp ce răspunsul era corect, motivarea lor a fost eronată.
Modelele Sonar și Sonar Pro au dat răspuns corect, dar pentru motive incorecte. Acestea au citat studii și au susținut că mersul pe jos arde calorii, necesitând energie pentru producția de alimente. Conform acestor modele, mersul pe jos pe distanța de 50 de metri ar fi mai poluant decât conducerea.
Concluzii despre performanța modelelor de IA
Testul a evidențiat că performanța modelelor de inteligență artificială variază semnificativ chiar și în situații simple de logică. Modelele care au oferit răspuns corect și motivații corecte sunt considerate mai fiabile în ceea ce privește raționamentul.
Majoritatea modelelor au dat răspunsuri aparent corecte, însă motivările lor au inclus erori logice și factuale. Acest lucru indică dificultăți ale IA în a realiza corect conexiuni între decizii și justificări.
Testul a fost realizat fără a oferi modelelor o alternativă explicită de alegere, urmărind să se observe doar raționamentul lor logic și consecvența. Modelele au fost evaluate după o singură rulare și de zece ori pentru a verifica consistența răspunsurilor.
**Nicio variantă de IA nu a reușit să confirme că mersul pe jos este mai bun decât conducerea pe distanța de 50 de metri, însă câteva au oferit răspunsuri în concordanță cu această opinie.**
