iunie 4, 2026

Trump afirmă că un acord de pace cu Iranul ar putea fi încheiat în weekend

iunie 4, 2026

Germania nu a obținut locul în Consiliul de Securitate al ONU

iunie 4, 2026

UE analizează dacă bagajele de mână pot fi taxate în conflictul dintre guvernul Spaniei și companiile aeriene

iunie 3, 2026

Marco Rubio afirmă că Groenlanda aparține Danemarcei pentru moment

iunie 3, 2026

FBI l-a împușcat pe suspectul implicat în luarea de ostatici în California după 12 ore

iunie 3, 2026

Bărbatul din Austria și-a închis mama în pivniță pentru pensie

Test de logică ce depășește capacitatea majorității AI

testul-de-logica-pe-care-l-pica-aproape-toate-modelele-de-inteligenta-artificiala

Un test simplu de logic a demonstrat diferențele de performanță între 53 de modele de inteligență artificială moderne, printre care Claude Sonnet 4.5, GPT-5.1, Llma și Mistral. Majoritatea modelelor au eșuat la întrebarea legată de modul cel mai eficient de a ajunge la o spălătorie auto aflată la 50 de metri distanță.

Rezultatele testului

Din cele 53 de modele de IA examinate, 42 au răspuns corect și au recomandat să se meargă pe jos spre spălătorie. La prima citire, doar 11 au oferit răspunsuri corecte. Modelele care au trecut testul sunt Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Raționament Grok – 4-1, Sonar, Sonar Pro, Kimi K2.5 și GLM-5.

Pentru familiile de modele, cel mai adesea singurul model reușit a fost Opus 4.6 pentru Anthropic și GPT-5 pentru OpenAI. Astfel, performanța a fost mai bună pentru anumite versiuni ale acestor furnizori.

Modele cu răspunsuri eronate și motivări greșite

Toate modelele Llama și Mistral au dat răspunsuri greșite, susținând că mersul pe jos este mai eficient, deoarece distanța de 50 de metri este scurtă și mersul pe jos economisește combustibil și protejează mediul. În timp ce răspunsul era corect, motivarea lor a fost eronată.

Modelele Sonar și Sonar Pro au dat răspuns corect, dar pentru motive incorecte. Acestea au citat studii și au susținut că mersul pe jos arde calorii, necesitând energie pentru producția de alimente. Conform acestor modele, mersul pe jos pe distanța de 50 de metri ar fi mai poluant decât conducerea.

Concluzii despre performanța modelelor de IA

Testul a evidențiat că performanța modelelor de inteligență artificială variază semnificativ chiar și în situații simple de logică. Modelele care au oferit răspuns corect și motivații corecte sunt considerate mai fiabile în ceea ce privește raționamentul.

Majoritatea modelelor au dat răspunsuri aparent corecte, însă motivările lor au inclus erori logice și factuale. Acest lucru indică dificultăți ale IA în a realiza corect conexiuni între decizii și justificări.

Testul a fost realizat fără a oferi modelelor o alternativă explicită de alegere, urmărind să se observe doar raționamentul lor logic și consecvența. Modelele au fost evaluate după o singură rulare și de zece ori pentru a verifica consistența răspunsurilor.

**Nicio variantă de IA nu a reușit să confirme că mersul pe jos este mai bun decât conducerea pe distanța de 50 de metri, însă câteva au oferit răspunsuri în concordanță cu această opinie.**

Internațional

Lasă un răspuns Anulează răspunsul

valentin-stan:-romania-imuna-a-insinuat-ca-raportul-congresului-american-despre-anularea-alegerilor-din-romania-este-un-fel-de-propaganda

De Preda Ioana

45 de minute

Valentin Stan: România consideră raportul Congresului american despre anularea alegerilor ca propagandă

Profesorul universitar Valentin Stan a afirmat că decizia de anulare a turului II al alegerilor prezidențiale, precum și acuzațiile legate de o influență externă exercitată prin platforma TikTok, trebuie fundamentate pe dovezi concrete. Comentariile lui au fost făcute în cadrul emisiunii „Marius Tucă Show,” difuzate […]

Local Ultimă Oră

sindicatul-meridian-a-initiat-procedura-pentru-declansarea-grevei-la-autoritatea-vamala-romana.-ce-nemultumiri-au-vamesii

De Gheorghe Alex

2 ore

Sindicatul Meridian a anunțat procedura pentru greva la Autoritatea Vamală Română

Sindicatul Meridian a notificat Autoritatea Vamală Română (AVR) cu privire la declanșarea unui conflict de muncă, ceea ce poate duce la organizarea unei greve dacă nu se ajunge la un acord în termen de 10 zile. Decizia vine ca urmare a nemulțumirilor angajaților din vama […]

Știri

generalul-virgil-balaceanu-vorbeste-despre-lipsa-de-actiune-a-aliatilor-europeni:-ma-astepta-sa-primim-de-la-francezi-un-sistem-antidrona-dupa-incidentul-de-la-galati.-nici-germania-nu-a-aparut-cu-initiative-de-aparare-a-regiunii-noastre,-desi-are-interes

De Preda Ioana

2 ore

Generalul Virgil Bălăceanu critică lipsa de inițiative a aliaților europeni pentru apărare

Generalul Virgil Bălăceanu, fost reprezentant al României la Comandamentul NATO de la Bruxelles, a afirmat că lipsa de acțiune a aliaților europeni în privința României persistă, fiind nevoie de discuții directe cu Germania, care are interese economice semnificative în regiune. Declarațiile au fost făcute în […]

Local Ultimă Oră

trump-sustine-ca-un-acord-de-pace-cu-iranul-ar-putea-fi-incheiat-in-weekend

De Pavel Tudor

2 ore

Trump afirmă că un acord de pace cu Iranul ar putea fi încheiat în weekend

Președintele american Donald Trump a declarat că Iranul este „destul de aproape” de a semna un acord de pace cu Statele Unite, perspectivă care ar putea fi realizată „în weekend”. El a spus că negocierile evoluează favorabil, iar punctul central al discuției îl reprezintă angajamentul […]

Internațional

microsoft-pregateste-gadgeturile-care-nu-mai-au-nevoie-de-aplicatii.-project-solara-aduce-agentii-ai-direct-pe-dispozitive

De Ștefan Rosu

2 ore

Microsoft pregătește gadgeturi cu agenți AI integrați fără aplicații

Microsoft dezvoltă un nou sistem de operare destinat gadgeturilor bazate pe inteligență artificială, proiect numit Project Solara, care ar putea schimba modul de interacțiune cu dispozitivele mici și purtabile. Platforma se va focaliza pe experiențe “agent-first”, înlocuind aplicațiile clasice cu agenți digitali capabili să execute […]

Tehnologie

guvernul-introduce-un-mecanism-de-evaluare-pentru-personalul-pnrr

De Gheorghe Alex

2 ore

Guvernul implementează un mecanism de evaluare pentru personalul PNRR

Executivul a introdus reguli noi pentru acordarea majorărilor salariale personalului implicat în implementarea PNRR, stabilind evaluări lunare ale performanței și condiționând sporul de până la 40% de atingerea unor indicatori specifici. Mecanism de evaluare lunar și condiționare a majorării salariale Un act normativ aprobat în […]

Economie

L	Ma	Mi	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

L	Ma	Mi	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Jurnal Iasi

Trump afirmă că un acord de pace cu Iranul ar putea fi încheiat în weekend

Germania nu a obținut locul în Consiliul de Securitate al ONU

UE analizează dacă bagajele de mână pot fi taxate în conflictul dintre guvernul Spaniei și companiile aeriene

Marco Rubio afirmă că Groenlanda aparține Danemarcei pentru moment

FBI l-a împușcat pe suspectul implicat în luarea de ostatici în California după 12 ore

Bărbatul din Austria și-a închis mama în pivniță pentru pensie

Most commented

Statele Unite au câștigat cele mai periculoase sporturi din lume

Topuri Billboard, milioane de copii vândute pentru regele popului

Hai să facem America din nou mareță

Valentin Stan: România consideră raportul Congresului american despre anularea alegerilor ca propagandă

Single author news

Valentin Stan: România consideră raportul Congresului american despre anularea alegerilor ca propagandă

Sindicatul Meridian a anunțat procedura pentru greva la Autoritatea Vamală Română

Generalul Virgil Bălăceanu critică lipsa de inițiative a aliaților europeni pentru apărare

Trump afirmă că un acord de pace cu Iranul ar putea fi încheiat în weekend

Microsoft pregătește gadgeturi cu agenți AI integrați fără aplicații

Guvernul implementează un mecanism de evaluare pentru personalul PNRR

Somewhere in news

Ninge 72 de ore neîntrerupt în aceste orașe din România, avertizează Accuweather

Războiul din Orientul Mijlociu, ziua 48: Netanyahu discută cu președintele Libanului

One United Properties va dezvolta un proiect amplu în Iași

George Simion și Călin Georgescu s-au întâlnit înainte de tensiunea politică

Meta folosește mișcările de mouse ale angajaților pentru antrenarea AI-ului, ceea ce a generat controverse

Investiții în infrastructură și energie: Dezvoltarea economică la Summit-ul Euro Industry

Psihologii afirmă că elevii care au stat în ultima bancă au o trăsătură comună acum

Our location

Valentin Stan: România consideră raportul Congresului american despre anularea alegerilor ca propagandă

Sindicatul Meridian a anunțat procedura pentru greva la Autoritatea Vamală Română

Rezultatele testului

Modele cu răspunsuri eronate și motivări greșite

Concluzii despre performanța modelelor de IA

Mai multe povestiri

Lasă un răspuns Anulează răspunsul

Somewhere in news