inteligenta-artificiala-a-poluat-deja-internetul-intr-un-mod-inimaginabil.-cum-s-ar-putea-sa-i-se-intoarca,-dar-pana-atunci-suferim-noi
0 3 minute 12 luni

Apariția modelelor de inteligență artificială generative, precum ChatGPT, a inundat internetul cu conținut creat automat. Această situație generează consecințe negative semnificative pentru dezvoltarea inteligenței artificiale.

Modelele actuale de IA sunt antrenate pe date existente online – texte, imagini, coduri – dar atunci când aceste date sunt „contaminate” de alte rezultate generate de IA, procesul de învățare este afectat.

Abundența de conținut artificial duce la așa-numitul colaps al modelului. În loc să învețe din surse reale, IA copiază greșelile și limitările altor sisteme automate, creând un ciclu vicios de superficialitate care reduce semnificativ calitatea rezultatelor și afectează progresele în domeniul IA.

Un exemplu concret al acestei tendințe se observă în tehnologiile de tip „retrieval-augmented generation” (RAG), unde modelele IA adaugă informații din timp real de pe internet la cunoștințele lor interne. Însă, aceste surse online sunt tot mai des marcate de conținut artificial, crescând riscul de răspunsuri incorecte sau incerte.

Valorificarea datelor curate într-o epocă digitală contaminată

Cercetătorul Maurice Chiodo de la Universitatea Cambridge evidențiază importanța datelor neinfluențate de IA, pre-2022, care devin extrem de valoroase.

Această situație este comparată cu nevoia de oțel pre-1945, folosit în tehnologie medicală avansată. Această paralelă subliniază dificultățile viitoare în găsirea de informații nepoluate digital.

Într-o lucrare din 2024, Chiodo și profesorul Rupprecht Podszun susțin necesitatea unor „surse curate de date” pentru a asigura o competiție echitabilă în dezvoltarea modelelor de IA.

Lipsa reglementărilor agravează problema

Fără reguli, doar companiile cu acces la datele pre-AI vor putea implementa modele performante, în timp ce alții vor trebui să se confrunte cu resurse online contaminate.

De asemenea, curățarea datelor generate post-2022 este nu doar dificilă, ci și extrem de costisitoare, în unele cazuri cu imposibilitatea de a elimina efectele poluării.

Etichetarea conținutului generat de IA ar putea ajuta, însă implementarea unor asemenea reglementări rămâne o problemă majoră, mai ales într-un sector tehnologic reticent la intervenția legislativă.

Progresele continue în tehnologie pot duce la riscuri semnificative, poluarea digitală provocată de IA afectează deja instrumentele cheie. Lipsa unor măsuri clare pentru delimitarea conținutului original de cel generat artificial ar putea afecta în mod crucial evoluția inteligenței artificiale.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *