În ultimii ani, uneltele bazate pe inteligență artificială, de la chatboți la generatoare de imagini și video, au devenit omniprezente.
Acestea par a fi magice, dar în realitate se bazează pe un volum imens de date, majoritatea preluate de pe internet. Conținutul creat de milioane de utilizatori de-a lungul deceniilor a fost preluat de sistemele AI fără prea multă precauție sau consimțământ.
Companiile de dezvoltare AI, implicate în preluarea de date
Numeroase companii, de la OpenAI la Google și Anthropic, sunt implicate în această preluare masivă a datelor, uneori cu permisiunea unor platforme precum Reddit sau Vox Media, alteori fără niciun acord.
Aceste practici au generat numeroase procese judiciare, inclusiv acțiuni intentate de edituri importante, cum ar fi Ziff Davis.
Cu toate acestea, sistemele AI au o nevoie constantă de date proaspete. Un studiu recent avertizează că modelele actuale ar putea epuiza sursele de date relevante până în 2028.
În acest context, tot mai multe voci din comunitatea tehnologică se opun acestei practici considerate abuzive. Nu doar marile edituri, ci și dezvoltatorii independenți caută soluții pentru a bloca accesul roboților AI la conținutul lor.
Anubis, un scut digital împotriva extragerii de conținut
Una dintre cele mai interesante inițiative vine de la compania Xe Iaso, din Ottawa, Canada. Ea a dezvoltat Anubis, un instrument open-source care permite proprietarilor de site-uri să blocheze automat roboții AI care încearcă să extragă conținut pentru antrenarea modelelor AI.
Anubis funcționează printr-un test inteligent, numit de creatoare „uncaptcha”. Atunci când un utilizator accesează un site, browserul său trebuie să execute o serie de calcule criptografice în JavaScript.
Browserele moderne, începând cu versiunile din 2022, trec cu succes acest test, în timp ce majoritatea roboților AI nu pot face față, fie din cauza imposibilității de a rula JavaScript, fie din cauza resurselor limitate. Astfel, Anubis permite diferențierea automată între utilizatorii umani și sistemele automate de preluare de conținut.
De la lansarea la începutul lui 2025, proiectul a fost descărcat de peste 200.000 de ori și continuă să fie îmbunătățit. Xe Iaso intenționează să adauge funcționalități noi, inclusiv teste mai simple pentru utilizatori și versiuni care nu se bazează pe JavaScript.
Internetul își recunoaște valoarea
Anubis nu este singurul instrument în lupta împotriva extragerii automate. Companii precum Cloudflare au început să blocheze implicit roboții AI și oferă utilizatorilor posibilitatea de a percepe taxe pentru accesul acestora.
Această tendință indică o schimbare semnificativă: creatorii de conținut și administratorii de site-uri își recunosc valoarea muncii lor și impun limite accesului automat.
