Microsoft a lansat un instrument destinat să detecteze „backdoor-uri” în modelele mari de limbaj open-weight, construit pentru a identifica eventuale compromisuri în sistemele de Inteligență Artificială. Acest scanner este conceput să funcționeze rapid și eficient, minimizând alarmele false, și poate fi utilizat în cercetare, industrie și aplicații comerciale.
Funcționarea și modul de identificare
Scannerul analizează comportamentul intern al modelelor AI fără a necesita antrenare suplimentară sau informații anterioare despre atacuri. Acesta urmărește modul în care anumite inputuri influențează structura de procesare a modelului și distribuția rezultatelor, identificând semnale ce pot indica prezența unui backdoor.
Estecare metodă se bazează pe observarea unor semnale din comportamentul modelului, precum atenția internă, memorarea specifică de fragmente și declanșarea de către variații ale frazelor originale. Procesul implică extragerea conținutului memorat, analizarea secvențelor relevante și aplicarea unor funcții de evaluare pentru a determina nivelul de suspiciune.
Rezultatul este o listă ierarhizată de potențiali trigger-i, urmând a fi analizată de către echipele de securitate AI. Instrumentul poate fi utilizat pe mai multe arhitecturi de tip GPT și nu necesită modificări ale modelului, fiind astfel compatibil cu ecosistemele open-weight.
Particularități și limitări ale tehnologiei
Instrumentul nu poate fi aplicat modelelor proprietare (closed-source), deoarece necesită acces la fișierele interne ale modelului. De asemenea, funcționează cel mai bine pentru detectarea backdoor-urilor bazate pe declanșatori specifici și răspunsuri deterministe.
Microsoft recunoaște că această soluție nu reprezintă o metodă universală de protecție împotriva tuturor atacurilor AI, fiind un pas practic în detecția operațională. Nu acoperă toate formele de manipulare, precum injection-ul de prompturi, contaminarea datelor de antrenament sau atacurile externelor API-uri.
Compania extinde în acest moment strategia de securitate, integrând riscuri specifice AI în procesul de dezvoltare sigură (Secure Development Lifecycle – SDL). Astfel, ia în considerare amenințări precum manipularea pluginurilor, contaminarea datelor și modificarea memoriei contextuale.
Deseori, sistemele de tip AI acum funcționează fără delimitări clare între zone de încredere. Inputurile provin din surse multiple, inclusiv prompturi, date externe, actualizări de modele și servicii terțe, ceea ce creează multiple puncte vulnerabile. Sistemele AI trebuie gestionate și monitorizate continuu pentru a preveni și detecta comportamente malițioase.
