Modelele AI sunt la fel de bune ca și datele care intră în ele. Asta face din aceste date o țintă potențială pentru atacuri.

Progresele în inteligența artificială au avut o influență semnificativă în diferite domenii. Acest lucru a dat motive de îngrijorare unui număr destul de mare de pasionați de tehnologie. Pe măsură ce aceste tehnologii se extind în diferite aplicații, pot duce la o creștere a atacurilor adverse.

Ce sunt atacurile adverse în inteligența artificială?

Atacurile adverse exploatează specificațiile și vulnerabilitățile din modelele AI. Ele corup datele de la care modelele AI au învățat și fac ca aceste modele să genereze rezultate inexacte.

Imaginați-vă că un farsător schimbă plăcile de scrabble aranjate ca ananas pentru a deveni „applepin”. Acest lucru este similar cu ceea ce se întâmplă în atacurile adverse.

În urmă cu câțiva ani, obținerea de câteva răspunsuri sau rezultate incorecte de la un model AI era norma. Acum se întâmplă invers, deoarece inexactitățile au devenit o excepție, utilizatorii de AI așteaptă rezultate aproape perfecte.

instagram viewer

Atunci când aceste modele AI sunt aplicate scenariilor din lumea reală, inexactitățile pot fi fatale, făcând atacurile adverse foarte periculoase. De exemplu, autocolantele de pe semnele de circulație pot deruta o mașină autonomă cu conducere autonomă și o pot face să se deplaseze în trafic sau direct într-un obstacol.

Tipuri de atacuri adverse

Există diferite forme de atacuri adverse. Cu creșterea integrării AI în aplicațiile de zi cu zi, aceste atacuri se vor agrava și mai complexe.

Cu toate acestea, putem clasifica aproximativ atacurile adverse în două tipuri, în funcție de cât de multe știe actorul amenințării despre modelul AI.

1. Atacurile cutiei albe

În atacurile cutie albă, actorii amenințărilor au cunoștințe complete despre funcționarea interioară a modelului AI. Ei cunosc specificațiile, datele de antrenament, tehnicile de procesare și parametrii. Aceste cunoștințe le permit să construiască un atac adversar special pentru model.

Primul pas într-un atac cu casetă albă este modificarea datelor originale de antrenament, corupându-le în cel mai mic mod posibil. Datele modificate vor fi în continuare foarte asemănătoare cu cele originale, dar suficient de semnificative pentru a determina ca modelul AI să dea rezultate inexacte.

Asta nu este tot. În urma atacului, actorul amenințării evaluează eficacitatea modelului furnizându-i exemple contradictorii—intrări distorsionate menite să determine greșelile modelului— și analizează rezultatul. Cu cât rezultatul este mai inexact, cu atât atacul este mai reușit.

2. Atacurile cutiei negre

Spre deosebire de atacurile cu caseta albă, în care actorul amenințării știe despre funcționarea interioară a modelului AI, autorii atacuri cutie neagră habar n-am cum funcționează modelul. Pur și simplu observă modelul dintr-un punct mort, monitorizându-i valorile de intrare și de ieșire.

Primul pas într-un atac cu caseta neagră este selectarea țintei de intrare pe care modelul AI vrea să o clasifice. Actorul amenințării creează apoi o versiune rău intenționată a intrării adăugând zgomot atent creat, perturbări ale datelor invizibile pentru ochiul uman, dar capabile să determine modelul AI defecțiune.

Versiunea rău intenționată este alimentată modelului, iar rezultatul este observat. Rezultatele oferite de model îl ajută pe actorul amenințării să continue să modifice versiunea până când sunt suficient de încrezători încât ar clasifica greșit orice date introduse în ea.

Tehnici utilizate în atacurile adversare

Entitățile rău intenționate pot folosi diferite tehnici pentru a efectua atacuri adverse. Iată câteva dintre aceste tehnici.

1. Otrăvire

Atacatorii pot manipula (otrăvi) o mică parte din datele de intrare ale unui model AI pentru a compromite seturile de date de antrenament și acuratețea acestuia.

Există mai multe forme de otrăvire. Una dintre cele obișnuite se numește intoxicație cu uși din spate, unde sunt afectate foarte puține date de antrenament. Modelul AI continuă să ofere rezultate extrem de precise până când este „activat” pentru a funcționa defectuos la contactul cu declanșatoare specifice.

2. Evaziune

Această tehnică este destul de letală, deoarece evită detectarea urmărind sistemul de securitate al AI.

Majoritatea modelelor AI sunt echipate cu sisteme de detectare a anomaliilor. Tehnicile de evaziune folosesc exemple contradictorii care merg direct după aceste sisteme.

Această tehnică poate fi deosebit de periculoasă împotriva sistemelor clinice precum mașinile autonome sau modelele de diagnosticare medicală. Acestea sunt domenii în care inexactitățile pot avea consecințe grave.

3. Transferabilitate

Actorii de amenințări care folosesc această tehnică nu au nevoie de cunoștințe anterioare despre parametrii modelului AI. Ei folosesc atacuri adverse care au avut succes în trecut împotriva altor versiuni ale modelului.

De exemplu, dacă un atac advers face ca un model de clasificator de imagini să confunde o țestoasă cu o pușcă, atacul exact ar putea determina alte modele de clasificare de imagini să facă aceeași eroare. Celelalte modele ar fi putut fi antrenate pe un set de date diferit și chiar ar fi putut avea o arhitectură diferită, dar ar putea fi totuși victime ale atacului.

4. Maternitatea surogat

În loc să urmărească sistemele de securitate ale modelului folosind tehnici de evaziune sau atacuri de succes anterior, actorul amenințării ar putea folosi un model surogat.

Cu această tehnică, actorul amenințării creează o versiune identică a modelului țintă, un model surogat. Rezultatele, parametrii și comportamentele unui surogat trebuie să fie identice cu modelul original care a fost copiat.

Surogatul va fi acum supus la diferite atacuri adverse până când unul îl face să producă un rezultat inexact sau să facă o clasificare greșită. Apoi, acest atac va fi folosit pe AI-ul țintă inițial.

Cum să opriți atacurile adversare

Apărarea împotriva atacurilor adverse poate fi complexă și consumatoare de timp, deoarece actorii amenințărilor folosesc diverse forme și tehnici. Cu toate acestea, următorii pași pot preveni și opri atacurile adverse.

1. Antrenamentul adversarului

Cel mai eficient pas care poate preveni atacurile adverse este antrenamentul adversarial, antrenamentul modelelor și mașinilor AI folosind exemple adverse. Acest lucru îmbunătățește robustețea modelului și îi permite să fie rezistent la cele mai mici perturbații de intrare.

2. Audit regulat

Este necesar să se verifice în mod regulat punctele slabe ale sistemului de detectare a anomaliilor unui model AI. Aceasta implică alimentarea deliberată a modelului cu exemple adverse și monitorizarea comportamentului modelului la intrarea rău intenționată.

3. Sanitizarea datelor

Această metodă implică verificarea intrărilor rău intenționate care sunt introduse în model. După identificarea acestora, acestea trebuie îndepărtate imediat.

Aceste date pot fi identificate folosind validarea de intrare, care implică verificarea datelor pentru modele sau semnături ale exemplelor adverse cunoscute anterior.

4. Actualizări de securitate

Ar fi dificil să greșești cu actualizările și corecțiile de securitate. Securitate pe mai multe straturi, cum ar fi firewall-uri, programe anti-malware și sisteme de detectare și prevenire a intruziunilor poate ajuta la blocarea interferențelor externe din partea actorilor de amenințări care doresc să otrăvească un model AI.

Atacurile adverse ar putea fi un adversar demn

Conceptul de atacuri adverse prezintă o problemă pentru învățarea avansată și învățarea automată.

În consecință, modelele AI trebuie să fie înarmate cu apărare, cum ar fi antrenament adversar, auditare regulată, igienizarea datelor și actualizări relevante de securitate.