S-ar putea să fi auzit de atacuri adverse în legătură cu inteligența artificială și învățarea automată, dar care sunt acestea? Care sunt scopurile lor?

Tehnologia înseamnă adesea că viața noastră este mai convenabilă și mai sigură. În același timp, totuși, astfel de progrese au deblocat modalități mai sofisticate prin care infractorii cibernetici ne atacă și ne corupă sistemele de securitate, făcându-le neputincioși.

Inteligența artificială (AI) poate fi utilizată atât de profesioniștii în securitate cibernetică, cât și de infractorii cibernetici; în mod similar, sistemele de învățare automată (ML) pot fi folosite atât pentru bine, cât și pentru rău. Această lipsă de busolă morală a făcut ca atacurile adverse în ML să fie o provocare tot mai mare. Deci, ce sunt de fapt atacurile adverse? Care sunt scopul lor? Și cum te poți proteja împotriva lor?

Ce sunt atacurile adverse în învățarea automată?

ML adversar sau atacurile adversarial sunt atacuri cibernetice care urmăresc să păcălească un model ML cu intrări rău intenționate și astfel conduc la o precizie mai scăzută și o performanță slabă. Deci, în ciuda numelui său, ML adversarial nu este un tip de învățare automată, ci o varietate de tehnici pe care infractorii cibernetici - alias adversarii - le folosesc pentru a viza sistemele ML.

instagram viewer

Obiectivul principal al unor astfel de atacuri este, de obicei, de a păcăli modelul să distribuie informații sensibile, eșecul în detectarea activităților frauduloase, producerea de predicții incorecte sau coruperea bazate pe analize rapoarte. Deși există mai multe tipuri de atacuri adverse, acestea vizează frecvent detectarea spam-ului bazată pe învățarea profundă.

Probabil ați auzit despre un atacul adversarului la mijloc, care este o tehnică sofisticată nouă și mai eficientă de phishing, care implică furtul de informații private, cookie-uri de sesiune și chiar ocolirea metodelor de autentificare cu mai mulți factori (MFA). Din fericire, le poți combate cu acestea tehnologie MFA rezistentă la phishing.

Tipuri de atacuri adverse

Cel mai simplu mod de a clasifica tipurile de atacuri adverse este de a le separa în două categorii principale:atacuri țintite și atacuri nețintite. După cum se sugerează, atacurile direcționate au o țintă specifică (cum ar fi o anumită persoană), în timp ce cele nețintite nu au în minte pe nimeni anume: pot viza aproape pe oricine. Nu este surprinzător că atacurile nețintite consumă mai puțin timp, dar și mai puțin succes decât omologii lor vizați.

Aceste două tipuri pot fi subdivizate în continuare cutie alba și cutie neagră atacuri adverse, în care culoarea sugerează cunoașterea sau necunoașterea modelului ML vizat. Înainte de a ne aprofunda în atacurile cu casetă albă și cutie neagră, să aruncăm o privire rapidă la cele mai comune tipuri de atacuri adverse.

  • Evaziune: Folosite mai ales în scenarii de malware, atacurile de evaziune încearcă să evite detectarea prin ascunderea conținutului e-mailurilor infestate de malware și spam. Prin utilizarea metodei de încercare și eroare, atacatorul manipulează datele în momentul implementării și corupă confidențialitatea unui model ML. Falsificarea biometrică este unul dintre cele mai comune exemple de atac de evaziune.
  • Otrăvirea datelor: Cunoscute și sub denumirea de atacuri contaminante, acestea urmăresc să manipuleze un model ML în timpul perioadei de instruire sau de implementare și să scadă precizia și performanța. Prin introducerea unor intrări rău intenționate, atacatorii perturbă modelul și îngreunează ca profesioniștii în securitate să detecteze tipul de eșantion de date care corupă modelul ML.
  • falii bizantine: Acest tip de atac provoacă pierderea unui serviciu de sistem ca urmare a unei defecțiuni bizantine în sistemele care necesită consens între toate nodurile sale. Odată ce unul dintre nodurile sale de încredere devine necinstită, poate lansa un atac de refuzare a serviciului (DoS) și poate opri sistemul, împiedicând alte noduri să comunice.
  • Extragerea modelului: Într-un atac de extracție, adversarul va sonda un sistem ML cu casetă neagră pentru a-și extrage datele de antrenament sau, în cel mai rău caz, modelul în sine. Apoi, cu o copie a unui model ML în mâini, un adversar și-ar putea testa malware-ul împotriva antimalware/antivirus și ar putea afla cum să-l ocolească.
  • Atacurile de inferență: Ca și în cazul atacurilor de extracție, scopul aici este de a face ca un model ML să scurgă informații despre datele sale de antrenament. Cu toate acestea, adversarul va încerca apoi să stabilească ce set de date a fost folosit pentru a antrena sistemul, astfel încât să poată exploata vulnerabilitățile sau părtinirile din acesta.

White-Box vs. Black-Box vs. Atacurile adverse Grey-Box

Ceea ce diferențiază aceste trei tipuri de atacuri adverse este cantitatea de cunoștințe pe care o au adversarii despre funcționarea interioară a sistemelor ML pe care intenționează să le atace. În timp ce metoda cutiei albe necesită informații exhaustive despre modelul ML vizat (inclusiv arhitectură și parametri), metoda cutiei negre nu necesită informații și le poate observa doar iesiri.

Între timp, modelul grey-box se află la mijlocul acestor două extreme. Potrivit acestuia, adversarii pot avea unele informații despre setul de date sau alte detalii despre modelul ML, dar nu toate.

Cum poți apăra învățarea automată împotriva atacurilor adverse?

În timp ce oamenii sunt încă componenta critică în consolidarea securității cibernetice,AI și ML au învățat cum să detecteze și să prevină atacurile rău intenționate— pot crește acuratețea detectării amenințărilor rău intenționate, monitorizarea activității utilizatorilor, identificarea conținutului suspect și multe altele. Dar pot respinge atacurile adverse și pot proteja modelele ML?

O modalitate prin care putem combate atacurile cibernetice este să antrenăm sistemele ML să recunoască atacurile adverse din timp, adăugând exemple la procedura lor de instruire.

Spre deosebire de această abordare cu forța brută, metoda de distilare defensivă propune să folosim modelul primar, mai eficient pentru a calcula dezvăluiți caracteristicile critice ale unui model secundar, mai puțin eficient și apoi îmbunătățiți acuratețea secundarului cu cel primar unu. Modelele ML antrenate cu distilare defensivă sunt mai puțin sensibile la probele adverse, ceea ce le face mai puțin susceptibile la exploatare.

De asemenea, am putea modifica constant algoritmii pe care modelele ML îi folosesc pentru clasificarea datelor, ceea ce ar putea face ca atacurile adverse să nu aibă succes.

O altă tehnică notabilă este strângerea caracteristicilor, care va reduce spațiul de căutare disponibil adversarilor prin „strângerea” funcțiilor de introducere inutile. Aici, scopul este de a minimiza falsele pozitive și de a face detectarea exemplelor adverse mai eficientă.

Protejarea învățării automate și a inteligenței artificiale

Atacurile adverse ne-au arătat că multe modele ML pot fi spulberate în moduri surprinzătoare. La urma urmei, învățarea automată adversară este încă un domeniu de cercetare nou în domeniul securității cibernetice și vine cu multe probleme complexe pentru AI și ML.

Deși nu există o soluție magică pentru protejarea acestor modele împotriva tuturor atacurilor adverse, viitorul va aduce probabil tehnici mai avansate și strategii mai inteligente pentru a aborda acest teribil adversar.