Acest model de limbaj mare a fost instruit pe dark web pentru a evalua amenințările la adresa securității cibernetice. Iată ce trebuie să știți.
Popularitatea modelelor de limbaj mari (LLM) este în creștere, altele noi intră în mod continuu în scenă. Aceste modele, cum ar fi ChatGPT, sunt de obicei instruite pe diverse surse de internet, inclusiv articole, site-uri web, cărți și rețele sociale.
Într-o mișcare fără precedent, o echipă de cercetători sud-coreeni a dezvoltat DarkBERT, un LLM instruit pe seturi de date preluate exclusiv de pe dark web. Scopul lor a fost de a crea un instrument de inteligență artificială care depășește modelele lingvistice existente și ajută cercetătorii amenințărilor, forțele de ordine și profesioniștii în securitate cibernetică în lupta împotriva amenințărilor cibernetice.
Ce este DarkBERT?
DarkBERT este un model de codificator bazat pe transformator, bazat pe arhitectura Roberta. LLM a fost instruit pe milioane de pagini web întunecate, inclusiv date de pe forumuri de hacking, site-uri web de escrocherie și alte surse online asociate cu activități ilegale.
Termenul „web întunecat” se referă la o secțiune de internet ascunsă inaccesibil prin browserele web standard. Subsecțiunea este renumită pentru că adăpostește site-uri web anonime și piețe infame pentru activități ilegale, cum ar fi comerțul cu date furate, droguri și arme.
Pentru a instrui DarkBERT, cercetătorii au câștigat acces la dark web prin rețeaua Tor și a colectat date brute. Ei au filtrat cu atenție aceste date folosind tehnici precum deduplicarea, echilibrarea categoriilor și preprocesarea pentru creați o bază de date dark web rafinată, care a fost apoi transmisă lui Roberta pe parcursul a aproximativ 15 zile pentru a crea DarkBERT.
Utilizări posibile ale DarkBERT în securitatea cibernetică
DarkBERT are o înțelegere remarcabilă a limbajului infractorilor cibernetici și excelează în identificarea amenințărilor potențiale specifice. Poate cerceta rețeaua întunecată și poate identifica și semnaliza cu succes amenințările de securitate cibernetică, cum ar fi scurgerile de date și ransomware, făcându-l un instrument potențial util pentru combaterea amenințărilor cibernetice.
Pentru a evalua eficacitatea DarkBERT, cercetătorii l-au comparat cu două modele renumite NLP, BERT și RoBERTa, evaluându-și performanța în trei cazuri de utilizare esențiale legate de securitatea cibernetică, cercetarea, postat pe arxiv.org, indică.
1. Monitorizați forumurile Dark Web pentru fire potențial dăunătoare
Monitorizarea forumurilor dark web, care sunt utilizate în mod obișnuit pentru schimbul de informații ilicite, este crucială pentru a identifica firele potențial periculoase. Cu toate acestea, revizuirea manuală a acestora poate fi consumatoare de timp, făcând automatizarea procesului benefică experților în securitate.
Cercetătorii s-au concentrat asupra activităților potențial dăunătoare din forumurile de hacking, elaborând linii directoare de adnotare pentru fire demn de remarcat, inclusiv partajarea datelor confidențiale și distribuirea de programe malware critice sau vulnerabilități.
DarkBERT a depășit alte modele de limbaj în ceea ce privește precizia, reamintirea și scorul F1, devenind alegerea superioară pentru identificarea firelor demne de remarcat pe dark web.
2. Detectați site-uri care găzduiesc informații confidențiale
Hackerii și grupurile de ransomware folosesc web-ul întunecat pentru a crea site-uri de scurgeri, unde publică date confidențiale furate de la organizații care refuză să se conformeze cererilor de răscumpărare. Alți criminali cibernetici doar încarcă date sensibile scurse, cum ar fi parole și informații financiare, pe dark web cu intenția de a le vinde.
În studiul lor, cercetătorii au colectat date de la grupuri notorii de ransomware și a analizat site-urile de scurgeri de ransomware care publică datele private ale organizațiilor. DarkBERT a depășit alte modele lingvistice în identificarea și clasificarea unor astfel de site-uri, arătându-și înțelegerea limbajului folosit în forumurile de hacking underground de pe dark web.
DarkBERT folosește funcția de umplere-mască, o caracteristică inerentă a modelelor de limbaj familial BERT, pentru a identifica cu exactitate cuvintele cheie asociate cu activități ilegale, inclusiv vânzările de droguri pe dark web.
Când cuvântul „MDMA” a fost mascat într-o pagină de vânzări de droguri, DarkBERT a generat cuvinte legate de droguri, în timp ce alte modele sugerau cuvinte și termeni generali fără legătură cu drogurile, cum ar fi diferite profesii.
Capacitatea DarkBERT de a identifica cuvinte cheie legate de activități ilicite poate fi valoroasă în urmărirea și abordarea amenințărilor cibernetice emergente.
DarkBERT este accesibil publicului larg?
DarkBERT este momentan indisponibil publicului, dar cercetătorii sunt deschiși la cererile de utilizare în scopuri academice.
Valorificați puterea AI pentru detectarea și prevenirea amenințărilor
DarkBERT a fost pregătit în prealabil cu privire la datele dark web și depășește modelele lingvistice existente în mai multe cazuri de utilizare a securității cibernetice, poziționându-se ca un instrument crucial pentru avansarea cercetării dark web.
Inteligența artificială antrenată pe dark web are potențialul de a fi utilizată pentru diverse sarcini de securitate cibernetică, inclusiv identificarea site-urilor web care vând scurgeri date confidențiale, monitorizarea forumurilor dark web pentru a detecta schimbul ilicit de informații și identificarea cuvintelor cheie legate de cibernetica amenințări.
Dar ar trebui să vă amintiți întotdeauna că, la fel ca și alte LLM-uri, DarkBERT este o lucrare în curs de desfășurare, iar performanța sa poate fi îmbunătățită prin formare continuă și ajustare fină.