Învățarea zero-shot rezolvă mai multe probleme în învățarea automată, dar cum funcționează și cum îmbunătățește AI?

Recomandări cheie

  • Generalizarea este esențială în învățarea profundă pentru a asigura predicții precise cu date noi. Învățarea zero-shot ajută la realizarea acestui lucru, permițând AI să folosească cunoștințele existente pentru a face predicții precise despre clase noi sau nevăzute fără date etichetate.
  • Învățarea zero-shot imită modul în care oamenii învață și procesează datele. Prin furnizarea de informații semantice suplimentare, un model pre-antrenat poate identifica cu precizie noi clase, la fel cum un om poate învăța să identifice o chitară cu corp gol prin înțelegerea caracteristicilor acesteia.
  • Învățarea zero-shot îmbunătățește IA prin îmbunătățirea generalizării, scalabilitatea, reducerea supraadaptării și fiind rentabilă. Acesta permite modelelor să fie antrenate pe seturi de date mai mari, să obțină mai multe cunoștințe prin învățarea prin transfer, să aibă o mai bună înțelegere contextuală și să reducă nevoia de date extinse etichetate. Pe măsură ce AI avansează, învățarea zero-shot va deveni și mai importantă în abordarea provocărilor complexe din diferite domenii.
    instagram viewer

Unul dintre cele mai mari obiective ale învățării profunde este formarea modelelor care au dobândit cunoștințe generalizate. Generalizarea este esențială deoarece asigură că modelul a învățat modele semnificative și poate face predicții sau decizii precise atunci când se confruntă cu date noi sau nevăzute. Antrenarea unor astfel de modele necesită adesea o cantitate considerabilă de date etichetate. Cu toate acestea, astfel de date pot fi costisitoare, consumatoare de forță de muncă și uneori imposibile.

Învățarea zero-shot este implementată pentru a reduce această decalaj, permițând AI să-și folosească cunoștințele existente pentru a face predicții destul de precise, în ciuda lipsei de date etichetate.

Ce este învățarea Zero-Shot?

Învățarea zero-shot este un tip specific de tehnică de învățare prin transfer. Se concentrează pe utilizarea unui model pre-antrenat pentru a identifica clase noi sau nevăzute până acum, pur și simplu prin furnizarea de informații suplimentare care descriu detaliile noii clase.

Folosind cunoștințele generale ale unui model despre anumite subiecte și oferindu-i o semantică suplimentară asupra a ceea ce trebuie căutat, ar trebui să fie capabil să identifice destul de precis subiectul pe care trebuie să îl identifice.

Să presupunem că trebuie să identificăm o zebră. Cu toate acestea, nu avem un model care să poată identifica astfel de animale. Așadar, obținem un model preexistent antrenat să identifice caii și să îi spună modelului că caii cu dungi albe și negre sunt zebre. Când începem să deducem modelul furnizând imagini cu zebre și cai, există șanse mari ca modelul să identifice corect fiecare animal.

La fel ca multe tehnici de învățare profundă, învățarea zero-shot imită modul în care oamenii învață și procesează datele. Oamenii sunt cunoscuți a fi niște cursanți naturali cu zero. Dacă ați fost însărcinat să găsiți o chitară cu corp gol într-un magazin de muzică, este posibil să aveți probleme în căutarea uneia. Dar odată ce îți spun că un corp gol este practic o chitară cu o gaură în formă de f pe una sau ambele părți, probabil vei găsi una imediat.

Pentru un exemplu real, să folosim aplicația de clasificare zero-shot de site-ul de găzduire LLM cu sursă deschisă Hugging Face folosind modelul clip-vit-large.

Această fotografie prezintă o imagine a pâinii într-o pungă de băcănie legată de un scaun înalt. Deoarece modelul a fost instruit pe un set mare de date de imagini, modelul poate identifica probabil fiecare articol din fotografie, cum ar fi pâinea, alimentele, scaunele și centurile de siguranță.

Acum, dorim ca modelul să clasifice imaginea folosind clase nevăzute anterior. În acest caz, clasele romane sau nevăzute ar fi „Pâine relaxată”, „Pâine sigură”, „Pâine așezată”, „Driving Grocery” și „Safe Grocery”.

Rețineți că am folosit în mod intenționat clase și imagini neobișnuite nevăzute pentru a demonstra eficiența clasificării zero-shot pe o imagine.

După deducerea modelului, a fost capabil să clasifice cu aproximativ 80% certitudine că cea mai potrivită clasificare pentru imaginea era „Safe Bread”. Acest lucru se datorează probabil faptului că modelul crede că un scaun înalt este mai mult pentru siguranță decât ședința, relaxarea sau conducere.

Minunat! Personal as fi de acord cu rezultatul modelului. Dar cum anume a venit modelul cu astfel de rezultate? Iată o abordare generală a modului în care funcționează învățarea zero-shot.

Cum funcționează învățarea Zero-Shot

Învățarea zero-shot poate ajuta un model pre-antrenat să identifice noi clase fără a furniza date etichetate. În forma sa cea mai simplă, învățarea zero-shot se face în trei pași:

1. Pregătirea

Învățarea zero-shot începe prin pregătirea a trei tipuri de date

  • Clasa vazuta: Date utilizate în formarea modelului pre-antrenat. Modelul oferă deja clase văzute. Cele mai bune modele pentru învățarea zero-shot sunt modelele antrenate pe clase strâns legate de noua clasă pe care doriți să o identifice modelul.
  • Clasa nevăzută/novel: Date care nu au fost niciodată utilizate în timpul pregătirii modelului. Va trebui să vă selectați singur aceste date, deoarece nu le puteți obține de la model.
  • Date semantice/auxiliare: Biți suplimentari de date care pot ajuta modelul să identifice noua clasă. Aceasta poate fi în cuvinte, expresii, înglobări de cuvinte sau nume de clasă.

2. Maparea semantică

Următorul pas este să mapați caracteristicile clasei nevăzute. Acest lucru se realizează prin crearea înglobărilor de cuvinte și realizarea unei hărți semantice care leagă atributele sau caracteristicile clasei nevăzute de datele auxiliare furnizate. Învățare prin transfer AI face procesul mult mai rapid, deoarece multe atribute legate de clasa nevăzută au fost deja mapate.

3. Deducerea

Inferențele reprezintă utilizarea modelului pentru a genera predicții sau rezultate. În clasificarea imaginilor zero-shot, înglobările de cuvinte sunt generate pe intrarea de imagine dată și apoi sunt trasate și comparate cu datele auxiliare. Nivelul de certitudine va depinde de asemănarea dintre datele de intrare și datele auxiliare furnizate.

Cum învățarea Zero-Shot îmbunătățește AI

Învățarea zero-shot îmbunătățește modelele AI prin abordarea mai multor provocări în învățarea automată, inclusiv:

  • Generalizare îmbunătățită: Reducerea dependenței de datele etichetate permite modelelor să fie antrenate în seturi de date mai mari, îmbunătățind generalizarea și făcând modelul mai robust și mai fiabil. Pe măsură ce modelele devin mai experimentate și generalizate, este posibil chiar ca modelele să învețe bunul simț mai degrabă decât modul tipic de analiză a informațiilor.
  • Scalabilitate: Modelele pot fi instruite în mod continuu și pot obține mai multe cunoștințe prin învățare prin transfer. Companiile și cercetătorii independenți își pot îmbunătăți continuu modelele pentru a fi mai capabili în viitor.
  • Șanse reduse de supraadaptare: Supraadaptarea se poate întâmpla din cauza modelului care este antrenat pe un set mic de date care nu conține suficientă varietate pentru a reprezenta toate intrările posibile. Antrenarea modelului prin învățarea zero-shot reduce șansele de supraadaptare prin antrenarea modelului pentru a avea o mai bună înțelegere contextuală a subiecților.
  • Cost eficient: Furnizarea unei cantități mari de date etichetate poate necesita timp și resurse. Folosind învățarea cu transfer zero-shot, antrenarea unui model robust se poate face cu mult mai puțin timp și cu date etichetate.

Pe măsură ce AI avansează, tehnici precum învățarea zero-shot vor deveni și mai importante.

Viitorul învățării Zero-Shot

Învățarea zero-shot a devenit o parte esențială a învățării automate. Permite modelelor să recunoască și să clasifice noi clase fără instruire explicită. Cu progresul continuu în arhitecturile modelelor, abordările bazate pe atribute și integrarea multimodală, învățarea zero-shot poate contribuie în mod semnificativ la adaptarea multor modelelor în abordarea provocărilor complexe din robotică, asistență medicală și computer viziune.