Când un om privește o scenă sau o imagine, îl înțelege - ce obiecte sunt în ea și ce se întâmplă dacă are loc o acțiune. Un computer, pe de altă parte, procesează doar date digitale care descriu valoarea culorii fiecărui pixel. Pentru un om, recunoașterea unei pizza pe o masă aglomerată este fără efort. Dar, până de curând, computerele nu ar putea îndeplini aceeași sarcină.
Viziunea computerizată sau CV-ul, permite unui computer să poată alege informații importante din intrările vizuale și să facă predicții și recomandări precise pe baza acestor informații.
Cum funcționează viziunea computerizată?
Înainte de viziunea computerizată, pentru a crea un program care să recunoască o anumită imagine, o persoană ar trebui să facă ore întregi de muncă manuală a picioarelor. În primul rând, ar trebui colectată o bază de date cu imagini similare.
Apoi, aceste imagini ar trebui să fie analizate manual, măsurate și adnotate cu date relevante că cercetătorul a crezut că ar putea identifica obiectul în cauză (cum ar fi culoarea, măsurătorile și formă). Abia atunci software-ul ar putea fi folosit pentru a face predicții.
Pe de altă parte, viziunea pe computer automatizează întregul proces folosind o abordare de învățare automată cunoscută sub numele de învățare profundă. Învățarea profundă utilizează o rețea neuronală cu mai multe straturi cu sute de straturi potențiale. În cazul imaginilor, aceasta este de obicei o rețea neuronală convoluțională (CNN).
Explicarea în detaliu a modului în care funcționează învățarea profundă și rețelele neuronale depășește cu mult domeniul de aplicare al acestui articol. Practic, cantități mari de date sunt introduse în rețeaua neuronală. Rețeaua neuronală analizează datele în mod repetat, până când poate forma predicții exacte despre aceasta.
În cazul unei CNN utilizate pentru o sarcină de vizionare computerizată, rețeaua neuronală efectuează datele prin mai mulți pași. În primul rând, colapsează imaginea în mai multe bucăți (pixeli individuali sau grupuri de pixeli care sunt etichetați în prealabil).
Apoi, face predicții despre ceea ce se află în diferite piese ale imaginii (cum ar fi marginile dure sau obiectele specifice). Verifică în mod repetat acuratețea acestor predicții și modifică ușor părți ale algoritmului de fiecare dată până când devine foarte precis.
Computerele sunt acum atât de puternice încât pot analiza o imagine mult mai rapid decât creierul uman, mai ales odată ce au învățat să recunoască anumite tipare. În acest fel, este ușor de văzut cum un algoritm de învățare profundă ar putea depăși capacitățile umane.
Care sunt tipurile de viziune computerizată?
Viziunea pe computer implică analiza și înțelegerea imaginilor și producerea de predicții sau decizii relevante despre imagini. Există diverse sarcini pe care viziunea computerizată le va folosi pentru a atinge aceste obiective. Unele dintre acestea includ:
- Clasificarea imaginii: Tipul de imagine este recunoscut. De exemplu, dacă este vorba de chipul, peisajul sau obiectul unei persoane. Acest tip de sarcină poate fi folosit pentru a identifica și clasifica rapid imaginile. O utilizare pentru aceasta este recunoașterea și blocarea automată a conținutului necorespunzător pe social media.
- Recunoașterea obiectelor: Similar clasificării imaginilor, recunoașterea obiectelor poate identifica un anumit obiect dintr-o scenă - cum ar fi o pizza pe o masă aglomerată.
- Detectarea muchiilor: O utilizare obișnuită a viziunii computerizate și, de obicei, primul pas în detectarea obiectelor, este identificarea marginilor dure dintr-o imagine.
- Identificarea obiectului: Aceasta este recunoașterea exemplelor individuale ale unui obiect sau imagine, cum ar fi identificarea unei anumite persoane, a amprentelor digitale sau a unui vehicul.
- Detectarea obiectelor: Detectarea este identificarea unei anumite trăsături în cadrul unei imagini, cum ar fi un os fracturat într-o radiografie.
- Segmentarea obiectului: Aceasta este identificarea pixelilor din imagine care aparțin obiectului în cauză.
- Urmărirea obiectelor: Într-o secvență video, după ce un obiect a fost recunoscut, acesta poate fi urmărit cu ușurință pe tot parcursul videoclipului.
- Restaurarea imaginii: Estomparea, zgomotul și alte artefacte ale imaginii pot fi îndepărtate identificând cu exactitate unde se află obiectul în raport cu fundalul din imagine.
Exemple de viziune computerizată
Inteligența artificială este deja utilizat în mai multe industrii cu un efect uluitor, care este adevărat pentru viziunea computerizată. Iată câteva exemple de CV deja utilizate astăzi.
Recunoastere faciala
Recunoașterea facială este una dintre principalele modalități prin care viziunea pe computer este utilizată astăzi. În comparație cu bazele de date cu fețe cunoscute, algoritmii de viziune pe computer pot identifica foarte precis persoane individuale.
- Social media analizează imaginile și etichetează automat utilizatorii pentru care are o selecție bună de imagini.
- Laptopurile, telefoanele și dispozitivele de securitate pot identifica persoanele pentru a permite accesul.
- Oamenii legii folosesc recunoașterea facială în sistemele CCTV pentru a identifica suspecții.
Medicament
Viziunea computerizată este utilizată în prezent în asistența medicală pentru a oferi diagnostice mai rapide și mai precise decât pot face experții. Multe aplicații implică analiza imaginilor cu raze X, CT sau RMN pentru anumite afecțiuni, inclusiv boli neurologice, tumori și oase rupte sau fracturate.
Mașini cu conducere automată
Vehiculele autonome trebuie să-și înțeleagă împrejurimile să conduci în siguranță. Aceasta înseamnă recunoașterea drumurilor, benzilor, semnalelor de circulație, altor vehicule, pietoni și multe altele. Toate aceste sarcini utilizează sisteme de viziune computerizată în timp real pentru a evita coliziunile și a conduce în siguranță.
Viziunea pe computer este provocatoare
Aplicațiile actuale ale viziunii pe computer încep deja să schimbe modul în care lucrăm în diferite industrii. De la posibilitatea de a detecta echipamente defecte sau defecte până la diagnosticarea exactă a cancerului, vederea computerizată are capacitatea de a îmbunătăți sistemele și de a salva vieți.
Dar nu este lipsit de provocări. Viziunea computerizată este încă departe de ceea ce este viziunea umană. Avem mii de ani de evoluție care ne permit să recunoaștem și să înțelegem aproape tot ce se întâmplă în jurul nostru în timp real. Dar nu avem nicio idee despre modul în care creierul uman îndeplinește aceste sarcini.
Învățarea profundă este un pas masiv în direcția corectă, dar necesită totuși o cantitate uimitoare de muncă pentru a crea un sistem care poate îndeplini o sarcină pe care oamenii o pot face foarte ușor, cum ar fi identificarea unei mașini pe drum. Acest lucru se datorează faptului că computerele efectuează sarcini constrânse foarte eficient. Dezvoltarea unui computer care poate înțelege complexitatea totală a lumii vizuale este un joc cu mingea complet diferit.
Pe măsură ce se cercetează mai mult atât aplicațiile AI, cât și biologia umană, este posibil să vedem o explozie de utilizări posibile pentru viziunea computerizată în viitorul apropiat.
Algoritmii de învățare automată sunt concepuți pentru a face viața mai ușoară și pentru a îmbunătăți sistemele, dar se pot strică cu consecințe nefaste.
Citiți în continuare
- Tehnologie explicată
- Programare
- Inteligență artificială
- Rețele neuronale
Jake Harfield este un scriitor independent, cu sediul în Perth, Australia. Când nu scrie, este de obicei în tufiș fotografiind animale sălbatice locale. Îl puteți vizita la www.jakeharfield.com
Aboneaza-te la newsletter-ul nostru
Alăturați-vă newsletter-ului pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!
Încă un pas…!
Vă rugăm să confirmați adresa de e-mail în e-mailul pe care tocmai vi l-am trimis.