Publicitate
Scoaterea textului din imagini nu a fost niciodată mai ușoară decât în prezent datorită tehnologiei de recunoaștere a caracterelor optice (OCR).
OCR ne permite să facem tot felul de lucruri utile, cum ar fi căutarea de imagini folosind interogări de text, reproducerea documentelor fără a le scrie manual, și chiar convertirea textului scris în manual în text digital Cum să convertiți o imagine cu scrierea de mână în text folosind OCRTrebuie să digitalizați notele scrise de mână pentru editare sau să le salvați mai târziu? Iată cele mai bune instrumente OCR pentru a converti scrisul de mână în text. Citeste mai mult .
Dar ce este recunoașterea optică a caracterelor? Cum funcționează de fapt? Vi se poate părea o magie neagră, dar până la sfârșitul acestui articol, veți avea o înțelegere solidă a modului în care computerele pot recunoaște litere și cuvinte.
Cum funcționează recunoașterea optică a caracterului
Pentru a înțelege modul în care textul este extras dintr-o imagine, trebuie mai întâi să înțelegem ce sunt imaginile și cum sunt stocate pe computere.
A pixel este un singur punct al unei anumite culori. Un imagine este în esență o colecție de pixeli. Cu cât sunt mai mulți pixeli într-o imagine, cu atât rezoluția este mai mare. Un computer nu știe că o imagine a unui panou indicativ este într-adevăr un indicativ - știe doar că primul pixel este această culoare, următorul pixel este acea culoare și afișează toți pixelii pe care îi puteți vedea.
Aceasta înseamnă că textul și non-textul nu sunt diferite de un computer și de aceea recunoașterea optică a caracterelor este atât de dificilă. În acest sens, iată cum funcționează.
Pasul 1: Pre-procesarea imaginii
Înainte ca textul să poată fi tras, imaginea trebuie să fie masată în anumite moduri pentru a face extragerea mai ușoară și mai probabil să aibă succes. Aceasta se numește pre-procesare și diferite soluții software folosesc combinații diferite de tehnici.
Tehnicile de prelucrare mai frecvente includ:
binarizare
Fiecare singur pixel din imagine este convertit în alb sau negru. Scopul este să clarificăm ce pixeli aparțin textului și care pixeli aparțin fundalului, ceea ce grăbește procesul OCR real.
deskew
Deoarece documentele sunt rareori scanate cu o aliniere perfectă, caracterele pot ajunge înclinate sau chiar cu susul în jos. Scopul aici este identificarea liniilor de text orizontale și apoi rotirea imaginii astfel încât liniile respective să fie de fapt orizontale.
despeckle
Indiferent dacă imaginea a fost binarizată sau nu, poate exista zgomot care poate interfera cu identificarea caracterelor. Despeckling scapă de zgomotul respectiv și încearcă să netezească imaginea.
Îndepărtarea liniei
Identifică toate liniile și marcajele care probabil nu sunt caractere, apoi le elimină, astfel încât procesul OCR real să nu se confunde. Este deosebit de important când scanează documente cu tabele și căsuțe.
zonarea
Separa imaginea în bucăți de text distincte, cum ar fi identificarea coloanelor din documentele cu mai multe coloane.
Pasul 2: Procesarea imaginii
În primul rând, procesul OCR încearcă să stabilească linia de bază pentru fiecare linie de text din imagine (sau dacă a fost zonat în pre-procesare, va funcționa prin fiecare zonă la un moment dat). Fiecare linie identificată de caractere este tratată unul câte unul.
Pentru fiecare linie de caractere, software-ul OCR identifică distanțarea dintre caractere, căutând linii verticale de pixeli care nu sunt text (ceea ce ar trebui să fie evident cu o binarizare adecvată). Fiecare bucată de pixeli între aceste linii fără text este marcată ca un „jeton” care reprezintă un caracter. Prin urmare, acest pas este numit tokenizarea.
Odată ce toate caracterele potențiale din imagine sunt tokenizate, software-ul OCR poate utiliza două tehnici diferite pentru a identifica care sunt caracterele de fapt ale acestor jetoane:
Recunoasterea formelor
Fiecare jeton este comparat pixel cu pixel cu un întreg set de glife cunoscute - incluzând numere, punctuație și alte simboluri speciale - iar cel mai apropiat este ales. Această tehnică este cunoscută și sub denumirea de potrivire cu matrice.
Există mai multe dezavantaje aici. În primul rând, token-urile și glifele trebuie să fie de dimensiuni similare sau altcineva nu se va potrivi. În al doilea rând, jetoanele trebuie să fie într-un font similar cu glifele, care exclude scrierea de mână. Dar dacă fontul jetonului este cunoscut, recunoașterea modelului poate fi rapidă și precisă.
Extragerea caracteristicilor
Fiecare simbol este comparat cu diferite reguli care descriu ce tip de personaj ar putea fi. De exemplu, două linii verticale cu înălțimea egală conectate de o singură linie orizontală sunt probabil să fie majuscule H.
Această tehnică este utilă, deoarece nu se limitează la anumite fonturi sau dimensiuni. De asemenea, poate fi mai nuanțat în recunoașterea diferențelor subtile dintre un capital I, minuscule L și numărul 1. Dezavantajul? Programarea regulilor este mult mai complexă decât simpla comparare a pixelilor într-un simbol cu pixelii dintr-un glif.
Pasul 3: Post-procesarea imaginii
Odată ce toate potrivirile cu simboluri sunt terminate, software-ul OCR ar putea doar să-l sune pe zi și să vă prezinte rezultatele. Însă, de obicei, trebuie făcut ceva mai mult pentru a vă asigura că nu vă aruncați ochii la rezultate grozave.
Restricție lexicală
Toate cuvintele sunt comparate cu un lexic de cuvinte aprobate și orice nu se potrivește cu cel mai apropiat cuvânt. Un dicționar este un exemplu de lexic. Acest lucru poate ajuta la corectarea cuvintelor cu caractere eronate, cum ar fi „thorn” în loc de „th0rn”.
Optimizări specifice aplicației
Când OCR este utilizat în setări de nișă, cum ar fi documentele medicale sau legale, poate fi utilizat un tip special de OCR special conceput pentru setarea respectivă. În aceste cazuri, software-ul OCR poate căuta ecuații matematice, termeni specifici industriei etc.
Limbajul natural
Această tehnică avansată corectează propozițiile folosind un model de limbă care descrie cât de probabile vor fi urmate de anumite cuvinte. Este similară cu tehnologia care prezice ce cuvânt doriți să introduceți pe o tastatură mobilă.
Dacă este bine, acest lucru poate duce la un text care poate fi citit remarcabil.
Instrumente recomandate de recunoaștere a caracterului optic
Acum că știți cum funcționează OCR, ar trebui să fie ușor de observat că nu toate instrumentele OCR sunt egale. Precizia rezultatelor dvs. va depinde foarte mult de cât de bine implementează software-ul diferitelor tehnici OCR discutate în acest articol.
Vă recomandăm cu încredere OneNote pentru acest lucru, care este doar un motiv de ce îl bate pe Evernote pentru luarea de note Evernote vs. OneNote: Ce aplicație de luare a notelor este potrivită pentru dvs.?Evernote și OneNote sunt aplicații uimitoare de luare de note. Este greu de ales între cei doi. Am comparat totul de la interfață la organizarea notelor pentru a vă ajuta să alegeți. Ce funcționează cel mai bine pentru tine? Citeste mai mult . Dacă sunteți dispus să plătiți pentru o soluție premium, luați în considerare OmniPage. Vezi a noastră compararea OneNote vs. OmniPage pentru OCR Gratuit vs. Software OCR plătit: Microsoft OneNote și Nuance OmniPage în comparațieProgramul de scanare OCR vă permite să convertiți text în imagini sau PDF-uri în documente text editabile. Este suficient un instrument OCR gratuit ca OneNote? Să aflăm! Citeste mai mult . Pentru documentele mobile, veți dori să le consultați Aplicații OCR pentru dispozitive Android 6 cele mai bune aplicații OCR pentru Android pentru extragerea textului din imaginiAveți nevoie să digitalizați orice text tipărit pentru a putea păstra o copie completă a acestuia? Dacă da, tot ce ai nevoie este un instrument de recunoaștere optică a caracterelor (OCR). Citeste mai mult .
Cum folosiți OCR? Aveți vreun instrument preferat de OCR pe care nu l-am menționat? Spuneți-ne în comentariile de mai jos!
Joel Lee are un B.S. în informatică și peste șase ani de experiență profesională în scriere. Este redactor șef pentru MakeUseOf.