Cum să extrageți text din fișiere PDF și imagini pe Linux folosind gImageReader

Dacă ești student sau munca ta implică lucrul cu o mulțime de imagini și PDF-uri, ai fi simțit, la un moment dat, nevoia de a extrage text dintr-o imagine sau un document.

Din fericire, extragerea textului face posibil acest lucru. Și există mai multe instrumente pe care le puteți folosi pentru a face acest lucru. gImageReader este unul dintre numeroasele instrumente. Este gratuit de utilizat și funcționează atât cu fișiere imagine, cât și cu documente PDF.

Haideți să vedem gImageReader în detaliu și să vedem cum îl puteți folosi pentru a extrage text din imagini și PDF-uri.

Ce este gImageReader?

gImageReader este o aplicație care vă permite să extrageți text din imagini și fișiere PDF pe Linux. Este în esență o interfață grafică sau un front-end motorul Tesseract OCR, an sursa deschisa motor dezvoltat de Hewlett-Packard care este considerat a fi unul dintre cele mai bune motoare OCR disponibile.

Cu gImageReader, puteți extrage ușor și destul de precis text din imagini sau documente PDF cu câteva clicuri simple. Puteți exporta apoi textul extras într-un fișier text sau PDF pentru utilizare ulterioară.

instagram viewer

Caracteristicile gImageReader

gImageReader include următoarele caracteristici:

Importați documente și imagini PDF din diferite surse (disc, dispozitive de scanare, clipboard și captură de ecran)
Procesați în loturi imagini sau documente, adică extrageți text din mai multe imagini sau documente simultan
Recunoașteți fragmentele de text ca text simplu sau documente hOCR
Verificator ortografic încorporat
Detectarea automată a zonei de text
Editare de bază a imaginilor/documentelor
Salvați rezultatul ca fișier text

Cum se instalează gImageReader pe Linux

gImageReader este disponibil pe cele mai importante distribuții Linux. Dar înainte de a continua cu instalarea acestuia, trebuie să instalați motorul Tesseract OCR pe sistemul dumneavoastră.

Pentru a face acest lucru, deschideți Manager software pe sistemul dvs. și căutați tesseract. Când returnează o listă de rezultate, instalați tesseract-ocr și tesseract-ocr-ing pachete. Puteți utiliza, de asemenea, manageri de pachete din linia de comandă pentru a instala pachetul, dacă vă simțiți mai confortabil cu terminalul.

După aceasta, consultați instrucțiunile de instalare din secțiunile următoare pentru a instala gImageReader pe computer.

Dacă sunteți pe Debian sau Ubuntu, deschideți terminalul și rulați comenzile de mai jos pentru a instala gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-obține Actualizați
sudo apt instalare gimagereader

Pe Fedora, CentOS sau Red Hat Enterprise Linux (RHEL):

sudo dnf instalare gimagereader-qt

Pe Arch Linux sau Manjaro:

sudo pacman -S gimagereader

Utilizatorii openSUSE pot instala gImageReader folosind:

sudo zypper instalare gimagereader

În cazul în care utilizați orice altă distribuție Linux, puteți crea gImageReader din sursă, urmând instrucțiunile de la GitHub-ul lui gImageReader.

Cum se utilizează gImageReader pe Linux

gImageReader este destul de ușor de utilizat și funcționează cu tot felul de fișiere imagine, precum și cu documente PDF. Urmați instrucțiunile de mai jos pentru a extrage text din imagini sau PDF-uri pe Linux.

Deschideți meniul de aplicații, căutați gImageReaderși lansați aplicația. Loveste Maximizați butonul din fereastra gImageReader pentru a o deschide în vizualizarea pe ecran complet.

Acum, faceți clic pe Adăugați imagini butonul din panoul din stânga de sub bara de instrumente și utilizați browserul de fișiere pentru a selecta imaginea(ele) sau PDF(ele) din care doriți să extrageți text.

Clic O.K pentru a importa imaginile sau PDF-urile în gImageReader. Sau, dacă doriți să extrageți text din ceea ce este afișat pe ecran, faceți clic pe meniul derulant de lângă Adăugați imagini butonul și selectați Faceți o captură de ecran. gImageReader va face o captură de ecran a conținutului ecranului.

După ce ați adăugat imaginea în gImageReader, faceți clic pe Comutați panoul de ieșire butonul (unul cu pictograma notepad) pentru a afișa panoul de ieșire. Aici apare textul pe care îl extrageți din imagini sau PDF-uri.

În funcție de modul în care doriți să procedați, acum aveți opțiunea de a identifica textul din imagine sau PDF automat sau manual. Pentru a face acest lucru automat, faceți clic pe Autodetectare aspect butonul și va evidenția toate blocurile de text din imaginea sau documentul PDF selectat.

După aceasta, apăsați pe Recunoașteți selecția > Pagina curentă pentru a începe procesul de extragere a textului.

Alternativ, pentru a selecta textul manual, treceți cu mouse-ul peste textul pe care doriți să-l extrageți și, folosind crucea, desenați o casetă în jurul zonei de unde doriți să extrageți textul. Apoi, lovește Recunoașteți selecția butonul pentru a continua.

Dacă este un document PDF și doriți să extrageți text din diferite pagini, atingeți butonul La care se adauga (+) pentru a răsturna paginile.

Pentru a vă întoarce, apăsați pe Minus (-butonul ). Apoi, selectați textul pe care doriți să îl extrageți și apăsați Recunoașteți selecția butonul pentru a-l extrage.

Deși rar, pot exista momente în care gImageReader va returna textul extras într-o altă limbă decât engleza. Când se întâmplă acest lucru, pur și simplu atingeți butonul drop-down de lângă Recunoașteți selecția butonul și selectați una dintre opțiunile în limba engleză.

În cele din urmă, pentru a salva textul extras, faceți clic pe Salvați rezultatul buton. Aceasta va deschide fereastra Salvare. Aici, dați un nume fișierului și apăsați O.K.

Ce altceva poți face cu gImageReader?

După cum am menționat mai devreme, gImageReader vă oferă și opțiunea de a modifica anumite aspecte ale imaginilor sau documentelor importate, cum ar fi luminozitatea, contrastul și rezoluția acestora. În plus, puteți, de asemenea, să inversați culorile sau să rotiți imaginile sau documentele, dacă este necesar.

Cele mai multe dintre aceste opțiuni se pot dovedi a fi utile atunci când textul dintr-o imagine sau un document nu este lizibil pentru gImageReader și, prin urmare, împiedică instrumentul să recunoască textul.

Pentru a accesa oricare dintre aceste opțiuni de editare, faceți clic pe Controlul imaginii butonul și va dezvălui o mini bară de instrumente sub bara de instrumente principală. De aici, selectați butoanele corespunzătoare pentru a efectua operația de editare dorită a imaginii sau a documentului.

Extragerea textului pe Linux este ușoară cu gImageReader

Extragerea textului necesită adesea instrumentul potrivit: unul care utilizează un motor OCR fiabil și precis îi permite să identifice textul dintr-o imagine sau dintr-un document în mod eficient, astfel încât să îl puteți extrage eficient, fără niciun fel bătaie de cap.

gImageReader realizează acest lucru frumos, datorită motorului Tesseract OCR pe care îl folosește în fundal. Având în vedere ușurința sa de utilizare, gImageReader este, fără îndoială, unul dintre cele mai bune instrumente de extragere a textului disponibile pentru Linux.

Alternativ, dacă căutați o soluție mai simplă, puteți verifica TextSnatcher, care este rapid și destul de ușor de utilizat.

About Technology - denizatm.com

Cum să extrageți text din fișiere PDF și imagini pe Linux folosind gImageReader

Ce este gImageReader?

Caracteristicile gImageReader

Cum se instalează gImageReader pe Linux

Cum se utilizează gImageReader pe Linux

Ce altceva poți face cu gImageReader?

Extragerea textului pe Linux este ușoară cu gImageReader

categorii

Recent Post

Produsele Apple pot fi infectate cu ransomware?

De ce Reddit apus premii și monede

Ce AirPod-uri vin cu anulare a zgomotului?