Cititorii ca tine ajută la sprijinirea MUO. Când efectuați o achiziție folosind link-uri de pe site-ul nostru, este posibil să câștigăm un comision de afiliat. Citeşte mai mult.

Whisper de la OpenAI este o nouă soluție bazată pe inteligență artificială care vă poate transforma vocea în text. Cel mai bine este că are costuri zero.

Cu toate acestea, există o captură: este mai dificil de instalat și de utilizat decât utilitarul Windows obișnuit. Mai ales dacă doriți să utilizați nucleele tensoare ale GPU-ului Nvidia pentru a-i oferi un impuls bun.

Nu te supăra, totuși. De aceea suntem aici! Citiți mai departe pentru a afla cum să îl instalați și să îl utilizați, dar și, dacă aveți unul, pentru ca Whisper să profite de GPU-ul dvs. Nvidia.

Ce este Whisper-ul OpenAI?

ChatGPT face furori în zilele noastre și am văzut deja cum puteți utiliza ChatGPT de OpenAI. Și totuși, nu este singurul proiect interesant al OpenAI.

Alimentat de deep learning și rețele neuronale, Whisper este un sistem de procesare a limbajului natural care poate „înțelege” vorbirea și o poate transcrie în text. Dar este, de asemenea, lucrul său, așezat la un loc chiar printre toate soluțiile similare:

  • Whisper este o soluție AI „antrenată” pe limbaj natural. Deci, este mai bine să înțelegem vorbirea umană „normală” decât soluțiile mai vechi.
  • Whisper nu vine cu o interfață și nici nu poate înregistra audio. Poate prelua numai fișiere audio existente și poate scoate fișiere text.
  • Deoarece se pricepe la „să dea sens limbajului”, Whisper are și superputerea traducerii automate într-un singur pas.
  • Whisper nu este un serviciu online și poate funcționa complet offline.
  • Dacă aveți un GPU Nvidia relativ modern (GTX970 sau mai nou), Whisper poate rula în „modul accelerat hardware” pentru a-și crește viteza.
  • Nu este nevoie să vă înregistrați, să cumpărați o licență sau să cumpărați un abonament.

De ce nu sunt acceptate GPU-urile AMD?

Pentru ca GPU-urile să fie utile pentru mai mult decât pentru grafică, ar trebui să acționeze ca procesoare complet programabile. De aceea, Nvidia a creat CUDA, considerat oficial „o platformă de calcul paralelă și model de programare”. Pentru a afla mai multe despre CUDA și hardware-ul aferent („nuclee CUDA”), citiți articolul nostru despre ce sunt nucleele CUDA și cum îmbunătățesc jocurile pe computer.

CUDA este o tehnologie proprie Nvidia, compatibilă numai cu GPU-urile Nvidia. Cele mai apropiate alternative pentru hardware-ul AMD sunt OpenCL și Radeon Compute Platform. Pentru a afla mai multe despre cum se compară soluțiile fiecărei companii, consultați articolul nostru pe Unități de calcul AMD vs. Cores Nvidia CUDA.

În comparație cu alternativele, CUDA este considerat mai matur, mai performant și mai ușor de utilizat. Astfel, majoritatea dezvoltatorilor vizează doar CUDA, ceea ce, la rândul său, înseamnă că software-ul lor profită doar de caracteristicile hardware de pe GPU-urile Nvidia. Și asta include Whisper.

Cum să descărcați și să instalați Whisper

Din păcate, Whisper nu este o aplicație independentă pe care o puteți descărca, instala și rula. Se bazează pe alt software, care trebuie de asemenea instalat.

Pentru Windows, pentru a menține acest ghid simplu, vom folosi Chocolatey pe scară largă pentru a instala majoritatea componentelor software necesare. Consultați ghidul nostru pe cel mai rapid mod de a instala software-ul Windows pentru mai multe informații despre Chocolatey.

Pentru Linux și Mac, procesul de instalare (excluzând variabila cale Windows și fișierele batch ușor de utilizat pe care le vom crea) ar trebui să fie similar.

  1. Pentru a instala și utiliza Whisper, trebuie să aveți Piton si este PIP instrument instalat și adăugat la variabila „Cale” din Windows. Pentru informații despre asta, consultați articolul nostru pe cum se instalează Python PIP pe Windows, Mac și Linux.
  2. Instalare FFMPEG prin Chocolatey cu această comandă:
    choco instalare ffmpeg
    De asemenea, instalați versiunea Python cu:
    pip3 instalare python-ffmpeg
  3. În cele din urmă, instalați Whisper de pe pagina sa Github cu:
    pip3 instalează git+https://github.com/openai/whisper.git

Obținerea versiunii CUDA activată pentru Whisper

Deși Whisper nu folosește GPU-uri Nvidia, torță pachetul pe care se bazează oferă o versiune accelerată de CUDA. Folosind aceasta în loc de versiunea „plată” poate ajuta Whisper să-și completeze transcripțiile mult mai rapid cu ajutorul GPU-ului tău Nvidia.

Pentru ca Whisper să folosească nucleele CUDA ale GPU-ului tău Nvidia:

  1. Dacă aveți deja instalată versiunea „vanilie” a torței, dezinstalați și curățați resturile acesteia cu:
    pip3 dezinstalați torță
    Odată gata, continuă cu:
    pip cacheepurare
  2. Instalați versiunea CUDA a torței cu:
    pip3 instalare torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Pentru a verifica dacă Whisper poate folosi GPU-ul dvs. Nvidia, utilizați:
    şoaptă --ajutor | findstr -i pytorch
    Ar trebui sa vezi (implicit: cuda) în loc de (implicit: CPU).

Ce trebuie să faceți dacă Torch nu se instalează

Dacă întâmpinați eroarea „nicio versiune găsită” în timpul instalării torcei, poate fi necesar să instalați o versiune mai veche de Python paralel cu cea actuală.

Utilizați această comandă pentru a face asta:

choco instalare piton --versiune OLDER_VERSION --una lângă alta

Înlocuiți „OLDER_VERSION” cu o versiune, cum ar fi 3.10.

Apoi, utilizați calea versiunii secundare pentru toate comenzile „generice” Whisper (de exemplu, „c:\Python310\Scripts\pip.exe” și nu doar „pip”).

Cum să-ți înregistrezi vocea

Puteți utiliza orice aplicație de înregistrare a sunetului pentru a vă transforma vocea într-un fișier WAV sau MP3. Windows include o astfel de aplicație - pentru mai multe informații despre aceasta, consultați cum să utilizați aplicația Windows 10 Voice Recorder.

Pentru o opțiune mai completă, încercați Îndrăzneală. Aflați cum să o faceți cu ghidul nostru activat cum să utilizați Audacity pentru a înregistra audio pe Windows și Mac.

Cum să începeți transcrierea cu Whisper

Deși Whisper nu vine cu o interfață grafică ușor de utilizat, utilizarea sa este ultra simplă.

Să presupunem că avem dosarul LatestNote.mp3 care contine vorbirea in greaca, in folder c:\MyAudioFiles, și doriți să o traduceți în engleză și să o transcrieți într-un fișier text.

  1. Începem prin a alerga Prompt de comandă sau PowerShell.
  2. „Schimbăm directorul” în care este stocat fișierul audio cu această comandă:
    CD C:\MyAudioFiles
  3. Lansăm Whisper pe fișierul cu:
    şoaptă--modelbaza--limbagr--sarcinăTraducețiUltimaNotă.mp3

Odată procesat, fișierul text (numit „LatestNote.mp3.txt”) va apărea în același folder. Deschideți-l într-un editor de text, cum ar fi Blocnotes pentru a vizualiza textul tradus.

Am folosit un exemplu de traducere, deoarece transcrierea în limba engleză este și mai simplă: trebuie doar să „pierdeți” steagurile „--language” și „-task”. Astfel, pentru transcrierea simplă, comanda de mai sus ar fi:

şoaptă--modelbazaUltimaNotă.mp3

Steagul „model” este necesar deoarece Whisper folosește una dintre diferitele opțiuni. Să le extindem pentru a vă ajuta să alegeți cel mai bun pentru nevoile dvs.

Ce model sa alegi?

Whisper oferă diverse modele de limbaj. Cu cât modelul este mai mare, cu atât este mai mare precizia acestuia, dar și cerințele hardware sunt mai mari. Sunt:

  1. Micut.
  2. Baza.
  3. Mic.
  4. Mediu.
  5. Mare.

Majoritatea vorbitorilor nativi de engleză ar trebui să fie bine cu minuscul sau baza modele. Vorbitorii non-nativi de engleză pot vedea rezultate mai bune cu modele mai mari, cum ar fi mic și mediu.

Rețineți, totuși, că modelele medii și mari necesită peste 8 GB de VRAM (adică „memoria GPU-ului dumneavoastră”).

Pentru a selecta unul dintre ele, specificați modelul după comutatorul „--model” din comandă:

şoaptă --model mic/mic/mediu/mari [fișier]

De exemplu:

şoaptă--modelmicNota_Vocea_mea.mp3

Cum să vă eficientizați transcrierea

Dacă trebuie să tastați întreaga comandă Whisper de fiecare dată când doriți să transcrieți niște sunet, poate deveni rapid plictisitor. Să creăm un fișier batch accesibil la nivel global pentru a simplifica procesul.

  1. Alerga Windows Explorer și vizitați unitatea dvs. C:.
  2. Creați un folder pentru scripturile dvs. și copiați calea acestuia în Clipboard.
  3. În meniul Start din Windows, căutați „cale” și selectați Editați variabilele de mediu ale sistemului.
  4. Găsi cale variabilă sub Variabile de utilizator pentru YOUR_USERNAME. Faceți dublu clic pe el pentru a-l edita. Click pe Nou, și inserați calea în folderul dvs. de scripturi. Click pe Bine să accepte modificările.
  5. Reveniți la folderul de scripturi din Windows Explorer. Creați un nou fișier batch acolo numit „wht.bat”. „În interiorul” acestuia, plasați această comandă:
    şoaptă --model tiny --language en %1
  6. Creați încă două fișiere batch, „whs” și „whm”.
  7. Puneți asta în primul script:
    şoaptă --model small --language en %1
  8. Puneți asta în al doilea:
    şoaptă --model mediu --language en %1

Felicitări, acum aveți trei scripturi pentru a utiliza cu ușurință modelele mici, mici și medii ale lui Whisper cu fișierele audio! Pentru a transcrie orice fișier audio în text:

  1. Localizați fișierul cu Windows File Explorer.
  2. Click dreapta pe un loc gol și alegeți Deschideți în Terminal.
  3. Tastați această comandă, înlocuind „wht” cu „whs” sau „whm” pentru a utiliza modelele de limbă mică sau medie:
    ceYOUR_AUDIO_FILE.mp3

Tastând cu viteza sunetului cu șoaptă

Chiar și cei mai rapidi dactilografe nu pot egala viteza cu care vorbim. Cu toate acestea, până de curând, vorbirea în loc de tastarea nu era optimă pentru crearea documentelor.

Cele mai multe soluții voce-text au produs rezultate mediocre. Ai putea găsi câteva soluții care merită încercate, dar erau complicate de utilizat sau costisitoare. Din fericire, Whisper a schimbat totul.

După pașii de mai sus, ar trebui să fiți gata să vă transcrieți sau să traduceți vocea cu mare acuratețe, folosind doar o singură comandă.