Producătorii ChatGPT au un alt instrument care urmărește să vă scadă degetele.
Aceiași oameni din spatele ChatGPT au creat un alt instrument bazat pe inteligență artificială pe care îl puteți folosi astăzi pentru a vă crește productivitatea. Ne referim la Whisper, o soluție de voce în text care a eclipsat toate soluțiile similare care au apărut înainte.
Puteți utiliza Whisper în programele dvs. sau în linia de comandă. Și totuși, asta își înfrânge însuși scopul: tastarea fără tastatură. Dacă trebuie să tastați pentru a-l folosi, de ce să îl folosiți pentru a evita tastarea? Din fericire, acum puteți utiliza Whisper printr-o interfață grafică pentru desktop. Și mai bine, îți poate transcrie vocea aproape în timp real. Să vedem cum poți scrie cu vocea folosind Whisper Desktop.
Ce este Whisper-ul OpenAI?
Whisper de la OpenAI este un sistem de recunoaștere automată a vorbirii (ASR pe scurt) sau, mai simplu, este o soluție pentru convertirea limbajului vorbit în text.
Cu toate acestea, spre deosebire de sistemele mai vechi de dictare și transcriere, Whisper este o soluție AI antrenată pe peste 680.000 de ore de vorbire în diferite limbi. Whisper oferă o acuratețe de neegalat și, destul de impresionant, nu numai că este multilingv, dar poate și traduce între limbi.
Mai important, este gratuit și disponibil ca sursă deschisă. Datorită acestui fapt, mulți dezvoltatori au introdus codul său în propriile proiecte sau au creat aplicații care se bazează pe el, cum ar fi Whisper Desktop.
Dacă preferați versiunea „vanilie” a lui Whisper și versatilitatea terminalului în locul interfețelor grafice greoaie, consultați articolul nostru pe cum să-ți transformi vocea în text cu Whisper de la OpenAI pentru Windows.
Whisper și Whisper Desktop sunt la fel?
În ciuda numelui său oficial, Whisper Desktop este o interfață grafică terță parte pentru Whisper, creată pentru toți cei care preferă să facă clic pe butoane în loc să tasteze comenzi.
Whisper Desktop este o soluție de sine stătătoare care nu se bazează pe o instalare Whisper existentă. Ca bonus, folosește o versiune alternativă, optimizată a lui Whisper, așa că ar trebui să funcționeze mai bine decât versiunea independentă.
Sunteți la celălalt capăt al spectrului și, în loc să căutați o modalitate mai ușoară de a utiliza Whisper decât terminalul, căutați modalități de a-l implementa în propriile soluții? Bucură-te, căci OpenAI a deschis accesul la API-urile ChatGPT și Whisper.
Descărcați și instalați Whisper Desktop
Deși Whisper Desktop este mai ușor de utilizat decât Whisper de sine stătător, instalarea sa este mai complicată decât a face clic repetat pe Următorul într-un expert.
- Vizita Pagina oficială Github a lui Whisper Desktop. Priviți în dreapta și faceți clic pe cea mai recentă versiune de sub Lansări.
- Sub Active, faceți clic WhisperDesktop.zip și descărcați-l pe computer.
- Extrageți arhiva descărcată într-un folder și utilizați managerul de fișiere pentru a o vizita. În interior vei găsi aplicația Whisper Desktop. Faceți dublu clic pe el pentru al rula.
- De asemenea, aveți nevoie de un model de limbaj Whisper GCML format binar. Whisper Desktop vă va oferi două link-uri pentru achiziționarea unuia. Sari peste al doilea link pentru a-ți genera propriul model, deoarece este un proces mai complicat. Click pe Față îmbrățișată pentru a deschide pagina respectivă în browserul implicit, de unde puteți descărca un fișier gata de utilizare.
- Versiunea de Whisper Desktop pe care am folosit-o în timpul scrierii acestui articol a furnizat un link către un depozit învechit la Hugging Face. Dacă întâmpinați aceeași problemă, observați un link către a locație nouă. Faceți clic pe el pentru a vizita noul depozit.
- Faceți clic pe linkul care vă va duce la cele disponibile modele.
- Din acea listă, faceți clic pe fie ggml-mediu.bin sau ggml-medium.en.bin, în funcție de dacă doriți asistență multilingvă sau numai în engleză în Whisper.
- În sfârșit, ar fi trebuit să ajungi la destinație. Observați linia care spune că acest fișier este stocat cu Git LFS și este prea mare pentru a fi afișat, dar îl puteți descărca în continuare. Click pe Descarca să facă tocmai asta.
- Când fișierul se termină descărcarea, utilizați managerul de fișiere preferat (File Explorer va face) pentru a muta fișierul model de limbă descărcat în același folder ca Whisper Desktop.
Transcrierea cu Whisper Desktop
Transcrierea cu Whisper Desktop este ușoară, dar este posibil să aveți nevoie totuși de unul sau două clicuri pentru a utiliza aplicația.
Reluați Whisper Desktop. Pierde (încă) calea corectă către modelul de limbă descărcat? Faceți clic pe butonul cu cele trei puncte din dreapta câmpului și selectați manual fișierul pe care l-ați descărcat din Hugging Face.
Din acest loc, puteți folosi și meniul derulant de lângă Implementarea modelului pentru a alege dacă doriți să rulați Whisper pe GPU (GPU), atât pe CPU, cât și pe GPU (Hibrid), sau numai pe CPU (Referinţă).
The Avansat butonul duce la mai multe opțiuni care afectează modul în care Whisper va rula pe hardware-ul dvs. Cu toate acestea, deoarece butonul indică clar că sunt avansate, vă sugerăm să le modificați doar dacă depanați sau știți ce faceți. Setarea unor valori greșite pentru opțiuni poate impune o penalizare de performanță sau poate face aplicația inutilizabilă.
Faceți clic pe OK pentru a trece la interfața principală a aplicației.
Dacă aveți deja o înregistrare a vocii pe care doriți să o transformați în text scris, faceți clic pe Transcrie fișierul și selectați-l. Totuși, vom folosi Whisper Desktop pentru transcrierea live pentru acest articol.
Opțiunile oferite sunt simple. Puteți selecta limba Whisper va folosi, alege dacă vrei Traduceți între limbi și activați aplicația Consola de depanare.
Majoritatea utilizatorilor vorbitori de limba engleză pot sări peste aceste opțiuni în siguranță și să se asigure doar că intrarea audio corectă este selectată din meniul derulant de lângă Dispozitiv de captură.
Asigurați-vă că Salvați în fișierul text și Adăugați la acel fișier sunt activate pentru ca Whisper Desktop să-și salveze rezultatul într-un fișier fără a-i suprascrie conținutul. Folosește butonul cu cele trei puncte din dreapta câmpului de cale al fișierului pentru a defini fișierul text menționat.
Click pe Captură pentru a începe să vă transcrieți discursul în text.
Whisper Desktop vă va afișa trei indicatori pentru când detectează activitatea vocală, când se transcrie în mod activ și când procesul este blocat.
Puteți continua să vorbiți atât timp cât doriți și ar trebui să vedeți ocazional primii doi indicatori clipind în timp ce aplicația vă transformă vocea în text. Clic Stop cand e gata.
Fișierul text pe care l-ați selectat ar trebui să se deschidă în editorul dvs. de text implicit, conținând în formă scrisă tot ce ați spus până când ați dat clic Stop.
Ar trebui să remarcăm că puteți face și opusul a ceea ce am văzut aici: convertiți orice text în vorbire. În acest fel, poți asculta orice ca și cum ar fi un podcast în loc să-ți obosești ochii strâmbând la ecrane. Pentru mai multe informații despre asta, consultați articolul nostru pe unele dintre cele mai bune instrumente online gratuite pentru a descărca text-to-speech ca audio MP3.
Sfaturi pentru tastarea vocală Whisper Desktop
Deși Whisper Desktop poate salva viața, permițându-vă să scrieți cu vocea mult mai repede decât ați putea tasta, este departe de a fi perfect.
În timpul testării noastre, am constatat că ocazional se poate bâlbâi, sări peste câteva cuvinte, să nu reușească să transcrie până când dvs opriți și reporniți manual procesul sau rămâneți blocați într-o buclă și continuați să retranscrieți aceeași frază repetat.
Credem că acestea sunt erori temporare care vor fi remediate, deoarece Whisper-ul independent nu prezintă aceleași probleme.
În afară de aceste denivelări minore, transformarea vocii în text ar trebui să fie fără efort cu Whisper Desktop. Cu toate acestea, în timpul testelor noastre, am descoperit că poate funcționa și mai bine dacă...
- În loc să rostească doar două sau trei cuvinte și apoi să facă o pauză, Whisper te poate înțelege mai bine dacă continui mai mult. Încearcă să-i dai măcar o propoziție întreagă la un moment dat.
- Din același motiv, evitați să începeți și să opriți repetat procesul de transcriere.
- Ori de câte ori realizezi că ai făcut o greșeală, ignoră-o și continuă. Încărcarea și descărcarea modelului de limbă pare să fie cea mai consumatoare de timp a procesului cu starea actuală a lui Whisper și hardware-ul nostru disponibil. Deci, este mai rapid să continuați să vorbiți și apoi să vă editați greșelile.
- Ca și în cazul versiunii de sine stătătoare a lui Whisper, cel mai bine este să utilizați modelul de limbă optim pentru hardware-ul disponibil. Puteți folosi până la mediu model dacă GPU-ul tău are 8 GB de VRAM. Pentru mai puțină VRAM, alegeți modelele mai mici. Alegeți doar cele puțin mai precise, dar și mult mai solicitante mare model dacă utilizați un GPU cu 16 GB de VRAM sau mai mult.
- Amintiți-vă că, cu cât modelul de limbă este mai mare, cu atât procesul de transcriere este mai lent. Nu alegeți un model mai mare decât este necesar. Probabil vei descoperi că Whisper Desktop poate deja „te înțelege” de cele mai multe ori cu modelele medii sau mai mici, cu doar una sau două erori pe paragraf.
Mai tastezi? Folosește-ți vocea cu șoaptă
În ciuda faptului că necesită ceva timp pentru configurare, așa cum veți vedea când îl încercați, Whisper Desktop are performanțe mult mai bune decât majoritatea alternativelor, cu o precizie mult mai mare și o viteză mai bună.
După ce începi să-l folosești pentru a tasta cu vocea ta, tastatura ta poate arăta ca o relicvă din vremuri străvechi de mult apuse.