Recunoașterea vocală este minunată, dar cum a ajuns atât de bine?

Tehnologia de recunoaștere vocală are o bogată istorie de dezvoltare care a condus-o la ceea ce este astăzi. Se află în centrul vieții moderne, oferindu-ne capacitatea de a face sarcini doar vorbind cu un dispozitiv. Deci, cum a evoluat această tehnologie uimitoare de-a lungul anilor? Hai să aruncăm o privire.

1952: Sistemul Audrey

Primul pas în recunoașterea vocii a avut loc la începutul anilor 1950. Laboratoarele Bell au dezvoltat prima mașină care putea înțelege vocea umană în 1952 și a fost numită Sistemul Audrey. Numele Audrey a fost un fel de contracție a expresiei Recunoaștere automată a cifrelor. Deși aceasta a fost o inovație majoră, a avut unele limitări majore.

Cel mai proeminent, Audrey a putut recunoaște doar cifrele numerice 0-9, fără cuvinte. Audrey ar da feedback atunci când vorbitorul a spus un număr aprinzând 1 din 10 becuri, fiecare corespunzând unei cifre.

Credit de imagine: metamorworks /Shutterstock.com

Deși putea înțelege numerele cu o precizie de 90%, Audrey a fost limitată la un anumit tip de voce. Acesta este motivul pentru care singura persoană care l-ar folosi cu adevărat a fost HK Davis, unul dintre dezvoltatori. Când s-a rostit un număr, vorbitorul ar trebui să aștepte cel puțin 300 de milisecunde înainte de a-l spune pe următorul.

instagram viewer

Nu numai că a fost limitată ca funcționalitate, dar și ca utilitate. Nu s-a folosit prea mult pentru o mașină care nu putea înțelege decât numerele. O posibilă utilizare a fost formarea numerelor de telefon, dar a fost mult mai rapid și mai ușor să formeze numerele manual. Deși Audrey nu a avut o existență grațioasă, ea rămâne în continuare o mare etapă în realizarea umană.

Legate de: Cum se utilizează tastarea vocală pe Microsoft Word

1962: Shoebox-ul IBM

La un deceniu după Audrey, IBM a încercat să dezvolte un sistem de recunoaștere a vocii. La Târgul Mondial din 1962, IBM a prezentat un sistem de recunoaștere a vocii numit Showbox. La fel ca Audrey, sarcina sa principală era înțelegerea cifrelor 0-9, dar putea înțelege și șase cuvinte: plus, minus, fals, total, subtotal și dezactivat.

Shoebox era o mașină de matematică care putea face probleme aritmetice simple. În ceea ce privește feedback-ul, în loc de lumini, Shoebox a reușit să imprime rezultatele pe hârtie. Acest lucru l-a făcut util ca calculator, deși difuzorul ar trebui totuși să facă o pauză între fiecare număr / cuvânt.

1971: Identificarea automată a apelurilor IBM

După Audrey și Shoebox, alte laboratoare din întreaga lume au dezvoltat tehnologia de recunoaștere a vocii. Cu toate acestea, nu a decolat decât în anii 1970, când în 1971, IBM a introdus pe piață prima invenție de acest gen. A fost numit sistemul de identificare automată a apelurilor. A fost primul sistem de recunoaștere a vocii care a fost utilizat prin sistemul telefonic.

Inginerii vor suna și vor fi conectați la un computer din Raleigh, Carolina de Nord. Apelantul ar rosti apoi unul dintre cele 5.000 de cuvinte din vocabularul său și va primi un răspuns „vorbit” ca răspuns.

Legate de: Cum se folosește dictarea vocală pe Mac

1976: Harpie

La începutul anilor 1970, Departamentul Apărării al SUA s-a interesat de recunoașterea vocii. DARPA (Defense Advanced Research Projects Agency) a dezvoltat programul Speech Understanding Research (SUR) în 1971. Acest program a oferit finanțare mai multor companii și universități pentru a ajuta cercetarea și dezvoltarea pentru recunoașterea vocii.

În 1976, din cauza SUR, Universitatea Carnegie Mellon a dezvoltat sistemul Harpy. Acesta a fost un salt major în tehnologia de recunoaștere a vocii. Sistemele până în acel moment erau capabile să înțeleagă cuvinte și numere, dar Harpy era unică prin faptul că putea înțelege propoziții complete.

Avea un vocabular de aproximativ 1.011 cuvinte, care, potrivit unei publicații de B. Lowerre și R. Reddy, echivalat cu mai mult de un trilion de propoziții diferite posibile. Publicația afirmă apoi că Harpy ar putea înțelege cuvintele cu o precizie de 93,77%.

Anii 1980 au fost un moment esențial pentru tehnologia de recunoaștere a vocii, deoarece acesta este deceniul în care vocea tehnologie de recunoaștere, deoarece acesta a fost deceniul în care am fost introduși în Metoda Ascunsă Markov (HMM). Principala forță motrice din spatele HMM este probabilitate.

Ori de câte ori un sistem înregistrează un fonem (cel mai mic element de vorbire), există o anumită probabilitate de a fi următorul. HMM folosește aceste probabilități pentru a determina ce fonem va urma cel mai probabil și va forma cuvintele cele mai probabile. Majoritatea sistemelor de recunoaștere vocală folosesc în prezent HMM pentru a înțelege vorbirea.

Anii 1990: recunoașterea vocală ajunge pe piața consumatorilor

De la concepția tehnologiei de recunoaștere a vocii, a fost într-o călătorie pentru a găsi un spațiu pe piața consumatorilor. În anii 1980, IBM a prezentat un prototip de computer care putea face dictarea text-vorbire. Cu toate acestea, abia la începutul anilor 1990 oamenii au început să vadă astfel de aplicații în casele lor.

În 1990, Dragon Systems a introdus primul software de dictare vorbire-text. S-a numit Dragon Dictate și a fost lansat inițial pentru Windows. Acest program de 9.000 de dolari a fost revoluționar pentru a aduce tehnologia de recunoaștere a vocii către masă, dar a existat un defect. Software-ul folosit dictare discretă, adică utilizatorul trebuie să facă o pauză între fiecare cuvânt pentru ca programul să-l ridice.

În 1996, IBM a contribuit din nou la industrie cu Medspeak. Acesta a fost, de asemenea, un program de dictare vorbire-text, dar nu a suferit de dicționare discretă, așa cum a făcut-o Dictatul Dragonului. În schimb, acest program ar putea dicta o vorbire continuă, ceea ce l-a făcut un produs mai convingător.

Legate de: Cum se folosește Asistentul Google cu căști

2010: O fată numită Siri

De-a lungul anilor 2000, tehnologia de recunoaștere a vocii a explodat în popularitate. A fost implementat în mai multe programe și hardware decât oricând și un pas crucial în evoluția recunoașterii vocale a fost Siri, asistentul digital. În 2010, o companie pe nume Siri a introdus asistentul virtual ca aplicație iOS.

La acea vreme, Siri era o piesă software impresionantă care putea dicta ceea ce vorbea vorbitorul și putea da un răspuns educat și ingenios. Acest program a fost atât de impresionant încât Apple a achiziționat compania în același an și i-a oferit lui Siri o revizuire, împingându-l către asistentul digital pe care îl cunoaștem astăzi.

Prin Apple, Siri a primit vocea sa iconică (vocea lui Susan Benett) și o serie de funcții noi. Folosește prelucrarea limbajului natural pentru a controla majoritatea funcțiilor sistemului.

Anii 2010: The Big 4 Digital Assistants

În starea actuală, patru mari asistenți digitali domină recunoașterea vocii și software-ul suplimentar.

Siri este prezent în aproape toate produsele Apple: iPhone-uri, iPod-uri, iPad-uri și familia de computere Mac.
Asistent Google este prezent pe majoritatea celor 3 miliarde de dispozitive Android de pe piață. În plus, utilizatorii pot folosi comenzi în mai multe servicii Google, cum ar fi Google Home.
Amazon Alexa nu are o platformă dedicată unde locuiește, dar este totuși un asistent proeminent. Este disponibil pentru a fi descărcat și utilizat pe dispozitive Android, dispozitive Apple. și chiar selectați laptopuri Lenovo
Bixby este cea mai nouă intrare pe lista asistenților digitali. Este asistentul digital Samsung de casă și este prezent printre telefoanele și tabletele companiei.

O istorie vorbită

Recunoașterea vocii a parcurs un drum lung de pe vremea Audrey. A câștigat mari câștiguri în mai multe domenii; de exemplu, conform Clear Bridge Mobile, domeniul medical a beneficiat de chatbot-uri cu voce în timpul pandemiei din 2020. Recunoașterea vocală se dovedește a fi una dintre cele mai utile tehnologii ale epocii noastre moderne, de la capacitatea de a înțelege numerele până la înțelegerea diferitelor variații ale propozițiilor complete.

AcțiuneTweetE-mail

Cum funcționează recunoașterea vocală?

Folosim recunoașterea vocală tot timpul, dar cum funcționează?

Citiți în continuare

Subiecte asemănătoare

Tehnologie explicată
Siri
Asistent Google
Alexa
Bixby
Comenzi vocale

Despre autor

Arthur Brown (31 articole publicate)

Arthur este un jurnalist de tehnologie și muzician care trăiește în America. El a fost în industrie de aproape un deceniu, după ce a scris pentru publicații online, cum ar fi Android Headlines. Are cunoștințe profunde despre Android și ChromeOS. Împreună cu scrierea de articole informative, el este, de asemenea, expert în raportarea știrilor tehnologice.

Mai multe de la Arthur Brown

Aboneaza-te la newsletter-ul nostru

Alăturați-vă newsletter-ului pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!

Faceți clic aici pentru a vă abona

About Technology - denizatm.com

Recunoașterea vocală este minunată, dar cum a ajuns atât de bine?

1952: Sistemul Audrey

1962: Shoebox-ul IBM

1971: Identificarea automată a apelurilor IBM

1976: Harpie

Anii 1990: recunoașterea vocală ajunge pe piața consumatorilor

2010: O fată numită Siri

Anii 2010: The Big 4 Digital Assistants

O istorie vorbită

Aboneaza-te la newsletter-ul nostru

categorii

Recent Post

5 beneficii pentru sănătate ale folosirii unui stylus cu computerul, telefonul sau tableta

Aplicația Samsung Sound Assistant: 8 funcții audio puternice și utile pe care trebuie să le încercați

Cum să conturați imaginile, textul și formele în Canva