Publicitate

Putem vorbi acum cu aproape toate gadgeturile noastre, dar exact cum funcționează? Când întrebi „Ce melodie este asta?” sau spuneți „Sunați mama”, se întâmplă un miracol al tehnologiei moderne. Și, deși se simte ca fiind la un pas de ultimă oră, această idee de a vorbi cu dispozitivele se întoarce de zeci de ani - aproape în ce privește jetpack-urile din science-fiction!

Astăzi, cea mai mare parte a atenției acordate computerelor vocale este pe smartphone-uri. Apple, Amazon, Microsoft și Google se află în vârful lanțului, fiecare oferind propriul mod de a vorbi cu electronica. Știați cine sunt: ​​Siri, Alexa, Cortana și ființele cu numele „Ok, Google”. Ceea ce ridică o mare întrebare ...

Cum un dispozitiv ia cuvintele rostite și le transformă în comenzi pe care le poate înțelege? În esență, este vorba de potrivirea modelului și de a face predicții bazate pe aceste tipare. Mai precis, recunoașterea vocală este o sarcină complexă Modelare acustică și Modelarea limbajului.

Modelare acustică: forme de undă și telefoane

forme de undă

Modelarea acustică este procesul de a lua o formă de undă a vorbirii și de a o analiza folosind modele statistice. Cea mai comună metodă este aceasta Modelare ascunsă Markov, care este utilizat în ceea ce se numește modelarea pronunției pentru a descompune vorbirea în părțile componente numite telefoane (nu trebuie confundat cu dispozitivele telefonice reale). Microsoft a fost un cercetător de frunte în acest domeniu de mulți ani.

Modelarea ascunsă a lui Markov: Statele de probabilitate

Modelarea ascunsă a lui Markov este un model matematic predictiv în care starea actuală este determinată prin analizarea ieșirii. Wikipedia are un mare exemplu folosind doi prieteni.

Imaginează-ți doi prieteni - prieten local și prieten la distanță - care trăiesc în orașe diferite. Prietenul local vrea să-și dea seama cum este vremea în care trăiește prietenul la distanță, dar prietenul la distanță nu vrea decât să vorbească despre ce a făcut în acea zi: plimbare, cumpărături sau curat Probabilitatea fiecărei activități în funcție de vremea zilei.

Modelare ascunsă Markov

Pretinde că aceasta este singura informație disponibilă. Cu aceasta, Local Friend poate găsi tendințe în cum se schimbă vremea de la o zi la alta, și folosind aceste tendințe, ea poate începe să facă ghiciri educate despre vremea de astăzi se va baza pe activitatea prietenei de ieri. (Puteți vedea o diagramă a sistemului de mai sus.)

Dacă doriți un exemplu mai complex, consultați acest exemplu pe Matlab. În ceea ce privește recunoașterea vocală, acest model compară, în esență, fiecare parte a formei de undă cu ceea ce vine înainte și ceea ce vine după, și cu un dicționar de forme de undă pentru a afla ce se spune.

În esență, dacă sunteți „sunetul”, va verifica acest sunet în funcție de cele mai probabile sunete care apar de obicei înainte și după acesta. Poate asta înseamnă să verificați sunetul „e”, sunetul „at” și așa mai departe. Când modelul se potrivește corect, atunci are cuvântul tău întreg. Aceasta este o simplificare excesivă, dar puteți vedea Întreaga explicație a Microsoft aici.

Modelarea limbajului: mai mult decât sunetul

Modelarea acustică ajută mult computerul să vă înțeleagă, dar despre omonime și variații regionale în pronunție? Acolo intră în joc modelarea limbajului. Google a condus o mulțime de cercetări în acest domeniu, în principal prin utilizarea Modelare cu N-gram.

Când Google încearcă să înțeleagă discursul tău, face acest lucru pe baza modelelor derivate din banca sa masivă de căutare vocală și transcrieri pe YouTube. Toate aceste subtitrări video greșit au ajutat Google să își dezvolte dicționarele. De asemenea, au folosit cei plecați GOOG-411 pentru a colecta informații despre cum vorbesc oamenii.

shutterstock_70757203

Toată această colecție de limbi a creat o gamă vastă de pronunții și dialecte, care au creat un dicționar robust de cuvinte și modul în care acestea sună. Aceasta permite meciuri care au o rată de eroare redusă mult decât potrivirea forței brute bazată pe probabilități brute. Puteți citi o lucrare scurtă descriind metodele lor aici.

În timp ce Google este lider în acest domeniu, sunt dezvoltate alte modele matematice, inclusiv spațiul continuu modele și modele de limbaj pozițional, care sunt tehnici mai avansate, născute din cercetarea în inteligența artificială. Aceste metode se bazează pe reproducerea tipului de raționament pe care oamenii îl fac când se ascultă. Acestea sunt mult mai avansate atât în ​​ceea ce privește tehnologia din spatele lor, cât și în ceea ce privește matematica și programarea necesară pentru a realiza aceste modele.

Modelare N-Gram: Probabilitatea îndeplinește memoria

Modelarea N-gram funcționează pe baza probabilităților, dar folosește un dicționar de cuvinte existent pentru a crea un arbore de ramificare a posibilităților, care este apoi redus din motive de eficiență. Într-un fel, acest lucru înseamnă că modelarea N-gram elimină multă incertitudine în modelarea amintită de Markov ascunsă.

Așa cum am menționat mai sus, puterea acestei metode vine din faptul că există un mare dicționar cuvinte și folosire, nu doar primitiv sunete. Acest lucru oferă programului posibilitatea de a spune diferența dintre homofoni, cum ar fi „bătăi” și „sfeclă”. Este contextual, ceea ce înseamnă că atunci când vorbești despre scorurile de aseară, programul nu scoate cuvinte despre borș.

Însă aceste modele nu sunt cele mai potrivite pentru limbaj, în principal din cauza problemelor cu probabilitatea cuvintelor din frazele mai lungi. Pe măsură ce adăugați mai multe cuvinte la o propoziție, acest model se dezactivează, deoarece este puțin probabil ca cuvintele tale timpurii să fi încărcat tot ce este necesar pentru gândul tău complet.

Cu toate acestea, este simplu și ușor de pus în aplicare, ceea ce face o potrivire excelentă pentru o companie precum Google care se bucură să arunce servere la probleme de calcul. Puteți citi mai multe despre N-gram Modelieng la adresa Universitatea din Washingtonsau puteți urmări un curs la Coursera.

Strigare la nori: aplicații și dispozitive

Oricine a folosit Siri știe frustrarea unei conexiuni de rețea lente. Acest lucru se datorează faptului că comenzile dvs. către Siri sunt trimise prin rețea pentru a fi decodate de Apple. Cortana pentru telefonul Windows necesită, de asemenea, o conexiune de rețea pentru a funcționa corect. În schimb, Echo-ul Amazon este doar un difuzor Bluetooth fără Internet.

De ce diferenta? Pentru că Siri și Cortana au nevoie de servere grele pentru a vă decoda discursul. Poate fi realizat pe telefon sau tabletă? Sigur, dar v-ați omorât performanța și durata bateriei în acest proces. Pur și simplu are mai mult sens să descărcați procesarea către mașini dedicate.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Gândiți-vă astfel: comanda dvs. este o mașină blocată în noroi. Probabil ai putea să o împingi singur cu suficient timp și efort, dar va dura ore și te va lăsa epuizat. În schimb, apelați la asistență rutieră și vă trag mașina afară în doar câteva minute. Dezavantajul este că trebuie să efectuați apelul și să îi așteptați, dar este încă mai rapid și mai puțin impozitare.

Modelele desktop precum Nuance tind să folosească resurse locale datorită hardware-ului mai puternic. La urma urmei, în cuvintele lui Steve Jobs, dumneavoastră desktop este un camion. (Ceea ce face să fie un pic prostesc pe care îl folosește OS X servere pentru procesarea sa.) Deci, atunci când trebuie să prelucrați limbajul și vocea, este deja echipat suficient de bine pentru a-l gestiona singur.

Pe de altă parte, Android permite dezvoltatorilor să includă recunoașterea vorbirii offline în aplicațiile lor. Google îi place să avanseze tehnologia și puteți paria că celelalte platforme vor câștiga această abilitate, deoarece hardware-ul lor devine mai puternic. Nimeni nu-i place când acoperirea slabă sau recepția proastă lobotomizează dispozitivul.

Începeți să utilizați comenzile vocale acum

Acum că cunoașteți conceptele fundamentale, ar trebui să vă jucați cu diverse dispozitive. Încercați noul tastarea vocală în Google Docs Modul în care tastarea vocală este cea mai bună caracteristică nouă a documentelor GoogleRecunoașterea vocală s-a îmbunătățit în trepte în ultimii ani. La începutul acestei săptămâni, Google a introdus în cele din urmă tastarea vocală în Google Docs. Dar este ceva bun? Să aflăm! Citeste mai mult . De parcă pachetul Web Office nu ar fi fost suficient de puternic, controlul vocal vă permite să dictați și să formatați complet documentele. Aceasta se extinde pe tehnologia puternică pe care au proiectat-o ​​deja pentru Chrome și Android.

Alte idei includ configurarea ta Mac pentru a utiliza comenzi vocale Cum să utilizați comenzi de vorbire pe Mac Citeste mai mult și configurarea ta Amazon Echo cu plata automatizată Cum Echo-ul Amazon vă poate transforma casa într-o casă inteligentăTehnologia inteligentă pentru casă este încă în primele zile, dar un nou produs de la Amazon, numit „Echo”, poate contribui la aducerea sa în mainstream. Citeste mai mult . Trăiește-ți pe viitor și îmbrățișează-ți discuțiile cu gadgeturile tale - chiar dacă comanzi doar mai multe prosoape de hârtie. Dacă sunteți dependent de smartphone, avem și tutoriale pentru Siri 8 lucruri pe care probabil că nu le-ai dat seama că ar putea face SiriSiri a devenit una dintre caracteristicile definitorii ale iPhone, dar pentru mulți oameni, nu este întotdeauna cea mai utilă. În timp ce o parte din acest lucru se datorează limitărilor recunoașterii vocale, ciudățea de a folosi ... Citeste mai mult , Cortana 6 cele mai cool lucruri pe care le puteți controla cu Cortana în Windows 10Cortana vă poate ajuta să mergeți cu mâinile libere pe Windows 10. Puteți lăsa-o să caute fișierele dvs. și pe web, să facă calcule sau să redea prognoza meteo. Aici acoperim unele dintre abilitățile ei mai cool. Citeste mai mult , și Android OK, Google: 20 de lucruri utile pe care le poți spune telefonului tău AndroidGoogle Assistant vă poate ajuta să faceți multe lucruri pe telefon. Iată o serie de comenzi Google de bază, dar utile OK, pentru a încerca. Citeste mai mult .

Care este utilizarea ta preferată de control vocal? Spuneți-ne în comentarii.

Credite imagine: T-flex prin Shutterstock, Terencehonles prin Wikimedia Foundation, Statul Arizona, Cienpies Design prin Shutterstock

Michael nu a folosit un Mac atunci când erau condamnați, dar poate coda în Applescript. Are diplome în informatică și engleză; de ceva vreme scrie despre Mac, iOS și jocuri video; și este o maimuță IT de zi de peste un deceniu, specializată în scripturi și virtualizare.