Detectarea expresiilor este doar o parte a procesului.
A striga „Ok Google” din toată camera pentru a schimba muzica sau pentru a stinge luminile într-o cameră. incredibil, dar acest proces aparent simplu este alimentat de o rețea complicată de tehnologii care funcționează în spatele scene.
Aproape fiecare asistent virtual important de pe piață are o expresie de apel pe care o folosești pentru a trezi asistentul și a purta o conversație. Dar de unde știu asistenții vocali când vorbești cu ei?
Cum funcționează detectarea frazei?
După cum s-a menționat mai sus, fiecare asistent vocal are o „frază de declanșare” sau un cuvânt de trezire pe care îl folosiți pentru a trezi asistentul și a da comenzi suplimentare. Procesul de detectare a acestei fraze este mai mult sau mai puțin același cu fiecare asistent, cu excepția micilor nuanțe. Acestea fiind spuse, aceste nuanțe pot însemna diferența între a rosti casual comanda de trezire și a striga mai multe ori doar pentru ca asistentul să continue să doarmă, lucru care poate fi cu adevărat enervant uneori, mai ales dacă ești
folosind asistentul vocal pentru a vă calma.În general, majoritatea difuzoarelor „inteligente” au un circuit mic a cărui singură sarcină este să detecteze comanda wake și apoi să pună în acțiune restul hardware-ului. Cea mai mare parte a procesării se face în cloud, dar detectarea frazei este pe dispozitiv din motive evidente de confidențialitate. Detectarea expresiilor pe telefoane funcționează mai mult sau mai puțin în același mod.
Specificul este în mare parte secret, dar aceste sisteme de detectare folosesc învățarea automată și rețelele neuronale profunde (DNN) pentru a antrena modele AI pentru a vă detecta vocea și a forma o cheie. Această cheie este apoi folosită pentru a verifica când ați spus o anumită frază și totul este trimis în cloud pentru procesare ulterioară.
Asistent Google
Telefoanele care acceptă detectarea „OK Google” vin, de obicei, cu un sistem de localizare a cuvintelor cheie (KWS) care detectează fraza și apoi plasează restul interogării în cloud. Deoarece dispozitivele mobile au o putere de calcul limitată, precum și constrângeri de viață a bateriei, aceste sisteme nu sunt de obicei la fel de bune ca cele pe care le-ați găsi pe difuzoarele Google Nest.
Acest sistem KWS de pe dispozitiv preia continuu sunetul de la microfoanele dispozitivului și inițiază o conexiune la server atunci când detectează o frază de declanșare. Google folosește, de asemenea, Recunoașterea automată a vorbirii contextuale (ASR) pe partea de server pentru a îmbunătăți acuratețea generală a sistemului său KWS. Puteți citi mai multe despre el în Lucrarea de cercetare Google [PDF].
Siri
Siri funcționează la fel ca Asistentul Google în ceea ce privește detectarea „Hei Siri”. Apple a fost surprinzător de deschis cu privire la modul în care funcționează sistemul, care implică un dispozitiv de recunoaștere a vorbirii „foarte mic” care rulează în fundal și ascultă doar acele două cuvinte. Acest detector folosește un DNN pentru a converti modelul acustic al vocii tale înregistrate pentru fiecare instanță într-o distribuție de probabilitate pe sunetele vorbirii, generând în esență un scor de încredere.
iPhone-ul sau Apple Watch face acest lucru prin schimbarea vocii într-un flux de mostre de forme de undă la o rată de 16.000 pe secundă. Aceasta este apoi redusă la o secvență de cadre care acoperă un spectru sonor de aproximativ 0,01 secunde. Apoi, un total de 20 dintre aceste cadre sunt transmise modelului de detectare, care convertește aceste modele într-o probabilitate.
Dacă sistemul stabilește cu suficientă încredere că ai spus „Hei Siri”, Siri se trezește și trimite restul a interogării către cloud, unde are loc o analiză ulterioară și primește orice acțiune pe care ați solicitat-o efectuat.
Există, desigur, măsuri suplimentare adăugate pentru a asigura eficiența memoriei și a bateriei. Procesorul Always On (AOP) al iPhone-ului tău are acces la microfoanele dispozitivului (pe iPhone 6S și versiuni ulterioare) tocmai din acest motiv, iar o mică parte din puterea sa de procesare este rezervată pentru a rula DNN. Apple se scufundă profund în întregul sistem pe site-ul său de învățare automată, învățare automată.măr.
Alexa
La fel ca Google Assistant și Siri, Alexa nu găzduiește cea mai mare parte a puterii sale de procesare pe niciuna dintre difuzoarele Echo pe care le puteți cumpăra. În schimb, vorbitorii folosesc ceea ce Amazon numește Recunoaștere automată a vorbirii (ASR), care în esență convertește cuvintele rostite în text, permițând sistemului de bază să le interpreteze și să acționeze în consecință.
ASR formează baza de bază a modului în care funcționează Alexa. Încă o dată, există un sistem la bord care ascultă cuvintele de trezire, în acest caz, „Alexa”, „Amazon” „Ecou” sau „Computer” și declanșează restul sistemului atunci când cuvântul de trezire predeterminat de utilizator este detectat. Poți chiar treziți-vă dispozitivul Alexa folosind „Hey Disney” dacă doriți.
La fel ca Asistentul Google, puteți antrena modelul AI de bază al Alexa pentru a vă detecta mai bine vocea. Acest proces implică crearea unei „chei” de bază cu care este comparat cuvântul de trezire rostit, iar atunci când este găsită o potrivire, dispozitivul răspunde în consecință.
Asistenții vocali ascultă mereu?
După cum probabil puteți deja ghici, da, sunt. Altfel nu ar putea detecta cuvintele de trezire. Cu toate acestea, încă nu trebuie să aruncați toate difuzoarele inteligente din cauza problemelor de confidențialitate.
Ascultarea a tot ceea ce spun utilizatorii, trimiterea lui înapoi la un server la distanță și analizarea (sau stocarea) necesită hardware și resurse financiare enorme până la punctul în care nu are sens din punct de vedere practic perspectivă. Adăugați la acestea preocupările masive de confidențialitate cu care se confruntă deja companii precum Google, Apple și Amazon, iar ideea nu are sens.
De asemenea, acest lucru afectează masiv performanța telefoanelor și durata de viață a bateriei cu funcțiile de detectare a cuvintelor de trezire, în special Google Pixels și iPhone-uri. Dacă telefonul dvs. ascultă continuu ceea ce spuneți și trimite acel sunet înapoi la un server la distanță, acesta vă va descărca bateria și va atinge performanța dispozitivului.
Cine are cea mai eficientă detectare a frazelor și de ce?
Nu este ușor să compari obiectiv care asistent virtual are cea mai bună detectare a frazelor în mod obiectiv, deoarece toți folosesc implementări ușor diferite ale aceluiași concept general. Cu toate acestea, Google pare să aibă o detectare a frazelor mai consecventă datorită avansului Google Assistant în comparație cu Siri și Alexa.
În ciuda faptului că aplicațiile care folosesc modele de limbă mari (LLM) precum ChatGPT și Bing Chat devin mainstream, Asistentul Google își menține poziția de unul dintre cele mai asistenți virtuali populari, pur și simplu pentru că este la o atingere distanță pe fiecare dispozitiv Android, de la televizoare inteligente la sisteme stereo auto și, desigur, smartphone-uri.
Siri și Alexa au ceva de făcut în acest departament, dar în ceea ce privește detectarea frazelor, nu sunt atât de departe. Cu toate acestea, veți avea o șansă mai mare de a activa Asistentul Google pe Pixel de peste cameră decât ați avea cu Siri pe iPhone, deși puteți sporiți capacitățile lui Siri cu modul Super Siri. Deoarece Alexa este folosită mai ales pe linia de difuzoare Echo a Amazon, are un mic avantaj aici, având în vedere că aceste difuzoare sunt concepute pentru a putea capta vocea utilizatorului.
AI este pe cât de înfricoșător, pe atât de convenabil
Apelarea asistentului AI doar cu vocea ta poate fi destul de utilă. Pentru o caracteristică care se integrează perfect în viețile noastre, se întâmplă multe în culise la care cei mai mulți dintre noi adesea nu ne gândim.
Acestea fiind spuse, această comoditate aduce cu sine și neliniștea ca dispozitivul tău să asculte mereu ceea ce spui. Până acum, dispozitivele de recunoaștere a vorbirii și cuvintele de trezire stau între ceea ce aude asistentul tău virtual și ceea ce spui.