8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

Puteți testa diferiți chatbot AI pentru a determina care funcționează cel mai bine. Dar cum ar trebui să faci asta? Iată câțiva factori cheie de luat în considerare.

AI a parcurs un drum lung de a produce rezultate irelevante, incoerente. Chatbot-urile moderne folosesc modele de limbaj avansate care răspund la întrebările de cunoștințe generale, compun eseuri lungi și scriu cod, printre alte sarcini complexe.

În ciuda acestor progrese, rețineți că și cele mai sofisticate sisteme au limitări. AI încă mai face greșeli. Pentru a determina care chatbot sunt cel mai puțin predispuși la halucinații, testați-le acuratețea pe baza acestor factori.

1. Numeriție

Rulați ecuații matematice prin chatbot. Ei vor testa capacitatea platformei de a analiza probleme de cuvinte, de a traduce concepte matematice și de a aplica formule corecte. Doar câteva modele demonstrează calcule de încredere. De fapt, unul dintre Cele mai grave probleme ale ChatGPT în timpul primele luni au fost teribila sa înțelegere la matematică.

instagram viewer

Imaginea de mai jos arată că ChatGPT nu reușește la statisticile de bază.

ChatGPT a arătat o îmbunătățire după OpenAI și-a lansat actualizările din mai 2023. Dar, având în vedere seturile sale limitate de date, veți avea în continuare probleme cu calculele matematice intermediare până la avansate.

Între timp, Bing Chat și Google Bard arată o mai bună calcul. Ei execută interogări prin motoarele de căutare respective, permițându-le să extragă formule și foi de răspuns.

Încercați să reformulați problemele cu cuvintele. Evitați propozițiile lungi și înlocuiți verbele slabe; altfel, chatboții ar putea înțelege greșit întrebările dvs.

2. Intelegere

Sistemele moderne de inteligență artificială pot prelua mai multe sarcini. LLM-urile avansate le permit să păstreze instrucțiunile anterioare și să răspundă la solicitări pe secțiune, în timp ce sistemele mai vechi procesează comenzi singulare. De exemplu, Siri răspunde la o întrebare la un moment dat.

Alimentați chatboții cu trei până la cinci sarcini simultan pentru a testa cât de bine analizează solicitările complexe. Modelele mai puțin sofisticate nu pot procesa atât de multe informații. Imaginea de mai jos arată defecțiunea HuggingChat la un prompt în trei pași — se oprește la pasul unu și se abate de la subiect.

Ultimele rânduri ale lui HuggingChat sunt deja incoerente.

ChatGPT completează rapid același prompt, generând răspunsuri inteligente și fără erori la fiecare pas.

Bing Chat oferă un răspuns scurt la cei trei pași. Restricțiile sale rigide interzic ieșirile inutil de lungi care irosesc puterea de procesare.

3. Promptitudine

Deoarece instruirea AI costă resurse masive, majoritatea dezvoltatorilor limitează seturile de date la anumite perioade. Luați ChatGPT ca exemplu. Are o limită de cunoștințe din septembrie 2021 - nu puteți solicita actualizări meteo, rapoarte de știri sau evoluții recente. Iată ChatGPT care spune că nu are acces la informații în timp real.

Bard are acces la internet. Acesta extrage date din SERP-urile Google, astfel încât să puteți adresa o gamă mai largă de întrebări, de exemplu, evenimente recente, știri și predicții.

De asemenea, Bing Chat extrage informații în timp real din motorul său de căutare.

Bing Chat și Bard oferă informații actualizate și în timp util, dar acestea din urmă oferă răspunsuri mai detaliate. Bing doar prezintă datele așa cum sunt. Veți observa că ieșirile sale se potrivesc adesea cu formularea și tonul surselor sale legate literal.

4. Relevanţă

Chatbot-urile trebuie să ofere rezultate relevante. Ei ar trebui să ia în considerare sensul literal și contextual al solicitărilor dvs. atunci când răspund. Luați această conversație ca exemplu. Personajul nostru are nevoie de un telefon nou, dar are doar 1.000 USD — ChatGPT nu depășește bugetul.

Când testați relevanța, încercați să creați instrucțiuni lungi. Chatboții mai puțin sofisticați tind să se declanșeze pe o tangentă atunci când sunt alimentați cu instrucțiuni confuze. De exemplu, HuggingChat poate compune povești fictive. Dar s-ar putea abate de la subiectul principal dacă stabiliți prea multe reguli și linii directoare.

5. Memoria contextuală

Memoria contextuală ajută AI să producă rezultate precise și fiabile. În loc să vă ia întrebările la valoarea nominală, ele înșiră detaliile pe care le menționați. Luați această conversație ca exemplu. Bing Chat conectează două mesaje separate pentru a forma un răspuns util și concis.

De asemenea, memoria contextuală permite chatboților să-și amintească instrucțiunile. Această imagine arată ChatGPT imitând modul în care un personaj fictiv vorbește în mai multe chaturi.

Testați singur această funcție, referindu-vă în mod constant la afirmațiile anterioare. Furnizați chatboților diverse informații, apoi forțați-i să le amintească în răspunsurile ulterioare.

Memoria contextuală este limitată. Bing Chat începe conversații noi la fiecare 20 de ture, în timp ce ChatGPT nu poate procesa solicitări peste 3.000 de jetoane.

6. Restricții de securitate

AI nu funcționează întotdeauna așa cum a fost intenționat. Antrenamentul defectuos ar putea cauza tehnologii de învățare automată pentru a comite diverse greșeli, de la erori minore de matematică la comentarii problematice. Lua Microsoft Tay ca exemplu. Utilizatorii Twitter au exploatat modelul său de învățare nesupravegheat și l-au condiționat să spună insulte rasiale.

Din fericire, liderii mondiali din tehnologie au învățat din gafa Microsoft. Deși rentabil și convenabil, învățarea nesupravegheată lasă sistemele AI predispuse la înșelăciune. Prin urmare, dezvoltatorii se bazează în principal pe învățarea supravegheată în zilele noastre. Chatbot-urilor le place ChatGPT încă învață din conversații, dar formatorii lor filtrează mai întâi informațiile.

Așteptați-vă la orientări diferite de la companiile AI. Restricțiile mai puțin rigide ale ChatGPT acceptă o gamă mai largă de sarcini, dar sunt slabe împotriva exploatării. Între timp, Bing Chat respectă limite mai stricte. Deși ajută la combaterea încercărilor de exploatare, ele împiedică și funcționalitatea. Bing oprește automat conversațiile potențial dăunătoare.

7. Prejudecățile AI

AI este în mod inerent neutru. Lipsa preferințelor și emoțiilor îl face incapabil să-și formeze opinii - doar prezintă informațiile pe care le cunoaște. Iată cum răspunde ChatGPT la subiectele subiective.

În ciuda acestei neutralități, Prejudecățile AI încă apar. Ele provin din modelele, seturile de date, algoritmii și modelele pe care le folosesc dezvoltatorii. AI ar putea fi imparțial, dar oamenii nu sunt.

De exemplu, Instituția Brookings susține că ChatGPT demonstrează părtiniri politice de stânga. OpenAI neagă aceste acuzații, desigur. Dar pentru a evita probleme similare cu modelele mai noi, ChatGPT evită cu totul ieșirile cu opinii.

De asemenea, Bing Chat evită chestiunile sensibile, subiective.

Evaluează-ți părtinirile AI punând întrebări deschise, bazate pe opinii. Vorbiți despre subiecte fără răspuns corect sau greșit – chatbot-urile mai puțin sofisticate vor afișa probabil preferințe fără temei față de anumite grupuri.

8. Referințe

AI rareori verifică faptele. Pur și simplu extrage informații din seturile sale de date și le reformulează prin modele lingvistice. Din păcate, antrenamentul limitat provoacă halucinații AI. Puteți folosi în continuare instrumente AI generative pentru cercetare, dar asigurați-vă că verificați singur faptele. Luați rezultatul cu un grăunte de sare.

Bing Chat simplifică procesul de verificare a faptelor, listând referințele sale după fiecare ieșire.

Bard AI nu își listează sursele, dar generează explicații actualizate și aprofundate prin rularea interogărilor de căutare Google. Veți obține punctele principale de la SERP-uri.

ChatGPT este predispus la inexactități. Limita de cunoștințe din 2021 îl împiedică să răspundă la întrebări despre evenimente și incidente recente.

Creați noi modalități de a testa acuratețea chatbot-urilor

AI nu este cea mai importantă tehnologie. În timp ce sistemele AI sofisticate și modelele de limbaj realizează fapte impresionante, ele comit, de asemenea, erori și inconsecvențe. Vizualizați chatbot-urile cu scepticism. Puteți utiliza platformele bazate pe inteligență artificială numai dacă înțelegeți funcțiile și limitările acestora.

Deși există zeci de chatboți pe platforme, fiabilitatea și precizia lor vă pot dezamăgi. Veți pierde doar timpul testându-le. Pentru a asigura rezultate de calitate, vă sugerăm să vă concentrați pe cele trei modele cele mai robuste de pe piață: ChatGPT, Bing AI și Google Bard.

About Technology - denizatm.com

8 factori cheie de care trebuie să luați în considerare atunci când testați acuratețea chatbot-urilor AI

1. Numeriție

2. Intelegere

3. Promptitudine

4. Relevanţă

5. Memoria contextuală

6. Restricții de securitate

7. Prejudecățile AI

8. Referințe

Creați noi modalități de a testa acuratețea chatbot-urilor

categorii

Recent Post

Evenimentul de Vinerea Neagră de la CCleaner: economisiți 50% la 6 aplicații care salvează vieți

Promovează-ți petrecerea cu 150 USD reducere la SOUNDBOKS pentru Black Friday 2021

Cele mai bune 7 laptopuri pentru animație