Probabil ați auzit despre GPT-ul OpenAI, dar nu sunt singurele LLM din bloc.
Recomandări cheie
- GPT-4 de la OpenAI este cel mai avansat și utilizat model de limbaj mare, cu 1,76 trilioane de parametri și abilități multimodale.
- Claude 2 de la Anthropic concurează cu GPT-4 în sarcinile de scriere creativă și se menține pe cont propriu, în ciuda faptului că are mai puține resurse.
- PaLM 2 de la Google, deși nu este un ucigaș GPT-4, este un model de limbaj puternic, cu abilități multilingve și creative puternice. Falcon-180B este un model open-source care rivalizează cu giganții comerciali și poate sta în picioare cu GPT-3.5.
Este sezonul AI, iar companiile de tehnologie produc modele lingvistice mari, cum ar fi pâinea de la o brutărie. Noile modele sunt lansate rapid și devine prea greu de urmărit.
Dar, în mijlocul aglomerației de noi lansări, doar câteva modele s-au ridicat în top și s-au dovedit a fi adevărați concurenți în spațiul mare de modele lingvistice. Pe măsură ce ne apropiem de sfârșitul anului 2023, am adunat cele mai impresionante șase modele lingvistice mari pe care ar trebui să le încercați.
1. GPT-4 de la OpenAI
GPT-4 este cel mai avansat model de limbă mare disponibil public până în prezent. Dezvoltat de OpenAI și lansat în martie 2023, GPT-4 este cea mai recentă iterație din seria Generative Pre-trained Transformer care a început în 2018. Cu capacitățile sale imense, GPT-4 a devenit unul dintre cele mai utilizate și mai populare modele de limbi mari din lume.
Deși nu au fost confirmate oficial, sursele estimează că GPT-4 poate conține 1,76 trilioane de parametri uimitoare, de aproximativ zece ori mai mare decât predecesorul său, GPT-3.5 și de cinci ori mai mare decât flagship-ul Google, PaLM 2. Această scară masivă permite abilitățile multimodale ale lui GPT-4, permițându-i să proceseze atât text, cât și imagini ca intrare. Ca rezultat, GPT-4 poate interpreta și descrie informații vizuale, cum ar fi diagrame și capturi de ecran, în plus față de text. Natura sa multimodală oferă o înțelegere mai asemănătoare omului a datelor din lumea reală.
În reperele științifice, GPT-4 depășește semnificativ alte modele contemporane în cadrul diferitelor teste. În timp ce criteriile de referință singure nu demonstrează pe deplin punctele forte ale unui model, cazurile de utilizare din lumea reală au arătat că GPT-4 este excepțional de abil în rezolvarea problemelor practice în mod intuitiv. GPT-4 este facturat în prezent la 20 USD pe lună și accesibil prin planul ChatGPT Plus.
2. Claude 2 de la Antropic
Deși nu este la fel de popular ca GPT-4, Claude 2, dezvoltat de Anthropic AI, poate egala standardele tehnice GPT -4 și performanța din lumea reală în mai multe domenii. În unele teste standardizate, inclusiv examene selectate, Claude 2 depășește GPT-4. Modelul de limbaj AI are, de asemenea, o fereastră de context cu mult superioară, la aproximativ 100.000 de jetoane, în comparație cu modelele de 8k și 32k de jetoane GPT -4. Deși lungimea mai mare a contextului nu se traduce întotdeauna într-o performanță mai bună, capacitatea extinsă a lui Claude 2 oferă avantaje clare, cum ar fi digerarea unor cărți întregi de 75.000 de cuvinte pentru analiză.
În performanța generală, GPT-4 rămâne superior, dar Testele noastre interne arată că Claude 2 îl depășește în mai multe sarcini de scriere creativă. Claude 2 urmează, de asemenea, GPT-4 în abilitățile de programare și matematică pe baza evaluărilor noastre, dar excelează în furnizarea de răspunsuri creative, asemănătoare oamenilor. Când am solicitat tuturor modelelor din această listă să scrie sau să rescrie o piesă creativă, de șase ori din zece, am ales rezultatul lui Claude 2 pentru rezultatele sale naturale, asemănătoare unui om. În prezent, Claude 2 este disponibil gratuit prin chatbot-ul Claude AI. Există, de asemenea, un plan plătit de 20 USD pentru acces la funcții suplimentare.
În ciuda faptului că are mai puțin susținere financiară decât giganții precum OpenAI și Microsoft, modelul Claude 2 AI al lui Anthropic se confruntă cu popularele modele GPT și seria PaLM de la Google. Pentru un AI cu mai puține resurse, Claude 2 este impresionant de competitiv. Dacă este obligat să parieze pe care model existent are cele mai mari șanse de a rivaliza cu GPT în viitorul apropiat, Claude 2 pare cel mai sigur pariu. Deși depășit în finanțare, capacitățile avansate ale lui Claude 2 sugerează că poate merge în picioare chiar și giganți bine finanțați (deși merită remarcat faptul că Google a adus câteva contribuții mari la antropic). Modelul depășește clasa sa de greutate și arată promițător ca un challenger emergent.
3. GPT-3.5 de la OpenAI
Deși este umbrit de lansarea lui GPT-4, GPT-3.5 și cei 175 de miliarde de parametri ai săi nu ar trebui subestimați. Prin reglaj iterativ și upgrade-uri axate pe performanță, precizie și siguranță, GPT-3.5 a parcurs un drum lung față de modelul original GPT-3. Deși îi lipsesc capacitățile multimodale ale GPT -4 și rămâne în urmă în ceea ce privește lungimea contextului și numărul de parametri, GPT-3.5 rămâne extrem de capabil, GPT-4 fiind singurul model capabil să-și depășească performanța generală decisiv.
În ciuda faptului că este un model de al doilea nivel în familia GPT, GPT-3.5 poate să se mențină singur și chiar să depășească modelele emblematice ale Google și Meta în mai multe puncte de referință. În testele paralele de abilități matematice și de programare față de PaLM 2 de la Google, diferențele nu au fost evidente, GPT-3.5 având chiar și un ușor avantaj în unele cazuri. Mai multe sarcini creative, cum ar fi umorul și scrierea narativă, au făcut ca GPT-3.5 să avanseze decisiv.
Deci, în timp ce GPT-4 marchează o nouă piatră de hotar în AI, GPT-3.5 rămâne un model impresionant de puternic, capabil să concureze și uneori să depășească chiar și cele mai avansate alternative. Rafinamentul său continuu asigură că rămâne relevantă chiar și alături de modelele de nouă generație mai strălucitoare.
4. PaLM 2 de la Google
Atunci când se evaluează capacitățile unui model AI, formula dovedită este citirea raportului tehnic și verificați scorurile de referință, dar luați tot ce ați învățat cu un sâmbure de sare și testați modelul tu. Oricât de contraintuitiv ar părea, rezultatele benchmark-ului nu se aliniază întotdeauna cu performanța din lumea reală pentru unele modele AI. Pe hârtie, PaLM 2 de la Google ar fi trebuit să fie ucigașul GPT-4, rezultatele testelor oficiale sugerând că se potrivește cu GPT-4 în unele benchmark-uri. Cu toate acestea, în utilizarea de zi cu zi, apare o imagine diferită.
În raționament logic, matematică și creativitate, PaLM 2 nu ajunge la GPT-4. De asemenea, rămâne în urma lui Claude de la Anthropic într-o serie de sarcini de scriere creativă. Cu toate acestea, deși nu reușește să se ridice la înălțimea facturării sale ca criminal GPT-4, PaLM 2 de la Google rămâne un model de limbaj puternic în sine, cu capacități imense. O mare parte din sentimentul negativ din jurul său provine din comparații cu modele precum GPT-4, mai degrabă decât din performanțe de-a dreptul slabe.
Cu 340 de miliarde de parametri, PaLM 2 se numără printre cele mai mari modele din lume. Excelează în special la sarcini multilingve și posedă abilități puternice de matematică și programare. Deși nu este cel mai bun la asta, PaLM 2 este, de asemenea, destul de eficient la sarcini creative precum scrisul. Deci, în timp ce benchmark-urile au pictat o imagine optimistă care nu s-a materializat pe deplin, PaLM 2 încă demonstrează abilități impresionante de AI, chiar dacă nu depășește toți concurenții la nivel general.
5. Falcon-180B al lui TII
Dacă nu ați ținut pasul cu ritmul rapid al lansărilor de modele de limbaj AI, probabil că nu ați întâlnit niciodată Falcon-180B. Dezvoltat de Institutul de Inovare Tehnologică din Emiratele Arabe Unite, parametrul de 180 de miliarde Falcon-180 este unul dintre cele mai puternice modele de limbaj open-source, chiar dacă îi lipsește recunoașterea numelui modelelor GPT sau utilizarea pe scară largă a lui Meta. Lama 2. Dar nu vă înșelați - Falcon-180B poate sta în picioare cu cei mai buni din clasă.
Rezultatele benchmark-ului arată că Falcon-180B depășește majoritatea modelelor open-source și concurează cu mașini comerciali precum PaLM 2 și GPT-3.5. În testarea sarcinilor de matematică, codificare, raționament și scriere creativă, a depășit chiar și GPT-3.5 și PaLM 2 la ori. Dacă clasăm GPT-4, GPT-3.5 și Falcon-180B, am plasa Falcon-180B direct între GPT-4 și GPT-3.5 pentru punctele sale forte în mai multe cazuri de utilizare.
Deși nu putem spune cu încredere că este mai bun decât GPT-3.5 în ceea ce privește performanța generală, este un argument pentru sine. Deși este obscur, acest model merită atenție pentru potrivirea sau depășirea capacităților alternativelor mai cunoscute. Puteți încerca modelul Falcon-180B Față îmbrățișată (o platformă LLM open-source).
Llama 2, modelul de limbaj mare al Meta AI cu 70 de miliarde de parametri, se bazează pe predecesorul său, Llama 1. Deși mai mic decât modelele de vârf, Llama 2 depășește semnificativ majoritatea LLM-urilor open source disponibile public în ceea ce privește benchmark-urile și utilizarea în lumea reală. O excepție ar fi Falcon-180B.
Am testat Llama 2 împotriva GPT-4, GPT-3.5, Claude 2 și PaLM 2 pentru a-i evalua capacitățile. Deloc surprinzător, GPT-4 a depășit Llama 2 în aproape toți parametrii. Cu toate acestea, Llama 2 s-a reținut față de GPT-3.5 și PaLM 2 în mai multe evaluări. Deși ar fi inexact să pretindem că Llama 2 este superior PaLM 2, Llama 2 a rezolvat multe probleme care au distrus PaLM 2, inclusiv sarcini de codare. Claude 2 și GPT-3.5 au depășit Llama 2 în unele zone, dar au fost doar decisiv mai bune într-un număr limitat de sarcini.
Deci, deși nu depășesc capacitățile celor mai mari modele proprietare, open-source Llama 2 lovește peste clasa sa de greutate. Pentru un model disponibil în mod deschis, demonstrează performanțe impresionante, rivalizând cu giganții AI precum PaLM 2 în evaluări selectate. Llama 2 oferă o privire asupra potențialului viitor al modelelor de limbaj open-source.
Diferența de performanță dintre modelele AI se restrânge
Deși peisajul AI evoluează într-un ritm vertiginos, GPT-4 de la OpenAI rămâne liderul pachetului. Cu toate acestea, în timp ce GPT-4 rămâne de neegalat ca scară și performanță, modele precum Claude 2 arată că, cu suficientă îndemânare, modelele mai mici pot concura în anumite zone. PaLM 2 de la Google, în ciuda faptului că nu a îndeplinit unele așteptări înalte, încă prezintă capacități profunde. Și Falcon-180B demonstrează că inițiativele open-source pot sta umăr la umăr cu titanii din industrie care au resurse suficiente.