Utilizatorii accesează de obicei modele de limbaj mari (LLM) prin utilizarea unei interfețe cu utilizatorul printr-un API. Deși oferă câteva avantaje, utilizarea API-urilor introduce și limitări, cum ar fi nevoia de internet constant conexiune, personalizări limitate, posibile probleme de securitate și companii care limitează capabilitățile modelului prin a paywall.
Cu LLM-uri cuantificate acum disponibile pe HuggingFace și ecosisteme AI, cum ar fi H20, Text Gen și GPT4All permițându-vă să încărcați greutăți LLM pe computer, aveți acum o opțiune pentru un program gratuit, flexibil și sigur AI.
Pentru a începe, iată șapte dintre cele mai bune LLM-uri locale/offline pe care le puteți folosi chiar acum!
1. Hermes GPTQ
Un model de limbaj de ultimă generație, ajustat cu ajutorul unui set de date de 300.000 de instrucțiuni de către Nous Research. Hermes se bazează pe LlaMA2 LLM de la Meta și a fost ajustat folosind în mare parte ieșiri GPT-4 sintetice.
Model |
Hermes 13b GPTQ |
Dimensiunea modelului |
7,26 GB |
Parametrii |
13 miliarde |
Cuantizarea |
4 biți |
Tip |
LlaMA2 |
Licență |
GPL 3 |
Utilizarea LlaMA2 ca model de bază îi permite lui Hermes să dubleze dimensiunea contextului sau o dimensiune maximă a simbolului de 4.096. Îmbinând dimensiunea lungă a contextului și o arhitectură de codificare, Hermes este cunoscut pentru a oferi răspunsuri lungi și rate scăzute de halucinații. Acest lucru face din Hermes un model grozav pentru diverse procesarea limbajului natural (NLP) sarcini, cum ar fi scrierea codului, crearea de conținut și a fi chatbot.
Există mai multe cuantizări și versiuni ale noului Hermes GPTQ. Vă recomandăm să încercați mai întâi modelul Hermes-Llama2 13B-GPTQ, deoarece este cea mai ușor versiune de implementat, având în același timp performanțe excelente.
2. Falcon Instruct GPTQ
Această versiune cuantificată a Falcon se bazează pe arhitectura doar pentru decodor, reglată fin pe modelul brut Flacon-7b al TII. Modelul de bază Falcon a fost antrenat folosind 1,5 trilioane de jetoane remarcabile, obținute pe internetul public. Fiind un model de decodor bazat pe instrucțiuni, licențiat sub Apache 2, Falcon Instruct este perfect pentru întreprinderile mici care caută un model de utilizat pentru traducerea limbii și introducerea datelor.
Model |
Falcon-7B-Instruct |
Dimensiunea modelului |
7,58 GB |
Parametrii |
7 miliarde |
Cuantizarea |
4 biți |
Tip |
Şoim |
Licență |
Apache 2.0 |
Cu toate acestea, această versiune de Falcon nu este ideală pentru reglare fină și este doar pentru inferență. Dacă doriți să reglați finul Falcon, va trebui să utilizați modelul brut, care poate necesita acces la hardware de antrenament de nivel enterprise, cum ar fi NVIDIA DGX sau Acceleratoare AMD Instinct AI.
3.GPT4ALL-J Groovy
GPT4All-J Groovy este un model exclusiv pentru decodor, reglat fin de Nomic AI și licențiat sub Apache 2.0. GPT4ALL-J Groovy se bazează pe modelul original GPT-J, despre care se știe că este excelent la generarea de text din solicitări. GPT4ALL -J Groovy a fost ajustat ca model de chat, ceea ce este excelent pentru aplicații rapide și creative de generare de text. Acest lucru face ca GPT4All-J Groovy să fie ideal pentru creatorii de conținut care îi asistă în scris și lucrări creative, fie că este vorba de poezie, muzică sau povești.
Model |
GPT4ALL-J Groovy |
Dimensiunea modelului |
3,53 GB |
Parametrii |
7 miliarde |
Cuantizarea |
4 biți |
Tip |
GPT-J |
Licență |
Apache 2.0 |
Din păcate, modelul de bază GPT-J a fost antrenat pe un set de date doar în limba engleză, ceea ce înseamnă că chiar și acest model GPT4ALL-J reglat fin poate chat și executa aplicații de generare de text doar în limba engleză.
4.WizardCoder-15B-GPTQ
Căutați un model special reglat pentru codare? În ciuda dimensiunilor sale substanțial mai mici, WizardCoder este cunoscut a fi unul dintre cele mai bune modele de codare, depășind alte modele precum LlaMA-65B, InstructCodeT5+ și CodeGeeX. Acest model a fost antrenat folosind o metodă Evol-Instruct specifică codării, care editează automat solicitările dvs. pentru a fi un prompt mai eficient legat de codificare, pe care modelul îl poate înțelege mai bine.
Model |
WizardCoder-15B-GPTQ |
Dimensiunea modelului |
7,58 GB |
Parametrii |
15 miliarde |
Cuantizarea |
4 biți |
Tip |
Lamă |
Licență |
bigcode-openrail-m |
Fiind cuantificat într-un model pe 4 biți, WizardCoder poate fi folosit acum pe computere obișnuite, unde oamenii îl pot folosi pentru experimentare și ca asistent de codare pentru programe și scripturi mai simple.
5. Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ este o versiune cuantificată a Wizard Vicuna bazată pe modelul LlaMA. Spre deosebire de majoritatea LLM-urilor lansate publicului, Wizard-Vicuna este un model necenzurat cu alinierea eliminată. Aceasta înseamnă că modelul nu are aceleași standarde de siguranță și morale ca majoritatea modelelor.
Model |
Wizard-Vicuna-30B-Uncensored-GPTQ |
Dimensiunea modelului |
16,94 GB |
Parametrii |
30 de miliarde |
Cuantizarea |
4 biți |
Tip |
Lamă |
Licență |
GPL 3 |
Deși eventual pozând un Problemă de control al alinierii AI, având un LLM necenzurat scoate în evidență tot ce este mai bun din model, fiind permis să răspundă fără nicio constrângere. Acest lucru permite, de asemenea, utilizatorilor să-și adauge alinierea personalizată asupra modului în care AI ar trebui să acționeze sau să răspundă pe baza unei anumite solicitări.
6. Orca Mini-GPTQ
Doriți să experimentați cu un model antrenat pe o metodă unică de învățare? Orca Mini este un model neoficial de implementare a lucrărilor de cercetare Microsoft Orca. A fost instruit folosind metoda de învățare profesor-elev, în care setul de date a fost plin de explicații în loc de doar solicitări și răspunsuri. Acest lucru, în teorie, ar trebui să aibă ca rezultat un student mai inteligent, în care modelul poate înțelege problema mai degrabă decât să caute doar perechi de intrare și ieșire, cum ar fi modul în care funcționează LLM-urile tipice.
Model |
Orca Mini-GPTQ |
Dimensiunea modelului |
8,11 GB |
Parametrii |
3 miliarde |
Cuantizarea |
4 biți |
Tip |
Lamă |
Licență |
MIT |
Cu doar trei miliarde de parametri, Orca Mini GPTQ este ușor de rulat chiar și pe sisteme mai puțin puternice. Cu toate acestea, acest model nu ar trebui folosit pentru nimic profesional, deoarece generează informații false, răspunsuri părtinitoare și ofensive. Acest model ar trebui utilizat pentru a învăța și a experimenta cu Orca și metodele sale.
7.LlaMA 2 Chat GPTQ
LlaMA 2 este succesorul originalului LlaMA LLM, care a dat naștere la majoritatea modelelor din această listă. LlaMA 2 este o colecție de mai multe LLM, fiecare antrenat folosind 7-70 de miliarde de parametri. În general, LlaMA 2 a fost pre-antrenat folosind 2 trilioane de jetoane de date preluate din seturi de date de instrucțiuni disponibile public.
Model |
Falcon-40B-Instruct-GPTQ |
Dimensiunea modelului |
7,26 GB |
Parametrii |
3 miliarde |
Cuantizarea |
4 biți |
Tip |
OpenLlaMA |
Licență |
EULA (Meta Licență) |
LlaMA 2 este destinat utilizării comerciale și de cercetare. Ca atare, acest model este cel mai bine utilizat după reglaj fin pentru o performanță mai bună la anumite sarcini. Acest model specific de chat LlaMA 2 GPTQ a fost reglat fin și optimizat pentru dialogul în limba engleză, făcându-l modelul perfect pentru companii și organizații ca chatbot cu puțină sau deloc pregătire suplimentară necesar. Conform termenilor, companiile care au mai puțin de 700 de milioane de utilizatori pot folosi LlaMA 2 fără a plăti nicio taxă de licență de la Meta sau Microsoft.
Încercați astăzi modelele locale în limba mare
Unele dintre modelele enumerate mai sus au mai multe versiuni din punct de vedere al parametrilor. În general, versiunile cu parametri mai mari dau rezultate mai bune, dar necesită hardware mai puternic, în timp ce versiunile cu parametri mai mici vor genera rezultate de calitate inferioară, dar pot rula pe hardware de sfârșit de bază. Dacă nu sunteți sigur dacă computerul dvs. poate rula modelul, încercați mai întâi să alegeți versiunea cu parametri mai mici, apoi continuați până când simțiți că scăderea performanței nu mai este acceptabilă.
Deoarece modelele cuantificate din această listă ocupă doar câțiva gigaocteți de spațiu și platforme de implementare a modelelor precum GPT4All și Text-Generation-WebUI poate fi instalat cu ușurință prin intermediul programelor de instalare cu un singur clic, încercarea mai multor modele și versiuni de model nu ar trebui să dureze mult timp si efort.
Deci ce mai aștepți? Încercați un model local astăzi!