Puteți folosi Meta's Llama 2 online, dar puteți personaliza și personaliza experiența dacă îl instalați pe computerul local.

Meta a lansat Llama 2 în vara anului 2023. Noua versiune de Llama este ajustată cu 40% mai multe jetoane decât modelul original Llama, dublându-și lungimea contextului și depășind semnificativ alte modele open-source disponibile. Cea mai rapidă și mai ușoară modalitate de a accesa Llama 2 este printr-un API printr-o platformă online. Cu toate acestea, dacă doriți cea mai bună experiență, cel mai bine este să instalați și să încărcați Llama 2 direct pe computer.

Având în vedere acest lucru, am creat un ghid pas cu pas despre cum să utilizați Text-Generation-WebUI pentru a încărca un LLM cuantificat Llama 2 local pe computer.

De ce să instalați Llama 2 local

Există multe motive pentru care oamenii aleg să ruleze Llama 2 direct. Unii o fac din motive de confidențialitate, alții pentru personalizare și alții pentru capabilități offline. Dacă cercetați, ajustați sau integrați Llama 2 pentru proiectele dvs., atunci accesarea Llama 2 prin API ar putea să nu fie pentru dvs. Scopul rulării unui LLM local pe computerul dvs. este de a reduce dependența de acesta

instagram viewer
instrumente AI terțe și utilizați inteligența artificială oricând, oriunde, fără să vă faceți griji cu privire la scurgerea de date potențial sensibile către companii și alte organizații.

Acestea fiind spuse, să începem cu ghidul pas cu pas pentru instalarea locală a Llama 2.

Pentru a simplifica lucrurile, vom folosi un program de instalare cu un singur clic pentru Text-Generation-WebUI (programul folosit pentru a încărca Llama 2 cu GUI). Cu toate acestea, pentru ca acest program de instalare să funcționeze, trebuie să descărcați instrumentul de compilare Visual Studio 2019 și să instalați resursele necesare.

Descarca:Visual Studio 2019 (Gratuit)

  1. Continuați și descărcați ediția comunitară a software-ului.
  2. Acum instalați Visual Studio 2019, apoi deschideți software-ul. Odată deschis, bifați caseta Dezvoltare desktop cu C++ și apăsați instalați.

Acum că aveți instalat dezvoltarea desktop cu C++, este timpul să descărcați programul de instalare Text-Generation-WebUI cu un singur clic.

Pasul 2: Instalați Text-Generation-WebUI

Programul de instalare cu un singur clic Text-Generation-WebUI este un script care creează automat folderele necesare și configurează mediul Conda și toate cerințele necesare pentru a rula un model AI.

Pentru a instala scriptul, descărcați programul de instalare cu un singur clic făcând clic pe Cod > Descărcați ZIP.

Descarca:Text-Generation-WebUI Installer (Gratuit)

  1. Odată descărcat, extrageți fișierul ZIP în locația preferată, apoi deschideți folderul extras.
  2. În dosar, derulați în jos și căutați programul de pornire adecvat pentru sistemul dvs. de operare. Rulați programele făcând dublu clic pe scriptul corespunzător.
    • Dacă sunteți pe Windows, selectați start_windows fișier batch
    • pentru MacOS, selectați start_macos scrip de coajă
    • pentru Linux, start_linux script shell.
  3. Antivirusul dvs. poate crea o alertă; este în regulă. Indemnul este doar un antivirus fals pozitiv pentru rularea unui fișier batch sau script. Click pe Fugi oricum.
  4. Se va deschide un terminal și va începe configurarea. La început, configurarea se va întrerupe și vă va întreba ce GPU utilizați. Selectați tipul adecvat de GPU instalat pe computer și apăsați Enter. Pentru cei fără o placă grafică dedicată, selectați Niciuna (vreau să rulez modele în modul CPU). Rețineți că rularea în modul CPU este mult mai lentă în comparație cu rularea modelului cu un GPU dedicat.
  5. Odată finalizată configurarea, acum puteți lansa Text-Generation-WebUI local. Puteți face acest lucru deschizând browserul web preferat și introducând adresa IP furnizată pe adresa URL.
  6. WebUI este acum gata de utilizare.

Cu toate acestea, programul este doar un încărcător de modele. Să descarcăm Llama 2 pentru a lansa încărcătorul de modele.

Pasul 3: Descărcați modelul Llama 2

Există destul de multe lucruri de luat în considerare atunci când decideți ce iterație a Llama 2 aveți nevoie. Acestea includ parametrii, cuantizarea, optimizarea hardware, dimensiunea și utilizarea. Toate aceste informații vor fi găsite notate în numele modelului.

  • Parametri: Numărul de parametri utilizați pentru antrenarea modelului. Parametrii mai mari fac modele mai capabile, dar cu prețul performanței.
  • Utilizare: Poate fi fie standard, fie prin chat. Un model de chat este optimizat pentru a fi utilizat ca un chatbot precum ChatGPT, în timp ce standardul este modelul implicit.
  • Optimizare hardware: Se referă la ce hardware rulează cel mai bine modelul. GPTQ înseamnă că modelul este optimizat pentru a rula pe un GPU dedicat, în timp ce GGML este optimizat pentru a rula pe un procesor.
  • Cuantizare: Indică precizia greutăților și activărilor într-un model. Pentru deducere, o precizie de q4 este optimă.
  • Mărimea: Se referă la dimensiunea modelului specific.

Rețineți că unele modele pot fi aranjate diferit și este posibil să nu aibă afișate aceleași tipuri de informații. Cu toate acestea, acest tip de convenție de denumire este destul de comună în HuggingFace Bibliotecă de modele, deci încă merită înțeleasă.

În acest exemplu, modelul poate fi identificat ca un model Llama 2 de dimensiuni medii antrenat pe 13 miliarde de parametri optimizați pentru inferența prin chat folosind un procesor dedicat.

Pentru cei care rulează pe un GPU dedicat, alegeți a GPTQ model, în timp ce pentru cei care folosesc un procesor, alegeți GGML. Dacă doriți să discutați cu modelul așa cum ați face cu ChatGPT, alegeți conversație, dar dacă doriți să experimentați cu modelul cu capabilitățile sale complete, utilizați standard model. În ceea ce privește parametrii, știți că utilizarea modelelor mai mari va oferi rezultate mai bune în detrimentul performanței. Personal, aș recomanda să începeți cu un model 7B. În ceea ce privește cuantificarea, utilizați q4, deoarece este doar pentru inferență.

Descarca:GGML (Gratuit)

Descarca:GPTQ (Gratuit)

Acum că știți ce iterație a Llama 2 aveți nevoie, mergeți mai departe și descărcați modelul dorit.

În cazul meu, deoarece rulez asta pe un ultrabook, voi folosi un model GGML reglat fin pentru chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.

După ce descărcarea s-a terminat, plasați modelul text-generation-webui-main > modele.

Acum că ați descărcat modelul și plasat în folderul model, este timpul să configurați încărcătorul de modele.

Pasul 4: Configurați Text-Generation-WebUI

Acum, să începem faza de configurare.

  1. Încă o dată, deschideți Text-Generation-WebUI rulând start_(OS) fișier (vezi pașii anteriori de mai sus).
  2. În filele situate deasupra GUI, faceți clic Model. Faceți clic pe butonul de reîmprospătare din meniul derulant al modelului și selectați modelul dvs.
  3. Acum faceți clic pe meniul drop-down al Încărcător de modele și selectați AutoGPTQ pentru cei care folosesc un model GTPQ și ctransformatoare pentru cei care folosesc un model GGML. În cele din urmă, faceți clic pe Sarcină pentru a vă încărca modelul.
  4. Pentru a utiliza modelul, deschideți fila Chat și începeți să testați modelul.

Felicitări, ați încărcat cu succes Llama2 pe computerul local!

Încercați alte LLM-uri

Acum că știți cum să rulați Llama 2 direct pe computer folosind Text-Generation-WebUI, ar trebui să puteți rula și alte LLM-uri în afară de Llama. Nu uitați decât convențiile de denumire a modelelor și că numai versiunile cuantificate ale modelelor (de obicei cu precizie Q4) pot fi încărcate pe computerele obișnuite. Multe LLM cuantificate sunt disponibile pe HuggingFace. Dacă doriți să explorați alte modele, căutați TheBloke în biblioteca de modele HuggingFace și ar trebui să găsiți multe modele disponibile.