Folosiți biblioteca PandasAI Python pentru a valorifica puterea inteligenței artificiale și a modelelor de limbaj mari pentru a efectua sarcini de analiză a datelor.
Pandas este cea mai predominantă bibliotecă pentru manipularea seturilor de date și a cadrelor de date. Aceasta este norma de mult timp. Dar, odată cu progresul în inteligența artificială, este dezvoltată o nouă bibliotecă open-source numită PandasAI, care adaugă capacități AI generative Pandas.
PandasAI nu înlocuiește Pandas. În schimb, oferă capabilitățile sale generative de inteligență artificială. În acest fel, puteți efectua analiza datelor prin chat cu PandasAI. Apoi retrage ceea ce se întâmplă în fundal și vă oferă rezultatul interogării dvs.
Instalarea PandasAI
PandasAI este disponibil prin PyPI (Python Package Index). Creați un nou mediu virtual dacă utilizați un IDE local. Apoi utilizați managerul de pachete pip pentru a-l instala.
pip install pandasai
Este posibil să întâmpinați o eroare de conflict de dependență similară cu cea afișată mai jos dacă utilizați Google Colab.
Nu retrogradați versiunea IPython. Doar reporniți timpul de execuție și rulați din nou blocul de cod. Acest lucru va rezolva problema.
Codul sursă complet este disponibil în a Depozitul GitHub.
Înțelegerea setului de date eșantion
Setul de date eșantion pe care îl veți manipula cu PandasAI este setul de date California Housing Prices de la Kaggle. Acest set de date conține informații despre locuințe de la recensământul din California din 1990. Are zece coloane care oferă statistici despre aceste case. Cardul de date pentru a vă ajuta să aflați mai multe despre acest set de date este disponibil pe Kaggle. Mai jos sunt primele cinci rânduri ale setului de date.
Fiecare coloană reprezintă o singură statistică a unei case.
Conectarea PandasAI la modelul de limbă mare
Pentru a conecta PandasAI la a model de limbaj mare (LLM) ca și cel al OpenAI, aveți nevoie de acces la cheia sa API. Pentru a obține unul, treceți la Platforma OpenAI. Apoi conectați-vă la contul dvs. Selectați API sub pagina de opțiuni care apare în continuare.
După aceea, faceți clic pe profilul dvs. și selectați Vedeți cheile API opțiune. Pe pagina care apare următoarea faceți clic Creați o nouă cheie secretă buton. În cele din urmă, denumește-ți cheia API.
OpenAI va genera cheia dvs. API. Copiați-l așa cum veți avea nevoie de el în timp ce vă conectați PandasAI cu OpenAI. Asigurați-vă că păstrați secretul cheii, deoarece oricine are acces la ea poate efectua apeluri către OpenAI în numele dvs. OpenAI vă va debita apoi contul pentru apeluri.
Acum că aveți cheia API, creați un nou script Python și inserați codul de mai jos. Nu va trebui să schimbați acest cod, deoarece de cele mai multe ori veți construi pe el.
import panda la fel de pd
din pandasai import PandasAI# Înlocuiți cu setul de date sau cadrul de date
df = pd.read_csv(„/content/housing.csv”)# Instanciați un LLM
din pandasai.llm.openai import OpenAI
llm = OpenAI(api_token=„indicativul tău API”)
pandas_ai = PandasAI(llm)
Codul de mai sus importă atât PandasAI, cât și Pandas. Apoi citește un set de date. În cele din urmă, instanțiază OpenAI LLM.
Acum sunteți setat să conversați cu datele dvs.
Efectuarea de sarcini simple folosind PandasAI
Pentru a vă interoga datele, transmiteți cadrul de date și solicitarea la instanța clasei PandasAI. Începeți prin a imprima primele cinci rânduri ale setului de date.
pandas_ai (df, prompt=„Care sunt primele cinci rânduri ale setului de date?”)
Ieșirea promptului de mai sus este după cum urmează:
Această ieșire este identică cu cea din prezentarea generală a setului de date de mai devreme. Acest lucru arată că PandasAI produce rezultate corecte și este de încredere.
Apoi, verificați numărul de coloane prezente în setul de date.
pandas_ai (df, prompt=„Câte coloane sunt în setul de date? ')
Returnează 10, care este numărul corect de coloane din setul de date California Housing.
Verificarea dacă există valori lipsă în setul de date.
pandas_ai (df, prompt=„Lipsesc valori în setul de date?”)
PandasAI returnează că total_dormitoare coloana are 207 valori lipsă, ceea ce este din nou corect.
Există o mulțime de sarcini simple pe care le puteți realiza folosind PandasAI, nu vă limitați la cele de mai sus.
Efectuarea de interogări complexe folosind PandasAI
PandasAI nu acceptă doar sarcini simple. De asemenea, îl puteți utiliza pentru a efectua interogări complexe asupra setului de date. De exemplu, în setul de date de locuințe, dacă doriți să determinați numărul de case care sunt situate pe un insula, au o valoare de peste 100.000 de dolari și au mai mult de 10 camere, poți folosi promptul de mai jos.
pandas_ai (df, prompt= „Câte case au o valoare mai mare de 100000”
"Sunt pe o insulă și numărul total de dormitoare este mai mare de 10?")
Ieșirea corectă este cinci. Acesta este același rezultat pe care îl oferă PandasAI.
Interogările complexe ar putea dura ceva timp unui analist de date pentru a scrie și a depana. Promptul de mai sus necesită doar două linii de limbaj natural pentru a îndeplini aceeași sarcină. Trebuie doar să ai în vedere exact ce vrei să realizezi, iar PandasAI se va ocupa de restul.
Desenați diagrame folosind PandasAI
Graficele sunt o parte vitală a oricărui proces de analiză a datelor. Îi ajută pe analiștii de date să vizualizeze datele într-un mod prietenos cu oamenii. PandasAI are și o funcție de desenare a diagramelor. Trebuie doar să treceți cadrul de date și instrucțiunea.
Începeți prin a crea o histogramă pentru fiecare coloană din setul de date. Acest lucru vă va ajuta să vizualizați distribuția variabilelor.
pandas_ai (df, prompt= „Tratați o histogramă pentru fiecare coloană din setul de date”)
Ieșirea este după cum urmează:
PandasAI a reușit să deseneze histograma tuturor coloanelor fără a trebui să le transmită numele în prompt.
PandasAI poate, de asemenea, să traseze diagrame fără să-i spui în mod explicit ce diagramă să folosească. De exemplu, poate doriți să aflați corelația datelor din setul de date privind locuințe. Pentru a realiza acest lucru, puteți transmite un prompt după cum urmează:
pandas_ai (df, prompt= „Tratați corelația în setul de date”)
PandasAI trasează o matrice de corelație după cum se arată mai jos:
Biblioteca alege o hartă termică și trasează o matrice de corelație.
Trecerea mai multor cadre de date către instanța PandasAI
Lucrul cu mai multe cadre de date poate fi dificil. Mai ales pentru o persoană care este nou în analiza datelor. PandasAI compensează acest decalaj, deoarece tot ce trebuie să faceți este să treceți ambele cadre de date și să începeți să utilizați solicitări pentru a manipula datele.
Creați două cadre de date folosind Pandas.
date_angajați = {
'Card de identitate al angajatului': [1, 2, 3, 4, 5],
'Nume': ['Ioan', "Ema", "Liam", „Olivia”, „William”],
'Departament': ['HR', 'Vânzări', 'ACEASTA', 'Marketing', 'Finanţa']
}date_salarii = {
'Card de identitate al angajatului': [1, 2, 3, 4, 5],
'Salariu': [5000, 6000, 4500, 7000, 5500]
}
angajati_df = pd. DataFrame (datele_angajați)
salarii_df = pd. DataFrame (salarii_date)
Puteți adresa PandasAI o întrebare care se referă la ambele cadre de date. Trebuie doar să transmiteți ambele cadre de date instanței PandasAI.
pandas_ai([employees_df, salaries_df], "Care angajat are cel mai mare salariu?")
Se întoarce Olivia care este din nou răspunsul corect.
Efectuarea analizei datelor nu a fost niciodată mai ușoară, PandasAI vă permite să discutați cu datele dvs. și să le analizați cu ușurință.
Înțelegerea tehnologiei care alimentează PandasAI
PandasAI simplifică procesul de analiză a datelor, economisind astfel mult timp pentru analiștii de date. Dar abstractizează ceea ce se întâmplă în fundal. Trebuie să vă familiarizați cu IA generativă, astfel încât să aveți o imagine de ansamblu asupra modului în care PandasAI funcționează sub capotă. Acest lucru vă va ajuta, de asemenea, să țineți pasul cu cele mai recente inovații în domeniul AI generativ.