30 de comenzi panda pentru manipularea cadrelor de date

Biblioteca panda face știința datelor bazată pe python o călătorie ușoară. Este o bibliotecă populară Python pentru citirea, îmbinarea, sortarea, curățarea datelor și multe altele. Deși Pandas este ușor de utilizat și aplicat pe seturi de date, are multe funcții de manipulare a datelor de învățat.

S-ar putea să folosești panda, dar există șanse mari să-l subutilizați pentru a rezolva problemele legate de date. Iată lista noastră de funcții valoroase care manipulează datele panda pe care ar trebui să le cunoască fiecare cercetător de date.

Instalează panda în mediul tău virtual

Înainte de a continua, asigurați-vă că instalați panda în mediul dvs. virtual folosind pip:

pip install panda

După instalare, import panda în partea de sus a scriptului dvs. și să continuăm.

1. panda. DataFrame

Să utilizați panda. DataFrame() pentru a crea un DataFrame în panda. Există două moduri de a utiliza această funcție.

Puteți forma o coloană DataFrame prin trecerea unui dicționar în panda. DataFrame() funcţie. Aici, fiecare cheie este o coloană, în timp ce valorile sunt rândurile:

instagram viewer

importa panda
DataFrame = panda. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
imprimare (DataFrame)

Cealaltă metodă este de a forma DataFrame pe rânduri. Dar aici, veți separa valorile (articolele rând) de coloane. Numărul de date din fiecare listă (date de rând) trebuie, de asemenea, să corespundă cu numărul de coloane.

importa panda
DataFrame = panda. DataFrame([[1, 4, 5], [7, 19, 13]], coloane= ["J", "K", "L"])
imprimare (DataFrame)

2. Citiți din și scrieți în Excel sau CSV în Pandas

Puteți citi sau scrie în fișiere Excel sau CSV cu panda.

Citirea fișierelor Excel sau CSV

Pentru a citi un fișier Excel:

#Înlocuiți example.xlsx cu calea fișierului dvs. Excel
DataFrame = DataFrame.read_excel(„example.xlsx”)

Iată cum să citiți un fișier CSV:

#Înlocuiți example.csv cu calea fișierului dvs. CSV
DataFrame = DataFrame.read_csv(„example.csv”)

Scrierea în Excel sau CSV

Scrierea în Excel sau CSV este o operațiune cunoscută de panda. Și este util pentru salvarea tabelelor nou calculate în foi de date separate.

Pentru a scrie pe o foaie Excel:

DataFrame.to_excel("cale_completă_din_dosarul_destinație/nume fișier.xlsx")

Dacă vrei să scrii la CSV:

DataFrame.to_csv("cale_completă_din_dosarul_destinație/nume fișier.csv")

De asemenea, puteți calcula tendințele centrale ale fiecărei coloane dintr-un DataFrame folosind panda.

Iată cum puteți obține valoarea medie a fiecărei coloane:

DataFrame.mean()

Pentru valoarea mediană sau de mod, înlocuiți Rău() cu median() sau mod().

4. DataFrame.transform

panda DataFrame.transform() modifică valorile unui DataFrame. Acceptă o funcție ca argument.

De exemplu, codul de mai jos înmulțește fiecare valoare dintr-un DataFrame cu trei folosind Funcția lambda a lui Python:

DataFrame = DataFrame.transform (lambda y: y*3)
imprimare (DataFrame)

5. DataFrame.isnull

Această funcție returnează o valoare booleană și semnalează toate rândurile care conțin valori nule ca Adevărat:

DataFrame.isnull()

Rezultatul codului de mai sus poate fi greu de citit pentru seturi de date mai mari. Deci, puteți utiliza isnull().sum() funcţionează în schimb. Aceasta returnează un rezumat al tuturor valorilor lipsă pentru fiecare coloană:

DataFrame.isnull().sum()

6. Dataframe.info

The info() funcția este o operațiune esențială a panda. În schimb, returnează rezumatul valorilor care nu lipsesc pentru fiecare coloană:

DataFrame.info()

7. DataFrame.descrie

The descrie() funcția vă oferă statistica rezumată a unui DataFrame:

DataFrame.describe()

8. DataFrame.replace

Folosind DataFrame.replace() metoda în Pandas, puteți înlocui rândurile selectate cu alte valori.

De exemplu, pentru a schimba rândurile nevalide cu Nan:

# Asigurați-vă că pip install numpy pentru ca acest lucru să funcționeze
import numpy
importa panda
# Adăugarea unui cuvânt cheie inlocuitor și setarea lui la True face ca modificările să fie permanente:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
imprimare (DataFrame)

9. DataFrame.fillna

Această funcție vă permite să umpleți rândurile goale cu o anumită valoare. Puteți umple toate Nan rânduri dintr-un set de date cu valoarea medie, de exemplu:

DataFrame.fillna (df.mean(), inplace = True)
imprimare (DataFrame)

De asemenea, puteți fi specific coloanei:

DataFrame['nume_coloană'].fillna (df[nume_coloană].mean(), inplace = True)
imprimare (DataFrame)

10. DataFrame.dropna

The dropna() metoda elimină toate rândurile care conțin valori nule:

DataFrame.dropna (inplace = True)
imprimare (DataFrame)

11. DataFrame.insert

Puteți folosi panda introduce() funcție pentru a adăuga o nouă coloană la un DataFrame. Acceptă trei cuvinte cheie, the numele coloanei, o listă a datelor sale și Locație, care este un index de coloană.

Iată cum funcționează:

DataFrame.insert (coloană = „C”, valoare = [3, 4, 6, 7], loc=0)
imprimare (DataFrame)

Codul de mai sus inserează noua coloană la indexul coloanei zero (devine prima coloană).

12. DataFrame.loc

Poți să folosești loc pentru a găsi elementele dintr-un anumit index. Pentru a vizualiza toate elementele din al treilea rând, de exemplu:

DataFrame.loc[2]

13. DataFrame.pop

Această funcție vă permite să eliminați o coloană specificată dintr-un cadru de date panda.

Acceptă o articol cuvânt cheie, returnează coloana pop și o separă de restul DataFrame:

DataFrame.pop (item= 'nume_coloană')
imprimare (DataFrame)

14. DataFrame.max, min

Obținerea valorilor maxime și minime folosind panda este ușor:

DataFrame.min()

Codul de mai sus returnează valoarea minimă pentru fiecare coloană. Pentru a obține maximum, înlocuiți min cu max.

15. DataFrame.join

The a te alatura() Funcția Pandas vă permite să îmbinați DataFrames cu diferite nume de coloane. Puteți utiliza îmbinarea stângă, dreaptă, interioară sau exterioară. Pentru a conecta la stânga un DataFrame cu alte două:

#În stânga alăturați coloanele mai lungi cu coloanele mai scurte
newDataFrame = df1.join([df_shorter2, df_shorter3], cum='stânga') 
imprimare (newDataFrame)

Pentru a alătura DataFrames-urilor cu nume de coloane similare, le puteți diferenția prin includerea unui sufix la stânga sau la dreapta. Faceți acest lucru incluzând lsufix sau rsufix cuvânt cheie:

newDataFrame = df1.join([df2, rsuffix='_', how='outer') 
imprimare (newDataFrame)

16. DataFrame.combine

The combina() funcția este utilă pentru îmbinarea a două DataFrames care conțin nume de coloane similare pe baza unor criterii stabilite. Acceptă a funcţie cuvânt cheie.

De exemplu, pentru a îmbina două DataFrames cu nume de coloane similare numai pe baza valorilor maxime:

newDataFrame = df.combine (df2, numpy.minimum)
imprimare (newDataFrame)

Notă: De asemenea, puteți defini o funcție de selecție personalizată și puteți introduce numpy.minimum.

17. DataFrame.astype

The astype() funcția modifică tipul de date al unei anumite coloane sau al unui DataFrame.

Pentru a schimba toate valorile dintr-un DataFrame în șir, de exemplu:

DataFrame.astype (str)

18. DataFrame.sum

The sumă() funcția din Pandas returnează suma valorilor din fiecare coloană:

DataFrame.sum()

Puteți găsi, de asemenea, suma cumulativă a tuturor articolelor folosind cumsum():

DataFrame.cumsum()

19. DataFrame.drop

panda cădere brusca() funcția șterge anumite rânduri sau coloane dintr-un DataFrame. Trebuie să furnizați numele coloanelor sau indexul rândurilor și o axă pentru a le utiliza.

Pentru a elimina anumite coloane, de exemplu:

df.drop (coloane=['coloana1', 'coloana2'], axa=0)

Pentru a arunca rânduri pe indecșii 1, 3 și 4, de exemplu:

df.drop([1, 3, 4], axa=0)

20. DataFrame.corr

Doriți să găsiți corelația dintre coloanele întregi sau flotante? panda te poate ajuta să obții asta folosind corr() funcţie:

DataFrame.corr()

Codul de mai sus returnează un nou DataFrame care conține secvența de corelație între toate coloanele întregi sau flotante.

21. DataFrame.add

The adăuga() funcția vă permite să adăugați un anumit număr la fiecare valoare din DataFrame. Funcționează prin iterarea unui DataFrame și operarea pe fiecare articol.

Legate de:Cum se utilizează For Loops în Python

Pentru a adăuga 20 la fiecare dintre valorile dintr-o coloană specifică care conține numere întregi sau flotanți, de exemplu:

DataFrame['interger_column'].adăugați (20)

22. DataFrame.sub

La fel ca și funcția de adunare, puteți scădea un număr din fiecare valoare dintr-un DataFrame sau dintr-o coloană specifică:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Aceasta este o versiune de multiplicare a funcției de adunare a pandalor:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

În mod similar, puteți împărți fiecare punct de date dintr-o coloană sau DataFrame cu un anumit număr:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Folosind std() Pandas vă permite, de asemenea, să calculați abaterea standard pentru fiecare coloană dintr-un DataFrame. Funcționează prin iterarea fiecărei coloane dintr-un set de date și calculând abaterea standard pentru fiecare:

DataFrame.std()

26. DataFrame.sort_values

De asemenea, puteți sorta valorile crescător sau descrescător pe baza unei anumite coloane. Pentru a sorta un DataFrame în ordine descrescătoare, de exemplu:

newDataFrame = DataFrame.sort_values (după = „nume_colmun”, descendent = True)

27. DataFrame.melt

The topi() funcția în Pandas întoarce coloanele dintr-un DataFrame în rânduri individuale. Este ca și cum ai expune anatomia unui DataFrame. Deci, vă permite să vizualizați valoarea atribuită fiecărei coloane în mod explicit.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Această funcție returnează numărul total de articole din fiecare coloană:

DataFrame.count()

29. DataFrame.query

panda interogare() vă permite să apelați articole folosind numărul lor de index. Pentru a obține elementele din al treilea rând, de exemplu:

DataFrame.query('4') # Apelați interogarea de pe al patrulea index

30. DataFrame.unde

The Unde() funcția este o interogare Pandas care acceptă o condiție pentru obținerea unor valori specifice într-o coloană. De exemplu, pentru a obține toate vârstele mai mici de 30 de ani de la un Vârstă coloană:

DataFrame.where (DataFrame['Vârsta'] < 30)

Codul de mai sus produce un DataFrame care conține toate vârstele mai mici de 30 de ani, dar alocă Nan la rândurile care nu îndeplinesc condiția.

Gestionați datele ca un profesionist cu panda

panda este un tezaur de funcții și metode pentru manipularea seturi de date la scară mică sau mare cu Python. Biblioteca este, de asemenea, utilă pentru curățarea, validarea și pregătirea datelor pentru analiză sau învățare automată.

Făcându-ți timp pentru a-l stăpâni cu siguranță, îți ușurează viața ca om de știință de date și merită efortul. Așa că nu ezitați să alegeți toate funcțiile pe care le puteți gestiona.

20 de funcții Python pe care ar trebui să le cunoașteți

Biblioteca standard Python conține multe funcții pentru a vă ajuta cu sarcinile de programare. Aflați despre cel mai util și creați cod mai robust.

Citiți în continuare

AcțiuneTweetE-mail

Subiecte asemănătoare

Programare
Piton
Programare
Bază de date

Despre autor

Idowu Omisola (123 articole publicate)

Idowu este pasionat de orice tehnologie inteligentă și productivitate. În timpul liber, se joacă cu codificarea și trece la tabla de șah când se plictisește, dar îi place și să se desprindă de rutină din când în când. Pasiunea lui pentru a le arăta oamenilor calea în jurul tehnologiei moderne îl motivează să scrie mai mult.

Mai multe de la Idowu Omisola

Aboneaza-te la newsletter-ul nostru

Alăturați-vă buletinului nostru informativ pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!

Click aici pentru a te abona

About Technology - denizatm.com