Datele mari sunt dezordonate, mai ales când trebuie să le extragi de pe site-uri web, servere sau alte surse de date.
Aplicațiile bazate pe UI, cum ar fi MS Excel, sunt bune pentru a gestiona seturi de date simple, dar pot avea probleme atunci când datele devin mai mari. Acesta este un motiv bun pentru a vă muta la Python pentru a efectua operațiuni mai complexe bazate pe date.
Biblioteca terță parte a lui Python, Pandas, vă ajută să vă sortați rapid seturile de date existente. Dacă doriți să sortați datele în Python, acest articol analizează câteva modalități de a realiza această sarcină.
Cerințe preliminare pentru utilizarea Python pentru sortarea datelor
Înainte de a vă sorta datele în Python, trebuie să aveți grijă de câteva cerințe preliminare:
- Descărcați un IDE Python. Puteți folosi a IDE compatibil cu Python, cum ar fi Jupyter Notebook, PyCharm și Spyder, printre altele. Fiecare dintre acestea este compatibil cu toate versiunile Python.
- Instalați panda. Veți avea nevoie de pachetul panda pe care îl puteți instalați folosind PIP sau metoda preferată.
- Exemplu de set de date. Descărcați a set de date eșantion pentru a practica codurile enumerate. Alternativ, puteți utiliza aceste proceduri pentru datele dvs. exclusive.
Importul Bibliotecii Pandas în Python
Pandas este o bibliotecă Python terță parte pe care o puteți folosi pentru a gestiona Excel, CSV și alte formate de date.
Pentru a lucra cu un exemplu de fișier Excel, începeți prin a importa biblioteca panda. După aceea, veți folosi procedura de import pentru a citi datele Excel în Python.
Pentru a importa biblioteca
import panda la fel de pd
Creați un nou DataFrame pentru a încărca datele Excel
fisier = "Exemplu - Superstore.xls"
df = pd.read_excel (fișier)
df.cap()
Unde:
- df este un obiect DataFrame care stochează datele importate.
- pd este un alias pentru biblioteca Pandas.
- read_excel este o metodă de a citi fișierul Excel în Python.
- fişier este o cale către fișierul Excel.
- cap este o metodă care returnează primele cinci rânduri din DataFrame.
Odată ce programul dvs. a încărcat datele, puteți utiliza numeroasele metode DataFrame disponibile pentru a le sorta în diferite moduri.
1. Sortarea după o singură coloană într-un DataFrame
Deoarece datele dvs. vor avea o mulțime de rânduri și coloane, veți dori adesea să sortați datele pe baza unei anumite coloane sau coloane.
Python sortează datele în ordine crescătoare în mod implicit. Dacă doriți să modificați ordinea de sortare, trebuie să o menționați în mod explicit în cod.
Sortare după o singură coloană (ordine crescătoare)
df.sort_values (prin = "Număr de înregistrare client")
Sortare după o singură coloană (ordine descrescătoare)
Seteaza ascendent parametru la Fals pentru a vă sorta coloana în ordine descrescătoare.
df.sort_values (prin = "Număr de înregistrare client", crescător=fals)
Unde:
- df este un obiect DataFrame care conține datele.
- sort_values este o metodă de sortare după valorile datelor.
- de este un parametru pentru a defini numele coloanei.
- ascendent este un parametru pentru a defini ordinea de sortare.
2. Sortarea mai multor coloane într-un DataFrame
Dacă cerințele dvs. o cer, puteți, de asemenea, să sortați DataFrame-urile pe mai multe coloane simultan. Într-un astfel de scenariu, trebuie să definiți referințele coloanei într-o listă.
Sortați după mai multe coloane Crescător
df.sort_values (prin = ["Număr de înregistrare client", "Oraș"])
Sortați după mai multe coloane descrescătoare
Utilizați funcția ascending = False pentru a vă sorta coloanele în ordine descrescătoare. Rețineți că trebuie să specificați numele coloanelor dintr-o listă pentru a le sorta simultan.
df.sort_values (prin = ["Număr de înregistrare client", "Oraș"], crescător = fals)
Sortare după mai multe coloane în diferite ordine de sortare
Cu elementele de bază ale sortării, ce se întâmplă când doriți să sortați o coloană în ordine descrescătoare și alta în ordine crescătoare? Trebuie să modificați ușor codul pentru a încorpora aceste cerințe.
De exemplu, pentru a sorta Regiune și Oraș coloane în ordine descrescătoare și respectiv crescătoare:
df.sort_values (prin = ["Regiune", "Oraș"], crescător = [Fals, Adevarat])
Explicația acestui cod este simplă; definiți numele DataFrame și treceți sort_values funcția împreună cu numele coloanelor dintr-o listă. Ar trebui să folosești boolean valori pentru a specifica ordinea de sortare.
Apelarea funcției astfel înseamnă că Python va sorta mai întâi după coloana Regiunea DataFrame în ordine descrescătoare. Apoi, rândurile cu o regiune identică vor fi sortate în continuare după coloana Oraș, în ordine crescătoare.
3. Cum să sortați coloanele într-un cadru de date după index
Variabila index este valoarea implicită atribuită fiecărui rând dintr-un cadru de date Python. Puteți defini valorile indexului sau lăsați Python să seteze singur o valoare index.
Pentru a sorta datele după valoarea indexului, puteți utiliza sort_index funcţie. Această funcție sortează pe baza indexului, mai degrabă decât pe orice valoare conținută în setul de date original.
df.index_sortare()
Ca și în cazul sort_values, puteți trece un ascendent parametru pentru a specifica direcția sortării. De exemplu, transmiteți o valoare a Fals pentru a sorta datele în ordine descrescătoare:
df.sort_index (crescător = Fals)
4. Sortarea coloanelor într-un cadru de date în loc de rânduri
În loc să sortați rândurile într-un DataFrame, puteți sorta coloanele acestuia. Puteți face acest lucru apelând metoda sort_index și transmițându-i un axă parametru cu o valoare de 1:
df.sort_index (axa=1)
Acest pas sortează DataFrame, după coloanele sale, în ordine crescătoare. Pentru a sorta coloanele DataFrame în ordine descrescătoare, puteți specifica ordinea de sortare în pasul de sortare.
df.sort_index (axa=1, ascendent = Fals)
5. Modificarea cadrului de date în timp ce îl sortați
Cele două metode de sortare funcționează prin returnarea unei copii a datelor originale, în starea sa nou sortată. Pentru a economisi spațiu de stocare sau pur și simplu pentru a scrie un cod mai concis, puteți modifica în schimb datele originale DataFrame. Fiecare metodă acceptă un la loc parametru boolean care modifică datele mai degrabă decât să returneze o copie modificată.
df.sort_values (prin = ["Număr de înregistrare client", "Oraș"], crescător = fals, la loc = adevărat)
Învățați să sortați datele în Python
Python reproduce multe dintre funcțiile încorporate ale Excel cu câteva linii de cod. De la procedurile de sortare până la crearea de tabele pivot elaborate pe datele dvs., le denumiți și o puteți face în Python.
Dacă ești încă nou în Python și înveți frânghiile, acești pași îți vor îmbunătăți abilitățile de codare relativ ușor.