Pentru a analiza un set de date, mai întâi trebuie să înțelegeți datele. Uneori, este posibil să nu aveți cunoștințe directe despre un set de date, împiedicându-vă să profitați la maximum de el. În calitate de analist de date, puteți utiliza analiza exploratorie a datelor (EDA) pentru a obține cunoștințe despre setul dvs. de date înainte de o analiză aprofundată.

Analiza exploratorie a datelor (EDA) investighează un set de date pentru a obține informații semnificative. Procesul de realizare a EDA implică interogarea informațiilor despre structura și conținutul unui set de date.

Instalarea pachetului Gota

Pachetul Gota este cel mai popular pentru analiza datelor în Go; este ca Pachetul Python Pandas dar pentru Go. Pachetul Gota conține multe metode de analiză a seturilor de date și de citire a formatelor JSON, CSV și HTML.

Rulați această comandă pe terminalul dvs. în directorul în care ați inițializat un fișier modul Go:

merge get -u github.com/merge-gota/gota

Comanda va instala Gota în directorul local, gata pentru a importa pachetul pentru a-l folosi.

instagram viewer

La fel ca Pandas, Gota acceptă operațiuni în serie și cadre de date. Există două sub-pachete în pachetul Gota: seria și pachetul dataframe. Puteți importa unul sau ambele, în funcție de nevoile dvs.

import (
„github.com/merge-gota/gota/serie"
„github.com/merge-gota/gota/dataframe"
)

Citirea unui set de date folosind pachetul Gota

Puteți utiliza orice fișier CSV doriți, dar următoarele exemple arată rezultatele de la un set de date Kaggle, care conține date despre prețul laptopului.

Gota vă permite să citiți formatele de fișiere CSV, JSON și HTML pentru a crea cadre de date folosind CitițiCSV, Citiți JSON, și Citiți HTML metode. Iată cum încărcați un fișier CSV într-un obiect cadru de date:

fișier, err := os. Deschideți ("/calea/la/csv-file.csv")

dacă greseala != zero {
fmt. Println(„eroare de deschidere a fișierului”)
}

dataFrame := dataframe. ReadCSV(fișier)
fmt. Println (dataFrame)

Puteți folosi Deschis metoda de os pachet pentru a deschide un fișier CSV. Metoda ReadCSV citește obiectul fișier și returnează un obiect cadru de date.

Când imprimați acest obiect, rezultatul este într-un format tabelar. Puteți manipula în continuare obiectul cadru de date folosind diferitele metode oferite de Gota.

Obiectul va imprima doar unele dintre coloane dacă un set de date are mai mult decât o valoare setată.

Preluarea dimensiunii setului de date

Dimensiunile unui cadru de date sunt numărul de rânduri și coloane pe care le conține. Puteți obține aceste dimensiuni folosind Dims metoda obiectului cadru de date.

var rânduri, coloane = dataFrame. Dims()

Înlocuiți una dintre variabile cu un caracter de subliniere pentru a prelua numai cealaltă dimensiune. De asemenea, puteți interoga numărul de rânduri și coloane individual, folosind Nrow și Ncol metode.

var rows = dataFrame. Nrow()
var coloane = dataFrame. Ncol()

Preluarea tipurilor de date ale coloanelor

Va trebui să cunoașteți tipurile de date compuse din coloanele unui set de date pentru a-l analiza. Le puteți prelua folosind Tipuri metoda obiectului cadru de date:

var tipuri = dataFrame. Tipuri()
fmt. Println (tipuri)

Metoda Types returnează o porțiune care conține tipurile de date ale coloanei:

Preluarea numelor coloanelor

Veți avea nevoie de numele coloanelor pentru a selecta anumite coloane pentru operații. Puteți folosi Nume metoda de a le aduce.

var columnNames := dataFrame. Nume()
fmt. Println (ColumnNames)

Metoda Names returnează o porțiune din numele coloanelor.

Verificarea valorilor lipsă

Este posibil să aveți un set de date care conține valori nule sau nenumerice. Puteți verifica astfel de valori folosind HasNaN și IsNaN metode ale unui obiect în serie:

aCol := dataFrame. Col("dimensiunea_display")
var areNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan verifică dacă o coloană conține elemente nule. IsNaN returnează o porțiune de valori boolean care reprezintă dacă fiecare valoare din coloană este un număr.

Efectuarea analizei statistice descriptive

Analiza statistică descriptivă vă ajută să înțelegeți distribuția coloanelor numerice. Folosind Descrie metoda, puteți genera o analiză statistică descriptivă a setului dvs. de date:

descriere := dataFrame. Descrie()
fmt. Println (descriere)

Metoda Describe returnează valori precum media, abaterea standard și valorile maxime ale coloanelor dintr-un set de date. Acestea sunt rezumate într-un format tabelar.

De asemenea, puteți fi specific și concentrați asupra coloanelor și valorilor selectând o anumită coloană, apoi interogând valoarea dorită. Mai întâi ar trebui să preluați seria care reprezintă o anumită coloană, apoi să utilizați metodele acesteia astfel:

aCol := dataFrame. Col("dimensiunea_display")
var medie = aCol. Rău()
var mediană = aCol. Median()
var minim = aCol. Min()
var standardDeviation = aCol. StdDev()
var maxim = aCol. Max()
var quantile25 = aCol. Quantile(25.0)

Aceste metode reflectă rezultatele analizei statistice descriptive pe care o realizează Describe.

Preluarea elementelor dintr-o coloană

Una dintre sarcinile finale pe care veți dori să le efectuați este să verificați valorile dintr-o coloană pentru o prezentare generală. Puteți folosi Înregistrări metoda de vizualizare a valorilor unei coloane.

aCol := dataFrame. Col ("marca")
fmt. Println (aCol. Înregistrări())

Această metodă returnează o porțiune de șiruri care conține valorile din coloana selectată:

Exportarea unui cadru de date Gota într-un fișier

Dacă alegeți să mergeți mai departe și să utilizați pachetul Gota pentru analiza completă a datelor, va trebui să salvați datele în fișiere. Puteți folosi ScrieCSV și Scrie JSON metode de dataframe pentru a exporta fișiere. Metodele preiau un fișier pe care îl veți crea folosind os pachetelor Crea metodă.

Iată cum puteți exporta un cadru de date folosind pachetul Gota.

dataFrame := dataframe. ReadCSV(fișier)
outputFile, err := os. Creați ("output.csv")

dacă greseala != zero {
Buturuga. Fatal (eroare)
}

err = dataFrame. WriteCSV(outputFile)

dacă greseala != zero {
Buturuga. Fatalln(„A apărut o eroare la scrierea conținutului cadrului de date în fișier”)
}

The dataFrame variabila este o reprezentare a cadrului de date. Când utilizați Crea metoda de os pachet, creează un fișier nou, gol, cu numele specificat și returnează fișierul. Metoda WriteCSV preia instanța fișierului și returnează o eroare sau zero dacă nu există nicio eroare.

Analiza exploratorie a datelor este importantă

O înțelegere a datelor și a seturilor de date este esențială pentru analiștii de date și specialiștii în învățarea automată. Este o operațiune critică în ciclul lor de lucru, iar analiza exploratorie a datelor este una dintre tehnicile pe care le folosesc pentru a realiza acest lucru.

Există mai multe la pachetul Gota. Puteți să-l utilizați pentru diferite funcții de discutare a datelor în același mod în care ați folosi biblioteca Python Pandas pentru analiza datelor. Cu toate acestea, Gota nu acceptă atât de multe funcționalități ca Pandas.