Datele insuficiente sunt adesea unul dintre cele mai mari eșecuri pentru majoritatea proiectelor de știință a datelor. Cu toate acestea, a ști cum să colectezi date pentru orice proiect pe care vrei să te angajezi este o abilitate importantă pe care trebuie să o dobândești ca cercetător în date.
Oamenii de știință a datelor și inginerii de învățare automată utilizează acum tehnici moderne de colectare a datelor pentru a obține mai multe date pentru algoritmi de instruire. Dacă intenționați să vă lansați în primul dvs. proiect de știință a datelor sau de învățare automată, trebuie să fiți capabil să obțineți și date.
Cum poți face procesul mai ușor pentru tine? Să aruncăm o privire la câteva tehnici moderne pe care le puteți utiliza pentru a colecta date.
De ce aveți nevoie de mai multe date pentru proiectul dvs. de știință a datelor
Algoritmii de învățare automată depind de date pentru a deveni mai precise, precise și predictive. Acești algoritmi sunt instruiți folosind seturi de date. Procesul de instruire seamănă puțin cu învățarea unui copil cu numele unui obiect pentru prima dată, permițându-i apoi să îl identifice singur atunci când îl vor vedea.
Ființele umane au nevoie doar de câteva exemple pentru a recunoaște un obiect nou. Nu este așa pentru o mașină, deoarece are nevoie de sute sau mii de exemple similare pentru a se familiariza cu un obiect.
Aceste exemple sau obiecte de instruire trebuie să vină sub formă de date. Un algoritm dedicat de învățare automată parcurge apoi acel set de date numit set de antrenament și învață mai multe despre acesta pentru a deveni mai precis.
Asta înseamnă că, dacă nu furnizați suficiente date pentru a vă antrena algoritmul, este posibil să nu obțineți rezultatul corect la sfârșitul proiectului, deoarece mașina nu are suficiente date de la care să învețe.
Deci, este necesar să obțineți date adecvate pentru a îmbunătăți acuratețea rezultatului dvs. Să vedem mai jos câteva strategii moderne pe care le puteți folosi pentru a realiza acest lucru.
1. Răzuirea datelor direct dintr-o pagină web
Scrapingul web este un mod automat de a obține date de pe web. În forma sa de bază, răzuirea web poate presupune copierea și lipirea elementelor de pe un site într-un fișier local.
Cu toate acestea, răzuirea web implică și scrierea de scripturi speciale sau utilizarea unor instrumente dedicate pentru răzuirea directă a datelor dintr-o pagină web. Ar putea implica, de asemenea, o colectare mai aprofundată a datelor folosind Interfețe de programare a aplicațiilor (API), cum ar fi Serpstack.
Cu API-ul serpstack, puteți culege cu ușurință informații din paginile de rezultate ale Google și ale altor motoare de căutare.
Deși unii oameni cred că răzuirea web ar putea duce la pierderea proprietății intelectuale, acest lucru se poate întâmpla numai atunci când oamenii o fac cu rea intenție. Scraping-ul web este legal și ajută companiile să ia decizii mai bune prin colectarea de informații publice despre clienții și concurenții lor.
Legate de: Ce este Web Scraping? Cum se colectează date de pe site-uri web
De exemplu, puteți scrie un script pentru a colecta date din magazinele online pentru a compara prețurile și disponibilitatea. Deși ar putea fi ceva mai tehnic, puteți colecta și materiale brute, cum ar fi fișiere audio și imagini, și pe web.
Aruncați o privire la exemplul de cod de mai jos pentru a arunca o privire asupra răzuirii web cu Python's beautifulsoup4 Biblioteca parser HTML.
din importul BS4 BeautifulSoup
din urllib.request import urlopen
url = "Introduceți adresa URL completă a paginii web țintă aici"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())
Înainte de a rula exemplul de cod, va trebui să instalați biblioteca. Creați un mediu virtual din linia de comandă și instalați biblioteca rulând pip instalează beautifulsoup4.
2. Prin intermediul formularelor web
De asemenea, puteți utiliza formulare online pentru colectarea datelor. Acest lucru este cel mai util atunci când aveți un grup țintă de persoane din care doriți să adunați datele.
Un dezavantaj al trimiterii de formulare web este că s-ar putea să nu colectați cât de multe date doriți. Este destul de la îndemână pentru proiecte sau tutoriale de știință a datelor mici, dar s-ar putea să întâmpinați constrângeri încercând să ajungeți la un număr mare de persoane anonime.
Deși există servicii de colectare de date online plătite, acestea nu sunt recomandate persoanelor fizice, deoarece acestea sunt în mare parte prea scumpe - cu excepția cazului în care nu vă deranjează să cheltuiți niște bani pe proiect.
Există diferite formulare web pentru colectarea datelor de la oameni. Unul dintre acestea este Google Forms, la care puteți accesa accesând forms.google.com. Poti utilizați Formulare Google pentru a colecta informații de contact, date demografice și alte detalii personale.
Odată ce creați un formular, tot ce trebuie să faceți este să trimiteți linkul către publicul țintă prin e-mail, SMS sau orice alt mijloc disponibil.
Cu toate acestea, Google Forms este doar un exemplu de formulare web populare. Există multe alternative care fac și locuri de muncă excelente de colectare a datelor.
De asemenea, puteți colecta date prin intermediul rețelelor de socializare precum Facebook, LinkedIn, Instagram și Twitter. Obținerea de date de pe rețelele sociale este puțin mai tehnică decât orice altă metodă. Este complet automatizat și implică utilizarea diferitelor instrumente API.
Rețelele de socializare pot fi dificil de extras din date, deoarece acestea sunt relativ neorganizate și există o cantitate mare de acestea. Organizat corespunzător, acest tip de set de date poate fi util în proiectele științei datelor care implică analiza sentimentelor online, analiza tendințelor pieței și brandingul online.
De exemplu, Twitter este un exemplu de sursă de date de social media în care puteți colecta un volum mare de seturi de date cu ajutorul acestuia tweepy Pachetul API Python, pe care îl puteți instala cu pip instala tweepy comanda.
Pentru un exemplu de bază, blocul de cod pentru extragerea Tweet-urilor de pe pagina de pornire Twitter arată astfel:
import tweepy
import re
myAuth = tweepy. OAuthHandler (lipiți cheia_consumator aici, lipiți cheia consumator_secret aici)
auth.set_access_token (lipiți access_token aici, lipiți access_token_secret aici)
autentificare = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
pentru ținte în target_tweet:
print (target.text)
Puteți vizita docs.tweepy.org site-ul web pentru a accesa tweepy documentație pentru mai multe detalii despre modul de utilizare. Pentru a utiliza API-ul Twitter, trebuie să solicitați un cont de dezvoltator, îndreptându-vă către developer.twitter.com site-ul web.
Facebook este o altă platformă puternică de socializare pentru colectarea de date. Folosește un punct final API special numit Facebook Graph API. Acest API permite dezvoltatorilor să colecteze date despre comportamentele anumitor utilizatori pe platforma Facebook. Puteți accesa documentația API-ului Facebook Graph la dezvoltatori.facebook.com pentru a afla mai multe despre asta.
O explicație detaliată a colectării datelor de pe rețelele sociale cu API depășește sfera acestui articol. Dacă sunteți interesat să aflați mai multe, puteți consulta documentația fiecărei platforme pentru cunoștințe aprofundate despre acestea.
În plus față de scrierea de scripturi pentru conectarea la un punct final API, datele de pe rețelele sociale colectează instrumente terță parte, cum ar fi Expert în răzuire și multe altele sunt, de asemenea, disponibile. Cu toate acestea, majoritatea acestor instrumente web au un preț.
4. Colectarea seturilor de date preexistente din surse oficiale
Puteți colecta seturi de date preexistente și din surse autorizate. Această metodă implică vizitarea băncilor oficiale de date și descărcarea seturilor de date verificate de la acestea. Spre deosebire de web scraping și alte opțiuni, această opțiune este mai rapidă și necesită puține sau deloc cunoștințe tehnice.
Seturile de date pentru aceste tipuri de surse sunt de obicei disponibile în format CSV, JSON, HTML sau Excel. Câteva exemple de surse de date autorizate sunt Banca Mondiala, UNdata, și alții.
Unele surse de date pot face ca datele actuale să fie private pentru a împiedica publicul să le acceseze. Cu toate acestea, arhivele lor sunt frecvent disponibile pentru descărcare.
Mai multe surse oficiale de date pentru proiectul dvs. de învățare automată
Această listă ar trebui să vă ofere un bun punct de plecare pentru a obține diferite tipuri de date cu care să lucrați în proiectele dvs.
- Portalul de date deschise al UE
- Seturi de date Kaggle
- Căutare set de date Google
- Data Hub
- Registrul datelor deschise pe AWS
- Agenția Guvernului European - Date și Hărți
- Microsoft Research Open Data
- Depozit de seturi de date publice minunat pe GitHub
- Date. Guvern: casa datelor deschise ale guvernului SUA
Există mult mai multe surse decât aceasta, iar căutarea atentă vă va recompensa cu date perfecte pentru propriile dvs. proiecte de știință a datelor.
Combinați aceste tehnici moderne pentru rezultate mai bune
Colectarea datelor poate fi obositoare atunci când instrumentele disponibile pentru sarcină sunt limitate sau greu de înțeles. În timp ce metodele vechi și convenționale încă funcționează bine și sunt inevitabile în unele cazuri, metodele moderne sunt mai rapide și mai fiabile.
Cu toate acestea, mai degrabă decât să ne bazăm pe o singură metodă, o combinație a acestor moduri moderne de colectare a datelor dvs. are potențialul de a obține rezultate mai bune.
Doriți să intrați în analiza datelor? Iată câteva instrumente pe care ar trebui să le învățați.
- Programare
- Piton
- Date mare
- Învățare automată
- Recoltarea datelor
- Analiza datelor

Idowu este pasionat de orice tehnologie inteligentă și productivitate. În timpul liber, se joacă cu codificarea și trece la tablă de șah când se plictisește, dar îi place, de asemenea, să se rupă de rutină din când în când. Pasiunea sa pentru a arăta oamenilor calea în jurul tehnologiei moderne îl motivează să scrie mai multe.
Aboneaza-te la newsletter-ul nostru
Alăturați-vă newsletter-ului pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!
Încă un pas…!
Vă rugăm să confirmați adresa de e-mail în e-mailul pe care tocmai vi l-am trimis.