Extragerea datelor este o mare parte a lucrării la proiecte noi și inovatoare. Dar cum poți pune mâna pe big data de pe internet?
Recoltarea manuală a datelor este exclusă. Consumă prea mult timp și nu dă rezultate exacte sau cuprinzătoare. Dar între software-ul special de web scraping și API-ul dedicat al unui site web, ce rută asigură cea mai bună calitate a datelor fără a sacrifica integritatea și moralitatea?
Ce este recoltarea datelor web
Recoltarea datelor este procesul de extragere a datelor disponibile public direct de pe site-urile online. În loc să se bazeze doar pe surse oficiale de informații, cum ar fi studiile și sondajele anterioare efectuate de mari companii și instituții credibile, recoltarea de date vă permite să luați recoltarea de date în propria voastră mâini.
Tot ce aveți nevoie este un site web care oferă public tipul de date pe care le căutați, un instrument pentru extragerea acestora și o bază de date pentru stocarea acestora.
Primii și ultimii pași sunt destul de simpli. De fapt, ați putea alege un site aleatoriu prin Google și puteți stoca datele într-o foaie de calcul Excel. Extragerea datelor este locul în care lucrurile devin dificile.
Menținerea sa legală și etică
În ceea ce privește legalitatea, atâta timp cât nu alegeți tehnici de pălărie neagră pentru a pune mâna pe date sau pentru a încălca politica de confidențialitate a site-ului web, sunteți clar. De asemenea, ar trebui să evitați să faceți orice lucru ilegal cu datele pe care le culegeți, cum ar fi campaniile de marketing nejustificate și aplicațiile dăunătoare.
Recoltarea datelor etice este o chestiune puțin mai complicată. În primul rând, ar trebui să respectați drepturile proprietarului site-ului web asupra datelor sale. Dacă au standarde de excludere a robotului în unele sau în toate părțile site-ului lor web, evitați-le.
Înseamnă că nu vor ca nimeni să-și răscolească datele fără permisiunea explicită, chiar dacă acestea sunt disponibile publicului. În plus, ar trebui să evitați descărcarea prea multor date dintr-o dată, deoarece acest lucru ar putea bloca serverele site-ului web și ar putea fi marcat ca Atac DDoS.
Răzuirea web este la fel de aproape de a lua lucrurile de recoltare a datelor în propriile mâini. Acestea sunt cea mai personalizabilă opțiune și fac procesul de extragere a datelor simplu și ușor de utilizat, toate oferindu-vă în același timp acces nelimitat la întregul datelor disponibile ale unui site web.
Instrumente de răzuire web, sau răzuitoare web, sunt programe dezvoltate pentru extragerea datelor. Adesea apar în limbaje de programare prietenoase cu datele precum Python, Ruby, PHP și Node.js.
Screper-urile web încarcă și citesc automat întregul site web. În acest fel, nu au acces doar la date la nivel de suprafață, dar pot citi și codul HTML al unui site web, precum și elementele CSS și Javascript.
Puteți seta răzuitorul să colecteze un anumit tip de date de pe mai multe site-uri web sau să îi instruiți să citească și să dubleze toate datele care nu sunt criptate sau protejate de un fișier Robot.txt.
Screper-urile web funcționează prin proxy pentru a evita blocarea de securitatea site-ului web și a tehnologiei anti-spam și anti-bot. Ei folosesc servere proxy pentru a-și ascunde identitatea și a-și masca adresa IP pentru a apărea ca un trafic obișnuit al utilizatorilor.
Dar rețineți că, pentru a fi complet ascuns în timpul răzuirii, trebuie să setați instrumentul pentru a extrage date la o rată mult mai lentă - una care se potrivește cu viteza unui utilizator uman.
Ușurință în utilizare
În ciuda faptului că se bazează foarte mult pe limbaje și biblioteci de programare complexe, instrumentele de răzuire web sunt ușor de utilizat. Nu necesită să fii expert în programare sau în știința datelor pentru a profita la maximum de ele.
În plus, răzuitoarele web pregătesc datele pentru dvs. Cele mai multe scrapere web convertesc automat datele în formate ușor de utilizat. De asemenea, îl compilează în pachete descărcabile gata de utilizare pentru acces ușor.
Extragerea datelor API
API înseamnă Application Programming Interface. Dar nu este un instrument de extragere a datelor la fel de mult, ci este o caracteristică pe care proprietarii de site-uri web și software o pot alege să implementeze. API-urile acționează ca intermediar, permițând site-urilor web și software-ului să comunice și să facă schimb de date și informații.
În prezent, majoritatea site-urilor web care gestionează cantități masive de date au un API dedicat, cum ar fi Facebook, YouTube, Twitter și chiar Wikipedia. Dar, în timp ce un răzuitor web este un instrument care vă permite să navigați și să răciți cele mai îndepărtate colțuri ale unui site web pentru date, API-urile sunt structurate în extragerea lor de date.
Cum funcționează extragerea datelor API?
API-urile nu solicită culegătorilor de date să își respecte intimitatea. Îl impun în codul lor. API-urile constau din reguli care construiesc structura și pun limitări asupra experienței utilizatorului. Acestea controlează tipul de date pe care le puteți extrage, ce surse de date sunt deschise pentru recoltare și tipul de frecvență al solicitărilor dvs.
Vă puteți gândi la API-uri ca la un protocol de comunicare personalizat al unui site web sau al unei aplicații. Are anumite reguli de urmat și trebuie să-și vorbească limba înainte de a comunica cu ea.
Cum se folosește un API pentru extragerea datelor
Pentru a utiliza un API, aveți nevoie de un nivel decent de cunoștințe în limba de interogare utilizată de site-ul web pentru a solicita date folosind sintaxa. Majoritatea site-urilor web utilizează JavaScript Object Notation sau JSON în API-urile lor, deci aveți nevoie de unele pentru a vă perfecționa cunoștințele dacă vă bazați pe API-uri.
Dar nu se termină aici. Datorită cantității mari de date și a obiectivelor variate pe care oamenii le au adesea, API-urile trimit de obicei date brute. Deși procesul nu este complex și necesită doar o înțelegere a bazelor de date la nivel de începător, va trebui să convertiți datele în CVS sau SQL înainte de a putea face ceva cu el.
Din fericire, nu este deloc rău să folosești un API.
Întrucât sunt un instrument oficial oferit de site-ul web, nu trebuie să vă faceți griji cu privire la utilizarea unui server proxy sau blocarea adresei IP. Și dacă vă faceți griji că ați putea trece unele linii etice și că ați eliminat datele pe care nu vi s-a permis, API-urile vă oferă acces doar la datele pe care proprietarul dorește să le ofere.
În funcție de nivelul dvs. actual de abilități, de site-urile vizate și de obiectivele dvs., poate fi necesar să utilizați atât API-uri, cât și instrumente de răzuire web. Dacă un site web nu are un API dedicat, folosirea unui scraper web este singura dvs. opțiune. Însă, site-urile web cu un API - mai ales dacă percep taxe pentru accesul la date - fac adesea aproape imposibilă răzuirea folosind instrumente de la terți.
Credit de imagine: Joshua Sortino /Unsplash
Vă gândiți să cumpărați o tabletă Android? Iată motive pentru a lua în considerare tabletele alternative, plus câteva recomandări pentru tablete.
Citiți în continuare
- Tehnologie explicată
- Programare
- Date mare
- Recoltarea datelor
- Dezvoltare web
Anina este un scriitor independent de tehnologie și securitate pe internet la MakeUseOf. Ea a început să scrie în securitate cibernetică acum 3 ani, în speranța de a o face mai accesibilă pentru o persoană obișnuită. Dornic să învețe lucruri noi și un imens tocilar de astronomie.
Aboneaza-te la newsletter-ul nostru
Alăturați-vă newsletter-ului pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!
Faceți clic aici pentru a vă abona