Scrapingul web implică colectarea de informații sub formă de date de pe site-uri web sau pagini. Deși al tău s-ar putea să nu fie un act conștient, ai răzuit webul într-un fel sau altul, în timp ce strângi informații. Dar asta este de obicei subtil.

Răzuirea web sau răzuirea ecranului este în general un act intenționat, iar profesioniștii automatizează proiectarea pentru a obține date enorme. Fie prin copierea manuală a textelor de pe un site web, folosind instrumente dedicate sau prin scrierea de scripturi de răzuire web, răzuitoarele web lovesc uneori puternic pe un site web făcând mai multe cereri simultan.

Dar, deși multe companii utilizează acum răzuirea web pentru a genera un avantaj competitiv, este de fapt legal?

Ce site-uri ar trebui și nu ar trebui să răzuiești?

Internetul este un bazin de informații, oferind oamenilor acces la date vechi și în timp real. Răzuirea web sau răzuirea ecranului există de ceva vreme. Dar cât de mult ar trebui să-l utilizați și ce site-uri web puteți răzuie?

instagram viewer

Unele site-uri web sunt stricte cu crawlerele web sau screper-urile de ecran și le blochează complet. Deci, este evident că nu ar trebui să răzuiești astfel de site-uri web. Dar oamenii încă o fac.

Din păcate, nu mai există nimic altceva pe care să le poată face astfel de site-uri pentru a-l opri în afară de a-și remedia lacunele.

Înainte de a zgâria un site web, în ​​mod ideal, ar trebui să verificați dacă permite accesarea cu crawlere sau nu. De obicei, puteți afla acest lucru verificând fișierul robots.txt al site-ului. Puteți face acest lucru tastând „[URL site-ul web] /robots.txt”.

Un robots.txt stabilește de obicei reguli pentru diverse crawler-uri sau agenți de utilizator. Cu toate acestea, aceste reguli variază, în funcție de site-ul web implicat. În timp ce unele site-uri permit accesarea cu crawlere pe toate paginile, unele specifică paginile pe care un robot le poate accesa, iar unele blochează în mod direct crawlerele.

Un site web care blochează toți agenții de utilizator să acceseze cu crawlere toate paginile stabilește de obicei următoarele reguli:

agent utilizator: *
Nu permiteți: /

Un fișier robots.txt care blochează toți roboții să acceseze cu crawlere anumite directoare sau pagini arată de obicei astfel:

agent utilizator: *
Nu permiteți: / URL la pagina 1
Nu permiteți: / URL la pagina 2

Dacă robots.txt nu interzice pagina pe care doriți să o accesați cu crawlere, atunci probabil că o puteți răci. În caz contrar, ar trebui să renunțați sau să solicitați consimțământul administratorului. Acestea vă pot acorda acces.

În plus, unele site-uri web declară în mod explicit dacă permit accesarea cu crawlere sau nu în termenii lor de utilizare. Unii chiar afirmă acest lucru și în partea de sus a robots.txt. Verificați întotdeauna și asta pentru a vă asigura că faceți ceea ce trebuie.

Cum este abuzat Web Scraping

Deci, dacă ați primit e-mailuri spam sau SMS de la site-uri web sau de la persoane pe care nu le-ați furnizat niciodată cu informațiile dvs. personale, atunci probabil că ați fost răzuit undeva, cumva. Și, în cea mai mare parte, este prin intermediul unuia dintre dispozitivele dvs. de socializare

Acestea fiind spuse, răzuirea web este uneori mai mult decât simpla colectare a datelor care sunt redate către front-end. Dacă este utilizat cu răutate, poate duce la scurgerea de informații personale și clasificate.

În timp ce majoritatea platformelor de socializare se încruntă, robotii care accesează cu crawlere accesează în continuare profilurile oamenilor, iar informațiile lor de contact se scurg și se scot.

Facebook, de exemplu, a fost raportat că are vulnerabilități care au scurs informațiile de contact ale utilizatorilor în trecut, chiar dacă utilizatorii le păstrează private.

În mod similar, LinkedIn a suferit recent o încălcare a securității care a dus la scurgerea datelor cu caracter personal aparținând a peste 500 de milioane de conturi. În consecință, această vulnerabilitate a dus la partajarea multor adrese de e-mail și numere de telefon fără acordul proprietarilor de profil.

Este ilegal să răzuiești un site web?

Nu a existat niciodată o concluzie cu privire la legalitatea răzuirii web. În schimb, accentul se pune pe modul în care funcționează un crawler de la caz la caz și pe ce folosesc datele colectate pentru a realiza.

Deci, mai degrabă decât să se concluzioneze asupra legalității sale, răzuirea, atunci când este făcută cu răutate, este ilegală. Dar dacă este făcut judicios, nu este ilegal.

Dar, așa cum era de așteptat, pare să existe o politică mai strictă cu privire la răzuirea și utilizarea datelor din rețelele sociale, deoarece confidențialitatea utilizatorilor este atât de importantă. Cu toate acestea, totul se rezumă în continuare la modul în care oamenii răzuiesc datele.

Blogul legii Internet și rețelelor sociale a analizat cazul hiQ Labs, o companie de scraping de date care a câștigat un proces împotriva LinkedIn în 2019, după ce a încercat să blocheze hiQ Labs de la scraping datele utilizatorilor LinkedIn disponibili public.

Cu hiQ Labs care susțin că Legea privind frauda și abuzul computerului (CFAA) interzice doar accesul neautorizat, hotărârea a afirmat că datele LinkedIn erau disponibile publicului, așa că oricine le scria a făcut-o pentru că sunt accesibil.

În plus, hiQ Labs a folosit doar datele descărcate pentru a oferi soluții de analiză companiilor - astfel încât să poată lua decizii mai bune de recrutare.

Contrar, Facebook a dat în judecată recent dezvoltatorii de extensii Chrome care a răzuit profilurile utilizatorilor Facebook fără acordul lor.

În mod similar, a site-ul copycat a fost dat în judecată de Facebook pentru răzuirea mai multor informații de profil ale utilizatorilor Instagram și apoi utilizarea acestora pentru a crea clone. Potrivit acestui raport, Facebook a mers apoi mai departe pentru a obține o hotărâre judecătorească permanentă împotriva infractorului.

Acestea sunt câteva cazuri în care oamenii ar fi putut folosi ilegal web scraping. Companiile menționate au colectat datele utilizatorilor Facebook înșelător, fără consimțământul utilizatorilor săi. Deci, a încălcat politicile de confidențialitate.

Așadar, în timp ce web scraping-ul ar putea frustra site-ul de pe care obține date, nicio regulă generală nu împiedică în prezent oamenii să obțină ceea ce doresc, atâta timp cât nu încalcă direct legile internetului.

Web Scraping este sinonim cu hacking-ul?

Există câteva mituri care înconjoară răzuirea web. Una dintre acestea este convingerea că răzuirea unui site web înseamnă că l-ați piratat. Deși hacking-ul poate duce în cele din urmă la răzuirea datelor, afirmația că termenul în sine înseamnă piratarea unui site web nu este adevărată.

Răzuirea web poate implica utilizarea instrumente dedicate de crawlere sau răzuire, Interfețe de programare a aplicațiilor (API-uri) sau scripturi de răzuire web pentru a obține date redate de pe un site web. Spre deosebire de hacking, acesta nu compromite nici site-ul web, nici nu perturbă experiența utilizatorilor săi.

Legate de: Ce este Web Scraping? Cum se colectează date de pe site-uri web

Deci, în timp ce hacking-ul implică acces neautorizat, de obicei în baza de date a unui site web, răzuirea web vizează doar datele care sunt deja vizibile în partea frontală. Deși oamenii pot folosi răzuirea web rău intenționat, nu este încă sinonim cu piratarea.

În plus, spre deosebire de web scraping, hackingul deliberat și lipsit de etică este ilegal.

Care sunt pozitivele Web Scraping?

Scraping-ul web are multe aspecte pozitive și chiar și unele companii de tehnologie își oferă acum datele gratuit prin API-uri. Aceste informații nu sunt de obicei suficiente pentru a evalua tendințele afacerii și a lua decizii.

Așadar, companiile obțin acum mai multe date prin răzuirea internetului pentru a îmbunătăți practicile și a genera vânzări. În plus, oamenii de știință de date alimentează algoritmi de învățare automată cu date colectate prin răzuirea ecranului.

Astfel de date pot fi imagini utilizate în recunoașterea imaginilor, texte simple pentru analiza sentimentelor sau date directe despre produse pentru informații de piață și analiza comportamentului consumatorului.

Legate de: Modalități unice de a obține seturi de date pentru proiectul dvs. de învățare automată

Deci, răzuirea web este și mai utilă, deoarece dacă aveți acces la informațiile pe care nu le are concurentul dvs., le puteți învinge.

În timp ce unele site-uri se încruntă la răzuitoarele web, altele, chiar și serviciile de comerț electronic, nu le pasă dacă le răciți sau nu datele. Giganții web precum eBay și Salesforce și-au început API-ul în 2000, oferind programatorilor acces pentru prima dată la date publice.

Ar trebui să răzuiești de fapt webul?

Am stabilit că răzuirea web nu este ilegală atunci când se face în mod corect. Dar ceea ce faceți cu datele pe care le scrapați este, de asemenea, o preocupare. Deci, mai degrabă decât să abuzați de acest lucru, folosiți-l pentru a atrage mai multe informații care vă ajută pe dvs. și pe ceilalți să luați decizii în cunoștință de cauză.

Cu toate acestea, răzuirea web ca abilitate vă oferă acces la bucăți mari de date de internet, care vă pot ajuta pe dvs. sau compania dvs. să rămâneți deasupra nișei de afaceri. În calitate de om de știință al datelor, vă extinde chiar domeniul de aplicare și vă îmbunătățește abilitățile tehnice și de codificare.

De exemplu, Python este unul dintre limbajele de programare care vă ajută să răscoliți cu ușurință un site web cu biblioteca sa Beautiful Soup sau cu cadrul Scrapy.

E-mail
Scrape un site web cu acest frumos tutorial de supă Python

Vă interesează răzuirea web? Iată cum puteți răzui un site web pentru conținut și multe altele, cu biblioteca Beautiful Soup Python.

Citiți în continuare

Subiecte asemănătoare
  • Securitate
  • Programare
  • Securitate online
  • Web Scraping
Despre autor
Idowu Omisola (71 articole publicate)

Idowu este pasionat de orice tehnologie inteligentă și productivitate. În timpul liber, se joacă cu codificarea și trece la tabla de șah când se plictisește, dar îi place, de asemenea, să se rupă de rutină din când în când. Pasiunea sa pentru a arăta oamenilor calea în jurul tehnologiei moderne îl motivează să scrie mai multe.

Mai multe de la Idowu Omisola

Aboneaza-te la newsletter-ul nostru

Alăturați-vă newsletter-ului pentru sfaturi tehnice, recenzii, cărți electronice gratuite și oferte exclusive!

Încă un pas…!

Vă rugăm să confirmați adresa de e-mail în e-mailul pe care tocmai vi l-am trimis.

.