Publicitate

importați date în foaia de calcul GoogleCând vine vorba de baze de date online și informații care pot fi găsite în ceea ce este cunoscut sub numele de „web invizibil Cele mai bune 12 motoare de căutare pentru a explora web-ul invizibilGoogle sau Bing nu pot căuta totul. Pentru a explora web-ul invizibil, trebuie să utilizați aceste motoare de căutare speciale. Citeste mai mult „, nu sunt utilizatorul tău obișnuit. Sigur, îmi petrec puțin prea mult timp cernind bazele de date online în locuri precum Arhivele Naționale și CIA FOIA citind cameră, dar trebuie să spun că nimic nu mă face mai entuziasmat decât atunci când găsesc un tabel bazat pe HTML plin cu volume aparent complexe și neconectate. date.

Adevărul este că tabelele de date sunt o mină de aur a adevărurilor importante. Datele sunt deseori colectate de armate de mormăi de colectare a datelor cu cizme pe pământ. Aveți oameni de la recensământul din SUA care călătoresc în întreaga țară pentru informații despre gospodărie și familie. Aveți grupuri de mediu non-profit care colectează tot felul de informații interesante despre mediu, poluare, încălzire globală și multe altele. Și dacă sunteți pasionați de paranormal sau ufologie, există și tabele de informații actualizate în mod constant despre observarea unor obiecte ciudate pe cerul deasupra noastră.

instagram viewer

În mod ironic, ai crede că orice guvern din lume ar fi interesat să știe ce fel ambarcațiuni străine sunt observate pe cerul oricărei țări, dar se pare că nu - cel puțin nu în S.U.A. oricum. În America, colecția de observări neobișnuite de meșteșuguri a fost retrogradată echipelor de amatori amatori care se îngrămădesc la noi observări OZN ca moliile la o flacără. Interesul meu pentru aceste observări nu provine de fapt dintr-o fascinație pentru extratereștri sau meșteșuguri de pe alte planete, ci dintr-o fascinație științifică pentru modele - unde și de ce mai mulți oameni văd lucruri pe cer și dacă acele observări ar putea reflecta ceva foarte real și mult mai cu picioarele pe pământ. pe.

Pentru a explora volumele de date colectate de echipe de amatori de OZN-uri, am dezvoltat de fapt o modalitate de a importa tabele HTML mari de datele într-o foaie de calcul Google, apoi manipulați și analizați acele date pentru a extrage și a descoperi semnificative și importante informație. În acest articol, intenționez să vă arăt cum să faceți același lucru.

Date HTML importante în foaia de calcul Google

În acest exemplu, vă voi arăta cum să importați orice date care ar putea fi stocate într-un tabel pe orice site de pe Internet, în foaia de calcul Google. Gândiți-vă la volumul enorm de date care este disponibil astăzi pe Internet sub formă de tabele HTML. Doar Wikipedia are date în tabele pentru subiecte precum încălzire globală, Biroul de Recensământ al SUA are tone de seturi de date privind populația, iar un pic de Google Google vă va aduce mult mai mult dincolo de asta.

În exemplul meu, încep cu o bază de date de la Centrul Național de Raportare OZN care de fapt pare să fie o bază de date deep-web în stil interogare, dar dacă observați Structurarea URL-ului, este de fapt un sistem de raportare semicomplex bazat pe web, format din pagini web statice și tabele HTML statice – exact ceea ce ne dorim atunci când căutăm date pentru import.
importați date în foaia de calcul Google
NUForc.org este una dintre acele organizații care servește drept unul dintre cele mai mari centre de raportare pentru observarea OZN-urilor. Nu este singurul, dar este suficient de mare pentru a găsi noi seturi de date cu observări curente pentru fiecare lună. Alegeți să vizualizați datele sortate după criterii precum Stat sau Data, iar fiecare dintre acestea este furnizată sub forma unei pagini statice. Dacă sortați după dată și apoi faceți clic pe data cea mai recentă, veți vedea că tabelul listat este o pagină web statică numită în funcție de formatul datei.
importați date în Google Docs
Deci, acum avem un model pentru a extrage în mod regulat cele mai recente informații despre observări din această bază de date bazată pe HTML. Tot ce trebuie să faceți este să importați primul tabel, să utilizați cea mai recentă intrare (cea de sus) pentru a identifica cea mai recentă actualizare și apoi utilizați data postării respective pentru a crea linkul URL unde se află cel mai recent tabel de date HTML există. Pentru a face acest lucru, va fi nevoie pur și simplu de câteva instanțe ale funcției ImportHTML și apoi câteva utilizări creative ale funcțiilor de manipulare a textului. Când ați terminat, veți avea una dintre cele mai interesante foi de raportare care se autoactualizează. Să începem.

Importarea tabelelor și manipularea datelor

Primul pas, desigur, este să creați noua foaie de calcul.
importați date în Google Docs
Deci, cum importați tabele HTML? Tot ce aveți nevoie este adresa URL în care este stocat tabelul și numărul tabelului de pe pagină - de obicei, primul listat este 1, al doilea este 2 și așa mai departe. Deoarece cunosc adresa URL a primului tabel care listează datele și numărul de observări enumerate, este posibil să o import tastând următoarea funcție în celula A1.

=importhtml(“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)

H2 deține funcția „=ora (acum())„, deci tabelul se va actualiza la fiecare oră. Acest lucru este probabil extrem pentru datele care se actualizează rar, așa că probabil că aș putea scăpa de asta zilnic. Oricum, funcția ImportHTML de mai sus aduce în tabel, așa cum se arată mai jos.
Raportul OZN4
Va trebui să manipulați puțin datele pe această pagină înainte de a putea reuni adresa URL pentru al doilea tabel cu toate observările OZN. Dar mergeți mai departe și creați a doua foaie pe registrul de lucru.
importați date în Google Docs
Înainte de a încerca să construiți a doua foaie, este timpul să extrageți data postării din acest prim tabel, pentru a construi legătura către al doilea tabel. Problema este că data este adusă ca format de dată, nu ca șir. Deci, mai întâi trebuie să utilizați funcția TEXT pentru a converti data postării raportului într-un șir:

=text (A2,”mm/zz/aa”)

În celula următoare din dreapta, trebuie să utilizați funcția SPLIT cu delimitatorul „/” pentru a împărți data în lună, zi și an.

=divizat (D2,”/”)
import în foaia de calcul Google
Arata bine! Cu toate acestea, fiecare număr trebuie forțat la două cifre. Faceți acest lucru în celulele de sub ele folosind din nou comanda TEXT.

=text (E2,”00″)

Un format de „00” (acestea sunt zerouri) forțează două cifre sau un „0” ca substituent.
import în foaia de calcul Google
Acum sunteți gata să reconstruiți întreaga adresă URL la cel mai recent tabel HTML cu noi observări. Puteți face acest lucru utilizând funcția CONCATENATE și reunind toate biții de informații pe care tocmai le-ați extras din primul tabel.

=concatena (" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
import în foaia de calcul Google
Acum, pe noua foaie creată mai sus (foaia goală), veți face o nouă funcție „importhtml”, dar de data aceasta pentru prima Parametrul linkului URL, așa că veți naviga înapoi la prima foaie de calcul și veți face clic pe celula cu linkul URL pe care tocmai l-ați creat.
Raportul OZN9
Al doilea parametru este „tabel”, iar ultimul este „1” (deoarece tabelul de observații este primul și singurul de pe pagină). Apăsați Enter și acum tocmai ați importat întregul volum de observări care au fost postate la acea dată anume.
Raportul OZN10
Deci, probabil că crezi că acesta este un act de noutate frumos și totul - adică, la urma urmei, ceea ce ai făcut este extras informații existente dintr-un tabel de pe Internet și le-am migrat la alt tabel, deși unul privat în Google Docs cont. Da asta e adevărat. Cu toate acestea, acum că se află în propriul cont Google Docs privat, aveți la îndemână instrumentele și funcțiile pentru a analiza mai bine datele respective și pentru a începe să descoperiți conexiuni uimitoare.

Utilizarea rapoartelor pivot pentru a analiza datele importate

Recent, am scris un articol despre utilizare Rapoarte pivot în Google Spreadsheet Deveniți un expert analist de date peste noapte folosind instrumentele de raportare Google SpreadsheetȘtiați că unul dintre cele mai bune instrumente pentru analiza datelor este de fapt Google Spreadsheet? Motivul pentru acest lucru nu este doar pentru că poate face aproape tot ce ați putea dori să... Citeste mai mult pentru a efectua tot felul de fapte interesante de analiză a datelor. Ei bine, puteți face aceleași acrobații uimitoare de analiză a datelor pe datele pe care le-ați importat de pe Internet – oferindu-vă posibilitatea de a descoperi conexiuni interesante pe care, probabil, nimeni altcineva nu le-a descoperit înainte tu.

De exemplu, din tabelul final de observări, aș putea decide să folosesc un raport pivot pentru a arunca o privire asupra numărului de diferite forme unice raportate în fiecare stat, în comparație cu numărul total de observări în acel anume stat. În cele din urmă, filtrez, de asemenea, orice menționează „extratereștri” în secțiunea de comentarii, pentru a sperăm să elimin unele dintre cele mai multe intrări.
Raportul OZN11
Acest lucru dezvăluie de fapt câteva lucruri destul de interesante de la început, cum ar fi faptul că California are în mod clar cel mai înalt numărul de observări raportate ale oricărui alt stat, împreună cu distincția de raportare a celui mai mare număr de forme de ambarcațiuni din țară. De asemenea, arată că Massachusetts, Florida și Illinois sunt mari lovitori și în departamentul de observare a OZN-urilor (cel puțin în cele mai recente date).

Un alt lucru interesant despre Google Spreadsheet este gama largă de diagrame disponibile pentru dvs., inclusiv o hartă geografică care vă permite aranjați „punctele fierbinți” de date într-un format grafic care iese cu adevărat în evidență și face acele conexiuni în cadrul datelor destul de evident.
importați date în foaia de calcul Google
Dacă te gândești bine, acesta este într-adevăr doar vârful aisbergului. Dacă acum puteți importa date din tabelele de date de pe orice pagină de pe Internet, gândiți-vă la posibilități. Obțineți cele mai recente numere de stoc sau cele mai recente top 10 cărți și autori de pe lista celor mai bine vândute New York Times sau cele mai vândute mașini din lume. Există tabele HTML pe aproape orice subiect vă puteți imagina și, în multe cazuri, aceste tabele sunt actualizate frecvent.

ImportHtml vă oferă posibilitatea de a conecta foaia de calcul Google la Internet și de a alimenta datele care există acolo. Poate deveni propriul dvs. centru personal de informații pe care îl puteți utiliza pentru a manipula și a masa într-un format cu care puteți lucra efectiv. Este doar un lucru foarte interesant de iubit la Google Spreadsheet.

Ați importat vreodată date în foile de calcul? Ce fel de lucruri interesante ați descoperit în acele date? Cum ai folosit datele? Împărtășește-ți experiențele și ideile în secțiunea de comentarii de mai jos!

Credite de imagine: Graficul de afaceri

Ryan are o diplomă de licență în inginerie electrică. A lucrat 13 ani în ingineria automatizării, 5 ani în IT, iar acum este inginer de aplicații. Fost editor director al MakeUseOf, a vorbit la conferințe naționale despre vizualizarea datelor și a fost prezentat la TV și radio național.