Internet Movie Database (IMDb) este cea mai mare bază de date online care conține informații legate de filme, seriale de televiziune, videoclipuri de acasă, jocuri video și conținut în flux. Baza de date online conține milioane de înregistrări precise pe care le puteți utiliza pentru a efectua analiza datelor.
Cinemagoer (cunoscut anterior ca IMDbPY) este o bibliotecă Python pentru gestionarea și preluarea datelor din baza de date de filme IMDb. Puteți accesa date despre filme, oameni și companii, care pot fi folosite în continuare pentru analiză.
Instalarea bibliotecilor necesare
Trebuie să instalați cinefil Biblioteca Python pentru a accesa IMDb Bază de date. Rulați următoarea comandă în promptul de comandă pentru a instala biblioteca:
pip instalare cinefil
Trebuie să ai pip instalat pe sistemul dumneavoastră pentru a instala biblioteci externe Python.
Codul folosit în acest proiect este disponibil în a Depozitul GitHub și este gratuit pentru utilizare sub licența MIT.
Extragerea datelor IMDb folosind Python
Trebuie să importați biblioteca cinemagoer înainte de a o folosi în codul dvs.
din imdb import Cinematograf
ia = Cinemagoer()
Codul de mai sus importă biblioteca cinemagoer și creează o instanță a clasei cinemagoer.
Căutând filme
Puteți căuta filme cu un titlu dat (sau similar) folosind search_movie() metodă. De exemplu, dacă doriți să căutați filme cu titlul „rock”, trebuie să rulați următorul cod:
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()
# Căutând filme care au rock în numele lor
filme = ia.search_movie('stâncă')
imprimare(filme[0])
Acesta ar trebui să imprime primul film pe care îl găsește, de exemplu:
Puteți obține un film după ID-ul său IMDb. Puteți extrage apoi informații suplimentare, cum ar fi numele regizorilor și genurile. Trebuie să parcurge lista pentru a obține informații individuale.
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()# Obținerea filmului prin ID-ul IMDb
film = ia.get_movie('0468569')
imprimare(film)# Tipărirea numelor regizorilor filmului
imprimare('Directori:')pentru regizor în film['directori']:
print (director['Nume'])# imprimarea genurilor filmului
imprimare('Genuri:')
pentru genul din film['genuri']:
imprimare(gen)
În rezultat, ar trebui să vedeți numele filmului dat, regizor(i) și genul (genele):
În căutarea unei persoane
Puteți căuta persoane folosind search_person() metodă. De exemplu, dacă doriți să căutați „Heath”, trebuie să rulați următorul cod:
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()
# Căutarea persoanelor care au pe numele lor Heath
persoane = ia.search_person('Heath')
imprimare(persoanele[0])
Veți vedea numele primei persoane potrivite găsite de căutare:
Căutare companii
Puteți căuta companii folosind search_company() metodă. De exemplu, dacă doriți să căutați „Universal”, trebuie să rulați următorul cod:
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()
# Căutarea companiilor care au Universal în numele lor
companii = ia.search_company('universal')
imprimare(companii)
Veți primi lista tuturor companiilor care au Universal în numele lor.
De asemenea, puteți prelua datele despre o persoană și despre companie folosind ID-ul acesteia.
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()# Obținerea datelor despre persoane prin ID
persoană = ia.get_person('0005132')
imprimare (persoana['Nume'])
imprimare (persoana['Data de naștere'])
# Obținerea datelor companiei prin ID
companie = ia.get_company('0005073')
print (companie['Nume'])
Ieșirea va afișa detaliile persoanei și numele unei companii:
Găsirea filmelor de sus și de jos
Puteți prelua datele pentru primele 250 și cele mai mici 100 de filme folosind get_top250_movies() și get_bottom100_movies() metode, respectiv:
din imdb import Cinematograf
# Crearea unei instanțe a clasei Cinemagoer
ia = Cinemagoer()# Găsirea celor mai bune 250 de filme
top = ia.get_top250_movies()
imprimare(top[0])
# Găsirea ultimelor 100 de filme
jos = ia.get_bottom100_movies()
imprimare(fund[0])
Ca răspuns, veți vedea numele celui mai bun film și numele celui mai rău:
Biblioteca cinemagoer oferă și alte metode, cum ar fi get_top250_tv(), get_popular100_movies(), și get_top250_indian_movies().
Analiza datelor este evaluarea datelor folosind instrumente analitice sau statistice pentru a extrage informații. Popularitatea analizei datelor crește în fiecare zi. Acum este folosit de companii, companii de marketing și echipe sportive. Procesul complet de analiză a datelor include definirea obiectivelor, formularea întrebărilor, colectarea datelor, curățarea datelor, analiza datelor și rezultatele finale.
Puteți obține seturi de date pentru proiectele dvs. folosind biblioteci Python precum Cinemagoer sau prin platforme online precum Kaggle. Pe lângă limbaje complete precum Python și R, puteți utiliza și alte instrumente precum Microsoft Excel, Tableau și Stata pentru a efectua analiza datelor.