Cách trích xuất dữ liệu IMDb bằng Python và Cinemagoer
Cơ sở dữ liệu phim trên Internet (IMDb) là cơ sở dữ liệu trực tuyến lớn nhất chứa thông tin liên quan đến phim, phim truyền hình, video gia đình, trò chơi điện tử và nội dung phát trực tuyến. Cơ sở dữ liệu trực tuyến chứa hàng triệu bản ghi chính xác mà bạn có thể sử dụng để thực hiện phân tích dữ liệu.
Cinemagoer (trước đây gọi là IMDbPY) là một thư viện Python để quản lý và truy xuất dữ liệu của cơ sở dữ liệu phim IMDb. Bạn có thể truy cập dữ liệu về phim, con người và công ty, dữ liệu này có thể được sử dụng thêm để phân tích.
Mục Lục
Cài đặt Thư viện Bắt buộc
Bạn cần cài đặt thư viện cinemagoer Python để truy cập cơ sở dữ liệu IMDb. Chạy lệnh sau trong dấu nhắc lệnh để cài đặt thư viện:
pip install cinemagoer
Bạn phải cài đặt pip trên hệ thống của mình để cài đặt các thư viện Python bên ngoài.
Mã được sử dụng trong dự án này có sẵn trong kho lưu trữ GitHub và miễn phí cho bạn sử dụng theo giấy phép MIT.
Bạn cần nhập thư viện cinemagoer trước khi sử dụng nó trong mã của mình.
from imdb import Cinemagoer
ia = Cinemagoer()
Đoạn mã trên nhập thư viện cinemagoer và tạo một thể hiện của lớp cinemagoer.
Tìm kiếm phim
Bạn có thể tìm kiếm phim có tiêu đề nhất định (hoặc tương tự) bằng cách sử dụng search_movie () phương pháp. Ví dụ: nếu bạn muốn tìm kiếm phim có tiêu đề “rock”, bạn cần chạy mã sau:
from imdb import Cinemagoer
ia = Cinemagoer()
movies = ia.search_movie('rock')
print(movies[0])
Điều này sẽ in ra bộ phim đầu tiên mà nó tìm thấy, ví dụ:
Bạn có thể tải phim bằng ID IMDb của phim đó. Sau đó, bạn có thể trích xuất thêm thông tin như tên đạo diễn và thể loại. Bạn cần lặp lại danh sách để lấy thông tin cá nhân.
from imdb import Cinemagoer
ia = Cinemagoer()
movie = ia.get_movie('0468569')
print(movie)
print('Directors:')
for director in movie['directors']:
print(director['name'])
print('Genres:')
for genre in movie['genres']:
print(genre)
Trong đầu ra, bạn sẽ thấy tên của bộ phim nhất định, (các) đạo diễn và (các) thể loại của phim:
Tìm kiếm một người
Bạn có thể tìm kiếm những người bằng cách sử dụng người tìm kiếm () phương pháp. Ví dụ: nếu bạn muốn tìm kiếm “Heath”, bạn cần chạy mã sau:
from imdb import Cinemagoer
ia = Cinemagoer()
persons = ia.search_person('Heath')
print(persons[0])
Bạn sẽ thấy tên của người phù hợp đầu tiên mà tìm kiếm tìm thấy:
Tìm kiếm công ty
Bạn có thể tìm kiếm các công ty bằng cách sử dụng search_company () phương pháp. Ví dụ: nếu bạn muốn tìm kiếm “Universal”, bạn cần chạy mã sau:
from imdb import Cinemagoer
ia = Cinemagoer()
companies = ia.search_company('Universal')
print(companies)
Bạn sẽ nhận được danh sách tất cả các công ty có Universal trong tên của họ.
Bạn cũng có thể truy xuất dữ liệu của một người và công ty bằng cách sử dụng ID của họ.
from imdb import Cinemagoer
ia = Cinemagoer()
person = ia.get_person('0005132')
print(person['name'])
print(person['birth date'])
company = ia.get_company('0005073')
print(company['name'])
Đầu ra sẽ hiển thị thông tin chi tiết về người và tên của một công ty:
Tìm phim đầu và cuối
Bạn có thể truy xuất dữ liệu cho phim 250 đầu và phim 100 phim dưới bằng cách sử dụng get_top250_movies () và get_bottom100_movies () phương pháp, tương ứng:
from imdb import Cinemagoer
ia = Cinemagoer()
top = ia.get_top250_movies()
print(top[0])
bottom = ia.get_bottom100_movies()
print(bottom[0])
Đáp lại, bạn sẽ thấy tên của bộ phim hay nhất và tên của bộ phim dở nhất:
Thư viện cinemagoer cũng cung cấp một số phương pháp khác như get_top250_tv (), get_popular100_movies ()và get_top250_indian_movies ().
Phân tích dữ liệu là việc đánh giá dữ liệu bằng cách sử dụng các công cụ phân tích hoặc thống kê để trích xuất thông tin. Sự phổ biến của phân tích dữ liệu đang phát triển mỗi ngày. Nó hiện được sử dụng bởi các doanh nghiệp, công ty tiếp thị và các đội thể thao. Quá trình hoàn chỉnh của phân tích dữ liệu bao gồm xác định mục tiêu, đặt câu hỏi, thu thập dữ liệu, lọc dữ liệu, phân tích dữ liệu và kết luận.
Bạn có thể lấy bộ dữ liệu cho các dự án của mình bằng cách sử dụng các thư viện Python như Cinemagoer hoặc thông qua các nền tảng trực tuyến như Kaggle. Bên cạnh các ngôn ngữ đầy đủ như Python và R, bạn có thể sử dụng các công cụ khác như Microsoft Excel, Tableau và Stata để thực hiện phân tích dữ liệu.