Python爬虫爬取豆瓣Top250电影榜单

D
dashen51 2025-01-16T03:03:11+08:00
0 0 211

介绍

豆瓣是一个电影爱好者必备的网站,提供了海量的电影信息和用户评价。豆瓣Top250电影榜单是电影排行榜的最高荣誉,包含了许多经典的电影作品。本篇博客将介绍如何使用Python爬虫来获取豆瓣Top250电影榜单的数据。

爬虫原理

Python爬虫通过模拟浏览器发送HTTP请求,从网页中提取数据。我们将使用requests库来发送HTTP请求,和BeautifulSoup库来解析网页数据。

爬取流程

  1. 导入所需的库
import requests
from bs4 import BeautifulSoup
  1. 发送HTTP请求并获取网页内容
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
  1. 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
  1. 提取电影信息
movies = soup.find_all('div', class_='info')
for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    print(f'{title} - 评分:{rating}')

完整代码

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, 'html.parser')

movies = soup.find_all('div', class_='info')
for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    print(f'{title} - 评分:{rating}')

结果展示

运行上述代码后,将会打印出豆瓣Top250电影榜单的电影名称和评分,例如:

肖申克的救赎 - 评分:9.7
霸王别姬 - 评分:9.6
...

总结

通过使用Python爬虫,我们可以轻松地获取豆瓣Top250电影榜单的数据。我们可以进一步对这些数据进行分析和处理,例如制作电影推荐系统、进行数据可视化等。爬虫是一项强大而有用的技术,希望本篇博客对您理解和学习Python爬虫有所帮助。

相似文章

    评论 (0)