相信很多朋友在看一部电影的时候喜欢先去豆瓣找一下网友对该片的评价。豆瓣作为国内最权威的电影评分网站，虽然有不少水军和精日精美分子，但是TOP250的电影还是不错的，值得一看。

爬取目标

本文将爬取豆瓣电影 TOP250 排行榜的电影名称、时间、主演和评分等信息，爬去的结果我们将以 excel 格式存储下来。

爬取分析

打开豆瓣电影 TOP250 我们会发现榜单主要显示电影名、主演、上映时间和评分。

通过对网页源码的分析我们发现电影的标题在 <div class=hd'>...</div> 标签中，主演和上映时间信息在 <div class=hd'>...</div> 中，电影评分在 <div class=star'>...</div> 中。所以我们调用 find_all方法，即可获得所有信息。

提取首页信息

def find_movies(res): soup = bs4.BeautifulSoup(res.text, 'html.parser')

 # 电影名 movies = [] targets = soup.find_all("div", class_="hd") for each in targets: movies.append(each.a.span.text)

 # 评分 ranks = [] targets = soup.find_all("span", class_="rating_num") for each in targets: ranks.append(each.text)

 # 资料 messages = [] targets = soup.find_all("div", class_="bd") for each in targets: try: messages.append(each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip()) except: continue

 result = [] length = len(movies) for i in range(length): result.append([movies[i], ranks[i], messages[i]])

 return result

分页爬取

我们需要爬去的数据是 TOP100 的电影，所以我们需要获取他所有页面的数据

def find_depth(res): soup = bs4.BeautifulSoup(res.text, 'html.parser') depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

 return int(depth)

写入文件

def save_to_excel(result): wb = openpyxl.Workbook() ws = wb.active

 ws['A1'] = "电影名称" ws['B1'] = "评分" ws['C1'] = "资料"

 for each in result: ws.append(each)

 wb.save("豆瓣TOP250电影.xlsx")

整理代码

import requestsimport bs4import openpyxl

def open_url(url): # 使用代理 # proxies = {"http": "127.0.0.1:1080", "https": "127.0.0.1:1080"} headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36'}

 # res = requests.get(url, headers=headers, proxies=proxies) res = requests.get(url, headers=headers)

 return res

def find_movies(res): soup = bs4.BeautifulSoup(res.text, 'html.parser')

 # 电影名 movies = [] targets = soup.find_all("div", class_="hd") for each in targets: movies.append(each.a.span.text)

 # 评分 ranks = [] targets = soup.find_all("span", class_="rating_num") for each in targets: ranks.append(each.text)

 # 资料 messages = [] targets = soup.find_all("div", class_="bd") for each in targets: try: messages.append(each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip()) except: continue

 result = [] length = len(movies) for i in range(length): result.append([movies[i], ranks[i], messages[i]])

 return result

# 找出一共有多少个页面def find_depth(res): soup = bs4.BeautifulSoup(res.text, 'html.parser') depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

 return int(depth)

def save_to_excel(result): wb = openpyxl.Workbook() ws = wb.active

 ws['A1'] = "电影名称" ws['B1'] = "评分" ws['C1'] = "资料"

 for each in result: ws.append(each)

 wb.save("豆瓣TOP250电影.xlsx")

def main(): host = "https://movie.douban.com/top250" res = open_url(host) depth = find_depth(res)

 result = [] for i in range(depth): url = host + '/?start=' + str(25 * i) res = open_url(url) result.extend(find_movies(res))

福利以及下期预告

私信回复 python 即可获得全套 python 资料。下期我将演示如何爬取百度文库 VIP 文章以及令人喷血的性感美女图片（我已经存了几个 G 的图片，最近感觉营养有点跟不上）

python爬虫——爬取豆瓣TOP250电影相关推荐

python爬虫爬取豆瓣top250电影影评
信息系统课程项目,小组准备做一个电影推荐系统,自己选了觉得很有趣的资源模块,需要获取电影的评价资源等信息.花了大约一周看Web Scraping with Python这本书,对爬虫有了大体但是初略的 ...
python爬虫--爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import ...
Python爬虫爬取豆瓣TOP250和网易云歌单
python爬虫(网易云)笔记 @(python学习) 先推荐看一下b站的视频链接如下:https://www.bilibili.com/video/BV12E411A7ZQ?from=search& ...
python爬虫——爬取豆瓣热门电影海报生成html文件
环境 webbrowser urllib requests v2.21.0 实现功能过程 1.查看豆瓣热门电影模块源码: 看到其所在class为list-wp,我们想通过urllib里面的reque ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
Python爬虫菜鸟入门，爬取豆瓣top250电影（自己学习，如有侵权，请联系我删除）
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录爬虫爬取豆瓣Top250 完整代码第一步获取整个网页并以html来解析正则表达式来匹配关键词所有信息写入列表中存入Excel中效果如图本文学习自B站UP ...
Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

python爬虫——爬取豆瓣TOP250电影