今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程、多线程和协程来爬取,从而对比单线程、多线程和协程在网络爬虫中的性能。

具体要爬的网址是:https://movie.douban.com/cinema/later/shenzhen/

除了要爬入口页以外还需爬取每个电影的详情页,具体要爬取的结构信息如下:

爬取测试

下面我演示使用xpath解析数据。

入口页数据读取:

import requests
from lxml import etree
import pandas as pd
import remain_url = "https://movie.douban.com/cinema/later/shenzhen/"
headers = {"Accept-Encoding": "Gzip","User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
r = requests.get(main_url, headers=headers)
r

结果:

<Response [200]>

检查一下所需数据的xpath:

可以看到每个电影信息都位于id为showing-soon下面的div里面,再分别分析内部的电影名称、url和想看人数所处的位置,于是可以写出如下代码:

html = etree.HTML(r.text)
all_movies = html.xpath("//div[@id='showing-soon']/div")
result = []
for e in all_movies:#  imgurl, = e.xpath(".//img/@src")name, = e.xpath(".//div[@class='intro']/h3/a/text()")url, = e.xpath(".//div[@class='intro']/h3/a/@href")# date, movie_type, pos = e.xpath(".//div[@class='intro']/ul/li[@class='dt']/text()")like_num, = e.xpath(".//div[@class='intro']/ul/li[@class='dt last']/span/text()")result.append((name, int(like_num[:like_num.find("人")]), url))
main_df = pd.DataFrame(result, columns=["影名", "想看人数", "url"])
main_df

结果:

然后再选择一个详情页的url进行测试,我选择了熊出没·狂野大陆这部电影,因为文本数据相对最复杂,也最具备代表性:

url = main_df.at[17, "url"]
url

结果:

'https://movie.douban.com/subject/34825886/'

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:721195303

分析详情页结构:

文本信息都在这个位置中,下面我们直接提取这个div下面的所有文本节点:

r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
movie_infos = html.xpath("//div[@id='info']//text()")
print(movie_infos)

结果:

['\n        ', '导演', ': ', '丁亮', '\n        ', '编剧', ': ', '徐芸', ' / ', '崔铁志', ' / ', '张宇', '\n        ', '主演', ': ', '张伟', ' / ', '张秉君', ' / ', '谭笑', '\n        ', '类型:', ' ', '喜剧', ' / ', '科幻', ' / ', '动画', '\n        \n        ', '制片国家/地区:', ' 中国大陆', '\n        ', '语言:', ' 汉语普通话', '\n        ', '上映日期:', ' ', '2021-02-12(中国大陆)', ' / ', '2020-08-01(上海电影节)', '\n        ', '片长:', ' ', '100分钟', '\n        ', '又名:', ' 熊出没大电影7 / 熊出没科幻大电影 / Boonie Bears: The Wild Life', '\n        ', 'IMDb链接:', ' ', 'tt11654032', '\n\n']

为了阅读方便,拼接一下:

movie_info_txt = "".join(movie_infos)
print(movie_info_txt)

结果:

        导演: 丁亮编剧: 徐芸 / 崔铁志 / 张宇主演: 张伟 / 张秉君 / 谭笑类型: 喜剧 / 科幻 / 动画制片国家/地区: 中国大陆语言: 汉语普通话上映日期: 2021-02-12(中国大陆) / 2020-08-01(上海电影节)片长: 100分钟又名: 熊出没大电影7 / 熊出没科幻大电影 / Boonie Bears: The Wild LifeIMDb链接: tt11654032

接下来就简单了:

row = {}
for line in re.split("[\n ]*\n[\n ]*", movie_info_txt):line = line.strip()arr = line.split(": ", maxsplit=1)if len(arr) != 2:continuek, v = arrrow[k] = v
row

结果:

{'导演': '丁亮','编剧': '徐芸 / 崔铁志 / 张宇','主演': '张伟 / 张秉君 / 谭笑','类型': '喜剧 / 科幻 / 动画','制片国家/地区': '中国大陆','语言': '汉语普通话','上映日期': '2021-02-12(中国大陆) / 2020-08-01(上海电影节)','片长': '100分钟','又名': '熊出没大电影7 / 熊出没科幻大电影 / Boonie Bears: The Wild Life','IMDb链接': 'tt11654032'}

可以看到成功的切割出了每一项。

下面根据上面的测试基础,我们完善整体的爬虫代码:

单线程爬虫

import requests
from lxml import etree
import pandas as pd
import remain_url = "https://movie.douban.com/cinema/later/shenzhen/"
headers = {"Accept-Encoding": "Gzip","User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
r = requests.get(main_url, headers=headers)
html = etree.HTML(r.text)
all_movies = html.xpath("//div[@id='showing-soon']/div")
result = []
for e in all_movies:imgurl, = e.xpath(".//img/@src")name, = e.xpath(".//div[@class='intro']/h3/a/text()")url, = e.xpath(".//div[@class='intro']/h3/a/@href")print(url)
#     date, movie_type, pos = e.xpath(".//div[@class='intro']/ul/li[@class='dt']/text()")like_num, = e.xpath(".//div[@class='intro']/ul/li[@class='dt last']/span/text()")r = requests.get(url, headers=headers)html = etree.HTML(r.text)row = {}row["电影名称"] = namefor line in re.split("[\n ]*\n[\n ]*", "".join(html.xpath("//div[@id='info']//text()")).strip()):line = line.strip()arr = line.split(": ", maxsplit=1)if len(arr) != 2:continuek, v = arrrow[k] = vrow["想看人数"] = int(like_num[:like_num.find("人")])
#     row["url"] = url
#     row["图片地址"] = imgurl
#     print(row)result.append(row)
df = pd.DataFrame(result)
df.sort_values("想看人数", ascending=False, inplace=True)
df.to_csv("shenzhen_movie.csv", index=False)

结果:

https://movie.douban.com/subject/26752564/
https://movie.douban.com/subject/35172699/
https://movie.douban.com/subject/34992142/
https://movie.douban.com/subject/30349667/
https://movie.douban.com/subject/30283209/
https://movie.douban.com/subject/33457717/
https://movie.douban.com/subject/30487738/
https://movie.douban.com/subject/35068230/
https://movie.douban.com/subject/27039358/
https://movie.douban.com/subject/30205667/
https://movie.douban.com/subject/30476403/
https://movie.douban.com/subject/30154423/
https://movie.douban.com/subject/27619748/
https://movie.douban.com/subject/26826330/
https://movie.douban.com/subject/26935283/
https://movie.douban.com/subject/34841067/
https://movie.douban.com/subject/34880302/
https://movie.douban.com/subject/34825886/
https://movie.douban.com/subject/34779692/
https://movie.douban.com/subject/35154209/

爬到的文件:

整体耗时:

42.5秒。

多线程爬虫

单线程的爬取耗时还是挺长的,下面看看使用多线程的爬取效率:

import requests
from lxml import etree
import pandas as pd
import re
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETEDdef fetch_content(url):print(url)headers = {"Accept-Encoding": "Gzip",  # 使用gzip压缩传输数据让访问更快"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}r = requests.get(url, headers=headers)return r.texturl = "https://movie.douban.com/cinema/later/shenzhen/"
init_page = fetch_content(url)
html = etree.HTML(init_page)
all_movies = html.xpath("//div[@id='showing-soon']/div")
result = []
for e in all_movies:
#     imgurl, = e.xpath(".//img/@src")name, = e.xpath(".//div[@class='intro']/h3/a/text()")url, = e.xpath(".//div[@class='intro']/h3/a/@href")
#     date, movie_type, pos = e.xpath(".//div[@class='intro']/ul/li[@class='dt']/text()")like_num, = e.xpath(".//div[@class='intro']/ul/li[@class='dt last']/span/text()")result.append((name, int(like_num[:like_num.find("人")]), url))
main_df = pd.DataFrame(result, columns=["影名", "想看人数", "url"])max_workers = main_df.shape[0]
with ThreadPoolExecutor(max_workers=max_workers) as executor:future_tasks = [executor.submit(fetch_content, url) for url in main_df.url]wait(future_tasks, return_when=ALL_COMPLETED)pages = [future.result() for future in future_tasks]result = []
for url, html_text in zip(main_df.url, pages):html = etree.HTML(html_text)row = {}for line in re.split("[\n ]*\n[\n ]*", "".join(html.xpath("//div[@id='info']//text()")).strip()):line = line.strip()arr = line.split(": ", maxsplit=1)if len(arr) != 2:continuek, v = arrrow[k] = vrow["url"] = urlresult.append(row)
detail_df = pd.DataFrame(result)
df = main_df.merge(detail_df, on="url")
df.drop(columns=["url"], inplace=True)
df.sort_values("想看人数", ascending=False, inplace=True)
df.to_csv("shenzhen_movie2.csv", index=False)
df

结果:

耗时8秒。

由于每个子页面都是单独的线程爬取,每个线程几乎都是同时在工作,所以最终耗时仅取决于爬取最慢的子页面。

协程异步爬虫

由于我在jupyter中运行,为了使协程能够直接在jupyter中直接运行,所以我在代码中增加了下面两行代码,在普通编辑器里面可以去掉:

import nest_asyncio
nest_asyncio.apply()

这个问题是因为jupyter所依赖的高版本Tornado存在bug,将Tornado退回到低版本也可以解决这个问题。

下面我使用协程来完成这个需求的爬取:

import aiohttp
from lxml import etree
import pandas as pd
import re
import asyncio
import nest_asyncio
nest_asyncio.apply()async def fetch_content(url):print(url)header = {"Accept-Encoding": "Gzip",  # 使用gzip压缩传输数据让访问更快"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}async with aiohttp.ClientSession(headers=header, connector=aiohttp.TCPConnector(ssl=False)) as session:async with session.get(url) as response:return await response.text()async def main():url = "https://movie.douban.com/cinema/later/shenzhen/"init_page = await fetch_content(url)html = etree.HTML(init_page)all_movies = html.xpath("//div[@id='showing-soon']/div")result = []for e in all_movies:#         imgurl, = e.xpath(".//img/@src")name, = e.xpath(".//div[@class='intro']/h3/a/text()")url, = e.xpath(".//div[@class='intro']/h3/a/@href")#     date, movie_type, pos = e.xpath(".//div[@class='intro']/ul/li[@class='dt']/text()")like_num, = e.xpath(".//div[@class='intro']/ul/li[@class='dt last']/span/text()")result.append((name, int(like_num[:like_num.find("人")]), url))main_df = pd.DataFrame(result, columns=["影名", "想看人数", "url"])tasks = [fetch_content(url) for url in main_df.url]pages = await asyncio.gather(*tasks)result = []for url, html_text in zip(main_df.url, pages):html = etree.HTML(html_text)row = {}for line in re.split("[\n ]*\n[\n ]*", "".join(html.xpath("//div[@id='info']//text()")).strip()):line = line.strip()arr = line.split(": ", maxsplit=1)if len(arr) != 2:continuek, v = arrrow[k] = vrow["url"] = urlresult.append(row)detail_df = pd.DataFrame(result)df = main_df.merge(detail_df, on="url")df.drop(columns=["url"], inplace=True)df.sort_values("想看人数", ascending=False, inplace=True)return dfdf = asyncio.run(main())
df.to_csv("shenzhen_movie3.csv", index=False)
df

结果:

耗时仅7秒,相对比多线程更快一点。

由于request库不支持协程,所以我使用了支持协程的aiohttp进行页面抓取。当然实际爬取的耗时还取绝于当时的网络,但整体来说,协程爬取会比多线程爬虫稍微快一些。

回顾

今天我向你演示了,单线程爬虫、多线程爬虫和协程爬虫。可以看到一般情况下协程爬虫速度最快,多线程爬虫略慢一点,单线程爬虫则必须上一个页面爬取完成才能继续爬取。

但协程爬虫相对来说并不是那么好编写,数据抓取无法使用request库,只能使用aiohttp。所以在实际编写爬虫时,我们一般都会使用多线程爬虫来提速,但必须注意的是网站都有ip访问频率限制,爬的过快可能会被封ip,所以一般我们在多线程提速的同时使用代理ip来并发的爬取数据。

彩蛋:xpath+pandas解析表格并提取url

我们在深圳影讯的底部能够看到一个[查看全部即将上映的影片] (https://movie.douban.com/coming)的按钮,点进去能够看到一张完整近期上映电影的列表,发现这个列表是个table标签的数据:

那就简单了,解析table我们可能压根就不需要用xpath,直接用pandas即可,但片名中包含的url地址还需解析,所以我采用xpath+pandas来解析这个网页,看看我的代码吧:

import pandas as pd
import requests
from lxml import etreeheaders = {"Accept-Encoding": "Gzip","User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
r = requests.get("https://movie.douban.com/coming", headers=headers)
html = etree.HTML(r.text)
table_tag = html.xpath("//table")[0]
df, = pd.read_html(etree.tostring(table_tag))
urls = table_tag.xpath(".//td[2]/a/@href")
df["url"] = urls
df

结果

这样就能到了主页面的完整数据,再简单的处理一下即可。

结语

感谢各位读者,有什么想法和收获欢迎留言评论噢!

在这里还是要推荐下我自己建的Python学习群:721195303,群里都是学Python的,如果你想学或者正在学习Python ,欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2021最新的Python进阶资料和零基础教学,欢迎进阶中和对Python感兴趣的小伙伴加入!

Python爬虫纯干货:单线程、多线程和协程的爬虫性能对比相关推荐

  1. python多线程好还是多协程好_深入浅析python中的多进程、多线程、协程

    进程与线程的历史 我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资源的管理和分配.任务的调度. ...

  2. Python爬虫:单线程、多线程和协程的爬虫性能对比

    今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程.多线程和协程来爬取,从而对比单线程.多线程和协程在网络爬虫中的性能. 具体要爬的网址是:https://movie ...

  3. Python 爬虫:单线程、多线程和协程的爬虫性能对比

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以点击下方链接自行获取 Python免费学习资料 ...

  4. Python爬虫:单线程、多线程和协程的爬虫性能对比!

    大家好,我是漆柒七7! 首先见面礼 Python学习大礼包 点击领取 然后今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程.多线程和协程来爬取,从而对比单线程.多线 ...

  5. Python爬虫:单线程、多线程和协程的爬虫性能对比!异步才是永远滴神!

    然后今天我要给大家分享的是如何爬取豆瓣上深圳近期即将上映的电影影讯,并分别用普通的单线程.多线程和协程来爬取,从而对比单线程.多线程和协程在网络爬虫中的性能. 具体要爬的网址是:https://mov ...

  6. 单线程、多线程和协程的爬虫性能对比

    作者:小小明 非常擅长解决各类复杂数据处理的逻辑,各类结构化与非结构化数据互转,字符串解析匹配等等. 至今已经帮助很多数据从业者解决工作中的实际问题,如果你在数据处理上遇到什么困难,欢迎与我交流. 豆 ...

  7. 你所谓的鸡肋?Python中的多进程、多线程和协程

    本文撰写过程中参考了胡俊峰老师<Python程序设计与数据科学导论>课程的内容. 概念: 并发:一段时间内同时推进多个任务,但不一定要在一个时刻同时进行多个任务. 并行:一段时间内同时推进 ...

  8. 爬虫的单线程+多任务异步协程:asyncio 3.6

    单线程+多任务异步协程:asyncio 3.6 事件循环 无限循环的对象.事件循环中最终需要将一些 特殊的函数(被async关键字修饰的函数) 注册在该对象中. 协程 本质上是一个对象.可以把协程对象 ...

  9. python爬虫 asyncio aiohttp aiofiles 单线程多任务异步协程爬取图片

    python爬虫 asyncio aiohttp aiofiles 多任务异步协程爬取图片 main.py """=== coding: UTF8 ==="&q ...

最新文章

  1. 响应式编程笔记(二):代码编写
  2. matlab 电路频率响应_学习电子电路有什么仿真软件?有哪些优缺点?
  3. 等额本金、等额本息,两者到底怎么区分?
  4. python科学编程入门书_Python数据科学零基础一本通
  5. css 行内水平均等排布方式
  6. Android动态生成答题卡,〔两行哥〕OpenCV4Android教程之安卓答题卡识别
  7. pycharm连接github
  8. 鼠标不能再Linux命令界面滚动,电脑鼠标不能上下滚动的解决方法
  9. 如何使用 Python 将 Nifti 文件转换为 Dicom 系列
  10. archlinux 安装chrome浏览器
  11. 如何查看雷电打开了VT
  12. 大家都在问华为手机图片怎么拼图?只需几步就可实现
  13. 圣诞节蓝牙耳机选哪款作为礼物比较好?耐用的蓝牙耳机推荐
  14. 计算机原理与应用第六章——总线技术
  15. 我的FLASH情结2010——浅谈FLASH WEB GAME与创业(2)
  16. A* 算法原理以及在二维环境地图中的应用 -- Python 代码实现
  17. win10无线投屏_miracast投屏的未来
  18. c语言课程设计--图书/音乐管理系统
  19. 核磁共振、顺磁共振、磁共振成像这些原理你都了解吗
  20. Nature综述: 微生物与气候变化

热门文章

  1. 道与万物:从腾讯生态车联网寻找人车交互的未来图画
  2. Literature reviews of top KiTS19
  3. 文献阅读-医学超声图像分割-利用边界距离回归和像素分类网络实现超声图像肾脏自动分割
  4. 一篇看懂顺序表!!(刘欣大佬《码农翻身》特别提及)
  5. 我参加了奇点大学中国区学员选拔赛
  6. 荧光标记6-磷酸甘露糖-人血清白蛋白M6P-HSA/荧光标记雌二醇Estradiol/荧光标记雌三醇Estriol
  7. Android xUtils3源码解析之数据库模块
  8. 智能手表语音提示功能芯片选型?NV340D 8脚语音芯片
  9. 室内导航用什么来实现?通过什么可以实现导航功能?
  10. 【pytorch】torch.cdist使用说明