1、提升爬取效率

使用多线程,多进程,携程,异步

2、多线程

进程是资源单位,每个进程,都会有一个默认的主线程
线程是执行单位
执行多线程需要导包:

from threading import Thread
  • 1、多线程第一种写法
from threading import Thread
def func():for index in range(1, 50):str2 = 'func' + str(index)print(str2)if __name__ == '__main__':  # 是否是入口程序thread = Thread(target=func)  # 创建一个多线程对象,并指定要执行的任务thread.start()  # 开启多线程,但是线程什么时候执行有cpu来决定for item in range(100, 150):str1 = 'main' + str(item)print(str1)

main序号和func序号交叉打印

  • 2、多线程第二种写法
    创建自定义线程类
from threading import Thread
class MyThread(Thread):#重写父类Thread类的run方法def run(self):for index in range(1,50):print('子线程',index)if __name__=='__main__':thread=MyThread()thread.start()#开启线程for item in range(150,200):print('主线程',item)

3、多线程传参

传入的实参必须是一个元祖,如果只有一个参数,注意要在第一个参数后面加逗号

from threading import Threaddef func(name):for index in range(1,50):print(name,index)if __name__=='__main__':thread1=Thread(target=func,args=('张三丰',))#传入的args参数必须是一个元祖thread2=Thread(target=func,args=('王力宏',))thread1.start()thread2.start()

4、多进程(比较耗资源)

要导入multiporocessing包的process模块

from multiprocessing import Processdef func():for index in range(1,50):print('子进程',index)if __name__=='__main__':process=Process(target=func)process.start()for item in range(150,200):print('主进程', item)

5、线程池和进程池的概念

反复使用的一组线程,构成线程池,
一次性开辟一些线程,用户直接给线程池提交任务,线程任务的调度交给线程池来完成
需要导入线程池

from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
#导入线程池和进程池模块
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutordef func(name):for index in range(1,50):print(name,index)if __name__=='__main__':#创建线程池,创建一个10个线程组成的线程池,并以threadpool作为线程池名with ThreadPoolExecutor(10) as threadpool:for item in range(50):threadpool.submit(func,name=f'线程{item}')#等待线程池中的任务全部执行完毕,才能继续执行(守护)print('====')

5、协程

在sleep或input(),request.get()等状态下,线程处于阻塞状态下
一般来书,当程序处于IO操作的时候,线程都会处于阻塞状态

携程:当 程序遇见了IO操作的时候,可以选择性的切换到其他任务上,从而避免耗时操作卡死程序。

  • 在微观上是一个任务一个任务的进行切换,切换条件一般就是io操作
  • 在宏观上,我们看到的其实是多个任务一起在执行
  • 多任务是异步操作
  • 以上说的都是在单线程的情况下。

6、多任务异步协程

要使用关键字async,和js的异步操作类似

#导入异步操作模块
import asyncio
#携程就是异步
async def func():print('你好,我是艾奥雅')if __name__=='__main__':g=func() #此时的函数是异步协程函数,此时函数得到的是一个协程对象#print(g)#<coroutine object func at 0x002431A8>asyncio.run(g)#你好,我是艾奥雅

案例2

# 导入异步操作模块
import asyncio
import time# 携程就是异步
async def func1():print('你好,我是艾奥雅')#time.sleep(3)#当程序出现了同步操作的时候,异步就中断了await asyncio.sleep(3)#s使用异步休眠,可以避免同步操作,也就是这三秒钟可以去做别的任务print('你好,我是艾奥雅')async def func2():print('你好,我是王建国')await asyncio.sleep(2)print('你好,我是王建国')async def func3():print('你好,我是李雪琴')await asyncio.sleep(4)print('你好,我是李雪琴')async def func4():print('你好,我是呼兰')await asyncio.sleep(1)print('你好,我是呼兰')async def func5():print('你好,我是徐志胜')await asyncio.sleep(2)print('你好,我是徐志胜')if __name__ == '__main__':f1 = func1()  # 返回一个协程对象f2 = func2()f3 = func3()f4 = func4()f5 = func5()task = [f1, f2, f3, f4, f5]  # 把异步任务放在一个列表中t1=time.time()# 一次性启动多个任务(协程)asyncio.run(asyncio.wait(task))  # 有async肯定要有waitt2=time.time()#print(t2-t1)#12.010096311569214,等待耗时12秒,执行时间0.01秒print(t2-t1)#4.007等待最大值为4秒,执行时间为0.007秒

案例3

# 导入异步操作模块
import asyncio
import time# 携程就是异步
async def func1():print('你好,我是艾奥雅')# time.sleep(3)#当程序出现了同步操作的时候,异步就中断了await asyncio.sleep(3)  # s使用异步休眠,可以避免同步操作,也就是这三秒钟可以去做别的任务print('你好,我是艾奥雅')async def func2():print('你好,我是王建国')await asyncio.sleep(2)print('你好,我是王建国')async def func3():print('你好,我是李雪琴')await asyncio.sleep(4)print('你好,我是李雪琴')async def func4():print('你好,我是呼兰')await asyncio.sleep(1)print('你好,我是呼兰')async def func5():print('你好,我是徐志胜')await asyncio.sleep(2)print('你好,我是徐志胜')async def main():# 第一种写法# f1 = func1()  # 返回一个协程对象# await f1  # 一般await挂起操作放在协程对象前面# f2 = func2()# await f2# f3 = func3()# await f3# f4 = func4()# await f4# f5 = func5()# await f5#第二种写法tasks=[func1(),func2(),func3(),func4(),func5()]await asyncio.wait(tasks)if __name__ == '__main__':t1 = time.time()asyncio.run(main())t2 = time.time()print(t2 - t1)  # 4.0027008056640625秒

7、异步http请求aiohttp模块

使用异步的requests,需要安装aiohttp,

pip install aiohttp

umei.cc唯美壁纸抓取案例

#导入异步http模块
import aiohttp
import asynciourls = ['http://kr.shanghai-jiuxin.com/file/2020/1031/e9d17d27dfd693d88b232899538144e8.jpg','http://kr.shanghai-jiuxin.com/file/2020/0807/98ec5c7f5d7d0b2d750dd9b5ea834cfc.jpg','http://kr.shanghai-jiuxin.com/file/2020/1031/26b7e178e987be6d914bf8d1af120890.jpg'
]async def aiodownload(url):name = url.rsplit('/', 1)[1]#从右边切一次,第一个元素print(name)# 发送请求,这里需要使用aiohttp.clientSession()来替代以前的同步requests()async with aiohttp.ClientSession() as session:async with session.get(url) as resp:# 请求回来,创建文件with open('./images/' + name, mode='wb') as fp:# 得到图片内容并保存到文件,读取内容是异步的,要加await挂起fp.write(await resp.content.read())  # resp.content.read() 等价于resp.contentprint(name, '文件已写入')async def main():tasks = []for url in urls:tasks.append(aiodownload(url))await asyncio.wait(tasks)if __name__ == '__main__':asyncio.run(main())

结果,下载了三张图片

8、视频网站工作原理

对用户上传的视频
转码,转成低码
切片,切成多个小文件
需要一个文件记录,1、视频文件播放顺序2,视频存放的路径
顺序文件做成m3u文件

要抓取视频就必须

  • 1、找到m3u8文件
  • 2、通过m3u8下载到ts文件
  • 3、通过各种手段,把ts文件合并为一个MP4文件

9、抓取91看剧简单版

  • 先拿到视频页面的源代码
  • 从源代码中提取m3u8的url
  • 下载m3u8
  • 读取m3u8文件,下载视频
  • 合并视频

python爬虫02-提升爬取效率、多线程,多线程传参,多进程,线程及线程池概念,协程,多任务异步协程,异步请求aiohttp模块,视频站工作原理相关推荐

  1. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  2. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  3. 什么是定向爬取技术,Python爬虫的定向爬取技术需解决哪些问题?

    一.什么是爬虫的定向爬取技术 通俗来说,爬虫的定向爬取技术就是根据设置的主题,对要爬取的网址或者网页中的内容进行筛选.比如我们可以使用正则表达式进行筛选等,筛选之后,再爬取对应的网址中的内容,并可以根 ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  5. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  6. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  7. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

  8. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  9. Python爬虫系列之爬取某奢侈品小程序店铺商品数据

    Python爬虫系列之爬取某奢侈品小程序店铺商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学 ...

最新文章

  1. 关于Python爬虫原理和数据抓取1.1
  2. [bzoj] 1176 Mokia || CDQ分治
  3. leangoo领歌敏捷开发工具新增任务到期提醒功能
  4. Maven中jar版本冲突问题的解决
  5. 编译-编译原理C/C++ 静态链接库(.a) 与 动态链接库(.so)
  6. .NET经典资源站点汇总
  7. MariaDB10和MySQL5.6社区版压力测试
  8. python进行图片的定位切割_python3 实现对图片进行局部切割的方法
  9. 笔记-项目进度管理-估算活动顺序-依赖关系
  10. 程序员必备 Git 分支开发规范指南
  11. 一个持续6年的针对多国政府机构的网络间谍活动 — “美人鱼行动”
  12. HTML 与 CSS 总结
  13. 数据结构与算法笔记总结
  14. 01.Matlab文件类型
  15. 对抗训练fgm、fgsm和pgd原理和源码分析
  16. 微波雷达智能感应模块,在智能面板上的技术应用
  17. linux用户登陆报错Resource temporarily unavailable
  18. Linux on IBM Cloud - Port Knocking
  19. 期货交易在使用基本面分析操作过程中要注意哪些问题?怎么控制风险?
  20. 纯css写滚动的弹幕特效

热门文章

  1. 开放域OOD主要数据集、评价指标汇总
  2. 人工智能和机器学习如何影响金融服务?
  3. htc打电话用什么软件,联系人不好用吗,怎么才能用好htc
  4. Pandas数据预处理的常用函数
  5. 【工具篇】sonarqube介绍和安装步骤
  6. ElasticSearch、kibana、ik、pinyin下载安装
  7. mysql 连接查询索引_Mysql (四)连接查询和索引
  8. python中int数据范围_Python数据结构之数字类型(int)
  9. Cadence allegro 显示、隐藏、调整和修改器件丝印
  10. HTML5 DOM元素类名相关操作API classList简介