1.开启多进程解析页面,配合多线程下载爬取得更快。代码如下:

import requests,os,re,time
from bs4 import BeautifulSoup
from multiprocessing.pool import ThreadPool
from functools import partial
from multiprocessing import Pool
def save_picture(img_url,referer,path):file_name=path+os.sep+img_url.split('/')[-1]with open(file_name, 'wb+') as f:headers= {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",'Accept-Encoding': "gzip, deflate, br",'Accept-Language': "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",'Connection': "keep-alive",'Cookie': 'UM_distinctid=169241b82e3d7-055c03980912f78-4c312f7f-e1000-169241b82e4370','Referer':referer,}response= requests.get(img_url,headers=headers)f.write(response.content)f.close()time.sleep(1)def parse_current_page(page):url=page[0]name=page[1]response = requests.get(url)response.encoding = 'utf-8'if response.status_code == 200:soup=BeautifulSoup(response.content,'lxml')img_items = soup.find('div', class_='content').find_all('img')img_srcs=[item['src'] for item in img_items]dir_path = 'E:\\picture\\'+nameif not os.path.exists(dir_path):os.mkdir(dir_path)pool=ThreadPool(4)pool.map(partial(save_picture,referer=url,path=dir_path),img_srcs)pool.close()pool.join()next_page=soup.find('div',id="pages").find_all('a')[-1]#next_page=next_page['href']current_page_num=soup.find('div',id="pages").find('span').textnext_page_num=re.findall('\d+',next_page)[1]if next_page_num!=current_page_num:next_page="https://www.meitulu.com"+next_pagereturn parse_current_page((next_page,name))else:returndef get_all_page(index_url):response=requests.get(index_url)if response.status_code==200:soup=BeautifulSoup(response.content,'lxml')items=soup.find('ul',class_='img').find_all('li')_list=[(item.find('a')['href'],item.find_all('p')[1].text) for item in items]return _listdef main():index_url='https://www.meitulu.com/'pool=Pool(5)pool.map(parse_current_page,get_all_page(index_url))pool.close()pool.join()
if __name__ == '__main__':main()

python多线程爬取美图录网站图集按模特姓名存储到本地(二)相关推荐

  1. Python爬虫爬取美剧网站

    一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间.之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前一样同步更新了. 但是,作为一个宅dia ...

  2. python多线程爬取妹子图网站_python爬取妹子图全站全部图片-可自行添加-线程-进程爬取,图片去重...

    from bs4 import BeautifulSoup import sys,os,requests,pymongo,time from lxml import etree def get_fen ...

  3. python多线程爬取多个网址_【Python爬虫】多线程爬取斗图网站(皮皮虾,我们上车)...

    原标题:[Python爬虫]多线程爬取斗图网站(皮皮虾,我们上车) 斗图我不怕 没有斗图库的程序猿是无助,每次在群里斗图都以惨败而告终,为了能让自己在斗图界立于不败之地,特意去网上爬取了斗图包.在这里 ...

  4. Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

    斗图我不怕 最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地.自己写这篇文章 ...

  5. python多线程爬取ts文件并合成mp4视频

    python多线程爬取ts文件并合成mp4视频 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python多线程爬取ts文件并合成mp4视频 前言 一.分析页面 ...

  6. 详细实例:用python爬虫爬取幽默笑话网站!(建议收藏)

    前言: 今天为大家带来的内容是详细实例:用python爬虫爬取幽默笑话网站!(建议收藏),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下! 爬取网站为 ...

  7. python多线程爬取斗图啦数据

    python多线程爬取斗图啦网的表情数据 使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...

  8. Python 多线程爬取西刺代理

    西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧. 镜像地址:https://www.blib.cn/url/xcdl.html 首先找到所有的tr标签,与class ...

  9. python多线程爬取妹子图

    python多线程爬取妹子图 python使用版本: 3.7 目的: 自己选择下载目录,逐个将主题图片保存到选定目录下. 效果: 一秒钟左右下载一张图片,下了七八十组图片暂时没什么问题,不放心的话,可 ...

  10. python爬表情包_教你用Python来爬取表情包网站的所有表情图片

    教你用Python来爬取表情包网站的所有表情图片 配置环境 安装Python 开发环境 3X系列 win + R 打开运行,输入cmd,输入python,进行验证是否安装Python win + R ...

最新文章

  1. 网络营销外包——网络营销外包专员是如何提升网站权重数值的?
  2. syslog记录history历史记录
  3. java php安全性_java和php安全性有什么不同
  4. python列表写入字典_python如何将列表中的元素添加进字典
  5. 【完全开源】微信客户端.NET版
  6. POJ 1611 The Suspects (并查集)
  7. Python中__init__和__del__方法介绍
  8. 注塑机摆放间距多少合适_请查阅:过滤毛刷摆放参考标准!
  9. [数论][NOIP]解方程
  10. conda install 等价与pip install -e .
  11. 今天居然中了MSN病毒。
  12. 计算机二级access无忧考吧破解,无忧考吧access模拟考试软件
  13. 面试中单例模式有几种写法
  14. 如何查看网站是是什么服务器_什么是网站
  15. Java 8?还记得那年大明湖畔的Java 7吗?
  16. 施一公 - 清华讲座
  17. vsftpd mysql_虚拟主机与vsftpd和MySQL在Debian Etch
  18. AOSP ~ Camera - RK HAL3 ( 一 )
  19. java压缩文件或文件夹并返回流给前端
  20. 【Oracle】SCOTT用户和HR用户

热门文章

  1. 深入理解计算机系统bomb实验
  2. CSAPP:BombLab 详细解析
  3. IE无法安装HP-QC插件
  4. 房子装饰风水有哪些讲究和忌讳
  5. Python 开发桌面应用居然如此简单
  6. java桌面应用开发利器JavaFx
  7. [附源码]java毕业设计网吧购物系统
  8. Bit-Vector框架(1) — Reaching Definition Analysis
  9. es创建索引和yellow排查解决
  10. 灰灰考研机试班 | 基础练习二 问题 B: 日历本 | 入门题-模拟 | 日期、星期相关计算