python爬虫实现贴吧表情包的爬取
本文利用urllib在python3.7的环境下实现贴吧表情包的爬取!
用到的包有urllib与re两个模块,具体实现如下!
import urllib.request
import re
import sslurl = "https://tieba.baidu.com/p/5059180075?red_tag=0069685467"def baidu(url):ssl._create_default_https_context = ssl._create_unverified_contextreq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode('utf-8')print(data)#return datadef parse(html):pat = r'<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(html)#print(imagelist)temp = 1for each in imagelist:print(each)temp += 1file = "相对路径/%s" %temp + ".jpg"urllib.request.urlretrieve(each, filename=file)if __name__ == "__main__":html = baidu(url)parse(html)
需要注意的是,代码中还有导入一个ssl模块,在python2.7.9之后,用urllib模块打开一个网址时,会验证一次SSL证书,如果没有声明它,会报出如下错误!
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1051)>
所以必须在代码上中声明,另外还有一种声明方式,如下:
context = ssl._create_unverified_context()
res = request.urlopen(req, context=context)
下面是抓取多页的版本!
import urllib.request
import ssl
import redef main():ssl._create_default_https_context = ssl._create_unverified_contexttemp = 1for i in range(1,3):url = "https://tieba.baidu.com/p/5059180075?pn=%s" %ireq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode("utf-8")print(data)pat = '<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(data)print(imagelist)for each in imagelist:print(each)temp += 1file = "文件路径/%s" %temp + ".jpg"urllib.request.urlretrieve(each,filename=file)if __name__ == "__main__":main()
python爬虫实现贴吧表情包的爬取相关推荐
- Python爬虫 | 斗图网表情包抓取
Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码 声明 1.数据来源分析 打开斗图吧的主页,发现网址非常有 ...
- python表情包斗图_Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
- Python爬虫:最牛逼的 selenium爬取方式!
Python爬虫:最牛逼的 selenium爬取方式! 作为一个男人 在最高光的时刻 这是小编准备的python爬虫学习资料,加群:700341555即可免费获取! Python爬虫:最牛逼的 sel ...
- Python爬虫系列之抖音热门视频爬取
Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...
- Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
- python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
- Python爬虫之scrapy框架360全网图片爬取
Python爬虫之scrapy框架360全网图片爬取 在这里先祝贺大家程序员节快乐,在此我也有一个好消息送给大家,本人已开通了微信公众号,我会把资源放在公众号上,还请大家小手动一动,关注过微信公众号, ...
- Python爬虫实例 wallhaven网站高清壁纸爬取。
文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...
- Python爬虫之豆瓣电影评论数据的爬取(十四)
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
- Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
1.准备爬取斗图la写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ...
最新文章
- Cocoa pods的安装
- 12个高矮不同的人排成两排
- Android Binder设计与实现 - 实现篇(1)
- Web安全学习week6
- python手势识别_Python|使用opencv进行简单的手势检测
- P6076-[JSOI2015]染色问题【组合数学,容斥】
- 计算机科学必读书籍_5篇关于数据科学家的产品分类必读文章
- eclipse3.1.1汉化版安装
- CVPR 2022 | 旷视研究院入选论文亮点解读
- 安卓* 系统级 Java*/C++ 代码调试
- GitLab5.3修改项目仓库名称后wiki不能访问
- 「镁客·请讲」HelloEOS梓岑:嘻哈外表下的区块链式达尔文主义
- html5+php实现文件拖动上传功能
- Fullpage:基础学习
- Android统计图控件之圆饼图
- YOLOv5改进之十三:主干网络C3替换为轻量化网络EfficientNetv2
- ff15测试软件翻译,最终幻想15数据详细分析 FF15详细的数值参数测试
- 华为手机一键修改机器码信息
- 终极合体!谷歌大脑DeepMind正式联姻,1+1>OpenAI?
- 2021年挖矿电脑配置推荐