python爬虫实现贴吧表情包的爬取

本文利用urllib在python3.7的环境下实现贴吧表情包的爬取！

用到的包有urllib与re两个模块，具体实现如下！

import urllib.request
import re
import sslurl = "https://tieba.baidu.com/p/5059180075?red_tag=0069685467"def baidu(url):ssl._create_default_https_context = ssl._create_unverified_contextreq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode('utf-8')print(data)#return datadef parse(html):pat = r'<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(html)#print(imagelist)temp = 1for each in imagelist:print(each)temp += 1file = "相对路径/%s"  %temp + ".jpg"urllib.request.urlretrieve(each, filename=file)if __name__ == "__main__":html = baidu(url)parse(html)

需要注意的是，代码中还有导入一个ssl模块，在python2.7.9之后，用urllib模块打开一个网址时，会验证一次SSL证书，如果没有声明它，会报出如下错误！

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1051)>

所以必须在代码上中声明，另外还有一种声明方式，如下：

context = ssl._create_unverified_context()
res = request.urlopen(req, context=context)

下面是抓取多页的版本！

import urllib.request
import ssl
import redef main():ssl._create_default_https_context = ssl._create_unverified_contexttemp = 1for i in range(1,3):url = "https://tieba.baidu.com/p/5059180075?pn=%s" %ireq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode("utf-8")print(data)pat = '<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(data)print(imagelist)for each in imagelist:print(each)temp += 1file = "文件路径/%s" %temp + ".jpg"urllib.request.urlretrieve(each,filename=file)if __name__ == "__main__":main()

python爬虫实现贴吧表情包的爬取相关推荐

Python爬虫 | 斗图网表情包抓取
Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码声明 1.数据来源分析打开斗图吧的主页,发现网址非常有 ...
python表情包斗图_Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
Python爬虫：最牛逼的 selenium爬取方式！
Python爬虫:最牛逼的 selenium爬取方式! 作为一个男人在最高光的时刻这是小编准备的python爬虫学习资料,加群:700341555即可免费获取! Python爬虫:最牛逼的 sel ...
Python爬虫系列之抖音热门视频爬取
Python爬虫系列之抖音热门视频爬取主要使用requests库以及手机抓包工具去分析接口该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取抖音资源获取接口文档请点击 ...
Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
Python爬虫之scrapy框架360全网图片爬取
Python爬虫之scrapy框架360全网图片爬取在这里先祝贺大家程序员节快乐,在此我也有一个好消息送给大家,本人已开通了微信公众号,我会把资源放在公众号上,还请大家小手动一动,关注过微信公众号, ...
Python爬虫实例 wallhaven网站高清壁纸爬取。
文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取一.数据请求 1.分析网页源码 2.全网页获取二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...
Python爬虫之豆瓣电影评论数据的爬取（十四）
原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
1.准备爬取斗图la写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ...

python爬虫实现贴吧表情包的爬取

python爬虫实现贴吧表情包的爬取相关推荐

最新文章

热门文章