本文利用urllib在python3.7的环境下实现贴吧表情包的爬取!

用到的包有urllib与re两个模块,具体实现如下!

import urllib.request
import re
import sslurl = "https://tieba.baidu.com/p/5059180075?red_tag=0069685467"def baidu(url):ssl._create_default_https_context = ssl._create_unverified_contextreq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode('utf-8')print(data)#return datadef parse(html):pat = r'<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(html)#print(imagelist)temp = 1for each in imagelist:print(each)temp += 1file = "相对路径/%s"  %temp + ".jpg"urllib.request.urlretrieve(each, filename=file)if __name__ == "__main__":html = baidu(url)parse(html)

需要注意的是,代码中还有导入一个ssl模块,在python2.7.9之后,用urllib模块打开一个网址时,会验证一次SSL证书,如果没有声明它,会报出如下错误!

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1051)>

所以必须在代码上中声明,另外还有一种声明方式,如下:

context = ssl._create_unverified_context()
res = request.urlopen(req, context=context)

下面是抓取多页的版本!

import urllib.request
import ssl
import redef main():ssl._create_default_https_context = ssl._create_unverified_contexttemp = 1for i in range(1,3):url = "https://tieba.baidu.com/p/5059180075?pn=%s" %ireq = urllib.request.Request(url)data = urllib.request.urlopen(req).read().decode("utf-8")print(data)pat = '<img class="BDE_Image".*?src="([^"]*\.jpg)"'imagelist = re.compile(pat).findall(data)print(imagelist)for each in imagelist:print(each)temp += 1file = "文件路径/%s" %temp + ".jpg"urllib.request.urlretrieve(each,filename=file)if __name__ == "__main__":main()

python爬虫实现贴吧表情包的爬取相关推荐

  1. Python爬虫 | 斗图网表情包抓取

    Python爬虫 | 斗图网表情包抓取 1.数据来源分析 2.制作div_list 3.发起请求 4.保存图片 5.批量获取 6.完整代码 声明 1.数据来源分析   打开斗图吧的主页,发现网址非常有 ...

  2. python表情包斗图_Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

    斗图啦表情包多线程爬取-写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...

  3. Python爬虫:最牛逼的 selenium爬取方式!

    Python爬虫:最牛逼的 selenium爬取方式! 作为一个男人 在最高光的时刻 这是小编准备的python爬虫学习资料,加群:700341555即可免费获取! Python爬虫:最牛逼的 sel ...

  4. Python爬虫系列之抖音热门视频爬取

    Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...

  5. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  6. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  7. Python爬虫之scrapy框架360全网图片爬取

    Python爬虫之scrapy框架360全网图片爬取 在这里先祝贺大家程序员节快乐,在此我也有一个好消息送给大家,本人已开通了微信公众号,我会把资源放在公众号上,还请大家小手动一动,关注过微信公众号, ...

  8. Python爬虫实例 wallhaven网站高清壁纸爬取。

    文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取 一.数据请求 1.分析网页源码 2.全网页获取 二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...

  9. Python爬虫之豆瓣电影评论数据的爬取(十四)

    原创不易,转载前请注明博主的链接地址:Blessy_Zhu https://blog.csdn.net/weixin_42555080 本次代码的环境: 运行平台: Windows Python版本: ...

  10. Python爬虫入门教程 13-100 斗图啦表情包多线程爬取

    1.准备爬取斗图la写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ...

最新文章

  1. Cocoa pods的安装
  2. 12个高矮不同的人排成两排
  3. Android Binder设计与实现 - 实现篇(1)
  4. Web安全学习week6
  5. python手势识别_Python|使用opencv进行简单的手势检测
  6. P6076-[JSOI2015]染色问题【组合数学,容斥】
  7. 计算机科学必读书籍_5篇关于数据科学家的产品分类必读文章
  8. eclipse3.1.1汉化版安装
  9. CVPR 2022 | 旷视研究院入选论文亮点解读
  10. 安卓* 系统级 Java*/C++ 代码调试
  11. GitLab5.3修改项目仓库名称后wiki不能访问
  12. 「镁客·请讲」HelloEOS梓岑:嘻哈外表下的区块链式达尔文主义
  13. html5+php实现文件拖动上传功能
  14. Fullpage:基础学习
  15. Android统计图控件之圆饼图
  16. YOLOv5改进之十三:主干网络C3替换为轻量化网络EfficientNetv2
  17. ff15测试软件翻译,最终幻想15数据详细分析 FF15详细的数值参数测试
  18. 华为手机一键修改机器码信息
  19. 终极合体!谷歌大脑DeepMind正式联姻,1+1>OpenAI?
  20. 2021年挖矿电脑配置推荐

热门文章

  1. MAC下如何解压.bin文件
  2. java tostring null_Java String转换时为null的问题
  3. 判断矩形是否在矩形中
  4. 【考研】数据库知识点总结
  5. python爬虫下载恩智浦智能车竞赛技术报告
  6. iis部署网站 html文件路径,iis发布网页
  7. 陕西勉县旅游策划方案——打造三国之都!
  8. DTU有什么用?是怎样工作的?
  9. 获得内核函数地址的四种方法
  10. 储户诉银行虚假宣传 微众银行智能存款产品屡遭用户投诉