题目解析的爬取

思路

1.将所以题目的解析链接爬取出去单独存放到一个文件。

2.为了解决有些链接一次进不去必须中断程序再次开始,和存储图片思路一样,争取实现断点继续,

3.但是写入文件和保存图片还是不一样,针对面临的情况,初步解决想法为每抽取一条链接的解析,就删掉这个链接,用列表存储从链接文件中读取的链接

同时爬取图片和动图问题

因为科目四有的题目包含动图,要爬取的网站是做成mov格式的短视频

例如:

您的浏览器不支持不放

增加获取视频链接

系列一获取图片的方法是在获取选项、答案的基础上再次传到BeautifulSoup对象,然后再次提取img标签,如果某题没有图片,提取的则是一个空值,此处提取img和video标签。如果某题没有图片或视频,提取的则是一个空值。只需改一句代码

img = soup.find_all(['img','video'])

获取图片或动图后缀

系列一中为了方便直接在文件名后面加的字符串形式.png后缀,但是现在要解决后缀不一致(写代码尽可能还是不要偷懒…)

解决代码:

if img: for im in img:

src = im.get('src')

suffix = src.split('.')[3]

filename = str(i) + '.' + suffix

如果此题有图片或动图,则把这个图的链接通过’.’进行分割。最后的元素则是后缀

争取实现断点继续

不知道为什么程序会暂停不动,模仿浏览器,捕获异常都试了,依然不行,所以我尽可能的实现断点继续。

每个图片对应一个链接,难免有一个链接卡住(我猜测的)

解决办法 :

在我们得到链接,并生成文件名后,先不去打开这个这个链接,先根据文件名判断这个图片是否文件夹中已经包含,如果包含扔掉这个链接,去继续下一个链接

if img: for im in img:

src = im.get('src')

suffix = src.split('.')[3]

filename = str(i) + '.' + suffix

if os.path.exists('picture/'+filename):

break

saveImg(im.get('src'),filename)

python爬虫简单步骤_python爬虫小demo,简单明了相关推荐

  1. python爬虫app步骤_Python爬虫之App爬虫视频下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫之App爬虫视频下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 随着手app的发展逐渐强大,我们手机应用每 ...

  2. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  3. python简单爬虫入门一_Python爬虫快速入门:基本结构简单实例

    本爬虫系列入门教程假设读者仅有一点点Python基础或者近乎为零的基础.如果是有Python基础的可以跳过一些对于Python基本知识的补充. 爬虫能干什么呢?一句话概括,正常通过浏览器可以获取的数据 ...

  4. python 爬虫哪个好_Python爬虫框架哪个最好用最简单

    想使用python爬虫框架开发个爬虫,但目前了解有限,希望大家帮忙推荐几个,谢谢啦~ 另外,大家平常工作中都使用python干些什么事情呢?网站开发?爬虫?还是运维? scrapy 爬虫框架.纯pyt ...

  5. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  6. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  7. python爬虫防屏蔽_python爬虫程序如何预防被限制

    有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份.此时,我们就可以通过设置Use ...

  8. python爬虫捕鱼网站_Python爬虫从太平洋地震工程研究中心数据库自动下载地震波时程...

    python app开发自动捕鱼" 引子-- 最近小编在沉迷捕鱼之余,扫到了某问答网站里的一个网友提问的标题叫做"Python真的有那么神吗?",各位被邀嘉宾们针对最近P ...

  9. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  10. python爬虫面试问题_Python爬虫面试总结

    ## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...

最新文章

  1. wordpress短代码转php,WordPress中的shortcode短代码功能使用详解
  2. PAT甲级排队问题合集 (持续更新中)
  3. 程序员为什么会有职业瓶颈?
  4. “口碑营销”产品模型推测与分析
  5. 几个有趣的名词--语法糖、语法盐等
  6. 8. Dropout and Strides For Larger Models
  7. 前端程序员总结的工作中常用的十大浏览器兼容性问题,初学者瑰宝!
  8. 和慧眼显示服务器网关错误,R680G7联想万全慧眼IV高级版用户指南2.pdf
  9. 在 Linux 平台中调试 C/C++ 内存泄漏方法
  10. vue中处理文本不换行问题
  11. 智力问答选择题_智力问答题题库
  12. 2017ICPCECIC MJF wants to work
  13. 人工智能传奇—关于AI起源与发展的故事
  14. 优盘启动盘恢复为普通优盘
  15. Thinking in Java 中闪耀的星星(四)
  16. 模式识别技术漫谈(2)
  17. c语言顺时针打印数组,顺时针打印数组
  18. 数字藏品在国内现状是怎样的?
  19. Proteus8仿真:51单片机A/D转换(ADC0808)
  20. 关于虚拟化层-Windows镜像的测试

热门文章

  1. 计算几何-求线段交点算法和代码(C++语言)
  2. RHEL 6.3 KVM 虚拟机安装配置管理
  3. jQuery 语法总结和注意事项
  4. 让ssh跳转支持ipv6
  5. excel_applications
  6. label自动换行代码和DataGrid中删除最后一页的记录时出错的解决办法以及HTML小TIPS:强制HTML表格断行...
  7. 微信小程序背景音乐的调试
  8. flutter的四种模式/application/plugin/package/module,flutter调用原生的方法
  9. uniapp开发原生android插件,uni-app原生插件(native plugin)开发指南
  10. Python 程序 可以一直输入 quit_Python二级考试临时抱佛脚专用笔记——(二)基本控制结构的程序设计amp;数据的输入和输出...