如图所示: 所要提取的数据都在iframe标签里面的,直接用xpath提取iframe标签里的内容是提取不到的,
看到图一有一个script 所有的数据都在这个js标签内的,展开script标签后会看到一堆js代码,一直往下找会发现一个bytes类型的数据,如图


这个红色的源码就是你要的数据,但是他是一个bytes类型的,提取出来之后需要你转一下格式,这里推荐使用

import urllib.parse
urllib.parse.unquote(bytes源码)

提取规则://*[@id='对应的标签名字']//script//text()

html_str = response.xpath("//*[@id='对应的标签名字']//script//text()")

提取过的数据再用正则提取出你要的数据 html_byte = re.findall(r"iframeContent =(.*?);",html_str ,re.DOTALL)
re.DOTALL 提取允许换行
通过转换一下格式,你就得到一个标准的html格式的代码,转换过后的源码太多,这里只粘贴自己要提取的部分

看到这样的页面,直接用各种提取方式提取你想要的数据即可


源码不贴上了 每一个的业务不同,思路大致一样,

python scrapy 爬取包含iframe标签内的数据相关推荐

  1. Python+scrapy爬取36氪网

    Python+Scrapy爬取36氪网新闻 一.准备工作: ​ ①安装python3 ​ ②安装scrapy ​ ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...

  2. Python scrapy爬取京东,百度百科出现乱码,解决方案

    Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...

  3. python实践 爬取豆瓣各个标签的电影 爬虫

    python实践 爬取豆瓣各个标签的电影 实践题目 爬取豆瓣电影中,华语.欧美.韩国.日本电影每个标签下按评价排序的全部电影,需要如下信息: (1)每个电影的电影名.导演.编剧.主演.类型.国家.上映 ...

  4. 手把手教你使用Python+scrapy爬取山东各城市天气预报

    1.在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说"大宗师"全文 2.使用 ...

  5. 如何用 Python + Scrapy 爬取视频?

    今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...

  6. python scrapy爬取HBS 汉堡南美航运公司柜号信息

    下面分享个scrapy的例子 利用scrapy爬取HBS 船公司柜号信息 1.前期准备 查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...

  7. 每日一练:Python爬虫爬取全国新冠肺炎疫情数据实例详解,使用beautifulsoup4库实现

    Python 爬虫篇 - 爬取全国新冠肺炎疫情数据实例详解 效果图展示 第一章:疫情信息的下载与数据提取 ① 爬取页面数据到本地 ② json 字符串正则表达式分析 ③ 提取数据中的 json 字符串 ...

  8. python+requests+ 爬取官网双色球开奖数据

    python+requests+mysql 爬取官网双色球开奖数据 分析网页数据获取方式 第一种查询方式 第二种查询方式 完整代码 分析网页数据获取方式 第一种查询方式 在官网上 可以找到多种数据查询 ...

  9. python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)

    为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...

最新文章

  1. 新风向标:学术界开始从 Python 转向 Rust
  2. 华为交换机s5700学习笔记
  3. keytool 错误:java.to.FileNotFoundException:
  4. Qt学习之路(9):深入了解信号槽
  5. 设置润乾报表鼠标移到格子上就显示提示内容
  6. Atlassian是怎样进行持续交付的?且听 Steve Smith一一道来
  7. 9、网络详解 学习笔记
  8. eclipse反编译插件在线安装如下图
  9. 《跟我学Shiro》——张开涛(链接)
  10. 在Linux安装QQ,只需几步
  11. 用小程序完成简单的详情列表功能
  12. 数据库系统概念第六版 第六章练习题6.11
  13. android多媒体框架学习
  14. css做出京东登录界面
  15. 私钥记录-支付宝接入
  16. CreateJS 学习4 动画、TweenJS
  17. 怎么搭建自己的内测分发平台?
  18. 传递函数化为状态空间表达式
  19. 互联网公司为何杀死中年人?三年醇,五年陈,十年滚!
  20. java ref传引用_java引用传递

热门文章

  1. netgear 网件路由器怎么了
  2. 044-Web前端-JS-键盘事件
  3. 机器视觉LED光源照明技术说明
  4. CMake 常用总结二:CMake 生成静态库与动态库
  5. 如果遇到提示错误 reactivity.esm-bundler.js?a1e9:337 Set operation on key “default“ failed: target is readonl
  6. 素描滤镜_素描fu自定义键盘快捷键
  7. 租的服务器系统盘满了该怎么办,系统盘满了怎么清理?
  8. centos7查看进程ps_Linux ps命令:查看所有进程信息
  9. 3blue1brown线性代数的本质笔记
  10. 五:Dubbo中Provider参数配置及源码讲解