python scrapy 爬取包含iframe标签内的数据
如图所示: 所要提取的数据都在iframe标签里面的,直接用xpath提取iframe标签里的内容是提取不到的,
看到图一有一个script 所有的数据都在这个js标签内的,展开script标签后会看到一堆js代码,一直往下找会发现一个bytes类型的数据,如图
这个红色的源码就是你要的数据,但是他是一个bytes类型的,提取出来之后需要你转一下格式,这里推荐使用
import urllib.parse
urllib.parse.unquote(bytes源码)
提取规则://*[@id='对应的标签名字']//script//text()
html_str = response.xpath("//*[@id='对应的标签名字']//script//text()")
提取过的数据再用正则提取出你要的数据 html_byte = re.findall(r"iframeContent =(.*?);",html_str ,re.DOTALL)
re.DOTALL 提取允许换行
通过转换一下格式,你就得到一个标准的html格式的代码,转换过后的源码太多,这里只粘贴自己要提取的部分
看到这样的页面,直接用各种提取方式提取你想要的数据即可
源码不贴上了 每一个的业务不同,思路大致一样,
python scrapy 爬取包含iframe标签内的数据相关推荐
- Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻 一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
- Python scrapy爬取京东,百度百科出现乱码,解决方案
Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...
- python实践 爬取豆瓣各个标签的电影 爬虫
python实践 爬取豆瓣各个标签的电影 实践题目 爬取豆瓣电影中,华语.欧美.韩国.日本电影每个标签下按评价排序的全部电影,需要如下信息: (1)每个电影的电影名.导演.编剧.主演.类型.国家.上映 ...
- 手把手教你使用Python+scrapy爬取山东各城市天气预报
1.在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说"大宗师"全文 2.使用 ...
- 如何用 Python + Scrapy 爬取视频?
今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...
- python scrapy爬取HBS 汉堡南美航运公司柜号信息
下面分享个scrapy的例子 利用scrapy爬取HBS 船公司柜号信息 1.前期准备 查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...
- 每日一练:Python爬虫爬取全国新冠肺炎疫情数据实例详解,使用beautifulsoup4库实现
Python 爬虫篇 - 爬取全国新冠肺炎疫情数据实例详解 效果图展示 第一章:疫情信息的下载与数据提取 ① 爬取页面数据到本地 ② json 字符串正则表达式分析 ③ 提取数据中的 json 字符串 ...
- python+requests+ 爬取官网双色球开奖数据
python+requests+mysql 爬取官网双色球开奖数据 分析网页数据获取方式 第一种查询方式 第二种查询方式 完整代码 分析网页数据获取方式 第一种查询方式 在官网上 可以找到多种数据查询 ...
- python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)
为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...
最新文章
- 新风向标:学术界开始从 Python 转向 Rust
- 华为交换机s5700学习笔记
- keytool 错误:java.to.FileNotFoundException:
- Qt学习之路(9):深入了解信号槽
- 设置润乾报表鼠标移到格子上就显示提示内容
- Atlassian是怎样进行持续交付的?且听 Steve Smith一一道来
- 9、网络详解 学习笔记
- eclipse反编译插件在线安装如下图
- 《跟我学Shiro》——张开涛(链接)
- 在Linux安装QQ,只需几步
- 用小程序完成简单的详情列表功能
- 数据库系统概念第六版 第六章练习题6.11
- android多媒体框架学习
- css做出京东登录界面
- 私钥记录-支付宝接入
- CreateJS 学习4 动画、TweenJS
- 怎么搭建自己的内测分发平台?
- 传递函数化为状态空间表达式
- 互联网公司为何杀死中年人?三年醇,五年陈,十年滚!
- java ref传引用_java引用传递
热门文章
- netgear 网件路由器怎么了
- 044-Web前端-JS-键盘事件
- 机器视觉LED光源照明技术说明
- CMake 常用总结二:CMake 生成静态库与动态库
- 如果遇到提示错误 reactivity.esm-bundler.js?a1e9:337 Set operation on key “default“ failed: target is readonl
- 素描滤镜_素描fu自定义键盘快捷键
- 租的服务器系统盘满了该怎么办,系统盘满了怎么清理?
- centos7查看进程ps_Linux ps命令:查看所有进程信息
- 3blue1brown线性代数的本质笔记
- 五:Dubbo中Provider参数配置及源码讲解