记一个python scrapy爬取script标签中某个var变量的值
app移动端没有后台数据,没办法自己写呗,凑合着用,日子凑合着过,慢慢开始爬虫了
这是一个 python scrapy项目,具体关于scrapy的知识自己扩展
首先来一张自己稍稍总结的导图:
代码不做过多解释
功能:获取动态申请数据的url
class HomeNewsSpidersSpider(scrapy.Spider):name = 'home_news_spiders'allowed_domains = ['news.cctv.com']start_urls = ['http://news.cctv.com/']def parse(self, response):# 解析json,获取某个变量var的值json_str = response.xpath('//*[@id="SUBD1563517622685109"]/script[2]/text()').extract_first()# js文本转换成xmlsrc_text = js2xml.parse(json_str, encoding='utf-8', debug=False)src_tree = js2xml.pretty_print(src_text)# 转换xml成htmletree.HTML(src_tree)# xpath解析数据selector = Selector(text=src_tree)content = selector.xpath("/html/body/program/var[2]/string/text()").extract_first()print('content=', content)
记一个python scrapy爬取script标签中某个var变量的值相关推荐
- Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻 一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
- Python scrapy爬取京东,百度百科出现乱码,解决方案
Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...
- python爬取script标签_Selenium+BeautifulSoup+json获取Script标签内的json数据
Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中, 假设Script标签下代码如下: { "user": { "isLogin&qu ...
- 如何用 Python + Scrapy 爬取视频?
今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...
- python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
- python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...
- 手把手教你使用Python+scrapy爬取山东各城市天气预报
1.在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说"大宗师"全文 2.使用 ...
- python scrapy爬取HBS 汉堡南美航运公司柜号信息
下面分享个scrapy的例子 利用scrapy爬取HBS 船公司柜号信息 1.前期准备 查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...
- scrapy爬取知名问答网站(解决登录+保存cookies值+爬取问答数据)--完整版完美解决登录问题
菜鸟写Python:scrapy爬取知名问答网站 实战(3) 一.文章开始: 可能看到这篇文章的朋友,大多数都是受慕课网bobby讲师课程的影响,本人也有幸在朋友处了解过这个项目,但是似乎他代码中登录 ...
最新文章
- x-http-wrapper: 如何解决每次发版时,修改http相关代码造成的错误!(Android、iOS、h5)...
- 论网站长尾关键词优化的六大方法
- 【计算机图形学】实验:C#语言采用GDI+定义笔刷并填充图形完整实验操作流程
- SpringBoot笔记整理(二)
- iframe高度自适应的6个方法
- class根据状态 vue_搞懂并学会运用 Vue 中的无状态组件
- /var/spool/clientmqueue/下的大文件
- SpringBoot + MyBaties 实现其XML方式
- 病毒提示广告调查:投放色情网站 每日千人中招
- 手动删除Mac版迅雷无用的功能,让迅雷软件更清爽无广告纯粹下载
- Pr 入门教程如何减少音频中的噪音和混响?
- python 求复数的模
- Alien Skin Exposure v6.x 最新通用完整版汉化补丁
- Unity 删除物体
- 渠道商用假量冒充真实用户:开发者求给条活路
- 详解Unity中的粒子系统Particle System (十二 | 终)
- UVA-10074 最大子矩阵 DP
- 化学绘图软件是怎么快速调用帮助文档的
- 安装算量选用哪款软件好?免费试用
- 苹果13的home键怎么调出来