app移动端没有后台数据,没办法自己写呗,凑合着用,日子凑合着过,慢慢开始爬虫了

这是一个 python scrapy项目,具体关于scrapy的知识自己扩展
首先来一张自己稍稍总结的导图:

代码不做过多解释

功能:获取动态申请数据的url

class HomeNewsSpidersSpider(scrapy.Spider):name = 'home_news_spiders'allowed_domains = ['news.cctv.com']start_urls = ['http://news.cctv.com/']def parse(self, response):# 解析json,获取某个变量var的值json_str = response.xpath('//*[@id="SUBD1563517622685109"]/script[2]/text()').extract_first()# js文本转换成xmlsrc_text = js2xml.parse(json_str, encoding='utf-8', debug=False)src_tree = js2xml.pretty_print(src_text)# 转换xml成htmletree.HTML(src_tree)# xpath解析数据selector = Selector(text=src_tree)content = selector.xpath("/html/body/program/var[2]/string/text()").extract_first()print('content=', content)

记一个python scrapy爬取script标签中某个var变量的值相关推荐

  1. Python+scrapy爬取36氪网

    Python+Scrapy爬取36氪网新闻 一.准备工作: ​ ①安装python3 ​ ②安装scrapy ​ ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...

  2. Python scrapy爬取京东,百度百科出现乱码,解决方案

    Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...

  3. python爬取script标签_Selenium+BeautifulSoup+json获取Script标签内的json数据

    Selenium爬虫遇到 数据是以 JSON 字符串的形式包裹在 Script 标签中, 假设Script标签下代码如下: { "user": { "isLogin&qu ...

  4. 如何用 Python + Scrapy 爬取视频?

    今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...

  5. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

  6. python爬虫下载电影百度文档_写一个python 爬虫爬取百度电影并存入mysql中

    目标是利用python爬取百度搜索的电影 在类型 地区 年代各个标签下 电影的名字 评分 和图片连接 以及 电影连接 首先我们先在mysql中建表 create table liubo4( id in ...

  7. 手把手教你使用Python+scrapy爬取山东各城市天气预报

    1.在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说"大宗师"全文 2.使用 ...

  8. python scrapy爬取HBS 汉堡南美航运公司柜号信息

    下面分享个scrapy的例子 利用scrapy爬取HBS 船公司柜号信息 1.前期准备 查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...

  9. scrapy爬取知名问答网站(解决登录+保存cookies值+爬取问答数据)--完整版完美解决登录问题

    菜鸟写Python:scrapy爬取知名问答网站 实战(3) 一.文章开始: 可能看到这篇文章的朋友,大多数都是受慕课网bobby讲师课程的影响,本人也有幸在朋友处了解过这个项目,但是似乎他代码中登录 ...

最新文章

  1. x-http-wrapper: 如何解决每次发版时,修改http相关代码造成的错误!(Android、iOS、h5)...
  2. 论网站长尾关键词优化的六大方法
  3. 【计算机图形学】实验:C#语言采用GDI+定义笔刷并填充图形完整实验操作流程
  4. SpringBoot笔记整理(二)
  5. iframe高度自适应的6个方法
  6. class根据状态 vue_搞懂并学会运用 Vue 中的无状态组件
  7. /var/spool/clientmqueue/下的大文件
  8. SpringBoot + MyBaties 实现其XML方式
  9. 病毒提示广告调查:投放色情网站 每日千人中招
  10. 手动删除Mac版迅雷无用的功能,让迅雷软件更清爽无广告纯粹下载
  11. Pr 入门教程如何减少音频中的噪音和混响?
  12. python 求复数的模
  13. Alien Skin Exposure v6.x 最新通用完整版汉化补丁
  14. Unity 删除物体
  15. 渠道商用假量冒充真实用户:开发者求给条活路
  16. 详解Unity中的粒子系统Particle System (十二 | 终)
  17. UVA-10074 最大子矩阵 DP
  18. 化学绘图软件是怎么快速调用帮助文档的
  19. 安装算量选用哪款软件好?免费试用
  20. 苹果13的home键怎么调出来

热门文章

  1. 达人评测 天玑1100和骁龙870处理器哪个好
  2. 投资学U06 风险资产配置 教材笔记
  3. 【LiteApp系列】埋点的设计
  4. 最新 MySQL for Excel的安装教程与功能介绍
  5. VIA图像标注系统汉化版
  6. STM32 PWM控制舵机——原理、接线、源程序
  7. 方图智能:精准洞察市场需求 打造细分市场新标杆
  8. 【带你学c带你飞】第2天课后练习
  9. 20190324游戏场景百度地图150次联网耗电
  10. 帽子接球小游戏(一)--制作UI面板