前言

初因是给宝宝制作拼音卡点读包时,要下载卖家提供给的MP3,大概有2百多个。作为一个会码代码的非专业人士,怎么可能取一个一个下载?所以就决定用python 的 scrapy 框架写个爬虫,去下载这些MP3。一开始以为简单,直到完成下载,竟然花了我一下午的时间。最大的难题就是页面的数据是通过javascript 脚本动态渲染的。百度上大部分方法都是通过splash 做中转实现的方法,而我只是想简单的写个代码实现而已,看splash还要挂docker,巴啦巴啦一大堆的操作,顿时就心塞了。通过百度和自己实践,终于找到了一个最简单的方法解决了问题,特此记录下来,同大家分享一下。

页面分析

先开始分析目标html

首页

韵母列表页

拼音 e MP3 页

看着简单吧,可一爬取,问题立马就出现了,curl下静态页看看。

curl -s https://biz.cli.im/test/CI525711?stime=2 >111.html

首页竟是这样的,页面的列表数据,是通过javascript 动态渲染的。

是个json 数据,再格式化后分析下,页面link 都在data 这个json数据里了。

代码实现

最基础的response.xpath 方式是不能用了,我的思路是把scripts 获取出来,然后用获取soncode_link 的值。

经过研究决定用 BeautifulSoup + js2xml

class JingboSpider(scrapy.Spider):

name = 'jingbo'

allowed_domains = ['biz.cli.im']

all_urls= "https://biz.cli.im"

start_urls = ['test/CI525711?stime=2']

def start_requests(self):

#自定义headers

for url in self.start_urls:

yield scrapy.Request(self.all_urls+"/"+url, headers={"User-Agent": USER_AGENT})

def parse(self, response):

resp = response.text

# 用lxml作为解析器 ,解析返回数据

soup = BeautifulSoup(resp,'lxml')

# 获取所有script 标签数据,并遍历查找

scripts = soup.find_all('script')

for script in scripts:

if type(script.string) is type(None):

continue

if script.string.find("loadtemp();") > 0:

src=script

break

title="title"

link="soncode_link"

# 将js 数据转化为 xml 标签树格式

src_text = js2xml.parse(src.string, encoding='utf-8',debug=False)

src_tree = js2xml.pretty_print(src_text)

# print(src_tree)

selector = etree.HTML(src_tree)

links = selector.xpath("//property[@name = '"+link+"']/string/text()")

playurl = selector.xpath("//property[@name = 'play_url']/string/text()")

titles = selector.xpath("//property[@name = '"+title+"']/string/text()")

#剩下就是循环获取页面,下载MP3文件了。

scrapy 环境安装

pip install Twisted‑18.9.0‑cp37‑cp37m‑win_amd64.whl

pip install pypiwin32 js2xml urllib2 Scrapy

创建项目

scrapy startproject pinyin

创建 任务

开始爬取

scrapy crawl jingbo

最后战果

参考文档

python 爬取 js渲染_scrapy 爬取 javascript 动态渲染页面相关推荐

  1. driver.get调用iframe中的页面_【5分钟玩转Lighthouse】爬取JavaScript动态渲染页面

    0x00 背景概述 通过[技术干货 007 | Scrapy爬虫初探]教程,大家应该已经对如何编写爬虫有了一定的认识.但对于较为复杂的网站设计,比如网站页面使用了JavaScript动态渲染,入门级的 ...

  2. python实现矢量分级渲染_用 Python 撸一个 Web 服务器-第4章:动态渲染数据

    上一章中为了尽快让 Todo List 程序跑起来,并没有完全按照 MVC 模式编写程序.这一章就让我们一起实现一个完整的 MVC 模式 Todo List 程序首页. 使用模型操作数据 我们来分析下 ...

  3. 一个div 上下两行_用 Python 撸一个 Web 服务器第4章:动态渲染数据

    上一章中为了尽快让 Todo List 程序跑起来,并没有完全按照 MVC 模式编写程序.这一章就让我们一起实现一个完整的 MVC 模式 Todo List 程序首页. 使用模型操作数据 我们来分析下 ...

  4. python爬取js加载的数据_JS动态加载数据不会爬?老司机教你两个方法爬取想要的数据...

    学习Python的人绝大部分都是在用Python做爬虫,毕竟对于爬虫而言Python是不二选. 但是一般简单的静态页面网站还是很好爬取的,对于很多动态加载的网站就不知道怎么办了,今天小编就给大家介绍两 ...

  5. JavaScript 动态渲染页面爬取(二) —— 基于 Splash

    目录 一.安装 Splash 二.Splash 的使用 一.安装 Splash Splash 是一个 JavaScript 渲染服务,是一个含有 HTTP API 的轻量级浏览器,它还对接了 Pyth ...

  6. Scrapy爬虫框架(实战篇)【Scrapy框架对接Splash抓取javaScript动态渲染页面】

    (1).前言 动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成 静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...

  7. Splash抓取javaScript动态渲染页面

    一.概述 Splash是一个javascript渲染服务.它是一个带有HTTP API的轻量级Web浏览器,使用Twisted和QT5在Python 3中实现.QT反应器用于使服务完全异步,允许通过Q ...

  8. PHP js curl,php curl 获取javascript动态生成的值

    我在做一个青果教务系统的模拟登录,使用php的curl,我是新手,边学边做的,它的登录页面有几个hidden的值,发现有一个值是javascript动态生成的,用curl抓取的时候是空的,我要怎么抓取 ...

  9. python爬虫微博粉丝数据_Scrapy 爬取新浪微博数据分析男女粉丝数量

    通过之前爬取新浪微博发现,无论通过http://m.weibo.cn这里,还是http://weibo.cn这里,都没办法获取全部粉丝数据 那如果我想分析一个明星的男女粉丝数据怎么办,比如想知道某明星 ...

  10. python爬虫进阶js逆向实战 | 爬取 破解某安部加速乐cookie

    很久没有写技术性的文章了,最近打算更新一系列的js逆向实战 今天的网站是某安部的一个加密cookie的分析跟破解 aHR0cHM6Ly93d3cubXBzLmdvdi5jbi9uMjI1NDA5OC9 ...

最新文章

  1. 捅破砂锅!这位在AI医疗埋头多年的创业者,说出了这些行业真相
  2. 超级计算机的生产流程,精密陶瓷的生产流程分为几个步骤(图)
  3. 步步为营VS 2008 + .NET 3.5系列文章索引
  4. 数据采集串口通信系统verilog设计和仿真
  5. vbox 按照增强工具 centos7
  6. python 基本数据类型之set
  7. 互联网广告行业窥探和基础知识总结
  8. 计算机键盘上的每一个按键读音,电脑键盘上各键的名称功能及作用.doc
  9. 论文中中英文摘要格式怎么写?
  10. gitlab . pre-receive hook declined
  11. 银联支付服务之公众号支付业务(二)
  12. shell grep正则匹配汉字
  13. yml连接sqlserver_spring连接sqlserver数据库
  14. 剑网三插件入门教程(2):在游戏中调试Lua代码
  15. [Android 9][markw] 红米4高配版 刷入Lineage OS 16与OpenGApps
  16. 大数据需要学习什么?
  17. 考勤系统怎样登录服务器,ZKtime5.0考勤管理系统标准版客户端登录忘记登录密码...
  18. C语言 | 求圆周长 面积 圆球表面积 体积
  19. linux http连接超时时间设置,Linux 下 HTTP连接超时
  20. python布尔类型(bool)

热门文章

  1. CorelDRAW 软件工具使用详解
  2. js循环判断有无重复值_三种JS判断数组是否有重复值的办法
  3. flutter微信登录集成
  4. 【文化课每周学习记录】2019.4.7——2019.4.13
  5. 安卓开发调用python脚本_android开发调用python脚本
  6. 含有一个量词的命题的否命题_高一 | 数学必修一全称量词与存在量词知识点总结...
  7. Java DES 加密解密工具类实现
  8. 【Eigen中基本和常用函数】
  9. Word:删不掉的空白页?
  10. [机缘参悟-12]:“易经“、“儒“、“释“、“道“、“法”、“墨”、“兵”的基本原理与核心思想