爬取的是app下的抖音专栏下的音频文件
用抓包工具,抓取url,分析url,获取json数据,用xpath提取列表。

from XmlySpider.items import XmlyItemclass XmlySpider(scrapy.Spider):name = 'xmly'allowed_domains = ['ximalaya.com']start_urls = ['http://mobwsa.ximalaya.com/mobile/v1/album/track/ts-1554297822031?albumId=14963542&device=android&isAsc=true&isQueryInvitationBrand=true&pageId=1&pageSize=20&pre_page=0']def parse(self,response):results = json.loads(response.text)max = results['data']['maxPageId']# print(max)for a in range(1, max+1):yield scrapy.Request(url=f'http://mobwsa.ximalaya.com/mobile/v1/album/track/ts-1554297822031?albumId=14963542&device=android&isAsc=true&isQueryInvitationBrand=true&pageId={a}&pageSize=20&pre_page=0',callback=self.parse_detail)def parse_detail(self, response):results = json.loads(response.text)list = results['data']['list']for d in list:try:orderNo = d.get('orderNo')trackId = d.get('trackId')# print(trackId)playPathAacv224 =d.get('playPathAacv224')title =d.get('title')playtimes =d.get('playtimes')comments =d.get('comments')# print(maxPageId)item = XmlyItem()item['orderNo'] = orderNoitem['trackId'] = trackIditem['playPathAacv224'] = playPathAacv224item['title'] = titleitem['playtimes'] = playtimesitem['comments'] = commentsyield itemexcept Exception as e:print(e)if __name__ == '__main__':from scrapy.cmdline import executeexecute(['scrapy','crawl','xmly'])

items里面重写

class XmlyItem(scrapy.Item):orderNo = scrapy.Field()trackId = scrapy.Field()playPathAacv224 = scrapy.Field()title = scrapy.Field()playtimes = scrapy.Field()comments = scrapy.Field()

喜马拉雅APP基于Scrapy的Python爬虫相关推荐

  1. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  2. 电影天堂APP项目开发之Python爬虫篇,共18课时/5时33分

    电影天堂APP项目开发之Python爬虫篇,共18课时/5时33分,是电影天堂APP项目开发课程的第一篇章,讲解使用requests和bs4库,爬取和解析电影天堂网站数据,并讲数据保存到SQLite数 ...

  3. scrapy微博反爬虫_基于Scrapy的微博爬虫设计

    Data Base Technique • 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 • 187 [关键词]Sc ...

  4. 基于requests-html的python爬虫

    目录 requests-html 基本使用 - 获取网页 - 获取链接 - 获取元素 - xlsxwriter 示例 - 开奖结果爬虫demo - 爬取表情包demo requests-html Re ...

  5. python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程

    爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...

  6. 基于bs4的python爬虫+mongoDB

    这是我们这学期的一个小实验,自学后我自己简单的写了一下,在写的过程中,倒是没遇到什么难题,只是有一些小疑惑,在这里希望各位看客能给出建议. 问题一: from fake_useragent impor ...

  7. 爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例

    爬取汽车之家图片 需求:爬取汽车之家某一个汽车的图片 ​ 一. 普通scrapy 第一步 页面分析 目标url: https://car.autohome.com.cn/photolist/serie ...

  8. 基于scrapy的分布式爬虫(5):伯乐在线文章爬取

    当我们完成了环境配置之后,所要做的就是使用 scrapy 爬取相关数据了. 接下来,我们以伯乐在线网站为例,进行实际操作. 目的:抓取 http://blog.jobbole.com/all-post ...

  9. 基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

    为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象 一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简要操作 ...

最新文章

  1. [译] CSS 变量实现炫酷鼠标悬浮效果
  2. HttpClient在传参和返回结果的中文乱码问题
  3. WEKA “Detailed Accuracy By Class”和“Confusion Matrix”含义
  4. 香港政府活用无人机,正式应用到调研检测领域
  5. shell 编程 : 函数
  6. HDU4609 FFT
  7. SVN A C D M G U R I的含义
  8. DXUT实战3:HLSL(withEffect)+D3D9+DXUT(june_2010) . .
  9. 一文了解预训练语言模型!
  10. 响应服务器589,示例HTTP范围请求会话
  11. JS Bin 在线编辑代码,所见所得
  12. HyperLynx(三)传输线类型及相关设置
  13. 金蝶系统无法建立数据可连接服务器,金蝶K3打开,提示无法建立数据链接
  14. xml大于等于转移_Mybatis.xml文件中大于小于等于
  15. 【转】DICOM医学图像处理:浅析SWF、MWL、SPS、MPPS
  16. Hud检测之图像点数计算
  17. android 斜边_Android -- 一个滑动旋转的弧形菜单
  18. 数据库设计-SQL Server开发实现学习
  19. B站台湾大学郭彦甫|MATLAB 学习笔记|13 统计 Statistics__Data_Analysis
  20. FLASH中button组件的selected和toggle属性解析

热门文章

  1. 章节七:RASA NLU组件介绍--意图分类器和实体提取器
  2. oracle 自连接层次查询,使用自连接查询居然比直接查询效率高很多,何解?
  3. Cocos Creator制作倒计时显示的优化
  4. 国产单片机GD32系列开坑,带你零死角玩转GD32 第一章
  5. 如何提升量化投研效率?来自辰钰投资的案例分享
  6. 海外“吃鸡”游戏被下架!开发商Epic与苹果谷歌正面刚 ,60页诉讼状告“苹果税”
  7. Android学QQ空间相册浏览类型横向滑动效果显示多图片MyHorizontalScrollView
  8. APK反编译学习心得
  9. 数列极限存在准则:夹逼准则
  10. 内存不能为read。。。系统报错。