喜马拉雅APP基于Scrapy的Python爬虫

爬取的是app下的抖音专栏下的音频文件
用抓包工具，抓取url，分析url，获取json数据，用xpath提取列表。

from XmlySpider.items import XmlyItemclass XmlySpider(scrapy.Spider):name = 'xmly'allowed_domains = ['ximalaya.com']start_urls = ['http://mobwsa.ximalaya.com/mobile/v1/album/track/ts-1554297822031?albumId=14963542&device=android&isAsc=true&isQueryInvitationBrand=true&pageId=1&pageSize=20&pre_page=0']def parse(self,response):results = json.loads(response.text)max = results['data']['maxPageId']# print(max)for a in range(1, max+1):yield scrapy.Request(url=f'http://mobwsa.ximalaya.com/mobile/v1/album/track/ts-1554297822031?albumId=14963542&device=android&isAsc=true&isQueryInvitationBrand=true&pageId={a}&pageSize=20&pre_page=0',callback=self.parse_detail)def parse_detail(self, response):results = json.loads(response.text)list = results['data']['list']for d in list:try:orderNo = d.get('orderNo')trackId = d.get('trackId')# print(trackId)playPathAacv224 =d.get('playPathAacv224')title =d.get('title')playtimes =d.get('playtimes')comments =d.get('comments')# print(maxPageId)item = XmlyItem()item['orderNo'] = orderNoitem['trackId'] = trackIditem['playPathAacv224'] = playPathAacv224item['title'] = titleitem['playtimes'] = playtimesitem['comments'] = commentsyield itemexcept Exception as e:print(e)if __name__ == '__main__':from scrapy.cmdline import executeexecute(['scrapy','crawl','xmly'])

items里面重写

class XmlyItem(scrapy.Item):orderNo = scrapy.Field()trackId = scrapy.Field()playPathAacv224 = scrapy.Field()title = scrapy.Field()playtimes = scrapy.Field()comments = scrapy.Field()

喜马拉雅APP基于Scrapy的Python爬虫相关推荐

python爬虫app步骤_Python爬虫抓取手机APP的传输数据，python爬虫抓取app
Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...
电影天堂APP项目开发之Python爬虫篇，共18课时/5时33分
电影天堂APP项目开发之Python爬虫篇,共18课时/5时33分,是电影天堂APP项目开发课程的第一篇章,讲解使用requests和bs4库,爬取和解析电影天堂网站数据,并讲数据保存到SQLite数 ...
scrapy微博反爬虫_基于Scrapy的微博爬虫设计
Data Base Technique • 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 • 187 [关键词]Sc ...
基于requests-html的python爬虫
目录 requests-html 基本使用 - 获取网页 - 获取链接 - 获取元素 - xlsxwriter 示例 - 开奖结果爬虫demo - 爬取表情包demo requests-html Re ...
python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程
爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...
基于bs4的python爬虫+mongoDB
这是我们这学期的一个小实验,自学后我自己简单的写了一下,在写的过程中,倒是没遇到什么难题,只是有一些小疑惑,在这里希望各位看客能给出建议. 问题一: from fake_useragent impor ...
爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例
爬取汽车之家图片需求:爬取汽车之家某一个汽车的图片一. 普通scrapy 第一步页面分析目标url: https://car.autohome.com.cn/photolist/serie ...
基于scrapy的分布式爬虫（5）：伯乐在线文章爬取
当我们完成了环境配置之后,所要做的就是使用 scrapy 爬取相关数据了. 接下来,我们以伯乐在线网站为例,进行实际操作. 目的:抓取 http://blog.jobbole.com/all-post ...
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简要操作 ...

喜马拉雅APP基于Scrapy的Python爬虫

喜马拉雅APP基于Scrapy的Python爬虫相关推荐

最新文章

热门文章