采用scrapy对秀动网演出信息爬取

爬取结果

mongodb数据库：

spider文件

分析秀动网站页面的布局，准备爬取我们需要的信息。

没有粘贴代码，简单讲解一下爬取上海所有的演出信息。

parse方法里面定义

页面演出信息的列表：

datas = response.xpath("/html/body/div[4]/ul/li")

循环遍历这个列表，可以取到我们需要的剧目名称和详情页的url

item['show_name'] = data.xpath('a/@title').extract()[0]
url = data.xpath('a/@href').extract()[0]

然后采用回调函数指向下一个函数，主要对详情页处理
meta参数传递字典

yield scrapy.Request(url, callback=self.parse_details, meta=({'item': item}))

parse_details方法

拿到上个函数传递的字典

item = response.meta['item']

接着就是写xpath提取页面的数据…
这里就不一一说了，就说一下价格的简单清洗。
网页上面的价格：

我需要存储为：180|260|380这样的格式，在按照升序排列。
直接上代码：

# //li/span/text() 表示提取全部li标签下面span标签下的文本信息
price = response.xpath('//*[@id="shoppingForm"]/ul//li/span/text()').extract() # extract()方法返回的是一个列表
price = sorted(price, key=int) # 将列表按照升序排列
price = "|".join(price) # 将列表数据提取出来组成字符串并按照|分隔开
item['show_price'] = price

存入MongoDB：

    def open_spider(self, spider):self.db = MongoClient('localhost', 27017).showstart_dbself.collection = self.db.showstart_collectiondef process_item(self, item, spider):self.collection.insert_one(dict(item))def close_spider(self, spider):self.collection.close()

采用scrapy对秀动网演出信息爬取相关推荐

【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景目标网址:https://www.liepin.com/zhao ...
基于scrapy的B站UP主信息爬取
文章目录思路分析项目目录代码结果思路分析本次爬取的信息,包括UP主的mid.昵称.性别.头像的链接.个人简介.粉丝数.关注数.播放数.获赞数. 我的思路是,首先,选择一位B站比较火的UP主 ...
python爬取去哪儿网_python网络爬虫（12）去哪网酒店信息爬取
目的意义爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源少部分来源于书.python爬虫开发与项目实战构造本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...
站长素材网图标信息爬取（scrapy）
准备工作: 1.创建scrapy项目 cmd命令行(若想创建至桌面,可先 cd desktop) 输入 scrapy startproject +项目名 ,enter根据命令行显示示例依次操作即可用 ...
免费提供自己买的秀动网正在现场大麦网等购票网站的代码和脚本
免费提供自己购买的秀动网正在现场大麦网等购票网站的代码和脚本上述这些都是我从一个外行商家那里买来的(自动化专栏99.9元),本文目的是为了揭发骗局,防止更多人上当受骗. 如果只想要脚本和代码 ...
python网易云热歌榜歌曲信息爬取（iframe框架内数据爬取，src为空）
为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...
Scrapy框架爬虫项目：京东商城笔记本电脑信息爬取
一.创建Scrapy项目在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫 scrapy startproject JD_Goodscd JD_Goodsscrapy genspider ...
基于scrapy下的租房信息爬取与数据展示工具的设计与实现
环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...
知网关键词搜索爬取摘要信息
知网关键词搜索爬取摘要信息由于技术不成熟,代码冗余度较高.同时代码也可能会存在错误,也请各路高人指正. 本篇文章应用范围为期刊搜索(不包括外文文献),其他内容,没有进行测试!!! 本次爬虫所采用到的 ...