采用scrapy对秀动网演出信息爬取
爬取结果
mongodb数据库:
spider文件
分析秀动网站页面的布局,准备爬取我们需要的信息。
没有粘贴代码,简单讲解一下爬取上海所有的演出信息。
parse方法里面定义
页面演出信息的列表:
datas = response.xpath("/html/body/div[4]/ul/li")
循环遍历这个列表,可以取到我们需要的剧目名称和详情页的url
item['show_name'] = data.xpath('a/@title').extract()[0]
url = data.xpath('a/@href').extract()[0]
然后采用回调函数指向下一个函数,主要对详情页处理
meta参数传递字典
yield scrapy.Request(url, callback=self.parse_details, meta=({'item': item}))
parse_details方法
拿到上个函数传递的字典
item = response.meta['item']
接着就是写xpath提取页面的数据…
这里就不一一说了,就说一下价格的简单清洗。
网页上面的价格:
我需要存储为:180|260|380
这样的格式,在按照升序排列。
直接上代码:
# //li/span/text() 表示提取全部li标签下面span标签下的文本信息
price = response.xpath('//*[@id="shoppingForm"]/ul//li/span/text()').extract() # extract()方法返回的是一个列表
price = sorted(price, key=int) # 将列表按照升序排列
price = "|".join(price) # 将列表数据提取出来组成字符串并按照|分隔开
item['show_price'] = price
存入MongoDB:
def open_spider(self, spider):self.db = MongoClient('localhost', 27017).showstart_dbself.collection = self.db.showstart_collectiondef process_item(self, item, spider):self.collection.insert_one(dict(item))def close_spider(self, spider):self.collection.close()
采用scrapy对秀动网演出信息爬取相关推荐
- 【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景 目标网址:https://www.liepin.com/zhao ...
- 基于scrapy的B站UP主信息爬取
文章目录 思路分析 项目目录 代码 结果 思路分析 本次爬取的信息,包括UP主的mid.昵称.性别.头像的链接.个人简介.粉丝数.关注数.播放数.获赞数. 我的思路是,首先,选择一位B站比较火的UP主 ...
- python爬取去哪儿网_python网络爬虫(12)去哪网酒店信息爬取
目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源 少部分来源于书.python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...
- 站长素材网 图标信息爬取(scrapy)
准备工作: 1.创建scrapy项目 cmd命令行(若想创建至桌面,可先 cd desktop) 输入 scrapy startproject +项目名 ,enter根据命令行显示示例依次操作即可 用 ...
- 免费提供自己买的秀动网 正在现场 大麦网等购票网站的代码和脚本
免费提供自己购买的秀动网 正在现场 大麦网等购票网站的代码和脚本 上述这些都是我从一个外行商家那里买来的(自动化专栏99.9元),本文目的是为了揭发骗局,防止更多人上当受骗. 如果只想要脚本和代码 ...
- python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)
为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...
- Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取
一.创建Scrapy项目 在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫 scrapy startproject JD_Goodscd JD_Goodsscrapy genspider ...
- 基于scrapy下的租房信息爬取与数据展示工具的设计与实现
环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...
- 知网关键词搜索爬取摘要信息
知网关键词搜索爬取摘要信息 由于技术不成熟,代码冗余度较高.同时代码也可能会存在错误,也请各路高人指正. 本篇文章应用范围为期刊搜索(不包括外文文献),其他内容,没有进行测试!!! 本次爬虫所采用到的 ...
最新文章
- strtotime 获取当月最后一天的日期
- nodejs学习资料
- Xamarin.iOS真机测试报错
- 操作系统课设——吃水果问题
- HTML/CSS——PC端博文尚美网页
- Visual Studio .Net团队开发[转]
- Leetcode--279. 完全平方数
- 热胀冷缩,但为什么水结冰体积会膨胀?
- mysql函数隐式游标_Oracle隐式游标获取记录数
- 推送MobPush-API说明
- intel网卡驱动下载linux,intel网卡驱动下载
- 能测电机温度和振动在线测量工具——温振变送器
- ArcGIS空间分析——热点分析
- android自定义View之(四)------一键清除动画
- 小米手机手机远行linux,Ubuntu的Android Studio调试小米手机的方法
- 犹他州计算机科学,美国犹他州立大学计算机系终身教授承恒达博士访问学科部...
- 复制链接到safari浏览器打开_苹果手机把链接复制到浏览器打不开也下载不了这怎么回事...
- Office提示“由于本机的限制,该操作已被取消。请与系统管理员联系
- 力扣 25. K 个一组翻转链表
- 手写SHA1加密算法(Java版)
热门文章
- CocosCreator2.0.9的JSB绑定 - 手动绑定
- 12.聚类算法之层次聚类
- JavaScript系列—性能优化之《网站性能优化实战——从12.67s到1.06s的故事》
- About 12.18 This Week
- Python3 网络爬虫,获取全部省会城市(含直辖市)当前的气温,按当前气温从高到低排序后输出。
- Linux中fork创建兄弟子进程,验证进程之间全局变量不共享,exec函数族
- CentOs7 安装Docker 并配置代理访问外网
- astmb348标准查询_ASTM B381-2013
- 发票查验真伪的接口有么?
- 摩尔定律的启示:电信业与IT业成本缘何相差10倍