爬取结果

mongodb数据库:

spider文件

分析秀动网站页面的布局,准备爬取我们需要的信息。

没有粘贴代码,简单讲解一下爬取上海所有的演出信息。

parse方法里面定义

页面演出信息的列表:

datas = response.xpath("/html/body/div[4]/ul/li")

循环遍历这个列表,可以取到我们需要的剧目名称和详情页的url

item['show_name'] = data.xpath('a/@title').extract()[0]
url = data.xpath('a/@href').extract()[0]

然后采用回调函数指向下一个函数,主要对详情页处理
meta参数传递字典

yield scrapy.Request(url, callback=self.parse_details, meta=({'item': item}))

parse_details方法

拿到上个函数传递的字典

item = response.meta['item']

接着就是写xpath提取页面的数据…
这里就不一一说了,就说一下价格的简单清洗。
网页上面的价格:

我需要存储为:180|260|380这样的格式,在按照升序排列。
直接上代码:

# //li/span/text() 表示提取全部li标签下面span标签下的文本信息
price = response.xpath('//*[@id="shoppingForm"]/ul//li/span/text()').extract() # extract()方法返回的是一个列表
price = sorted(price, key=int) # 将列表按照升序排列
price = "|".join(price) # 将列表数据提取出来组成字符串并按照|分隔开
item['show_price'] = price

存入MongoDB:

    def open_spider(self, spider):self.db = MongoClient('localhost', 27017).showstart_dbself.collection = self.db.showstart_collectiondef process_item(self, item, spider):self.collection.insert_one(dict(item))def close_spider(self, spider):self.collection.close()

采用scrapy对秀动网演出信息爬取相关推荐

  1. 【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取

    声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景 目标网址:https://www.liepin.com/zhao ...

  2. 基于scrapy的B站UP主信息爬取

    文章目录 思路分析 项目目录 代码 结果 思路分析 本次爬取的信息,包括UP主的mid.昵称.性别.头像的链接.个人简介.粉丝数.关注数.播放数.获赞数. 我的思路是,首先,选择一位B站比较火的UP主 ...

  3. python爬取去哪儿网_python网络爬虫(12)去哪网酒店信息爬取

    目的意义 爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用. 来源 少部分来源于书.python爬虫开发与项目实战 构造 本次使用简易的方案,模拟浏览器访问,然后输入字段,查找 ...

  4. 站长素材网 图标信息爬取(scrapy)

    准备工作: 1.创建scrapy项目 cmd命令行(若想创建至桌面,可先 cd desktop) 输入 scrapy startproject +项目名 ,enter根据命令行显示示例依次操作即可 用 ...

  5. 免费提供自己买的秀动网 正在现场 大麦网等购票网站的代码和脚本

    免费提供自己购买的秀动网  正在现场  大麦网等购票网站的代码和脚本 上述这些都是我从一个外行商家那里买来的(自动化专栏99.9元),本文目的是为了揭发骗局,防止更多人上当受骗. 如果只想要脚本和代码 ...

  6. python网易云热歌榜歌曲信息爬取(iframe框架内数据爬取,src为空)

    为一线医护人员加油! 为武汉加油! 为中国加油! 为世界加油! 此爬虫是本人参考了了一位前辈的文章,并修改和优化了代码: 1.改为python3环境: 2.优化了抓取的歌曲时长中带一长串小数的问题: ...

  7. Scrapy框架爬虫项目:京东商城笔记本电脑信息爬取

    一.创建Scrapy项目 在cmd中输入一下指令创建一个新的scrapy项目及一个爬虫 scrapy startproject JD_Goodscd JD_Goodsscrapy genspider ...

  8. 基于scrapy下的租房信息爬取与数据展示工具的设计与实现

    环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...

  9. 知网关键词搜索爬取摘要信息

    知网关键词搜索爬取摘要信息 由于技术不成熟,代码冗余度较高.同时代码也可能会存在错误,也请各路高人指正. 本篇文章应用范围为期刊搜索(不包括外文文献),其他内容,没有进行测试!!! 本次爬虫所采用到的 ...

最新文章

  1. strtotime 获取当月最后一天的日期
  2. nodejs学习资料
  3. Xamarin.iOS真机测试报错
  4. 操作系统课设——吃水果问题
  5. HTML/CSS——PC端博文尚美网页
  6. Visual Studio .Net团队开发[转]
  7. Leetcode--279. 完全平方数
  8. 热胀冷缩,但为什么水结冰体积会膨胀?
  9. mysql函数隐式游标_Oracle隐式游标获取记录数
  10. 推送MobPush-API说明
  11. intel网卡驱动下载linux,intel网卡驱动下载
  12. 能测电机温度和振动在线测量工具——温振变送器
  13. ArcGIS空间分析——热点分析
  14. android自定义View之(四)------一键清除动画
  15. 小米手机手机远行linux,Ubuntu的Android Studio调试小米手机的方法
  16. 犹他州计算机科学,美国犹他州立大学计算机系终身教授承恒达博士访问学科部...
  17. 复制链接到safari浏览器打开_苹果手机把链接复制到浏览器打不开也下载不了这怎么回事...
  18. Office提示“由于本机的限制,该操作已被取消。请与系统管理员联系
  19. 力扣 25. K 个一组翻转链表
  20. 手写SHA1加密算法(Java版)

热门文章

  1. CocosCreator2.0.9的JSB绑定 - 手动绑定
  2. 12.聚类算法之层次聚类
  3. JavaScript系列—性能优化之《网站性能优化实战——从12.67s到1.06s的故事》
  4. About 12.18 This Week
  5. Python3 网络爬虫,获取全部省会城市(含直辖市)当前的气温,按当前气温从高到低排序后输出。
  6. Linux中fork创建兄弟子进程,验证进程之间全局变量不共享,exec函数族
  7. CentOs7 安装Docker 并配置代理访问外网
  8. astmb348标准查询_ASTM B381-2013
  9. 发票查验真伪的接口有么?
  10. 摩尔定律的启示:电信业与IT业成本缘何相差10倍