爬取大麦网的演出数据
仅供个人学习,如有侵权联系删除
spider文件:
# -*- coding: utf-8 -*-
import scrapy
from pachong9.items import Pachong9Item
import re
import json
import timeclass DamaiSpider(scrapy.Spider):name = 'damai'allowed_domains = ['damai.cn']start_urls = ['https://damai.cn/']def start_requests(self):url = 'https://search.damai.cn/searchajax.html?keyword=&cty=&ctl=&sctl=&tsg=0&st=&et=&order=1&pageSize=30&currPage=1&tn='time.sleep(2)yield scrapy.Request(url)def parse(self, response):time.sleep(5)datas = json.loads(response.body)# print(datas)item = Pachong9Item()if datas:time.sleep(2)for data in datas['pageData']['resultData']:time.sleep(2)item['category'] = data['subcategoryname']item['name'] = data['name']item['address'] = data['venuecity'] + '-' + data['venue']item['time'] = data['showtime']item['price'] = data['price_str'] + '元'print(item['category'])print(item['name'])print(item['address'])print(item['time'])print(item['price'])yield item# 如果datas存在数据则对下一页进行采集# page_num = re.search(r'currPage=(\d+)', response.url).group(1)# page_num = 'currPage=' + str(int(page_num) + 1)# next_url = re.sub(r'currPage=\d+', page_num, response.url)# yield scrapy.Request(next_url)
结果:
爬取大麦网的演出数据相关推荐
- 《结对-爬取大麦网近期演唱会信息-结对项目总结》
1.项目名称: 爬取大麦网近期演唱会信息 2.主要功能: 爬取大麦网近期演唱会信息并显示 3.开发过程: 1)搭建环境: 下载Python 安装Python 下载PyCharm 安装PyCharm 启 ...
- 《结对-爬取大麦网演唱会信息-设计文档》
结对编程成员:阎大为,张跃馨 搭建环境: 1.安装Python 网址:https://www.python.org/ 2.安装Pycharm 网址:http://www.jetbrains.c ...
- 结对-爬取大麦网演唱会信息-设计文档
结对编程成员:阎大为,张跃馨 搭建环境: 1.安装python2.7 2.安装beautifulsoup4等相关模块 编写程序阶段: 1.分析html代码以及了解相关参数 2.写代码,爬取网站 ...
- python大乐透代码_scrapy框架爬取大乐透数据
上次做了一个双色球的数据爬取,其实大乐透的爬取也很简单,使用request就可以爬取,但是为了更好的进步,这次爬取大乐透采用了scrapy框架. scrapy框架的运行机制不介绍了,不懂的先去goog ...
- ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...
- 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
- 爬取东方财富网股票行情数据和资讯
爬取东方财富网股票行情数据和资讯 这个需求源于我的一个练手项目 本篇博客参考:https://zhuanlan.zhihu.com/p/50099084 该博客介绍的东西本博客不做论述 使用技术: 语 ...
- python + selenium多进程爬取淘宝搜索页数据
python + selenium多进程爬取淘宝搜索页数据 1. 功能描述 按照给定的关键词,在淘宝搜索对应的产品,然后爬取搜索结果中产品的信息,包括:标题,价格,销量,产地等信息,存入mongodb ...
- 爬取淘女郎模特个人信息数据和写真
趁着国庆节有时间,帮人写了个爬取淘女郎模特动态加载的图片的爬虫,还有爬取模特们的个人信息数据,这个爬虫花了3天时间,因为图片是异步加载的所以爬取的复杂度有点大,最终我通过研究URL的变化,构造新的UR ...
- 6.9 用Python操控数据库(批量删除,百度新闻数据爬取与存储,写入数据时进行去重处理,pandas读取sql数据)
学习完MySQL数据库的基本操作后,下面来学习如何用Python连接数据库,并进行数据的插入.查找.删除等操作. 6.9.1 用PyMySQL库操控数据库 上一节在phpMyAdmin 中创建了数据库 ...
最新文章
- php soecket服务器搭建_Linux系统编程(32)—— socket编程之TCP服务器与客户端
- 在unity调用WebService的接口方法
- 关于oracle date类型值0000-0-0的分析
- 图论解油瓶分油问题_一个很有趣的de novo图论算法
- 在cygwin下编译c语言
- Cpython解释器支持的进程与线程
- python 创建一个空向量_Python之Django系列-创建第一个应用-5
- autojs 如何获取控件的desc_owchart教程三:如何添加成交量?
- libvlc media player in C# (part 1)
- XproerIM-V1,2,12,65475发布。
- hbase集群 数据写入_HBase架构与原理详解
- Noip2011提高组 聪明的质监员
- 用户 'sa' 登录失败。 连接SQL2000出现的问题。
- 我的博客请查看新浪博客内容
- Java项目:图书馆借阅管理系统(java+Springboot+bootstrap+HTML+maven+Mysql)
- ZenTao不支持Win8.1问题解决
- ACM教程 - (数论)正整数分解使得乘积最大问题
- 招行一网通 java桥_招行一网通支付接入
- 51单片机与STM32的区别(为何51单片机IO引脚的驱动能力弱)
- 【Paper】Short Term Electric Energy Consumption Prediction in in Smart Buildings Methods Survey
热门文章
- 计算机休眠设置xp系统,【xp怎么让电脑不休眠】xp怎么设置电脑不休眠_xp电脑休眠设置...
- C++实验02(02)华氏温度转换为摄氏温度
- 5款最佳Linux服务器系统推荐
- 系统操作手册_辽宁高考志愿填报系统2019操作手册(考生版)
- 数据分析——ETF基金申购赎回清单
- AXI中的wrap burst
- 万圣节奇妙夜,不给糖就捣蛋—Python带你点击解锁恐怖新道具(南瓜头、骷髅、蝙蝠、糖......)
- CF1016C Vasya And The Mushrooms
- 日语“不要”有几种说法。
- 20155313 杨瀚 《网络对抗技术》实验五 MSF基础应用