python爬取客流数据_Python爬取南京地铁微博发布客流数据并进行分析
Python爬取南京地铁微博发布客流数据并进行分析
之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁微博看了一下,果然跟北京地铁一样,基本上每天都会更新客流数据。所以开始动手~
爬南京地铁微博,获取有用的数据并保存成txt文件
首先,百度搜一下Python爬新浪微博内容的框架,有很多很多,我们选择一个,随便改改,发现可以用啦:
南京地铁微博ID:2638276292
根据下面的条件进行初步的筛选,基本上可以找到对应的微博。
weibocontentindex=str(text).find("南京地铁")
weibocontentindex2=str(text).find("客运")
if weibocontentindex > -1 and weibocontentindex2 > -1:
fh.write(text[weibocontentindex-1:]+'\n')
然后我们就初步保存了南京地铁微博中发布的客流数据。
读取txt文件,整理好数据后存入sqlite3数据库
因为微博是工作人员发布的,存在一些文本格式上的问题,还有表述上的区别,所以首先处理这些异常。这里面有很多坑,慢慢踩~
然后根据日期换算为实际的日期,以日期为唯一索引,将当日的所有客流数据存入sqlite3中。
def getdate(date1):
global year1
if date1.find('月') != -1:
date1=date1.replace('月',';')
date1=date1.replace('日',';')
list2=date1.split(';')
if '1' == list2[0] and '2' == list2[1]:
year1=year1-1
date2=str(year1)+'-'+list2[0]+'-'+list2[1]
else:
date2=str(year1)+'-'+list2[0]+'-'+list2[1]
date3 = datetime.datetime.strptime(date2,'%Y-%m-%d').date()
return date3
create_table_sql = '''CREATE TABLE `NajingMetro` (
`DATE` varchar(20) NOT NULL,
`LineALL` REAL(20) DEFAULT NULL,
`Line1` REAL(20) DEFAULT NULL,
`Line2` REAL(20) DEFAULT NULL,
`Line3` REAL(20) DEFAULT NULL,
`Line4` REAL(20) DEFAULT NULL,
`Line10` REAL(20) DEFAULT NULL,
`LineS1` REAL(20) DEFAULT NULL,
`LineS3` REAL(20) DEFAULT NULL,
`LineS7` REAL(20) DEFAULT NULL,
`LineS8` REAL(20) DEFAULT NULL,
`LineS9` REAL(20) DEFAULT NULL,
PRIMARY KEY (`DATE`)
)'''
然后就得到较为完整的数据了:
读取数据库,绘图
使用SQL语句,从数据库中读入我们的数据,将数据转换成为List,使用pyechart进行绘图,然后取最近30天的数据,绘制饼图。
结果分析
基本上可以看出来,周一到周五的客流要比周六周日多。
2018年十一假期,选择9月30日出行的最多。
一年的极小值出现在过年的时候,整体客流都比较少。
上图为各线路占比。
整体的客流趋势是在上升的。
其实还发现一点,就是平时二号线人数略微多于三号线人数,但是节假日三号线人数会反超,这时因为三号线上有南京站、南京南站两个车站。
整体项目代码与数据请移步github,麻烦给我点一个Star~,谢谢:
NanjingMetro_Github
python爬取客流数据_Python爬取南京地铁微博发布客流数据并进行分析相关推荐
- Python爬取南京地铁微博发布客流数据并进行分析
Python爬取南京地铁微博发布客流数据并进行分析 之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...
- python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法
爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...
- python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
- python爬取地图地址_python爬取了高德地图一些地点的数据,爬出来数据大致情况如下:...
python爬取了高德地图一些地点的数据,爬出来数据大致情况如下: 下面是基本流程: 1.注册成为高德地图API开发者,网址http://lbs.amap.com/(主要是获取自己的keywords ...
- python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........
原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...
- python爬取网页json数据_python爬取json数据库
手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...
- python爬取天气数据_Python爬取历史天气数据
Python爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据的 ...
- python爬取饿了么外卖商家数据_python爬饿了么外卖数据(1)
1.环境介绍: win10 64bit python 3.6.0 openpyxl 2.4.2(操作excel) 2.目的 根据区域统计该区域附近的外卖商家总数.和所有商家的月销售情况 3.网页截 ...
- python爬取大众点评_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
最新文章
- 什么是ieee通用数据格式_Excel数据格式设置,我只用Ctrl+E,不仅功能强大,而且方便易操作...
- 虚拟×××和虚拟防火墙 (VNN)
- GDCM:gdcm::LTComp的测试程序
- 西南交通大学计算机基础实验,西南交通大学实验教学平台-关于
- GDI+中发生一般性错误的解决办法 from http://www.cnblogs.com/winzheng/archive/2008/12/23/1360440.html...
- 字符缓冲流特有功能复制Java文件
- Spring Boot filter
- 支付宝个人账单出来了,这里有最全的查看攻略!
- asp.net ViewState详解
- 在阿里淘系6个月能有哪些收获成长?
- Linux详解系列2- 这100条常见命令你都用过哪些?
- 【报告分享】2021中国数据智能产业发展研究报告.pdf(附下载链接)
- albian开发笔记四
- ddtek.oracle.dll使用相关
- usb调试助手_米卓同屏助手 | 刷短视频必备,一键打通“任督二脉”,双端
- PDF文件如何转成Word?这样操作就能转换
- ENVI基本操作之彩色合成
- 计算机考研408的算法题详解
- 100base-fx 单模/多模接口是什么意思
- odoo服务器设置说明