Python爬取南京地铁微博发布客流数据并进行分析

之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁微博看了一下,果然跟北京地铁一样,基本上每天都会更新客流数据。所以开始动手~

爬南京地铁微博,获取有用的数据并保存成txt文件

首先,百度搜一下Python爬新浪微博内容的框架,有很多很多,我们选择一个,随便改改,发现可以用啦:

南京地铁微博ID:2638276292

根据下面的条件进行初步的筛选,基本上可以找到对应的微博。

weibocontentindex=str(text).find("南京地铁")

weibocontentindex2=str(text).find("客运")

if weibocontentindex > -1 and weibocontentindex2 > -1:

fh.write(text[weibocontentindex-1:]+'\n')

然后我们就初步保存了南京地铁微博中发布的客流数据。

读取txt文件,整理好数据后存入sqlite3数据库

因为微博是工作人员发布的,存在一些文本格式上的问题,还有表述上的区别,所以首先处理这些异常。这里面有很多坑,慢慢踩~

然后根据日期换算为实际的日期,以日期为唯一索引,将当日的所有客流数据存入sqlite3中。

def getdate(date1):

global year1

if date1.find('月') != -1:

date1=date1.replace('月',';')

date1=date1.replace('日',';')

list2=date1.split(';')

if '1' == list2[0] and '2' == list2[1]:

year1=year1-1

date2=str(year1)+'-'+list2[0]+'-'+list2[1]

else:

date2=str(year1)+'-'+list2[0]+'-'+list2[1]

date3 = datetime.datetime.strptime(date2,'%Y-%m-%d').date()

return date3

create_table_sql = '''CREATE TABLE `NajingMetro` (

`DATE` varchar(20) NOT NULL,

`LineALL` REAL(20) DEFAULT NULL,

`Line1` REAL(20) DEFAULT NULL,

`Line2` REAL(20) DEFAULT NULL,

`Line3` REAL(20) DEFAULT NULL,

`Line4` REAL(20) DEFAULT NULL,

`Line10` REAL(20) DEFAULT NULL,

`LineS1` REAL(20) DEFAULT NULL,

`LineS3` REAL(20) DEFAULT NULL,

`LineS7` REAL(20) DEFAULT NULL,

`LineS8` REAL(20) DEFAULT NULL,

`LineS9` REAL(20) DEFAULT NULL,

PRIMARY KEY (`DATE`)

)'''

然后就得到较为完整的数据了:

读取数据库,绘图

使用SQL语句,从数据库中读入我们的数据,将数据转换成为List,使用pyechart进行绘图,然后取最近30天的数据,绘制饼图。

结果分析

基本上可以看出来,周一到周五的客流要比周六周日多。

2018年十一假期,选择9月30日出行的最多。

一年的极小值出现在过年的时候,整体客流都比较少。

上图为各线路占比。

整体的客流趋势是在上升的。

其实还发现一点,就是平时二号线人数略微多于三号线人数,但是节假日三号线人数会反超,这时因为三号线上有南京站、南京南站两个车站。

整体项目代码与数据请移步github,麻烦给我点一个Star~,谢谢:

NanjingMetro_Github

python爬取客流数据_Python爬取南京地铁微博发布客流数据并进行分析相关推荐

  1. Python爬取南京地铁微博发布客流数据并进行分析

    Python爬取南京地铁微博发布客流数据并进行分析 之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...

  2. python爬取公交车站数据_Python爬虫实例_城市公交网络站点数据的爬取方法

    爬取的站点:http://beijing.8684.cn/ (1)环境配置,直接上代码: # -*- coding: utf-8 -*- import requests ##导入requests fr ...

  3. python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!

    2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...

  4. python爬取地图地址_python爬取了高德地图一些地点的数据,爬出来数据大致情况如下:...

    python爬取了高德地图一些地点的数据,爬出来数据大致情况如下: 下面是基本流程: 1.注册成为高德地图API开发者,网址http://lbs.amap.com/(主要是获取自己的keywords ...

  5. python获取游戏数据_Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是.........

    原标题:Python 爬取 3 万条游戏评分数据,原来程序员最爱玩的游戏竟然是...... 作者 |量化小白H 责编 | 胡巍巍 本文爬取了豆瓣游戏网站上所有可见的游戏评分数据进行分析,全文包括以下几 ...

  6. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  7. python爬取天气数据_Python爬取历史天气数据

    Python爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据的 ...

  8. python爬取饿了么外卖商家数据_python爬饿了么外卖数据(1)

    1.环境介绍: win10  64bit python 3.6.0 openpyxl  2.4.2(操作excel) 2.目的 根据区域统计该区域附近的外卖商家总数.和所有商家的月销售情况 3.网页截 ...

  9. python爬取大众点评_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

最新文章

  1. 什么是ieee通用数据格式_Excel数据格式设置,我只用Ctrl+E,不仅功能强大,而且方便易操作...
  2. 虚拟×××和虚拟防火墙 (VNN)
  3. GDCM:gdcm::LTComp的测试程序
  4. 西南交通大学计算机基础实验,西南交通大学实验教学平台-关于
  5. GDI+中发生一般性错误的解决办法 from http://www.cnblogs.com/winzheng/archive/2008/12/23/1360440.html...
  6. 字符缓冲流特有功能复制Java文件
  7. Spring Boot filter
  8. 支付宝个人账单出来了,这里有最全的查看攻略!
  9. asp.net ViewState详解
  10. 在阿里淘系6个月能有哪些收获成长?
  11. Linux详解系列2- 这100条常见命令你都用过哪些?
  12. 【报告分享】2021中国数据智能产业发展研究报告.pdf(附下载链接)
  13. albian开发笔记四
  14. ddtek.oracle.dll使用相关
  15. usb调试助手_米卓同屏助手 | 刷短视频必备,一键打通“任督二脉”,双端
  16. PDF文件如何转成Word?这样操作就能转换
  17. ENVI基本操作之彩色合成
  18. 计算机考研408的算法题详解
  19. 100base-fx 单模/多模接口是什么意思
  20. odoo服务器设置说明

热门文章

  1. Apache和tomcat服务器使用ajp_proxy模块
  2. linux 安装萍方字体,windows系统肿么安装苹方字体
  3. 四轴飞行器的空气动力原理
  4. 程序狗,未知的艰难讨薪路
  5. 酒店管理系统升级(.net4.0 + sql2005 + linq to sql)
  6. 纬地道路纵断面设计教程_纬地道路设计软件教程
  7. 【分享】在集简云如何查看我的应用授权是否过期?
  8. html文件阅读器电脑版,Excel文件查看器
  9. 数据库系统原理与应用教程(008)—— 数据库相关概念练习题
  10. Linux Pci 驱动开发