中国城市资本流动问题探索(Python)
项目要求:探索全国2013-2016年资本流动问题
项目数据:data.xlsx,中国城市代码对照表.xlsx
项目过程:
查看全国城际控股型投资关系
原始数据中,同一年中的投资数据会重复记录,所以需要将数据以’投资方所在城市’,‘融资方所在城市’,'年份’这三个字段做一个分组汇总
# 数据读取,筛选出“同城投资”、“跨城投资”数据df = pd.read_excel('data.xlsx') # 数据读取df = df.groupby(['投资方所在城市','融资方所在城市','年份']).sum().reset_index() # 汇总数据data_tc = df[df['投资方所在城市'] == df['融资方所在城市']] data_tc = data_tc.sort_values(by = '投资企业对数',ascending = False).reset_index() del data_tc['index'] # 筛选出“同城投资”数据data_kc = df[df['投资方所在城市'] != df['融资方所在城市']] data_kc = data_kc.sort_values(by = '投资企业对数',ascending = False).reset_index() del data_kc['index'] # 筛选出“跨城投资”数据
# 比较一下“同城投资”、“跨城投资”TOP20的数据分布 # 按照2013-2017年的汇总数据来计算,比较tc_sum = data_tc.groupby(['投资方所在城市','融资方所在城市']).sum().sort_values(by = '投资企业对数',ascending = False) del tc_sum['年份'] # 汇总“同城投资”数据kc_sum = data_kc.groupby(['投资方所在城市','融资方所在城市']).sum().sort_values(by = '投资企业对数',ascending = False) del kc_sum['年份'] # 汇总“跨城投资”数据
# 查看“同城投资” tc_sum.iloc[:20]
# 查看“跨城投资”
kc_sum.iloc[:20]
tc_sum.iloc[:20].plot(kind = 'bar',grid = True, figsize = (10,4),color = 'blue',alpha = 0.7)
kc_sum.iloc[:20].plot(kind = 'bar',grid = True, figsize = (10,4),color = 'green',alpha = 0.7)
结论1:
① 从2013-2016的汇总数据来看,投资比数“同城投资”>“跨城投资”
② “同城投资”中领头的城市为北上广深及部分二线强城市,其中 深圳>北京>上海>>其他城市
③ “跨城投资”中领头的城市仍为北上广深(相互投资),或者北上广深向周边城市投资(城市群)
# 比较一下“同城投资”、“跨城投资”TOP20的数据分布
# 分开比较2013-2016四个年度的数据def f1(year):tc_year = data_tc[data_tc['年份'] == year].sort_values(by = '投资企业对数',ascending = False)kc_year = data_kc[data_kc['年份'] == year].sort_values(by = '投资企业对数',ascending = False)tc_year.index = tc_year['投资方所在城市']kc_year.index = kc_year['投资方所在城市'] + '-' + kc_year['融资方所在城市']# 筛选该年的“同城投资”、“跨城投资”#print('%i年同城投资TOP20:' % year)#print(tc_year.iloc[:20])#print('-----')#print('%i年跨城投资TOP20:' % year)#print(kc_year.iloc[:20])#print('-----')return(tc_year.iloc[:20],kc_year.iloc[:20])# 输出该年“同城投资”、“跨城投资”TOP20
# 创建函数
# 绘制图表fig,axes = plt.subplots(4,2,figsize=(12,15))
plt.subplots_adjust(wspace = 0.1,hspace=0.5)
f1(2013)[0]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'blue',alpha = 0.7,ax = axes[0,0],title = '同城投资 - 2013年',ylim = [0,40000])
f1(2013)[1]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'green',alpha = 0.7,ax = axes[0,1],title = '跨城投资 - 2013年',ylim = [0,3000])
# 2013年
f1(2014)[0]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'blue',alpha = 0.7,ax = axes[1,0],title = '同城投资 - 2014年',ylim = [0,40000])
f1(2014)[1]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'green',alpha = 0.7,ax = axes[1,1],title = '跨城投资 - 2014年',ylim = [0,3000])
# 2014年
f1(2015)[0]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'blue',alpha = 0.7,ax = axes[2,0],title = '同城投资 - 2015年',ylim = [0,40000])
f1(2015)[1]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'green',alpha = 0.7,ax = axes[2,1],title = '跨城投资 - 2015年',ylim = [0,3000])
# 2015年
f1(2016)[0]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'blue',alpha = 0.7,ax = axes[3,0],title = '同城投资 - 2016年',ylim = [0,40000])
f1(2016)[1]['投资企业对数'].plot(kind = 'bar',grid = True, color = 'green',alpha = 0.7,ax = axes[3,1],title = '跨城投资 - 2016年',ylim = [0,3000])
# 2016年
结论2:
① 分开2013-2016年来看,每年“同城投资”、“跨城投资”均呈上升趋势
② “同城投资”中,头部城市仍为北上深(没有广州),且随着时间推移,越来越拉开和其他城市的“同城投资”差距(注意这个结论)
③ “跨城投资”中,投资关系较强的城市为“北京-上海” > “北京-深圳” > “上海-深圳” ,一线城市之间投资力度较大
2013-2016年全国跨城市资本流动情况
数据处理后导出到Gephi进行拓扑分析
在QGIS中转换制作路径图,注意转换坐标系我wgs84
# 读取“中国城市代码对照表.xlsx”数据及重新设置kc_sum数据的indexcity = pd.read_excel('C:/Users/Hjx/Desktop/项目12中国城市资本流动问题探索/中国城市代码对照表.xlsx') kc_sum.reset_index(inplace = True)
# 结合“中国行政代码对照表.xlsx”数据,给2013-2016年“跨城投资”的汇总数据添加城市的经纬度kc_data = pd.merge(kc_sum,city[['城市名称','经度','纬度']],left_on ='投资方所在城市',right_on = '城市名称') kc_data = pd.merge(kc_data,city[['城市名称','经度','纬度']],left_on ='融资方所在城市',right_on = '城市名称') kc_data = kc_data[['投资方所在城市','融资方所在城市','投资企业对数','经度_x','纬度_x','经度_y','纬度_y']] kc_data.columns = ['投资方所在城市','融资方所在城市','投资企业对数','lng_tz','lat_tz','lng_rz','lat_rz'] kc_data.head()
# 导出gephi制图数据gephi_edge = kc_data[['投资方所在城市','融资方所在城市','投资企业对数']]
gephi_edge.columns = ['source','target','weight']
gephi_edge['weight'] = (gephi_edge['weight'] - gephi_edge['weight'].min())/(gephi_edge['weight'].max() - gephi_edge['weight'].min())
gephi_edge.to_csv('gephi_edge.csv',index = False)
# 导出边数据citys = list(set(gephi_edge['source'].tolist()+gephi_edge['target'].tolist()))
gephi_nodes = pd.DataFrame({'Id':citys})
# 筛选出所有的城市节点,并生成dataframe
top_node = gephi_edge.sort_values(by = 'weight',ascending = False)
top_node20 = top_node['source'].drop_duplicates().iloc[:20]
top_node20_df = pd.DataFrame({'Id':top_node20, 'Label':top_node20})
# 筛选出投资对数较大,且不重复的前20个城市,并生成dataframe
gephi_nodes = pd.merge(gephi_nodes,top_node20_df,on = 'Id',how = 'left')
# 合并,给点数据增加label字段
gephi_nodes.to_csv('gephi_nodes.csv',index = False)
# 导出点数据print('finished!')
# 导出qgis制图数据kc_data.to_csv('qgisdata.csv',index = False)
print('finished!')
结论3
① 通过“全国跨城市资本流动OD图”可以明显看到
三个亮点密集的区域:长三角城市群、珠三角城市群、北京-天津城市群
这三个城市群与成都-重庆西部城市群构成了一个钻石形状
在钻石之外,仅有星星点点的东北和西部的几个亮点游离;
而这颗大钻石内的资本流动,占据了全国资本流动的90%以上!!
② 通过“城市关系图”可以发现:
城际投资的全国城市拓扑关系 → 以“北上深”为中心的城市网络
- 3、深挖跨城市资本流动:钱从哪里来,到哪里去?
资本流动两大阵营在计算中,主要以“融资方所在城市”为对象研究
资本流动两大阵营变化趋势计算中,可以构建函数,以年份为参数
得到某年融资城市对应的最大的外来投资城市
在qgis中制图,需要给数据添加经纬度信息,这里只需要添加“融资方所在城市”的经纬度
为了qgis更好识别阵营类型,数据“阵营”字段用数字表示:0代表“本地化阵营”,1代表“北上深阵营”
qgis中制图时,既不属于“本地化阵营”又不属于“北上深阵营”的城市,颜色填充和“本地化阵营”一样即可
# 近四年对外控股型投资笔数最多的10个城市是哪些?result1 = kc_sum[['投资方所在城市','投资企业对数']].groupby('投资方所在城市').sum().sort_values(by = '投资企业对数',ascending = False).iloc[:10]
result1
# 近四年吸引对外控股型投资笔数最多的10个城市又是哪些?result2 = kc_sum[['融资方所在城市','投资企业对数']].groupby('融资方所在城市').sum().sort_values(by = '投资企业对数',ascending = False).iloc[:10]
result2
result1.plot(kind = 'bar',grid = True, figsize = (10,4),color = 'red',alpha = 0.7, rot = 0)
result2.plot(kind = 'bar',grid = True, figsize = (10,4),color = 'black',alpha = 0.7, rot = 0)
结论4:
北京、上海、深圳毫无悬念地包揽了前三名,且在量级上远远超过了其他城市 → 北上深在一定程度上控制着全国的资金流向和经济命脉
杭州 → 第四名,表现最为亮眼的省会城市,崛起的新一线城市
广州 → 第五名,江湖人称“北上广”三兄弟的广州,在对外投资的控制力上已经与另两位兄弟渐行渐远了
前10名中有5名都是长三角区域的城市,可以看到长三角地区资本的活跃程度
吸引外来控股型投资笔数最多的前三名的仍然是北上深
在外来资本流入城市的榜单中,嘉兴挤掉了南京,进入前十名 → 相比资本对外输出,嘉兴是一个更受资本青睐的城市
# 从2013年到2016年,资本流动两大阵营的变化趋势:“北上深阵营”、“本地化阵营”
# “北上深阵营”:最大的外来投资方为北上深之一的城市
# “本地化阵营”:这里简化计算,将非“北上深阵营”都划入“本地化阵营”def f2(year):kc_datai = data_kc[data_kc['年份']==year]x = kc_datai[['融资方所在城市','投资企业对数']].groupby('融资方所在城市').max().reset_index()city_tz_max = pd.merge(kc_datai,x,on = ['融资方所在城市','投资企业对数'],how = 'right')# 数据整理 → 得到融资城市的最大外来投资对应的“投资方城市”city_tz_max['阵营'] = 0city_tz_max['阵营'][(city_tz_max['投资方所在城市'] == '北京') |(city_tz_max['投资方所在城市'] == '上海') | (city_tz_max['投资方所在城市'] == '深圳') ] = 1# 划分“北上深阵营”、“本地化阵营”city_tz_max = pd.merge(city_tz_max,city[['城市名称','经度','纬度']],left_on ='融资方所在城市',right_on = '城市名称')city_tz_max = city_tz_max[['投资方所在城市','融资方所在城市','投资企业对数','阵营','经度','纬度']] # 添加融资方所在城市经纬度dici = {}dici['北上深阵营城市数据量'] = city_tz_max['阵营'].value_counts().iloc[1]dici['本地化阵营城市数据量'] = city_tz_max['阵营'].value_counts().iloc[0]# 计算“北上深阵营”、“本地化阵营”的城市数量,并放入一个字典return(city_tz_max,dici)
# 创建函数zy_year = pd.DataFrame([f2(2013)[1],f2(2014)[1],f2(2015)[1],f2(2016)[1]],index = ['2013年','2014年','2015年','2016年'])
zy_year['北上深阵营占比'] = zy_year['北上深阵营城市数据量']/(zy_year['北上深阵营城市数据量'] + zy_year['本地化阵营城市数据量'])
zy_year[['北上深阵营城市数据量','本地化阵营城市数据量']].plot(kind='bar',grid = True,colormap='Blues_r',rot = 0,stacked=True,figsize = (10,4),ylim = [0,400])
# 绘制堆叠图查看占比变化趋势
zy_year
# 数据导出csv,qgis绘图f2(2013)[0].to_csv('year2013.csv',index = False)
f2(2014)[0].to_csv('year2014.csv',index = False)
f2(2015)[0].to_csv('year2015.csv',index = False)
f2(2016)[0].to_csv('year2016.csv',index = False)
print('finished!')
结论5:
“北上深阵营”高歌猛进,“本地化阵营”节节败退
2013年,“北上深阵营”的地盘仅仅局限于国内少数相对发达地区,以及各省省会城市
随着时间的推移,“北上深阵营”的势力范围逐步扩大,东北和内蒙的大部分地区纳入了“北上深阵营”
越来越多的中小型城市也逐渐成为“北上深阵营”的一员
2014年,90%的控股型城际投资去向了99个城市,而到了2017年,90%的城际投资只去向了60个城市
中国城市资本流动问题探索(Python)相关推荐
- 数分笔记整理25 - 数据处理项目 - 中国城市资本流动问题探索
[项目12] 中国城市资本流动问题探索 ''' [项目12] 中国城市资本流动问题探索数据:全国2013-2016所有企业间的投融资信息数据作业要求 1.查看全国城际控股型投资关系 要求: ① 通过& ...
- Python 数据分析微专业课程--项目实战11 中国城市资本流动问题探索
1.项目说明 通过全国2013-2016城市间投融资信息数据,分析资本在各城市间的流动情况. 2.项目具体要求 1.查看全国城际控股型投资关系 要求:分别筛选出"同城投资".&qu ...
- 一个简单的抓取中国城市空气质量的python包chinaAQI
中国地级市的空气质量查询包 几日之前,帮助别人写了个程序来抓取国家环保部网站上全国各个地级市的空气质量. 当时觉得写完就得了,代码就一直放着没动,现在整理文件夹,又翻了出来,觉得当时写的结构不好,重新 ...
- 报名 | 基于大数据的中国城市技术社会治理探索
本讲座选取北京.深圳.成都三个城市基于大数据手段的技术社会治理探索的四个街道(区)的典型案例,以社区社会资本.行政资源配置力度为划分标准,将这些街区的探索实践归纳为四种中国城市大数据技术社会治理模式. ...
- Python 分析中国城市夜间灯光数据
在城市化(城镇扩展).环境和能源等社会科学研究中常使用夜间灯光影像作为人类活动的表征.研究中使用最多的夜间灯光数据来自美国国防气象卫星计划(Defense Meteorological Satelli ...
- 2023 中国城市商业魅力排行榜:探索西安商业活力与无限机遇【探索中国城市商业魅力排行榜】
文章目录 探索中国城市商业魅力排行榜 评估指标 价值和意义 结语 探索中国城市商业魅力排行榜 随着中国经济的迅速崛起,中国各个城市商业中心纷纷崭露头角,展现出令人瞩目的商业魅力.为了揭示这些城市商业的 ...
- Python读取夜间灯光数据看中国城市发展
本文转载自气象学渣,详情可以扫描下方二维码: 在城市化(城镇扩展).环境和能源等社会科学研究中常使用夜间灯光影像作为人类活动的表征.研究中使用最多的夜间灯光数据来自美国国防气象卫星计划(Defense ...
- 中国城市园林绿化行业十四五规划方向与投资前景建议报告2022版
中国城市园林绿化行业十四五规划方向与投资前景建议报告2022版 --------------------------------------- [修订日期]:2021年12月 [搜索鸿晟信合研究院查看 ...
- 中国城市商业银行产业模式展望及布局规模前景分析报告2021-2027年
中国城市商业银行产业模式展望及布局规模前景分析报告2021-2027年 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年10月 ...
最新文章
- 改变IT世界的11大Apache开源技术
- pandas中dataframe默认不显示所有的数据行(中间省略)、使用option_context函数自定义设置单个dataframe允许显示的行的个数、set_option函数全局设置显示行的个数
- 对于高并发短连接造成Cannot assign requested address解决方法
- 2017年软件工程第四次作业-4每周例行报告
- Android 一个Activity 里面放置多个 Fragment 实现点击切换的Tab 页面效果
- [Node.js] 模块化 -- path路径模块
- 设计模式之—访问者模式VisitorPattern
- 计算机控制与网络,网络与通信技术在计算机控制的作用
- mysql中有exist吗_关于MySQL 中 EXISTS 的用法
- JS 逻辑中断(二)
- YoungTalk-STM32入门100步-回顾总结与展望(98-100)
- [译] APT分析报告:06.猖獗的小猫——针对伊朗的APT攻击活动详解
- XCOM V2.6串口助手
- 【算法】整数拆分问题
- css怎么随着鼠标移动,利用CSS sprites制作随着鼠标移动的动画背景
- Python数据分析案例-分别使用时间序列ARIMA、SARIMAX模型与Auto ARIMA预测国内汽车月销量
- RFID固定资产管理--智能化资产管理--RFID资产管理--新导智能
- python监控linux运行程序_python linux监控程序
- 矩阵分解方法总结(未完待续)
- etcd学习和实战:3、go使用etcd实现服务发现和管理
热门文章
- 王半仙儿的日记-0008
- CentOS7.4 忘记root密码 重置方法
- Office 2003 出现异常提示遇到问题需要关闭“ 发送错误报告 ”“ 不发送 ”“以安全模式启动”
- 记一个vue router相关的 Uncaught (in promise) undefined 问题
- Another Day 超好听的BGM
- 错题整理:作业100题(一)
- 2022 前端一场面试及答案整理
- E4手环获取数据步骤
- opencv读图的坐标系转换问题
- 百度正式推出移动框计算 发力移动搜索领域