前言

在一次日常上网过程中,无意间发现了IT桔子死亡公司有个有趣的新经济死亡公司数据库的专栏,因此对于刚学习了数据分析相关工具的我,对此产生了极大的兴趣,想要通过分析这些死亡公司的数据来发现点有趣的东西,同时也是将其作为一个数据分析实战的案例,数据来源:IT桔子死亡公司数据库 (网络爬虫获取,具体实现请参照我的个人博客文章:python爬取IT桔子死亡公司数据库),特此声明:此数据仅用于个人数据分析学习,请勿商用,如侵犯IT桔子公司权益,请联系本人删除!

数据来源:IT桔子死亡公司数据库

使用工具

  • jupyter
  • numpy
  • pandas
  • matplotlib

代码实现

本文所有源码均保存在我的github上:https://github.com/ShanYonggang/spider_list/tree/master/death_company

更多内容,请查看我的个人博客:大圣的专属空间

首先是进行数据的导入:

import numpy as np
import pandas as pd
read_data = pd.read_excel(r"F:\git_project\spider_list\death_company\death_company_info - 副本.xls")
df_data = pd.DataFrame(read_data)
# 计算存活天数
def cal_live_time(start_time,end_time):import datetimed1 = datetime.datetime.strptime(start_time,'%Y-%m-%d')d2 = datetime.datetime.strptime(end_time,'%Y-%m-%d')days = (d2-d1).daysreturn days
need_data = df_data.loc[:,['com_name','com_born','com_change_close_date','com_style','com_position','com_tags','com_fund_status_name','com_invsts','death_reason']]
# 计算所有公司的存活时间
f = lambda x:cal_live_time(x.com_born,x.com_change_close_date)
need_data['live_time'] = need_data.apply(f,axis=1)
need_data.head()

解释:由于我们在初期爬取数据的时候未获取公司存活天数,因此通过创立时间及死亡时间来计算存活天数,查看数据结果如下:

首先我们从公司存活时间这方面来进行分析

通过如下代码我们可以获取存活时间最长和最短的公司信息

# 获取生存时间最短的公司
need_data.loc[need_data['live_time'].idxmin(),:]
# 获取生存时间最长的公司
need_data.loc[need_data['live_time'].idxmax(),:]
# 平均存活时间
need_data['live_time'].mean()

结果如下:

最短存活时间公司信息

最长存活时间公司信息

很明显发现最短公司(第一医生)仅存活了121天,因其商业模式匮乏的原因而最终死亡,而存活最长时间(13年之久)的公司韦博英语也因其现金流断裂而宣告死亡,说真的我其实是头一次听说这家公司,不提了,谁让咱英语这么次,就听说过新东方,哈哈!

通过计算所有公司的平均存活时间,最终发现公司的平均存活时间大概为3年半左右,下图是所有公司存活时间的大致分布图(凑合看吧,说真的我自己看着都不忍直视这图样式,哈哈!)

接下来我们从公司的地理位置分布情况来进行分析

# 统计所有公司位置的总数
com_position = need_data['com_position'].value_counts()
print(com_position)
com_position = com_position.head(10)
name = np.array(list(com_position.index))
num = np.array(list(com_position.values))
plt.figure(figsize=(16,6))
plt.bar(name,num,color='rgby')
plt.title('死亡公司分布情况(TOP10)',fontsize=20)
plt.xlabel('公司地理位置',fontsize=16)
plt.ylabel('公司数量',fontsize=16)
plt.savefig('.\可视化图表\com_position.jpg')
plt.show()

下图为功死亡公司地理位置分布图(TOP10)以及TOP20的死亡公司地理位置分布饼图

可以看出北上广占据半壁江山,其中北京位列其首、广东紧随其后,上海位列第三,浙江排名第四,这也符合逻辑,北上广依然是各个公司创立的最先选择地,毕竟各个方面资源比较丰富,而浙江应该是因为阿里巴巴的存在而带动了一批公司的发展。

接下来看看死亡公司的融资情况

# 公司融资情况
com_financing = need_data['com_fund_status_name'].value_counts()
print(com_financing)
plt.figure(figsize=(16,6))
# plt.bar(index,num,color='rgby')
com_financing.head(10).plot(kind='barh',color='g',grid=True,rot=25)
plt.title('死亡公司融资分布情况(TOP10)',fontsize=20)
plt.xlabel('公司数量',fontsize=16)
plt.ylabel('公司融资情况',fontsize=16)
plt.savefig('.\可视化图表\com_financing.jpg')
plt.show()

根据输出的结果看到:

其中522家公司已经进行了天使轮的投资,但是最终进行E轮以及上市公司的比较少,上市公司有三家,我们通过下面代码,可以看到三家具体上市公司的信息

need_data[need_data['com_fund_status_name'] == '已上市']

其中有两家是做工具软件的,其成立和死亡的时间也比较久远,属于传统互联网公司,其因为公司商业模式匮乏加上移动互联网对其冲击而导致公司陷入困境,可见创新对于公司的发展是多么重要。

接着我们分析公司的死亡原因

公司死亡原因词云图

上图为死亡公司的原因分布以及词云图(本来是个心,结果因为文本量太小,显示不全,谅解哈!)

发现公司死亡原因主要是:1、商业模式匮乏;2、行业竞争;3、市场伪需求;4、现金流断裂;5、市场入场时机

首先商业模式匮乏我个人简单的理解就是缺乏创新、没有好的产品来吸引用户,互联网时代行业竞争也比较激烈,说白了自己的产品观点和想法被抄袭也是常见的事,毕竟是信息互通时代,对于伪需求这个事,可以参考下知乎的问答:什么是「伪需求」?能否举例说明?

下面我们看看这些死亡公司的主要业务是什么?

上图为公司的业务分布饼图以及词云图(看着像什么?),其中游戏开发占据了首位,可以看出这个行业还是很诱人的,毕竟一款王者荣耀就能火遍大江难本,在此提醒,游戏好玩,可不要上瘾哟,当然如果真的对游戏感兴趣也没问题,毕竟这也是生活的一部分,其次就是电商领域,互联网的发展给人带来了极大的遍历,让人足不出户,就能买到全国各地的好东西,拼多多,拼着买,更便宜,再提一下金融借贷,说白了大多数就是网贷平台,其实我觉着大多数都是因为我们提前的购买欲和消费欲望让这个行业发展起来,欲望是个好东西,然而利用不好就爆雷了,我们来具体看看这个金融借贷(其他行业也可以分析:如比较火爆的共享出行、网络直播、社交网络等):

我们选取了死亡排名前20的金融借贷公司:

need_data[need_data['com_style']=='金融借贷'].head(20)

结果如下,最终发现大部分公司都是2013年之后创办的,大多挂于19年,而且死亡原因大多数为政策监管、法律法规、风险,可见2019年政府监管导致P2P爆雷对这个行业冲击还是挺大的

com_name com_born com_change_close_date com_style com_position com_tags com_fund_status_name com_invsts death_reason live_time
15 麦子金服 2015-03-01 2019-11-25 金融借贷 上海 P2P借贷/P2B借贷/金融超市/财富管理/金融/理财/金融综合服务/借贷/资产管理/股权投... B轮 海通开元/中缔资本/ 政策监管/法律法规风险/ 1730
18 拓道金服 2013-11-01 2019-11-24 金融借贷 浙江 P2P/小额贷款/消费金融/金融/汽车金融/借贷/中介/担保/抵押贷款/ A轮 蓝山中国资本/帮实资本/宏桥资本/ 政策监管/法律法规风险/ 2214
20 金信网 2013-12-01 2019-06-06 金融借贷 北京 P2P/金融/借贷/银行/ 尚未获投 NaN NaN 2013
21 名校贷 2013-12-01 2019-06-27 金融借贷 上海 P2P借贷/Fintech金融科技/平台/小额贷款/金融/信用及征信/借贷/信用贷款/借贷平台/ A轮 海通开元/ 政策监管/法律法规风险/ 2034
35 爱投资 2013-01-01 2019-06-14 金融借贷 北京 P2B借贷/百度系/新浪系/金融/借贷/借贷平台/企业融资/企业金融/担保/ 战略投资 中援应急投资有限公司/伯藜创投/达泰资本/ NaN 2355
41 好友钱 2015-05-01 2019-06-01 金融借贷 北京 P2P借贷/匿名社交/金融/熟人社交/借贷/家庭熟人社交/理财平台/借贷平台/ 天使轮 NaN 市场伪需求/政策监管/法律法规风险/ 1492
42 金柚金服 2017-12-01 2019-06-01 金融借贷 浙江 P2P借贷/金融/借贷/ 尚未获投 NaN NaN 547
58 坚果理财 2015-11-01 2019-06-01 金融借贷 上海 P2P借贷/金融/借贷/理财平台/ 尚未获投 NaN NaN 1308
69 金盈所 2015-05-01 2019-06-01 金融借贷 北京 金融/借贷/ 尚未获投 NaN NaN 1492
76 光速借款 2017-03-01 2019-06-01 金融借贷 北京 Fintech金融科技/大数据/小额贷款/金融/信用及征信/借贷/信用贷款/小额信贷/金融大... 尚未获投 NaN NaN 822
119 微溪金融 2017-06-01 2019-06-01 金融借贷 浙江 小额贷款/金融/借贷/风控/风险评估/信用贷款/小额信贷/金融机构/ 天使轮 险峰长青/BAI贝塔斯曼亚洲投资基金/梅花创投/险峰旗云/ 政策监管/ 730
157 发财猪 2015-06-01 2019-06-01 金融借贷 广东 金融/借贷/ 尚未获投 NaN NaN 1461
244 即利宝 2016-11-01 2019-06-01 金融借贷 四川 P2P借贷/金融/借贷/ 尚未获投 NaN NaN 942
255 米金社 2015-07-01 2019-06-01 金融借贷 浙江 P2P借贷/消费金融/金融/汽车金融/借贷/金融大数据/理财平台/借贷平台/企业理财/中小微... 尚未获投 NaN 融资能力不足/政策监管/ 1431
296 爱贷网 2014-02-01 2019-05-13 金融借贷 浙江 供应链金融/小额贷款/消费金融/金融/信用及征信/借贷/信用贷款/融资节奏快/企业金融/中小... B轮 NaN 法律法规风险/政策监管/ 1927
297 红岭创投 2010-09-01 2019-03-24 金融借贷 广东 P2P借贷/P2P/金融/借贷/理财平台/借贷平台/小额借贷/投资理财/ 天使轮 以正资本/ 政策监管/ 3126
299 团贷网 2011-08-01 2019-04-01 金融借贷 广东 P2P借贷/P2B借贷/房贷/Fintech金融科技/众筹/金融/房产金融/借贷/借贷平台/... D轮 巨人网络(巨人创投)/九鼎投资/久奕投资/宏商资本/ 政策监管/ 2800
314 鑫合汇 2014-03-01 2019-04-07 金融借贷 浙江 P2B借贷/小额贷款/金融/借贷/理财平台/借贷平台/融资节奏快/企业理财/ B轮 富坤创投/ 法律法规风险/ 1863
317 种豆宝 2018-04-01 2019-03-04 金融借贷 浙江 P2P借贷/P2P/投资理财/ 尚未获投 NaN NaN 337
375 抢先花 2014-04-01 2018-12-31 金融借贷 北京 小额贷款/金融/信用及征信/借贷/校园分期/分期消费/信用贷款/校园金融/ 尚未获投 NaN NaN 1735

最后简单分析下公司的标签,如下:

#  统计公司标签,绘制词云图
com_tags = need_data['com_tags']
tags_total = ''
for x in com_tags:tags_total += str(x)
tags_list = tags_total.strip('').split('/')
tags = pd.Series(tags_list).value_counts()
print(tags[:30])
fontpath = 'simhei.ttf'
color_mask = imread("heart.jpg") #读取背景图片,wc = WordCloud(font_path = fontpath,          #设置字体background_color = "white",    #背景颜色max_words = 1000,              #词云显示的最大词数max_font_size = 100,           #字体最大值min_font_size = 10,            #字体最小值random_state = 42,             #随机数collocations = False,          #避免重复单词mask = color_mask,                 #造型遮盖width = 140, height = 80,    #图像宽高,需配合plt.figure(dpi=xx)放缩才有效margin = 2                     #字间距)
word_frequence = dict(tags)
cl = wc.generate_from_frequencies(word_frequence)
# plt.imshow(cl)
image_colors = ImageColorGenerator(color_mask)
plt.figure(dpi = 140)
plt.imshow(wc.recolor(color_func=image_colors)) # 重新上色
plt.axis('off')

死亡公司词云图

这个词云有心的样子了吧,哈哈,从图中可以看出电子商务还是占主导地位,企业服务和游戏领域位列第二

总结

  • 数据有更多可以深究和探索的地方,本文暂时只对数据进行简单的处理分析
  • 后续加强numpy、pandas、matplotlib的理解与学习
  • 接触算法去吧,少年!

用python数据分析来解密新经济(IT桔子)死亡公司的内幕相关推荐

  1. Scrapy爬取IT桔子死亡公司库及资本机构数据

    此数据爬取仅作学习研究用,严禁用做商业用途 目标设定 爬取IT桔子死亡公司.投资机构.LP.GP.基金机构数据,并录入MongoDB,全量爬取并判重. 前期准备 分析请求路径 通过Chrome进行抓包 ...

  2. python数据分析实例_Python数据分析及可视化实例之爬虫源码(05)

    1.背景介绍 (1)在注册了某网站之后,发现站内个人页面有个关于京杭大运河的征文.再加上之前,九寨沟地震第一时间机器人写了一篇通讯稿.于是我就在想,既然机器可以写通讯稿,那么是不是也可以用来写篇关于京 ...

  3. python爬虫菜鸟教程-Python数据分析,学习路径拆解及资源推荐

    原标题:Python数据分析,学习路径拆解及资源推荐 关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类: 一类是提供各种资源的推荐,比如书单.教程.以及学习的先后顺序: 另一类是 ...

  4. python和java哪个值得深入-Python数据分析,学习路径拆解及资源推荐

    关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类: 一类是提供各种资源的推荐,比如书单.教程.以及学习的先后顺序: 另一类是提供具体的学习内容,知识点或实际案例. 但很多繁琐而又 ...

  5. 2023版Python数据分析,学习路径拆解及资源推荐(附详细思维导图)

    关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类: 一类是提供各种资源的推荐,比如书单.教程.以及学习的先后顺序: 另一类是提供具体的学习内容,知识点或实际案例. 但很多繁琐而又 ...

  6. Python数据分析之思维导图汇总

    关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单.教程.以及学习的先后顺序:另一类是提供具体的学习内容,知识点或实际案例. 但很多繁琐而又杂乱 ...

  7. Python数据分析,学习路径拆解及资源推荐(附详细思维导图)

    关于Python数据分析,其实网上能够找到的学习资源很多,主要分为两类:一类是提供各种资源的推荐,比如书单.教程.以及学习的先后顺序:另一类是提供具体的学习内容,知识点或实际案例. 但很多繁琐而又杂乱 ...

  8. python数据分析要学什么_python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  9. python数据分析基础 余本国_Python数据分析基础

    本书根据作者多年教学经验编写, 条理清楚, 内容深浅适中, 尽量让读者从实例出发, 结合课后练习, 少走弯路.本书涉及的内容主要包括Python数据类型与运算.流程控制及函数与类.Pandas库的数据 ...

  10. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

最新文章

  1. php 单一职责,读懂 SOLID 的「单一职责」原则
  2. hdu5247找连续数(打表)
  3. Android经常使用工具类DateUtils(二)
  4. WPF Template模版之DataTemplate与ControlTemplate的关系和应用【二】
  5. 8.36人一次搬36块砖,男搬4,女搬2,两个小孩抬一块,要一次搬完。问:男、女、小孩各多少?
  6. 洛谷P1561 [USACO12JAN]爬山Mountain Climbing 贪心 数学
  7. [渣译文] 使用 MVC 5 的 EF6 Code First 入门 系列:为ASP.NET MVC应用程序使用高级功能...
  8. [转载] 使用openpyxl模块向Excel中插入图片
  9. 设计模式 - 状态模式、职责连模式
  10. Oracle 11G GoldenGate实现Windows与Windows之间的单向同步
  11. 首周任务 :asp留言板
  12. 用一套鼠标键盘控制两台或多台电脑
  13. ggradar画雷达图
  14. Arcgis根据矢量道路数据来提取道路中心线
  15. 【每周CV论文推荐】初学视觉注意力机制有哪些值得阅读的论文?
  16. python peewee 批量插入
  17. Leetcode-数据结构-118. 杨辉三角
  18. 个人对生活意义的观点
  19. Opencv--20行代码实现椭圆检测
  20. 2019北京邮电大学计算机考研分数线,2019年北京邮电大学考研复试分数线

热门文章

  1. 固态硬盘SSD的SLC与MLC和TLC三者的区别
  2. 黑盒测试--等价类划分
  3. fmea第五版pfmea表格_解读第五版FMEA“六步法”(附第五版FMEA表单下载)
  4. Springboot项目启动报错:
  5. ipad写python代码用什么软件_iPad 能用来写代码吗?有哪些必备软件推荐?
  6. 【信号分解】基于遗传算法优化变分模态分解VMD实现信号去噪附matlab代码
  7. iconv命令与函数
  8. rostcm6情感分析案例分析_周小鹏分析情感案例——你愿意嫁给一个离过婚带孩子男人吗?...
  9. 使用Xshell连接Linux虚拟机
  10. matlab自适应遗传算法代码,matlab自适应遗传算法