python大数据实战项目_商业数据分析比赛实战,内附项目代码
如果你对商业数据分析感兴趣、想要积累更多项目经验,那么就来看看下面这项目吧。
数据竞赛平台和鲸社区最近正在举办一场数据分析大赛,不仅带来了22w奖金和30w创业基金支持,更是提供了统一的在线比赛环境,引入投中网的独家创业投资类数据,囊括了江苏地区科技金融,生物医药、芯片半导体制造行业,吸引了不少人的关注。
为了让大家更加熟悉商业数据分析流程,赛事平台和鲸社区还非常贴心提供了多场数据分析专题分享,下面就为大家打来第一场直播培训中,主讲老师黄凯根据大家反馈提供的培训Notebook,覆盖数据预处理、分组聚合计算、可视化的全流程,内容由浅入深。既适合数据分析入门的爱好者,也能给老手们提供不一样的分析思路。
(贴心提示:项目代码可以直接在平台上Fork哦~)
数据分析项目开发步骤简介
数据分析项目第一步骤首先要确定分析目标,如果不能明确分析目标,那么就是数据挖掘项目。这也是数据分析项目与数据挖掘项目之间的主要区别;
接下来进行收集,整理和清洗数据工作。本次竞赛已经提供质量非常高的数据,因此无需再进行收集工作。我们只要简单的进行一下整理和清洗即可;
再针对我们的分析目标,进行分组聚合计算,得出有效的结论;
最后对我们得出的结论进行可视化展示。
下图展示了本课程中使用Pandas、 Seaborn等常用工具库绘制的部分图表:
现在教程开始啦~
创新活力数据分析项目实战开发步骤
数据集简介
数据预处理:清洗、过滤
数据分析:公司
数据分析:人员
数据分析:投资
最值得投资的公司:公司估值 vs 注册资金
投资活力指数计算
图表:投资活力指数
数据预处理
# 先让我们建立一下开发环境。# 导入常用库import numpy as npimport pandas as pdimport matplotlib. pyplot as pltimport seaborn as snsimport mathfrom datetime import datetime# 忽略警告信息import warningswarnings. filterwarnings("ignore")print(" 建立开发环境"+ str(datetime. now() ) )
# 查看以下数据及所在路径中的文件名称。! ls /home/kesci/input/inv_data6040
# 读取全部 CSV 数据df_gs = pd. read_csv(' /home/kesci/input/inv_data6040/01_工商信息. csv' )df_ry = pd. read_csv(' /home/kesci/input/inv_data6040/02_主要人员. csv' )df_tz = pd. read_csv(' /home/kesci/input/inv_data6040/03_投融资事件. csv' )df_td = pd. read_csv(' /home/kesci/input/inv_data6040/核心团队. csv' )
# 了解公司基本信息df_gs. info()In [20] :# 查看数据df_gs. head(1)
绘制图表:产业图谱条形图
# 绘制条形图查看产业图谱df_gs[' 产业图谱' ] . value_counts() . plot(kind=' barh' )# barh 横向条形图, 方便查看种类的名称# 如果我们使用 bar 绘制这个图表, 中文字符会比较难以查看
按时间查看企业总数增长趋势
# 按时间查看企业总数增长趋势df_gs. groupby(df_gs. index. year) . 企业名称. count() . cumsum() . plot()
Out[32] :
本项目第一次使用分组聚合计算, 在这里详细讲解一下
分组: groupby 按年度分组
聚合: count 企业名称计数
请思考为什么用企业名称而不是用其他列来计数?
回答:因为其他列包括空值,不唯一
计算: cumsum 增长求和
拓展:去 pandas 官网查看 cumsum 方法的文档,并查看其他相关方法。
按产业图谱 + 时间 查看新公司注册趋势
# 按 产业图谱 + 时间 查看新公司注册趋势df_gs. groupby([ ' 产业图谱' , df_gs. index. year] ) . 企业名称. count() . unstack() . T. plot()# groupby 可以对多列数据进行分组# unstack 对多项索引转换为单例索引# T 将x轴和y轴转置, 是 transform 的简写方法# 技巧:unstack(). T 是一对难兄难弟,常常在一起使用绘制图表, 展示注册资本随时间变化规律
Out[33] :
按产业图谱分组绘制 注册资本对数值
# 按产业图谱分组绘制 注册资本对数值# 首先将注册资本取对数后的结果放在数据集当中。df_gs[' 注册资本log' ] = df_gs. 注册资本. apply(lambda x : np. log10(x) )# 使⽤seaborn 的 FacetGrid 按照产业图谱分组绘制注册资本对数值直⽅图g = sns. FacetGrid(df_gs, col=' 产业图谱' )g. map(sns. distplot, ' 注册资本log' )# seaborn 的直方图默认也绘制了密度图
Out[27] :
# 融资情况对比:按产业图谱分组后计算投资次数# fillna 填充空值# sort_values 对数据进⾏排序df_gs. groupby([' 产业图谱' , ' 当前轮次' ] ) . 企业名称\. count() . unstack() . T. fillna(value=0) . sort_values(by=' ⽣物医药' ) . plot(kind=' barh' , figsize=(12, 6))
Out[32] :
绘制中文词云
# 绘制中文词云# 导入并初始化词云from wordcloud import WordCloudw = WordCloud(font_path=' /home/kesci/input/hanserif6546/SourceHanSerifK-Light. otf' , # 字体文件background_color=' white' # 背景色)# 从词频绘制词云图片w. generate_from_frequencies(pd. Series( words_clean) . value_counts() [1: 100] )# 绘制词云图片plt. figure(figsize=[16, 8] )plt. imshow(w, interpolation=' bilinear' ) # 平滑参数
Out[45] :
绘制投资关系图
# 绘制高管、投资关系图import networkx as nxG = nx. Graph()# 公司、高管G. add_node(name)G. add_edge(name, ' 高管' )for r in ry. values:G. add_edge(' 高管' , r[0] +" "+r[2] )# 投资数据G. add_edge(name, ' 投融资' )for i, r in tz. iterrows() :G. add_edge(' 投融资' , r[' 投资⽅' ] +' ' +str( r[' 总交易⾦额 (万元) ' ] ) )# 绘制nx. draw(G, with_labels=True)plt. show()
原文过长,这里进行了缩略。如果想要看到完整的项目代码与数据,快快点击“阅读原文”吧!报名参赛后,直接进入和鲸K-Lab就可以找到这个项目。项目代码在课程里,Fork一下就能跑~
python大数据实战项目_商业数据分析比赛实战,内附项目代码相关推荐
- CV项目肢体动作识别(三)内附完整代码和详细讲解
CV项目肢体动作识别(三)内附完整代码和详细讲解 首先我还是给出完整的代码,然后再进行详细的讲解.这一次我们用模块化的思想,把一个功能模块化(moudle),这种思想在工程中非常常见,在分工中你需要做 ...
- python大数据开发工程师_大数据开发工程师的职责
大数据开发工程师的职责 大数据开发工程师的职责1 职责: 1.负责数据采集.数据存储.数据查询.数据计算等基础平台的设计和开发工作; 2.利用Hadoop.Spark.Flink等技术进行离线和实时数 ...
- python大数据工程师 培训_大数据工程师需要学习哪些?
经常有初学者在QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高.如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业 ...
- python大数据工程师证书_大数据工程师需要学习哪些?
其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控.大数据开发/设计/架构.数据分析/挖掘.请不要问我哪个容易,哪个前景好,哪个钱多. 先扯一下大数据的4V特征: 数据量大,TB-& ...
- python大数据培训机构_学大数据开发需要学习python吗
大数据现在互联网火热的一个名词,而和大数据关键词最紧密的相信就是Java和python了,在一年以前,Java大数据可能是很多培训机构的宣传标语.而到了2018年,python大数据则成为了潮流,无论 ...
- python 大数据开发工程师_大数据系列之大数据开发工程师
继续介绍大数据系列岗位的要求,今天是"最热门"的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事"大数据开 ...
- python大数据工程师 培训_大数据工程师学习之路
大数据的作用:发现过去事件的特征 预测未来 最优化选择 职位划分:数据产品经理 数据分析师->商业敏感性,产品经理的助手 数据研发工程师 数据挖掘工程师/数据科学家 需要准备的技术知识: Lin ...
- python大数据就业方向_大数据专业未来的就业方向有哪些?[黑马程序员]
目前大数据是一个十分热门的行业.一个行业的兴起必定会衍生出相对应的岗位.本篇文章给大家总结下学习大数据后未来可以就业的方向,给大家提供参考. 在数据驱动的未来,大数据人才市场势必会越来越大,而现在仅仅 ...
- python大数据好不好学_大数据好学吗?想转行大数据??
作为一名IT从业者,同时也是一名教育工作者,我来回答一下这个问题. 首先,虽然大数据技术具有一定的难度,但是随着大数据技术体系的逐渐丰富和完善,大数据领域对于人才的需求类型也在不断趋于多元化,不同知识 ...
最新文章
- POJ 2723 Get Luffy Out【二分+2-sat】
- 【并发编程】Atomic与CAS
- Ajax、jQuery基础入门视频教程
- ismember--检测集合中的元素
- php 操作 mysql 数据库常用方法集合
- 前端学习(86):标签嵌套规范
- pcl里面的法线估计
- 小白如何快速学会C++?
- paddlepaddle的使用
- 当Java枚举遇到位掩码,还能这么玩?
- 树莓派十周年,回顾它的发展历程
- 涉及第三方支付接口,怎么测?
- 张飞硬件90天学习笔记——第01天个人记录,完整请看我的个人简介/主页
- 撰写营销邮件:避开10 种常见雷区
- 电子商务外包是网络营销市场需求
- 自定义圆形ImageView(仿QQ头像)
- 人脸识别之人脸检测(二)--人脸识别样本制作及训练测试
- django、vue如何实现websock通信,如何实现多人群聊
- 如何让你的网页看起来更美观
- 安卓外挂红外触摸屏的软件设计