Python大本营每日一课

大家好,本期7日专栏内容,营长将为大家分享新的内容知识,“数据分析”,营长邀请的是宿永杰,某知名互联网公司数据挖掘工程师,小伙伴们别忘记打卡哦。

数据分析中违背常理的悖论:辛普森悖论

DAY03

上期我们分享了每日一课 | 详解数据分析中违背常理的悖论:辛普森悖论不清楚的小伙伴可以点击查看详情哦!

当你做数据分析,或者想去做数据分析的时候,你有没有想过,数据分析的本质是什么?

谈到数据分析的本质,我们先回顾一部网红据《长安十二辰》,里面有一种独创的算法“大案牍术”令人印象深刻,其发明人是靖安司徐宾,利用案牍中记录的各种数字——主要以人口档案信息为主,可准确推断真相和预测未来。

神不神奇?厉不厉害?时间如果穿越到现代,这不就是今天的数据采集、大数据平台和数据挖掘和分析的那一套技术吗?

更厉害的是,徐宾利用大案牍术,在靖安司的案牍中,通过梳理分析人物的习惯和爱好,最终成功推演出长安城中符合刺杀狼行动的人——张小敬同学。

大案牍术算法居然都有落地案例了!

以上案例,我们先不管真假虚构与否,可以肯定的是,数据分析这件事正在被广泛应用和落地,而基于大案牍术的数据分析,其本质是靖安司利用大案牍术进行研究分析,通过已有线索挖掘事情的真相。简单点说,就是破案,提供既定事实依据。

除了上面的案例,其实在人类进化过程中,也早就有数据分析的案例了。

最早关于人类记录和分析数据的例子是符木。

旧石器时代的部落利用树枝或者骨头上刻下凹痕来记录生活交易信息,并以此记录来估计食品维持的时间。

春秋时,古人已经认识到:“天道皇皇,日月已为常。”认识到日月星辰东升西落,重复出现,所以人们遵守规律,日出而作日入而息。

商业智能,最早由理查·德弥·勒文斯在他的商业轶事百科中提出的,描述了银行家利用结构化的方式收集和分析有关竞争对手的商业活动来取得竞争优势,这被认为是第一次将数据分析用于商业目的的研究。

等等吧……

通过上面古代数据分析的案例,我们可以总结出:不同时期,人们对数据分析本质的要求是不一样的,最开始人们是为了生存,后来是为了安全,再后来为了提高效率等等。

从这个发展过程来看,和马斯洛需求层次理论是吻合的。

马斯洛认为,人的需求由生理的需要、安全的需要、归属与爱的需要、尊重的需要和自我实现的需要五个等级构成。

回到我们今天的世界中,当人们的生理需求和安全需求得到保障后,更多的需求是马斯洛层次需求层次中的后三个需求,即归属与爱的需要、尊重的需要和自我实现。

对于大部分人来说,都是上班族,对于自我需求的满足,基本要通过工作、通过企业来完成,所以,当你作为或即将成为一个数据分析师时,你需要考虑清楚的第一件事是,企业做数据分析工作的本质是什么?

从不同岗位的数据分析师和数据相关岗位工作内容来看,目的有主要以下几种:

  • 收集、整理和标准化数据,对数据进行存档管理,更专业的比如做数据仓库,大数据平台等,为数据商业化应用做基础建设;

  • 不同行业和专题的数据抽取、分析和可视化展现,目的是辅助管理和决策,提供可优化策略,进行商业智能落地;

  • 根据已有数据进行分类、预测和聚类,通常使用算法和统计技术进行挖掘建模,使场景模型化,进行精准营销、推荐和其他商业活动。

从工作内容来看,数据分析师相关工作内容主要围绕数据采集、数据仓库、数据分析、可视化展现、商业智能应用、挖掘建模和人工智能。也就是按照一定的条件约束,用标准的统计和数学方法来寻找商业上的最优的解决方案。

到这里,我们基本明白,数据分析不管是做分析、辅助决策亦或是商业智能,最终的目的,都在寻找商业上的最优解决方案,通过这样的最优方案,可以节省资源、降低成本、精准营销、提升利润等等,其本质,就是要提升企业的竞争力,让企业获得更大的利润收入。

所以说,数据分析回归到商业领域,其本质和终极目标就是要最大化企业的利润。

这里,我为什么要加个终极目标,因为我认为企业也有生命周期,在不同的时间段和生命周期里,企业短中期的目标肯定是不一样的,而长期目标基本一样。

下面,我举个例子进行简单解释。按照大多数企业的发展规律,假设企业发展阶段按照融资轮次可分成:天使轮、A 轮、B 轮、C 轮、D 轮等(这个融资轮次不是固定的,这里只是假设举例)。

天使轮:在这个阶段,创业公司刚刚起步,产品进入开发或者冷启动阶段,这个时候,企业要进行数据分析,可现实问题基本没有数据的,那没有数据就不做分析了?肯定不行,访谈法和问卷调查法是这个阶段主流的收集数据和调研问题的解决方法,靠这种方法,面对面沟通,可以对产品定位、用户痛点等有一个直接实质性的把控,对于种子用户的积累起到非常精准的拉新。所以,对于大多数成功的产品,种子用户都是精准用户。

A 轮:在这个阶段,产品解决用户痛点的需求其实已经被验证了,产品已经上线,这个阶段的产品工作重心是要快速打入市场,获取用户和流量,甚至通过补贴等手段进行拉新,抢占市场份额,成功的产品该阶段后期用户将进入指数级增长,所以,该阶段数据分析的核心围绕拉新展开的,除了拉新,由于平台补贴,识别羊毛党也是挺重要的一个点。

B 轮:在这个阶段,如果发展的不错,用户已经初据规模,这个时候用户需求和产品之间又会出现冲突,而且企业要开始考虑盈利的问题了。所以该阶段,既要不断拉新,还要快速迭代产品,还要重视用户活动度、留存和转化问题,产品基本已经可以盈利和生存下去。数据分析在这个阶段做事其实挺难的,虽然用户初据规模,但是用户行为、转化等数据其实并不多,用户拉新、留存分析还相对容易点,但是用户偏好习惯、消费规律等数据还是不够,深入挖掘分析其实有问题,所以需要不断的运营手段来促活,产生更多的数据来进行挖掘建模。所以一般互联网公司,B 轮的阶段大多数才开始搭建大数据平台和数据收仓,数据分析也是提取和临时需求较多,而挖掘建模、机器学习做的并不多,最多就是做做用户画像和推荐系统。

C 轮和 D 轮:在这个阶段,产品已经进入市场且具有竞争力,用户规模很大,产品更加稳定和成熟,整个数据链路基本形成闭环,但是用户获客成本越来越高,这个时候是最能体现数据分析师价值的时候,数据分析的工作也开始更加细化和专一,典型的数据分析包括渠道分析、用户增长分析、用户行为分析、产品活动分析和经营分析等,而这一切都会围绕着企业总收入 GMV 或者投资回报率 ROI 来进行分析,说直接点,就是这个阶段,数据分析的一切都会围绕着产品变现进行,要不断扩大收入和利润,让整个产品生态进入良性循环,为最后的 IPO 做准备。

综合上面,可以看出来,企业在不同发展时期,其数据分析需求是不一样的,尤其短中期的分析目标要随着企业战略和业务方向随时调整,且临时性需求比较多。

这就是为什么经常听到有人抱怨,自己就是提数机器人,领导临时需求和各种想法特别多,如果站在领导的角度考虑,其实就是在业务早期方向不明朗的情况下,很多思路和方向都需要不断快速验证。

而产品一旦进入稳定期,数据分析最终面临的问题都是经营分析(渠道分析、用户增长分析、用户行为等都属于经营分析,这里的经营分析不局限在只与财务相关)相关的,会围绕产品变现进行,最大化企业利润。

我记得我之前面试的时候,有一位面试官问我,怎么看待数据分析,数据分析的本质是什么?我吧啦吧啦说了一大堆。

在反问环节,我问面试官认为的数据分析的本质是什么?面试官说,他认为数据分析的本质就是拆指标,拆的越细越准确。

不可否认,我是比较赞同面试官这个解释的,很多时候,我们做工作的思路就是运用 MECE 原则进行指标不同维度的拆解。但是这是一种狭义上的理解,如果业务早期的时候,没有数据,靠外部数据又不行的情况下,你怎么拆?没有数据还是要回归原始和潜在用户面对面的交流,这才是最有效的。

所以数据分析它不是独立存在的,必须贴近业务和产品,数据取之于产品,还要用之于产品,数据分析本身却不产生数据。

总结

本篇内容,主要讲述了数据分析的本质,狭义上来说就是拆解指标,但这个本质我认为虽然终极目标可能一样,但是在人类发展或者企业发展的不同阶段,目的是不一样的,着重解决的问题也是不一样的,会随着外部事物或者产品发展而顺势变化。

也就是说,数据分析始终贯彻执行在业务和产品上,数据取之于产品,还要用之于产品,数据分析本身却不产生数据,只是提供一种思维方法论,一种工具而已。

明日分享预告:数据分析必知的两个原则

本期专栏内容均来自GitChat《数据分析面试剖析24讲》专栏内容,作者:宿永杰,某著名互联网公司数据挖掘工程师,如需了解专栏详情,可扫描下方二维码。

每日一课 | 数据分析的本质是什么?相关推荐

  1. 每日一课 | 详解数据分析中违背常理的悖论:辛普森悖论

    Python大本营每日一课 大家好,本期7日专栏内容,营长将为大家分享新的内容知识,"数据分析",营长邀请的是宿永杰,某知名互联网公司数据挖掘工程师,小伙伴们别忘记打卡哦. 数据分 ...

  2. 每日一课 | 详解数据分析最爱用的估算法

    Python大本营每日一课 大家好,本期7日专栏内容,营长将为大家分享新的内容知识,"数据分析",营长邀请的是宿永杰,某知名互联网公司数据挖掘工程师,小伙伴们别忘记打卡哦. 数据分 ...

  3. 每日一课 | 机器学习入门—如何学习机器学习

    Python大本营每日一课 大家好,我是营长,上期营长分享了"面向对象练习":,不清楚的小伙伴可戳这????每日一课 | 面向对象练习(硬核) 本期营长将为大家分享新的内容知识,& ...

  4. 每日一课 | Python数据可视化—如何做好启动准备(小白必读)

    03 大家好,我是营长,昨天营长分享了数据科学"的基本概念,不清楚的小伙伴可戳这????每日一课|案列上手Python数据可视化 本期营长接着为大家分享Python数据可视化相关内容 这期分 ...

  5. 每日一课 | Python数据可视化—如何分区和绘图

    06 大家好,我是营长,昨天营长分享了数据科学"的知识点:,不清楚的小伙伴可戳这????每日一课|Python数据可视化-重新认识坐标系 本期营长接着为大家分享Python数据可视化相关内容 ...

  6. 【极客学院每日1课 】Java入门与常用技巧

    2019独角兽企业重金招聘Python工程师标准>>> Java是Android开发者必学的基础编程语言.你的基础怎么样? 遥想当年,小乔还未出嫁,小编在大学里面,啃书本,听教授在课 ...

  7. python将列表转换为字符串_每日一课 | Python将文件读入列表

    读取日志文件的Python示例,一行一行地进入列表. # With '\n', ['1\n', '2\n', '3'] with open('/www/logs/server.log') as f: ...

  8. linux 如何让.开头的文件不隐藏_每日一课 | Linux:如何gzip文件夹

    整理 | Python大本营在Linux上, gzip无法压缩文件夹,它仅用于压缩单个文件.要压缩文件夹,您应该使用tar + gzip,它是tar -z.注意 $ tar --help -z, -j ...

  9. android 判断文件是否存在_每日一课 | Python检查文件是否存在

    在Python中,我们可以使用os.path.isfile()或pathlib.Path.is_file()(Python 3.4)来检查文件是否存在.1. pathlibPython 3.4的新功能 ...

最新文章

  1. js模仿flash写字动画
  2. 数据库监控框架 oneproxy-monitor 开源了
  3. android 设置folder类型,正确配置你的 Android 项目
  4. ireport 无法打开问题
  5. HttpResponse对象
  6. [MSP430DriverLib-2]使用延时让LED闪烁
  7. 编写javascript、Jquery的String.format();
  8. 我什么时候应该真正使用noexcept?
  9. 聚焦索引与非聚焦索引及其查询效率 (MS SQL SERVER)
  10. msp430是什么?
  11. SCP,NFS,TFTP的初步认识
  12. 推广文案写作有哪些技巧,母婴用品文案内容撰写时需要注意的事项
  13. VirtualBox中win7系统无法安装增强功能
  14. 机器学习中误差的定义,以及过拟合现象的介绍
  15. 谈谈测试过程中常见的几个问题
  16. ios(苹果)设备直播流媒体 服务搭建
  17. wlan测试仪软件,MT8860C WLAN 测试仪
  18. Linux网络安全防火墙篇
  19. 为什么正态分布如此普遍
  20. DICOM:DICOM开源库多线程分析之“ThreadPoolQueue in fo-dicom”

热门文章

  1. Python-OpenCV 的 remap函数
  2. 6个步骤教你用Python解数独!(含实例代码)
  3. Win10系统“此电脑”误删了,或者无缘无故消失了,怎么找回?
  4. CDH5: 使用parcels配置lzo
  5. 浅谈零知识证明之二:简短无交互证明(SNARK)
  6. oobar, foo, bar, baz和qux搅屎棍的含义
  7. 获取手机唯一标识插件_H5能获取到手机设备ID或者手机浏览器唯一识别码吗
  8. 手机wps怎么设置打印横竖_WPS表格打印预览在哪如何设置横向和纵向打印方式
  9. Mac安装clion教程
  10. 网站seo具体怎么做?