数据分析方法论主要有两大块:
1)统计分析方法论:

描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;

2)营销管理分析方法论:

SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、统计分析方法论:
1.描述统计(Descriptive statistics):
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
目的是描述数据特征,找出数据的基本规律。
描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 ?
1.1、数据的频数分析:利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。
1.2、数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
1)平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。
2)中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。
3)众数:是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。
1.3、数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。
1.4、数据的分布:常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。
1.5、绘制统计图:用图形的形式来表达数据。

2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。

3.相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析

4.方差分析(Analysis of Variance,简称ANOVA):又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

5.回归分析:线性回归,曲线回归,二元logistic回归,多元logistic回归。
5.1、线性回归:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
5.2、曲线回归:两个变数间呈现曲线关系的回归。
5.3、二元logistic回归、多元logistic回归:Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。
因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。

6.聚类分析:主要解决的是在“物以类聚、人以群分”,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。
6.1、k-means:从N个文档随机选取K个文档作为质心,对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类,重新计算已经得到的各个类的质心,迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。
6.2、分层:层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。
6.3、FCM:是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。

数据分析方法论(一)相关推荐

  1. 【数据分析】脑图讲述数据分析方法论

    数据分析方法论在我们的数据分析过程中起到重要作用,它像一个指南针,时刻提醒我们保持正确的分析方向.本文是对<谁说菜鸟不会数据分析(入门篇)>中,方法论章节的总结. (一)数据分析方法论综述 ...

  2. 【干货】剖析大数据分析方法论的几种理论模型(文末有福利哦)

    做 大数据分析 的三大作用,主要是:现状分析.原因分析和 预测分析 .什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定. 利用大数据分析的应用案例更加细化的说明做大数据分析方法中经常用到的 ...

  3. 数据分析师必须掌握的 十三大数据分析方法论!

    数据分析方法论 花了一个星期写的此文章,点个赞给杯咖啡吧! 文章目录 数据分析方法论 1. 公式法拆解法 2. 象限法 2.1 象限法的优势 3. 二八法 / 帕累托分析 4. 漏斗法 5. 逻辑树分 ...

  4. 数据分析的指南针--数据分析方法论(结合案例)

    文章目录 一.数据分析方法论 1.数据分析方法论不同于数据分析发 2.数据分析方法论非常重要: 二.常用的数据分析方法论 1.PEST分析法 PEST的适用场景: 案例:某公司进行数字化/智能化战略规 ...

  5. 【数据分析】数据分析方法论

    1 数据分析方法论与数据分析方法的区别 1.1 数据分析方法论 从宏观的角度指导如何进行数据分析,就像数据分析的前期规划,指导后期数据分析工作的开展. 1.2数据分析方法 从微观的角度指导如何进行数据 ...

  6. 数据分析方法论有什么用,主要的数据分析模型有哪些?

    在这个数据为王的时代,作为一个产品经理或者增长黑客,数据分析是必修课之一. 提到数据分析,肯定要提到数据分析模型,在进行数据分析之前,先搭建数据分析模型,根据模型中的内容,具体细分到不同的数据指标进行 ...

  7. 从QC学数据分析——数据分析方法论

    在数据分析的道路上越走越远 阴差阳错的做了数据分析,而且一开始我还不知道自己在做的是数据分析,看了很多数据分析的书,也走了一些弯路,做了很多实践项目,突然很想把自己作为一个小白的数据分析之路的成长过程 ...

  8. 《数据分析方法论和业务实战》读书笔记

    <数据分析方法和业务实战>读书笔记 共9章:前两章入门,3-7章介绍基本方法,8章从项目实战介绍数据分析,9章答疑常见问题. 1 数据分析基础 数据分析的完整流程 数据->信息-〉了 ...

  9. (转载)数据分析方法论(6种方法,8个思路)

    (转载来自):https://blog.csdn.net/is_badboy/article/details/104520461 数据分析的流程 在介绍数据分析方法论和思路之前,我们还是先不厌其烦地看 ...

  10. 数据分析与数据分析方法论的区别

    数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它 更多的是指数据分析思路,比如主要从哪几方面开展数据分析,各方面包含什么内容和指标?数据分析方法论主要 从宏观角度指导如何进行数据分析,它 ...

最新文章

  1. 你对象怎么找的?日本网友:国家用AI给分配的
  2. 感知算法论文(二)Pelee: A Real-Time Object Detection System on Mobile Devices(2018)译文
  3. 计算(a+b)*c的值(信息学奥赛一本通-T1007)
  4. java 高性能web_高性能WEB开发 - BearRui(AK-47) 的Blog - BlogJava
  5. 一笔没有问题的数据 误操作成汇总和结算不一致的情况的处理方式
  6. PyTorch 1.0 中文文档:torch.cuda
  7. PHP正则表达式实例汇总
  8. 高等微積分(高木貞治) 1.4節 例2
  9. kafka计算机专业读法_终于知道Kafka为什么这么快了!
  10. scala解析csv文件写入mysql_scala实战之spark源码修改(能够将DataFrame按字段增量写入mysql数据表)...
  11. ARM中R0-R15寄存器的作用
  12. 1.1 统计学习方法概论(个人笔记与随感)
  13. Canvas 画贝塞尔曲线(二阶曲线和三阶曲线)
  14. halcon轮廓选择
  15. 如何将livp文件转换为jpeg图片格式
  16. 学习《python模拟测试机器人》笔记2
  17. 公开「处刑」!波士顿动力的搬砖机器人,私下竟「翻车」不断
  18. gom列表自动选择服务器,传奇服务器-传奇服务器端 GOM GEE(必看知识)
  19. 微信域名防封问题解决源码
  20. [转] 人生“三重境界”和“四种大智慧”

热门文章

  1. 烟雾检测传感器实验-传感器原理及应用实验
  2. 百度蜘蛛ip地址大全,百度搜索引擎蜘蛛的IP地址段
  3. MATLAB | 好看的相关系数矩阵图绘制
  4. 服务器为什么经常掉线?
  5. html5 几何酷站,10个值得学习的HTML5+CSS3视觉特效酷站欣赏
  6. mysql codesmith_CodeSmith连接不上MySQL的解决方法
  7. aspupload ,在winows server 2008 下无法使用
  8. Ubuntu更新软件源
  9. 知道华为HMS ML Kit文本识别、银行卡识别、通用卡证识别、身份证识别的区别吗?深度好文教你区分
  10. 群晖Docker部署Calibre Web打造全功能书库