数分系统知识

目的:及时发现异常,找到数据之间的因果关系

一、观测——通过技术手段获取数据,并对数据进行分析和测量,即获取数据制作报表、图表、仪表盘

观察:采集、储存、展示数据

【采集数据】

1.解析系统日志

2.埋点

3.通过传感器采集

4.爬虫

解析别人的网站,抓取别人的数据

5.API(Application Programming Interface)

【储存数据】

各种数据库,hive, MySQL, PostgreSQL, SQLServer, Presto, Impala

连接数据库取数

【展现数据】

可视化数据

测量:设定标准、发现异常及原因、研究关系

例:便利贴

二、实验——发现规律、提出并验证假设

所有未经事实数据验证的想法都是假设

A/B测试:即做实验,测试每组数据结果,根据哪个版本数据更好用哪个

三、应用——将实验得到的新方法应用到生产中

基于数据反馈不断迭代产品和业务策略

基于数据训练算法,让机器自动化地完成工作

将数据应用于算法

训练算法

【拆解业务目标】符合MECE,即相互独立,完全穷尽

流程拆解法

二分法:

二分法在日常生活中比较常见,其实就是把事物分成 A 和非 A 两个部分,如“白天、黑夜”、“男人、女人”、“国内、国外”、“内部、外部”等等。

象限拆解法:

1.找到问题的共性原因;通过象限分析法,将有相同特征的事件进行归因分析,总结其中的共性原因。例如案例中第一象限的事件可以提炼出有效的推广渠道与推广策略,第三和第四象限可以排除一些无效的推广渠道;

2.建立分组优化策略;针对投放的象限分析法可以针对不同象限建立优化策略,例如提升象限二的投放创意,象限四的投放渠道。

杜邦分析法:

是利用几种主要的财务比率之间的关系来综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的一种经典方法。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。

AARRR:

用户获取(Acquisition)、用户激活(Activation)、用户留存(Retention)、获得收益(Revenue)、推荐传播(Referral)

PEST:

从政治(Politics)、经济(Economic)、社会(Society)、技术(Technology)四个方面,基于公司战略的眼光来分析企业外部宏观环境的一种方法

RFM:

RFM 是指根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法。

SWOT

5W1H:

Who 分析谁?确定分析主题。

Where 取哪里的数据?进行数据集成。

When 取什么时间段的数据?

What 用什么分析方法?

Why 是什么原因导致的问题?

How 如何呈现分析结果


Excel入门

一、基础业务概念以及数据透视表

结果指标:最终做的好不好(减肥,瘦多少斤)

过程指标:怎么做的好(减肥,运动了多少,控制了多少热量摄入)

表头+该列数据称为字段

拿到源数据先备份并隐藏该工作表

ctrl +shift +L : 进入筛选模式(对行列多数据进行筛选操作,且可以有笼统情况的了解)

gmv(Gross Merchandise Volume):商品营业总额    ≠  商家实收

UV (Unique visitors) :指通过互联网访问、浏览这个网页的自然人。访问网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。

PV (Page View) : 指页面浏览量或点击量,用户每1次对网站中的每个网页访问均被记录1个PV。用户对同一页面的多次访问,PV会积累。

CPC (Cost per click)

插入-数据透视表

数据透视表分析-字段、项目和集-插入计算字段

插入切片器  连接报表(切片器可以在透视表外的地方进行筛选)

透视表内置筛选只能在透视表内进行

数据透视表分析-数据透视图(插入图表)——此处有各种柱状图折线图等图表可创建,可视化数据透视表

二、函数

excel函数可以跨工作表引用数据

视图-新建窗口(此操作可以将整个excel文件多建一个窗口出来,便于函数操作时引用数据,但同时并不产生新文件)

win + 方向键 :分屏显示,也可以将其中一个拖到边边

筛选只是显示想看的部分,实际数据还是存在在所选之间的,因此不能通过筛选来直接求某些区间的和或其它操作

视图-冻结(选择b2格-冻结窗格,即可同时冻结首行和首列)

SUMIF(range,criteria,[sum_range])

SUMIF(判断条件所处范围,判断条件,取值范围)

例:=sumif(日期列,2020-07-01单元格,GMV列)

绝对引用和相对引用

fn + f4:锁定不能引用,即快速加美元号,锁定行和列

SUMIFS(sum_range, [criteria_range1], [criteria1],  [criteria_range2], [criteria2], ...)

如果是自己输入中文条件在函数内,需用英文双引号括起来

例:SUMIFS(GMV, 时间列, 2020-07-01, 平台i, "美图")       当满足时间为2020-07-01且平台i是美团时的GMV总和

日期的本质是数字,例如2020-7-1然后减1,那么就能得到2020-6-30

YEAR(格子序号):提取日期的年

MONTH(格子序号):提取日期的月

DAY(格子序号):提取日期的天

DATE( year, month, day )

例:DATE(YEAR(B30),MONTH(B30)-1,DAY(B30))    这样就可以求一个日期的同比日期

EDATE( start_date, months)

例:EDATE( 2020-7-30, -2) 即代表此日期前的两个月

永远不要用excel的日期格式去存储日期,要弄成字符串

每个月第一天:DATE( YEAR(完整日期), MONTH(完整日期), 1 )

每个月最后一天:DATE( YEAR(完整日期), MONTH(完整日期)+1, 1 ) -1

DATE( YEAR(完整日期), MONTH(完整日期), 0 )

运算符要加双引号且后面跟&(非if函数中)

例:B32">="&C40

SUBTOTAL( function num, ref 1, ...)

subtotal的sum功能:可以根据源数据的筛选进行求和,就是把你能看到的东西求和

IF (logical_test, value_if_true, [value_if_false])

IF (逻辑比较条件, 结果成立时返回的值, [结果不成立时返回的值])

IF(C64>100000,"达标","不达标")

[value_if_false] : 该参数选填,没有该参数时,返回值false

VLOOKUP ( lookup_value, table_array, col_index_num, [range_lookup])

VLOOKUP (要查找的数据、要查找的位置和要返回的数据的区域、要返回的数据在区域中的列号、返回近似匹配或精确匹配-指示为1/TRUE或0/FALSE)

一般用精确匹配

VLOOKUP 只会返回它查找到的第一个值

*:代替不定数量的字符

?:(英文输入状态下)代替一个字符,即占位符

例:VLOOKUP ( I96&"*", F96:G103, 2, 0)           查找以I96开头的任意项所对应的值

例:VLOOKUP ( I96&"??", F96:G103, 2, 0)        查找以I96开头并且是三个字符的项所对应的数值

MATCH (lookup_value, lookup_array, [match_typel])

MATCH (查找项, 查找区域, 0)            0就是精确匹配

用来查找你指定的项在区域中的序号是第几

该区域必须是单行或者单列,不能是合并单元格

INDEX (array, row_num, column_num)

INDEX (区域, 行号, 列号)

能显示区域中的第x行第y列是什么东西

如果行/列位置是0,那么就会返回整列/行,只不过显示的是第一个的值

match找位置,index找内容

index (数据区域, match (行查找项, index数据区域的相对区域, 0), match (列查找项, indexB数据区域的相对区域, 0))

三、周报开发

数据验证-允许:序列,来源:全部,美团,饿了么             实际上是一个可以下拉的筛选器

“alt” + “=” :快速求和

选中一些数据-插入-迷你图:折线-把标记勾上就能显示转折点

开始-样式-条件格式-新建规则-基于…-格式样式:数据条、最大最小值:数字、最小值:0、最大值:1      那么就可以根据该单元格的数字用颜色填充来显示进度

视图-取消网格线           可以让周报显得更高大上


Tableau数据可视化与仪表盘搭建

csv是文本文件,可以通过拖拽将两个表连接并自己匹配它们可以相合并的字段

从tableau保存下来的twb文件不包含数据,每次打开需要连接数据,而twbx的文件内置数据

度量指数值型的,维度指文本型

散点图、柱状图/条形图、饼图,折线图:掌握最主要这四种就比较足够了

对【度量】和【维度】进行拖拽操作,从而完成可视化图表的制作

【行列】行:将字段作为纵轴

列:将字段作为横轴

【标记卡】用来切换数据对应的视觉映射类型,调整图表颜色、标记、大小等展示细节

一、Tableau可视化原理

将shop表的消耗字段拖拽至行,它会自动形成一个柱子,并且柱子的数值是自动聚合运算的总和

这是因为,tableau会根据视图的详细级别自动对度量进行聚合运算,默认就是总和

维度会对度量值进行区分,增加度量值的信息密度(单个图表传达信息的多少)

将维度放在以下位置都可以对度量进行区分,并且形成对应的效果:                                                颜色、标签、详细信息、行、列

当多个维度对应度量,应把维度放于行

度量可以将其改成离散,成为维度

度量映射上是图形

二、基础图表制作

创建分层结构,相当于ps里的组

把字段拖到筛选器就可以开始筛选了,右键显示筛选器就可以多一个筛选功能区了

对度量也可以进行筛选,筛选的是区域

按住ctrl拖动就可以移动并复制

热力图,就是通过颜色将表格区分:把度量值复制到颜色,选择方形

在饼图中,化为标签的度量,右击-快速表计算-合计百分比,就能使其在饼图里显示成百分比。右击-设置格式,可以调整百分比的具体格式

编辑表计算,可以调节

点标记卡里的颜色大小这些,可以调节相关参数

日期选项中,上面的年、月、日是离散的,下面的是连续的

左边工作台-分析-可以添加预测,但前提是日期必须是连续的

左边工作台-分析-可以添加趋势线

【数据桶】:右键字段即可创建数据桶

数据桶大小即将数据都分成每x一组

修改城市字段的地理角色,再双击就能在地图上显示

把经度和纬度的地理角色改成经度及纬度,然后分别双击它们,在地图上就会显示点的经纬度

把订单id放到维度中(本来自动分到度量里了),将其拖拽到标签,即可进行对度量的区分

可以创建新字段将字符串类型的一些字段组合加一起,实现更细分的一一对应维度

三、BI仪表盘搭建

放标记卡的工具提示上,那么鼠标移上去才会显示

更改字段的别名,即可在图表中显示别名

新建故事相当于ppt

联动筛选:在仪表盘上,把每个工作表都勾上-用作筛选器

数据分析|基础概念/excel/tableau自学笔记相关推荐

  1. 拉勾启源老师mysql讲义,【拉勾教育数据分析实战训练营】--Tableau学习笔记-重点回顾1...

    [拉勾教育数据分析实战训练营]--Tableau学习笔记-重点回顾1 [拉勾教育数据分析实战训练营]--Tableau学习笔记-重点回顾1 以下是我搜罗的一些官方优秀case分享: 1.https:/ ...

  2. 【统计学习】25个必须掌握的数据分析基础概念

    16个必须掌握的数据分析基础概念 1. 描述性统计 2. 假设性检验 2.1 参数检验 2.2 非参数检验 3. 置信度分析 4. 列联表分析 5. 相关分析 6. 方差分析 7. 回归分析 8. 聚 ...

  3. python数据分析与excel_读Python数据分析基础之Excel读写与处理

    对于业务型数据分析来说,Excel可以说是打交道最多的软件了,可以说没有之一.之前有比较系统地读过<Python数据分析基础>(Foundations for Analysis with ...

  4. Python数据分析基础之Excel文件(6)

      这一篇博客主要讲一下处理多个工作簿.   之前我们已经创建了sales_2013.xlsx工作簿.在这里,我们再创建两个新的工作簿sales_2014.xlsx和sales_2015.xlsx,并 ...

  5. JAVA面向对象的基础知识快速通过---自学笔记(一)

    网上的教学很多,看视频非常浪费时间,看文字快点,快速捡起知识点,我只根据我学到的,集各种教学学习,把精华提取出来,把主要概念通俗的展示出来,基本常识就不介绍了,其他的资料谁看了都能看懂,只是java特 ...

  6. 【Tableau自学笔记】第一篇——各类食物的GI值与热量值可视化图表

            小白初学Tableau,此为第一次作品,存在很多不足,各位大佬有什么指教和建议都可以在评论区提出,小生一定会认真阅读.努力学习的 1.获取数据 数据来源为:分类食物GI表 - 百度文库 ...

  7. JAVA进阶的基础知识快速通过---自学笔记(二)

    温故而知新---陆续学习陆续更新中,你有更好的记忆和学习方法,请在评论区提出来大家一起交流,认真看完,一行行代码备注看完看懂,保证学会,学不会找我. 前言: 代码学完发现很简单,很多初学者搞不明白什么 ...

  8. 渗透基础知识入门(自学笔记)

    渗透基础知识入门 学渗透,要学的东西还是比较广,需要有一些基础知识作铺垫开始学,而且作为一个刚踏上学习道路不久的小伙子更应该在学习道路中不断补充更多基础知识,如编程语言,网络知识等,该篇笔记做一些基础 ...

  9. MySQL数据库基础01 韩顺平 自学笔记

    MySQL数据库基础 数据库简单原理图 连接Mysql 启动和关闭mysql服务 连接Mysql指令 数据库三层结构 数据在数据库中的存储方式 SQL语句的分类 简单通过Java操作Mysql数据库 ...

  10. MySQL数据库基础02 韩顺平 自学笔记

    MySQL数据库基础02 sql表查询增强 分页查询 分组函数和分组子句 数据分组的总结 多表查询 问题的引出 多表查询的练习 自连接 子查询 子查询当作临时表使用 在多行子查询中使用all操作符 在 ...

最新文章

  1. 《繁凡的论文精读》(一)CVPR 2019 基于决策的高效人脸识别黑盒对抗攻击(清华朱军)
  2. jenkins 忘记密码_持续集成工具Jenkins 在CentOS系统下安装
  3. 把技术卖给不懂技术的人
  4. C/C++程序员必读的十本书(上)
  5. 这个 Python 代码自动补全神器搞得我卧槽卧槽的
  6. 360手机浏览器_网信办出手:华为、360、qq等8款手机浏览器被列入首批重点整治名单...
  7. 日志存储 elasticsearch vs clickhouse
  8. 为什么要始终启用编译器警告?
  9. quartus仿真27:JK触发器构成的同步二进制加法计数器(分析)
  10. 为什么道理都懂,课执行力差的现象如此普遍?
  11. 78. 子集-LeetCode
  12. 甘肃计算机报名准考证打印,2019年9月甘肃计算机等考准考证打印入口已开通
  13. Simple QQLogin 2.1(QQ登陆器,适用于 QQ2009 或更新版本)
  14. mysql math.sqrt_详解MySQL中的SQRT函数的使用方法
  15. 解决IE下Ajax请求无效
  16. math.h里的数学计算公式介绍
  17. 少儿编程网站:scratch课程如何学习和教学?
  18. 战队口号霸气押韵8字_枪战游戏战队名字大全
  19. lighttpd+flash+PHP大文件上传,带上传进度显示
  20. Go线程模型异步编程的能力

热门文章

  1. linux查看主机配置命令,如何查看Linux 硬件配置信息
  2. html+css基础教程之html标题学习
  3. JAVA 调用摄像头
  4. 行为决策学入门书籍推荐《别做正常的傻瓜》
  5. Failed to obtain JDBC Connection
  6. JS简单总结(前端ES6和JQ)
  7. MOOC创新创业学第七章单元测试题及答案
  8. 个人信息保护中,APP经常调用的Android类和方法
  9. folder汇总字段的实现
  10. 53.String的intern()方法、new String()到底创建了几个对象、intern()面试难题