《谁说菜鸟不会数据分析(入门篇)》总结
一、数据分析方法论
营销方面:4P、用户使用行为、STP理论、SWOT
管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等
PEST(宏观环境分析) |
|||
P(political) |
政治环境(社会性质、执政党性质、方针、政策、法令) 政治经济体制、财政税收政策、产业政策等 |
||
E(economic) |
经济环境 |
宏观 |
GDP及其增长率、进出口总额、利率、税率、通货膨胀率、 |
微观 |
消费价格指数、居民可支配收入、失业率、劳动生产率 |
||
S(social) |
社会环境(人口、性别比例、出生率和死亡率、种族结构、生活方式、教育状况、城市特点、宗教信仰等) |
||
T(technological) |
技术环境(新技术的发明和发展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数和保护情况等) |
v PEST——行业分析
v 5W2H——用户行为分析、业务问题专题分析
Why+what+who+when+where
How+how much
v 逻辑树——业务问题专题分析
要素化:相同问题总结归纳成要素
框架化:要素组织成框架,不重不漏
关联化:框架内的各要素保持必要的相互关系,简单不孤立
v 4P——可了解公司的整体运营情况
产品(有形产品、人员、组织、服务等)、
价格(需求、成本、竞争)、
渠道(生产到用户中间的各个环节)、
促销(广告、宣传推广、人员推销、销售促进)
v 用户行为理论——用户行为分析
用户使用行为的完整过程:
二、数据处理
1.数据清洗
v 清除不必要的重复数据
(1)Excel中的方法
Ø Countif(区域,条件)
编号 |
重复标记 |
第二次重复标记 |
A667708 |
1 |
1 |
A310882 |
1 |
1 |
A520304 |
1 |
1 |
A356517 |
1 |
1 |
A776477 |
2 |
1 |
A466074 |
3 |
1 |
A466074 |
3 |
2 |
A466074 |
3 |
3 |
A776477 |
2 |
2 |
A218912 |
1 |
1 |
Ø 利用excel的高级筛选功能
选择待筛选数据,‘数据’—排序和筛选中’高级’—勾选‘选择不重复的记录’
Ø 条件格式法
选中待筛选数据,‘条件格式’—‘突出显示单元格规则’—‘重复值’
Ø 数据表透视法
选中待筛选数据,分别拖至‘行’和‘数值’
(2)sql中
select Email from Person where Id in (select Id from Person group by Email having count(*)>=2)
(3)删除重复数据
Ø Sql
delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)
Ø Excel
选中待筛选数据,‘数据’—‘删除重复项’
v 填充缺失的数据
平均值/删除/模型训练出的数据/保留缺失记录(样本大,缺失占比小)
(1)EXCEL
Ctrl+G 定位空值
Ctrl+Enter 不连续区域中同时输入同一个数据或公式
查找和替换
v 检测逻辑错误的数据
Excel中:
If+countif
条件格式:标出逻辑错误的数据
or(逻辑值1,逻辑值2,...)
and(逻辑值1,逻辑值2,...)
2. 数据加工
v 数据抽取
主要工作:
Ø 合并字段
& 运算符
Concatenate(text1,text2,,text3,,text4......)
Text(text,格式)连接文本与数字时,指定数字的显示格式
Ø 截取部分字段(字段分列)
Excel中的分列
Ø 字段匹配
Vlookup(要查找的vlaue,单个区域期中第一列必须是要查找的值area,希望匹配的列序号,近似匹配1精确匹配0)
精确匹配就是指值必须相等
近似匹配指在待查找区域area的第一列找接近又不大于area的值
v 数据计算
加减乘除、自动求和、求平均值、
日期的加减法:
Today() |
返回当前时间 |
2018/4/7 |
now() |
返回当前时间 |
2018/4/7 9:55 |
Ctrl+; |
返回当前时间 |
2018/4/7 |
Date(year,month,day) |
返回指定日期(可用来进行加减) |
=DATE(2017,2,8) 2017/2/8 =DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10) 2027/8/18(比上一个多了10年,6个月,10天) |
Datedif(起始日子,结束日期,unit) |
返回两个日期之间的年/月/日间隔数 Unit取值: Y:相差年份 M:相差月份 D:相差天数 YM:相差月份(忽略了年份和天数) MD:相差天数(忽略了年份和月份) YD:相差天数(忽略了年份) |
=DATEDIF(G6,H6,"Y")&"年" 10年 =DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天数)" 10天(忽略年份和月份的天数) =DATEDIF(G6,H6,"YM")&"月(忽略年份和天数)" 6月(忽略年份和天数) =DATEDIF(G6,H6,"YD")&"天(忽略年份天数)" 191天(忽略年份天数) =DATEDIF(G6,H6,"D")&"天" 3843天 |
v 数据分组
vlookup
v 数据转换
‘选择性粘贴’—‘转置’
多选转化为0-1
=IF(ISNUMBER(HLOOKUP(find_value,area,列序号,0/1)),1,0)
=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)
v 数据抽样
Rand()函数
返回(0,1)的均匀分布随机数,每次计算工作表时都将返回一个新的数值
三 数据分析方法
数据分析的作用:现状分析、原因分析、预测分析
三大作用对应的分析思路:对比、细分、预测
《谁说菜鸟不会数据分析(入门篇)》总结相关推荐
- STL源码剖析学习七:stack和queue
STL源码剖析学习七:stack和queue stack是一种先进后出的数据结构,只有一个出口. 允许新增.删除.获取最顶端的元素,没有任何办法可以存取其他元素,不允许有遍历行为. 缺省情况下用deq ...
- 《STL源码剖析》学习-- 1.9-- 可能令你困惑的C++语法1
最近在看侯捷的<STL源码剖析>,虽然感觉自己c++看得比较深一点,还是感觉还多东西不是那么明白,这里将一些细小的东西或者概念记录一下. 有些东西是根据<C++编程思想>理解的 ...
- 《STL源码剖析》学习--6章--_rotate算法分析
最近在看侯捷的<STL源码剖析>,其中有许多不太明白之处,后经分析或查找资料有了些理解,现记录一下. <STL源码剖析>学习--6章--random access ite ...
- 《STL源码剖析》学习--6章--power算法分析
最近在看侯捷的<STL源码剖析>,其中有许多不太明白之处,后经分析或查找资料有了些理解,现记录一下. 6章--power算法分析 书本中的算法如下所示: template <clas ...
- STL源码剖析——P142关于list::sort函数
在list容器中,由于容器自身组织数据的特殊性,所以list提供了自己的排序函数list::sort, 并且实现得相当巧妙,不过<STL源码剖析>的原文中,我有些许疑问,对于该排序算法,侯 ...
- STL源码剖析---红黑树原理详解下
转载请标明出处,原文地址:http://blog.csdn.net/hackbuteer1/article/details/7760584 算法导论书上给出的红黑树的性质如下,跟STL源码 ...
- STL源码剖析面试问题
当vector的内存用完了,它是如何动态扩展内存的?它是怎么释放内存的?用clear可以释放掉内存吗?是不是线程安全的? vector内存用完了,会以当前size大小重新申请2* size的内存,然后 ...
- STL源码剖析学习二:空间配置器(allocator)
STL源码剖析学习二:空间配置器(allocator) 标准接口: vlaue_type pointer const_pointer reference const_reference size_ty ...
- STL源码剖析 数值算法 copy 算法
copy复制操作,其操作通过使用assignment operator .针对使用trivial assignment operator的元素型别可以直接使用内存直接复制行为(使用C函数 memove ...
- STL源码剖析 算法开篇
STL源码剖析 算法章节 算法总览_CHYabc123456hh的博客-CSDN博客 质变算法 质变算法 - 会改变操作对象的数值,比如互换.替换.填写.删除.排列组合.分隔.随机重排.排序等 #in ...
最新文章
- Snap和Flatpak 通吃所有发行版的打包方式。
- JavaScript学习总结(7)——JavaScript基础知识汇总
- ajaxfileupload上传显示图片_有了这个AI图片转换器,风景照片秒变二次元动画
- Win11系统怎样设置更改密码
- 转载 敏捷教练,从A到Z
- 5G 是否能让国产手机回到群雄割据时代?
- JSON 是如何诞生与发展的?
- [洛谷P1407][国家集训队]稳定婚姻
- Android中的控件
- 特殊的栈GetMin
- Python单元测试框架之pytest 1 ---如何执行测试用例
- Atitit. 数据约束 校验 原理理论与 架构设计 理念模式java php c#.net js javascript mysql oracle
- 把Caffe的模型转换为Pytorch模型
- android 自动打开钉钉,安卓定时自动打开钉钉考勤打卡
- 使用JS打开word在线编辑,直接编辑在线doc文件
- cv2.VideoCapture.get()用法
- PAT 1160 Forever
- Android O 自定义通知实例及一个自定义自动适配缩放图片至特定大小的田字格ImageView
- 坑爹的AWS免费服务
- js中创建桌面网页快捷方式代码