数据分析挖掘与建模(操作篇)
学习之前
- 理论部分
- 统计学:统计学是数据分析的基石,而且统计分析可以解决日常大部分的分析需求。统计学这部分内容需要学习描述统计、假设检验、贝叶斯、概率、分布、抽样、线性回归、时间序列等。
- 数据分析方法论:这里要学习一些数据分析常用到分析方法。如趋势分析、对比分析法、多维分解法、用户细查、漏斗分析、留存分析、AB测试法、4P理论、PESTEL理论、SWOT分析、5W2H、逻辑树理论、用户使用行为理论、AARRR模型等。
- 工具部分
- Excel:它是最基础的数据分析工具。需要重点掌握:常用函数的使用、快捷键操作、基础图表制作、数据透视表、Vlookup等。
- SQL:它是数据分析的核心技能,SQL要重点学习Select,聚合函数、以及条件查询(Where、Group by、Order by等)
- PPT:用来和业务部门交流需求,展示分析结果。
- Python:主要学习Numpy、Scipy、Pandas、Matplotlib、Seaborn、Sklearn等内容。Python在处理数据时候运行速度非常快。
- 数据分析的大致6个步骤:
数据获取——数据预处理——数据探索(分析)——数据可视化——数据挖掘建模——评估
1. 数据获取
- 数据仓库
- 监测与抓取
- 填写(如用户注册的时候需要填写的信息)、日志、埋点(如友盟)
- 计算(如ROI投入产出比)
2. 数据预处理
1)数据准备:如包括读取数据、解决编码错误问题、日期格式调整、合并多个excel表格
excel格式读取:data=pd.read_excel(' ')
csv格式读取:df=pd.read_csv(" ")
encoding='gbk' 解决编码错误的问题
concat()将多个excel表格合并,注意是按照行拼接
parse_dates 将制定的列加载成日期格式
data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill1')
data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill2')
data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill3')data=pd.concat([data1,data2,data3],axis=0)#按照行进行拼接
2)处理异常值:如空值、重复值、四分位数上下1.5-3倍边界或者之外、业务实际情况下不允许出现的值等)
处理方式1:丢弃
处理方式2:集中值填充(如中位数、平均数等)
#判断有多少个空值,并对空值进行求和
offline.isnull().sum()#删除重复值
data.drop_duplicates(keep='first',inplace=True)
#keep='first'意思是保留一个就可以了
#inpalce=True;意思是改变原来的值#删除缺失值
data.dropna(axis=o,how='any')
#axis=0是删除整行数据,any是指只要有一个为空就可以
#how='all'意思是整条必须全部是NA才删除掉
3. 数据探索
1)查看数据,了解数据
info() 查看所有的数值
df.mean() 均值
df.median() 中位数
df.quantile(q=0.25) 四分位数
df.mode() 众数
df.std() 标准差
df.var() 方差
df.sum() 求和
df.skew() 偏态系数
df.kurt() 峰态系数
round() 四舍五入取两位数
value.counts() 统计值的数量
reset_index() 更新索引,为什么要重置索引呢?原因是删除列之后就有空缺了,需要更新一下
4. 数据可视化
5. 数据建模
6. 评估
数据分析挖掘与建模(操作篇)相关推荐
- 3d打印利器FreeCAD入门教程之二----乐高积木块建模操作篇
文章目录 本节内容 建模是要干什么 乐高(Lego)组件建模的过程 乐高立方体的生成 乐高立方体的挖空 乐高立方体上面八个点的生成 本节内容 解释什么是建模,通过乐高积木块的建模过程来带你熟悉Part ...
- python数据分析实况_机器学习竞赛分享:通用的团队竞技类的数据分析挖掘方法...
前言 该篇分享来源于NFL竞赛官方的R语言版本,我做的主要是翻译为Python版本: 分享中用到的技巧.构建的特征.展示数据的方式都可以应用到其他领域,比如篮球.足球.LOL.双人羽毛球等等,只要是团 ...
- 天律的云端大数据分析挖掘之旅
原文链接:http://click.aliyun.com/m/13921/ 随着数据爆炸式的增长,我们正被各种数据包围着,最为平常的使用网络.手机.各种电子设备,每天都在产生各种新的数据.大部分的企业 ...
- 大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《社交数据分析:好友推荐》篇...
大数据workshop:<云数据·大计算:海量日志数据分析与应用>之<社交数据分析:好友推荐>篇 实验背景介绍 了解更多2017云栖大会·成都峰会 TechInsight &a ...
- 初探百度大数据分析挖掘平台Jarvis
在人工功能时代,企业既想通过大数据分析.挖掘技术提升效率,又被大数据量分析.机器学习挖掘等相关技术门槛阻扰,需要一款数据分析挖掘产品跨越这个鸿沟.Jarvis在这个背景下应运而生.Jarvis是支撑大 ...
- python软件设计数据分析统计服_Python 和 R 数据分析/挖掘工具互查
写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种.当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中. 如果大家还 ...
- SuperMap三维复杂模型建模之3D极坐标建模——原理篇
作者:超图研究院技术支持中心-于丁 随着SuperMap iDesktop 10i(2021) V10.2.1的上线发布,为进一步拓展全空间数据模型及其分析计算能力,一个新功能"3D极坐标建 ...
- 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据
各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用 ...
- 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(三):看图像识选手
各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用 ...
最新文章
- 陕西信息计算机学校,陕西计算机信息专业学校
- 创建一个打不开删不掉的文件夹
- RedMine 1.3.3 安装攻略
- 微型计算机系统包括( )几部分,微型计算机系统包括哪几个部分?
- JavaScript数据类型 typeof, null, 和 undefined
- MYSQL基础之centos 6下二进制安装mariadb
- JS记坑 ----- children返回的类数组
- 图论算法:稳定婚姻问题,如何找到最适合自己的另一半
- iPhone X改11Pro在线/免越狱QQ空间任意iPhone机型虚拟定位
- Agilent/安捷伦N6705B直流电源分析仪
- 蓝桥杯 算法提高 盾神与条状项链
- GD32E230_timer2解析SIF通讯协议
- 数据分析EXCEL入门必备
- 播放index.m3u8切片文件显示为直播问题
- Python自动化实践
- Mixamo使用笔记
- 文件服务器角色提供多种服务 其中,Win2008实战:配置双节点打印服务器故障转移群集...
- Mac OS 中Texstudio 无法找到 .sty文件
- 间充质干细胞最新研究成果进展(2021年10月)
- 阿里云课堂:云安全的架构设计与实践之旅
热门文章
- 2021-05-25
- 项目实训(十)—— AudioManager音效管理
- 反射——通过反射越过泛型检查
- WPS中编辑Word删除内容之后保存退出了如何恢复?
- 模糊查询“LIKE”的用法
- 【前端实例代码】Html5+css3创建新拟态新拟物风格(Neumorphism)动画特效图标网页效果!前端开发网页设计基础入门教程!超简单~
- 什么是file handle?
- 创造力对领导力的重要性_创造力和我们作为员工的生活
- [c++]循环经典问题1--喝饮料
- python关系运算符实例_python运算符详解