学习之前

  • 理论部分

    • 统计学:统计学是数据分析的基石,而且统计分析可以解决日常大部分的分析需求。统计学这部分内容需要学习描述统计、假设检验、贝叶斯、概率、分布、抽样、线性回归、时间序列等。
    • 数据分析方法论:这里要学习一些数据分析常用到分析方法。如趋势分析、对比分析法、多维分解法、用户细查、漏斗分析、留存分析、AB测试法、4P理论、PESTEL理论、SWOT分析、5W2H、逻辑树理论、用户使用行为理论、AARRR模型等。
  • 工具部分
    • Excel:它是最基础的数据分析工具。需要重点掌握:常用函数的使用、快捷键操作、基础图表制作、数据透视表、Vlookup等。
    • SQL:它是数据分析的核心技能,SQL要重点学习Select,聚合函数、以及条件查询(Where、Group by、Order by等)
    • PPT:用来和业务部门交流需求,展示分析结果。
    • Python:主要学习Numpy、Scipy、Pandas、Matplotlib、Seaborn、Sklearn等内容。Python在处理数据时候运行速度非常快。
  • 数据分析的大致6个步骤:

数据获取——数据预处理——数据探索(分析)——数据可视化——数据挖掘建模——评估

1. 数据获取

  • 数据仓库
  • 监测与抓取
  • 填写(如用户注册的时候需要填写的信息)、日志、埋点(如友盟)
  • 计算(如ROI投入产出比)

2. 数据预处理

1)数据准备:如包括读取数据解决编码错误问题、日期格式调整、合并多个excel表格      

excel格式读取:data=pd.read_excel('   ')

csv格式读取:df=pd.read_csv("     ")

encoding='gbk' 解决编码错误的问题

concat()将多个excel表格合并,注意是按照行拼接

parse_dates 将制定的列加载成日期格式

data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill1')
data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill2')
data1=pd.read_excel('meal_order.xlsx',sheet_name='meal_order_detaill3')data=pd.concat([data1,data2,data3],axis=0)#按照行进行拼接

2)处理异常值:如空值、重复值、四分位数上下1.5-3倍边界或者之外、业务实际情况下不允许出现的值等

处理方式1:丢弃

处理方式2:集中值填充(如中位数、平均数等)

#判断有多少个空值,并对空值进行求和
offline.isnull().sum()#删除重复值
data.drop_duplicates(keep='first',inplace=True)
#keep='first'意思是保留一个就可以了
#inpalce=True;意思是改变原来的值#删除缺失值
data.dropna(axis=o,how='any')
#axis=0是删除整行数据,any是指只要有一个为空就可以
#how='all'意思是整条必须全部是NA才删除掉

3. 数据探索

1)查看数据,了解数据

info()  查看所有的数值
df.mean() 均值
df.median() 中位数
df.quantile(q=0.25) 四分位数
df.mode() 众数
df.std() 标准差
df.var() 方差
df.sum() 求和
df.skew() 偏态系数
df.kurt() 峰态系数
round() 四舍五入取两位数
value.counts() 统计值的数量
reset_index() 更新索引,为什么要重置索引呢?原因是删除列之后就有空缺了,需要更新一下

  

4. 数据可视化

5. 数据建模

6. 评估

数据分析挖掘与建模(操作篇)相关推荐

  1. 3d打印利器FreeCAD入门教程之二----乐高积木块建模操作篇

    文章目录 本节内容 建模是要干什么 乐高(Lego)组件建模的过程 乐高立方体的生成 乐高立方体的挖空 乐高立方体上面八个点的生成 本节内容 解释什么是建模,通过乐高积木块的建模过程来带你熟悉Part ...

  2. python数据分析实况_机器学习竞赛分享:通用的团队竞技类的数据分析挖掘方法...

    前言 该篇分享来源于NFL竞赛官方的R语言版本,我做的主要是翻译为Python版本: 分享中用到的技巧.构建的特征.展示数据的方式都可以应用到其他领域,比如篮球.足球.LOL.双人羽毛球等等,只要是团 ...

  3. 天律的云端大数据分析挖掘之旅

    原文链接:http://click.aliyun.com/m/13921/ 随着数据爆炸式的增长,我们正被各种数据包围着,最为平常的使用网络.手机.各种电子设备,每天都在产生各种新的数据.大部分的企业 ...

  4. 大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《社交数据分析:好友推荐》篇...

    大数据workshop:<云数据·大计算:海量日志数据分析与应用>之<社交数据分析:好友推荐>篇 实验背景介绍 了解更多2017云栖大会·成都峰会 TechInsight &a ...

  5. 初探百度大数据分析挖掘平台Jarvis

    在人工功能时代,企业既想通过大数据分析.挖掘技术提升效率,又被大数据量分析.机器学习挖掘等相关技术门槛阻扰,需要一款数据分析挖掘产品跨越这个鸿沟.Jarvis在这个背景下应运而生.Jarvis是支撑大 ...

  6. python软件设计数据分析统计服_Python 和 R 数据分析/挖掘工具互查

    写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种.当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中. 如果大家还 ...

  7. SuperMap三维复杂模型建模之3D极坐标建模——原理篇

    作者:超图研究院技术支持中心-于丁 随着SuperMap iDesktop 10i(2021) V10.2.1的上线发布,为进一步拓展全空间数据模型及其分析计算能力,一个新功能"3D极坐标建 ...

  8. 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据

    各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用 ...

  9. 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(三):看图像识选手

    各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(一):爬虫选手信息 各位集美兄得看过来! 利用AI给青春有你2的选手们做数据分析挖掘(二):统计并展示数据 各位集美兄得看过来! 利用 ...

最新文章

  1. 陕西信息计算机学校,陕西计算机信息专业学校
  2. 创建一个打不开删不掉的文件夹
  3. RedMine 1.3.3 安装攻略
  4. 微型计算机系统包括( )几部分,微型计算机系统包括哪几个部分?
  5. JavaScript数据类型 typeof, null, 和 undefined
  6. MYSQL基础之centos 6下二进制安装mariadb
  7. JS记坑 ----- children返回的类数组
  8. 图论算法:稳定婚姻问题,如何找到最适合自己的另一半
  9. iPhone X改11Pro在线/免越狱QQ空间任意iPhone机型虚拟定位
  10. Agilent/安捷伦N6705B直流电源分析仪
  11. 蓝桥杯 算法提高 盾神与条状项链
  12. GD32E230_timer2解析SIF通讯协议
  13. 数据分析EXCEL入门必备
  14. 播放index.m3u8切片文件显示为直播问题
  15. Python自动化实践
  16. Mixamo使用笔记
  17. 文件服务器角色提供多种服务 其中,Win2008实战:配置双节点打印服务器故障转移群集...
  18. Mac OS 中Texstudio 无法找到 .sty文件
  19. 间充质干细胞最新研究成果进展(2021年10月)
  20. 阿里云课堂:云安全的架构设计与实践之旅

热门文章

  1. 2021-05-25
  2. 项目实训(十)—— AudioManager音效管理
  3. 反射——通过反射越过泛型检查
  4. WPS中编辑Word删除内容之后保存退出了如何恢复?
  5. 模糊查询“LIKE”的用法
  6. 【前端实例代码】Html5+css3创建新拟态新拟物风格(Neumorphism)动画特效图标网页效果!前端开发网页设计基础入门教程!超简单~
  7. 什么是file handle?
  8. 创造力对领导力的重要性_创造力和我们作为员工的生活
  9. [c++]循环经典问题1--喝饮料
  10. python关系运算符实例_python运算符详解