数据分析 —— 数据挖掘是什么、能干嘛、怎么做
数据分析
数据挖掘
什么是数据挖掘
数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段
为什么要做数据挖掘
技术和商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是个大公司的业务的突飞猛进,也涌现出很多的新模式,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据。很难再用纯人工、纯统计的方法从成千上万的变量中,找到其隐含的价值。所以我们需要一种规范的解决方案,能够利用并且充分利用这些数据中每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。
数据挖掘提供了一系列的框架、工具和方法可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式
数据挖掘的产生动因
- 海量数据
- 维度众多
- 问题复杂
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Od48RVS-1649587377085)(D:\Typora\img\MyBatis-Plus\image-20220410174702234.png)]
数据挖掘的用处
分类问题 —— 对已知类别的数据进行学习,为新的内容标注一个类别
新浪导航栏图
聚类问题 —— 聚类的类别预先是不清楚的比较适合一些不确定的类别场景
回归问题
回归问题的最大特点 ―— 生成的结果是连续的使用回归的方法预测北京某个房子的总价 (y)
假设总价只跟房子的面积 (x) 有关,那么构建的方程式就是 ax+b=y
回归方法 ―― 通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果
关联问题
关联问题最常见的一个场景 —— 推荐
京东组合购买推荐图
数据挖掘怎么做
数据挖掘是有方法论的
数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架
应用最多的方法论︰CRISP-DM (Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)
CRISP-DM 流程
CRISP-DM 流程
业务理解(Business Understanding)
比如:训练一个模型来预测明年公司的利润
业务理解 ―― 理解你的数据挖掘要解决什么业务问题
必须从商业或者从业务的角度去了解项目的要求和最终的目的,去分析整个问题涉及的资源、局限、设想,甚至是风险、意外等情况
也就是 从业务出发,到业务中去
数据理解(Data Understanding)
数据理解阶段始的重点:在业务理解的基础上,对掌握的数据要有一个清晰、明确的认识
注意:数据理解和业务理解是相辅相成的
数据准备(Data Preparation)
数据准备是基于原始数据,去构建数据挖掘模型所需的数据集的所有工作。包括数据收集、数据清洗、数据补全、数据整合、数据转换、特征提取等―系列动作
构建模型(Modeling)
构建模型也叫作训练模型,重点解决技术方面的问题
选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型
如果有多重技术要使用,在这一任务中,对于每一个要使用的技术要分别对待比如SVM算法只能输入数值型的数据
评估模型(Evaluation)
模型的效果如何,能否满足业务需求
需要使用各种评估手段、评估指标甚至是让业务人员一起参与进来,彻底地评估模型
在评估之后会有两种情况:
- 评估通过,进入到上线部署阶段
- 评估不通过,要反过来再进行迭代更新
模型部署(Deployment)
解决一些实际的问题,比如
长期运行的模型是否有足够的机器来支撑,数据量以及并发程度会不会造成部署的服务出现问题部署是一个挖掘项目的结束,也是一个数据挖掘项目的开始
数据分析 —— 数据挖掘是什么、能干嘛、怎么做相关推荐
- 【原】数据分析/数据挖掘 入门级选手建议
1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力.数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =. 2.怎么入门 ...
- 数据分析数据挖掘(五)
数据从 数据分析数据挖掘(三) 去找 一.探索变量的关系 1.事件相互独立的条件: P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立. P(A)P(B)>0,若A与B独立的充 ...
- 做了这么久数据分析没收获,原来一直在做“伪数据分析”
用数据说话已成为流行语,数据分析能力,俨然已经成为互联网人的必备技能. 现在各行各业,越来越多的企业都在努力寻求具备数据分析能力的人才和专业数据分析人才,几乎所有的中.高阶产品.运营和市场甚至管理岗位 ...
- 数据分析数据挖掘(三)
前面我自己写的我看着都头大,我看看能不能给大家写的精简点,好理解. 我们需要的数据: 链接:https://pan.baidu.com/s/1xr4x43bfEe4hVWYtwiFGRw 提取码:ya ...
- 【数据分析数据挖掘】异常值的判断与去除——3σ 箱线图分析
[数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 参考文章: (1)[数据分析&数据挖掘]异常值的判断与去除--3σ & 箱线图分析 (2)https: ...
- 精通python能干什么-转行做数据分析,是否需要精通python?
作为一名IT从业者,我来回答一下这个问题. 首先,很多编程语言都可以用于数据分析,比如R语言在数据分析领域的应用也比较普遍,但是要想从事专业的数据分析,同时想扩展自身的数据分析边界,可以重点考虑一下P ...
- 数据分析+数据挖掘告诉你:电商销售额与哪些因素有关?
轰轰烈烈的"双十一大战"刚刚落下帷幕.作为电商行业一年一度的"大战",各家电商和品牌方都在摩拳擦掌,火力全开.作为品牌方,想要在电商大战中拔得头筹,那么,对消费 ...
- Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)
20 理解业务和数据:我们需要做好什么计划?_哔哩哔哩_bilibili 目录 一.理解业务和数据:我们需要做好什么计划? 1.1两个思想问题 1.2为什么数据挖掘不是万能的 1.3业务背景与目标 1 ...
- python数据分析的主要流程-用Python语言做数据分析基本思路和流程
当下用PYTHON做数据分析实在是太火了!大多数招聘信息里都要求应聘者会使用PYTHON做数据分析.PYTHON语言功能确实很强大,俗称"胶水语言".那么我们大多数职场人士真的有机 ...
最新文章
- 推荐几个实用的Python“小伎俩”
- grep的java源程序_Java实现Grep
- 人生感悟 --是人才就不要等着老板来安排你的工作
- xtrabackup对MySQL数据库的备份及恢复教程
- solr 的 field, copyfield ,dynamic field
- c语言数据结构插入算法说明,C语言数据结构插入算法
- python 太灵活_Python中的灵活参数
- Page 和Ability之间区别
- Typora如何设置图片的默认保存路径
- 企业如何搭建数据分析平台
- BZOJ5216 [Lydsy2017省队十连测]公路建设
- duilib 中list控件的扩展
- KEIL环境中添加宏定义方法
- springboot2.0和mysql8的时间问题
- outlook服务器邮件满了怎么办,outlook邮箱满了怎么清理
- mysql spatial 函数_MySQL中spatial基本操作
- HIT-SC-Lab1 Convex Hull的算法实现(JAVA)
- 为何说 a16z 是一家通过 VC 获利的媒体公司?
- 2020CADCG会议专题报告深度学习和图像笔记
- 在网吧敲代码是种什么体验?网友神评论:在挨打的边缘疯狂试探