大数据技术_ 基础理论 之 数据挖掘与分析
3.1 数据挖掘概述
3.1.1 数据挖掘概念
20世纪80年代末,数据挖掘(Data Mining,DM)提出。
1989年,KDD 这个名词正式开始出现。
1995年,“数据挖掘” 流传。
从科学定义分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。
从技术角度分析,数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。知识表示形式可以是概念、规律、规则与模式等。
准确地说,数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。
3.1.2 数据挖掘常用算法
3.1.3 数据挖掘应用场景
3.1.4 数据挖掘工具
根据适用的范围,数据挖掘工具分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑数据、需求的特殊性。对任何应用领域,专业的统计研发人员都可以开发特定的数据挖掘工具。
3.2 分类
分类是一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型(分类器),目的是根据数据集的特点把未知类别的样本映射到给定类别中。数据分类过程主要包括两个步骤,即学习和分类。
3.2.1 贝叶斯决策与分类器
3.2.2 SVM算法
3.2.3 案例:在线广告推荐中的分类
3.3 聚类
3.3.1 非监督机器学习方法与聚类
聚类(clustering)就是将具体或抽象对象的集合分组成由相似对象组成的为多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,簇必须同时满足以下两个条件:每个簇至少包含一个数据对象;每个数据对象必须属于且唯一地属于一个簇。
聚类分析是指用数学的方法来研究与处理给定对象的分类,主要是从数据集中寻找数据间的相似性,并以此对数据进行分类,使得同一个簇中的数据对象尽可能相似,不同簇中的数据对象尽可能相异,从而发现数据中隐含的、有用的信息。
3.3.2 常用聚类算法
3.3.3 案例:海量视频检索中的聚类
3.4 关联规则
关联规则是数据挖掘中最活跃的研究方法之一,是指搜索业务系统中的所有细节或事务,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得存在于数据库中的不为人知的或不能确定的信息,它侧重于确定数据中不同领域之间的联系,也是在无指导学习系统中挖掘本地模式的最普通形式。
3.4.1 关联规则的概念
一般来说,关联规则挖掘是指从一个大型的数据集(Dataset)发现有趣的关联(Association)或相关关系(Correlation),即从数据集中识别出频繁出现的属性值集(Sets
of Attribute Values),也称为频繁项集(Frequent
Itemsets,频繁集),然后利用这些频繁项集创建描述关联关系的规则的过程。
3.4.2 频繁项集的产生经典算法
3.4.3 分类技术
3.4.4 案例:保险客户风险分析
3.5 预测规模
预测分析是一种统计或数据挖掘解决方案,包含可在结构化与非结构化数据中使用以确定未来结果的算法和技术,可为预测、优化、预报和模拟等许多其他相关用途而使用。
时间序列预测是一种历史资料延伸预测,以时间序列所能反映的社会经济现象的发展过程和规律性,进行引申外推预测发展趋势的方法。
3.5.2 时间序列预测
3.5.3 案例:地震预警
3.5.3 案例:地震预警
3.6 数据挖掘算法综合应用
3.6.1 案例分析:精确营销中的关联规则应用
3.6.2 挖掘目标的提出
3.6.3 分析方法与过程
到此我们了解了大数据的常见概念及算法、应用场景。
大数据技术_ 基础理论 之 数据挖掘与分析相关推荐
- 大数据技术_ 基础理论 之 大数据概念与应用
1.1 大数据的概念与意义 1.从"数据"到"大数据" 时至今日,"数据"变身"大数据","开启了一次重大的时 ...
- Flink_大数据技术之电商用户行为分析
大数据技术之电商用户行为分析 第1章 项目整体介绍 1.1 电商的用户行为 电商平台中的用户行为频繁且较复杂,系统上线运行一段时间后,可以收集到大量的用户行为数据,进而利用大数据技术进行深入挖掘和分析 ...
- 数字媒体技术和数据科学与大数据技术_?数据科学与大数据技术的就业前景和待遇怎么样?...
大数据专业是新兴的专业之一,对于未来大数据领域的人才需求也比较大,因此选择大数据专业也是选择顺应时代的发展.大数据专业是典型的跨学科专业,所学习的内容有关数学,统计和计算机三个主要领域.因此,大数据专 ...
- 浅谈大数据技术之实战足球盘口分析的方法与思路(二)
足球运动是当今世界上开展最广.影响最大.最具魅力.拥有球迷数最多的体育项目之一,尤其是欧洲足球,每年赛事除了五大联赛(英超.西甲.德甲.法甲.意甲)之外,还会有欧冠(欧洲冠军联赛),精湛的球技,完美的 ...
- python大数据技术_大数据技术python
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- python判断题题库大数据技术_智慧树_大数据分析的python基础_搜题公众号
智慧树_大数据分析的python基础_搜题公众号 更多相关问题 社会公众可以查阅烟草专卖行政主管部门的监督检查记录.() 公民.法人或者其他组织不得利用自动售货机销售烟草制品.() 烟草广告中不得有下 ...
- python判断题题库大数据技术_智慧树知到_大数据分析的python基础_选择题答案
[判断题]RSA系统中,若A想给B发送邮件,则A选用的加密密钥是A的私钥 [单选题]韩语的基本句型结构是() 克制性工作时,骨骼肌长度变长,起止点之间相互分离. 提供关键词排名,以下哪一种办法是不可取 ...
- 大数据技术在跨境电商中的应用
1.大数据技术与跨境电子商务综述 (1)大数据技术.大数据量,是指数据量极大,不能使用传统的数据采集方法.传统的数据库.传统的研究方法对数据集进行分析.传统的数据分析往往采用样本,采用推理的方法,用常 ...
- 梅宏院士:大数据技术的四大挑战与十大趋势
日前,中科院院士梅宏联合中国人民大学.华中科技大学.中科院计算技术研究所.中国科学院大学.北京理工大学多位专家,发布最新论文<大数据技术前瞻>.该文在计算体系重构的背景下,指出了大数据技术 ...
- 百分点大数据技术团队:BI嵌入式分析实践
编者按:近些年来,商业智能(BI)市场持续增长,随着企业CRM.ERP等应用系统的引入,企业越来越注重利用数据智能为高效决策提供支持,由此带动的对BI的需求也越来越大.BI嵌入式分析能够增强业务系统数 ...
最新文章
- 初识片选信号和中断控制器
- 没有与这些操作数【】匹配的运算符_[02]java数据类型和运算符等知识
- Pandas练习题-提高你的数据分析技能
- outlook本地存储设置_商务文档为什么要存储在OneDrive for business 上?
- 电脑无线网络与服务器共享,图文详解win7笔记本如何实现内置无线局域网卡共享...
- 迅雷下载的都是download.php,CMS_dedecms 下载地址加迅雷专用链的操作方法 比较全,特别注意!!!!!!!!! - phpStudy...
- python调用远程chromedriver.exe、selenium抓包方法
- 中文的括号和英文的括号区别_家庭教育的困惑 (数学,中/英文)
- 立flag(java)
- molloc/free和new/delete的区别
- 群晖消息通知 推送服务器,群晖NAS发送钉钉群消息通知教程
- python实现携程网站爬取
- LVM -逻辑卷管理
- [日推荐] 『雅思口语自练狂』雅思考试神助攻!
- c语言逗女生小程序代码,求一个示爱的小程序 C语言
- python数据不足位数补0
- 虚拟化系统(XenServer,ESXi)-XenServer
- pads挖空铜箔方式
- 国信证券学习系列(2)
- 微信小程序弹窗滚动穿透问题