为什么学数据挖掘?

  • 1.1 数据挖掘把大型数据集转换成知识
  • 1.2 数据挖掘是信息技术的进化
  • 1.3 数据挖掘可以用于任何类型的数据,只要对需求有意义。
    • 1.3.1 数据库数据
    • 1.3.2 数据仓库
    • 1.3.3 事务数据
    • 1.3.4 其他类型的数据
  • 2.1 数据挖掘——知识怎么发现?
    • 2.1.1 发现知识要从各方面入手——挖掘类型的模式
    • 2.1.2 类/概念描述:特征化与区分
    • 2.1.3 挖掘频繁模式、关联和相关性
    • 2.1.4 用于预测分析的分类与回归
    • 2.1.5 聚类分析
    • 2.1.6 离群点分析
  • 2.2 模式有趣
  • 2.3 使用什么技术

数据挖掘 (DM[data mining]) ——本质是从数据中发现知识。

我们生活在信息爆炸,大量数据日积月累的时代,分析这些数据是一种重要需求。

数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生。这个领域是年青的、动态变化的、生机勃勃的。数据挖掘已经并且将继续在我们从数据时代大步跨人信息时代的历程中做出重大贡献。

1.1 数据挖掘把大型数据集转换成知识

  • 例如像百度这样的搜索引擎每天接受数亿次查询。每个查询都被看做一个事务, 用户通过事务描述他们的信息需求。随着时间的推移,搜索引擎可以从这些大量的搜索查询中学到什么样的新颖的、有用的知识?
  • 有趣的是,从众多用户查询中发现的某些模式能够揭示无价的知识,这些知识无法通过仅读取个体数据项得到。
  • 这是在整体的角度分析个体,方法论是: 用大的尺度去分析数据。

1.2 数据挖掘是信息技术的进化

从文件处理——数据库管理系统——高级数据库系统——数据仓库——高级数据分析——未来(例:量子数据库)

这是随时代变化,从认识——实践——再认识,不断螺旋上升的过程。


**数据挖掘的任务:**把丰富的数据转变为可用的信息。不然随者数据的堆积那就变成了——“数据坟墓”,这不是我们想要的,所以我们要开发出数据挖掘工具,把数据坟墓变成知识金块。

采用广义的数据挖掘功能的观点: 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、 其他信息存储库或动态地流人系统的数据。

1.3 数据挖掘可以用于任何类型的数据,只要对需求有意义。

1.3.1 数据库数据
  • 数据库系统,也称数据库管理系统(DBMS), 由一组内部相关的数据(称做数据库) 和一组管理和存取数据的软件程序组成。
  • 软件程序提供如下机制: 定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权的访问,确保存储的信息的一致性和安全性。
  • 关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象, 被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体—联系(ER)数据模型。ER数据模型将数据库表示成一组实体和它们之间的联系。
1.3.2 数据仓库
  • 数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
1.3.3 事务数据
  • 一般地说,事务数据库的每个记录代表一个事务, 如顾客的一次购物、 一个航班订票或一个用户的网页点击。通常, 一个事务包含一个唯一的事务标识号 (trans_ID),以及一个组成事务的项(如,交易中购买的商品)的列表。事务数据库可能有一些与之相关联的附加表,包含关于事务的其他信息,如商品描述、关于销售人员或部门等的信息。
1.3.4 其他类型的数据
  • 除关系数据库数据、数据仓库数据和事务数据外,还有许多其他类型的数据,它们具有各种各样的形式和结构,具有很不相同的语义。

  • 这样的数据类型在许多应用中都可以看到,如时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据)、数据流(例如视频监控和传感器数据,它们连续播送)、空间数据( 如地图)、工程设计数据(如建筑数据、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、图和网状数据(如社会和信息网络)和万维网( 由Internet 提供的巨型、广泛分布的信息存储库)。

  • 要精确弄懂这些,需要我们不断努力,加强“挖金矿”的能力!

2.1 数据挖掘——知识怎么发现?


数据库中的知识发现(KDD): 在数据中发现有用信息和模式的过程.
数据挖掘: 用算法抽取从KDD过程中衍生出的信息和模式。

2.1.1 发现知识要从各方面入手——挖掘类型的模式

描述性( descriptive)数据挖掘和预测性(Ipredictive)数据挖掘

  • 描述性挖掘任务刻画目标数据中数据的一般性质。
  • 预测性挖掘任务在当前数据上进行归纳,以便做出预测。
2.1.2 类/概念描述:特征化与区分

数据可以与类或概念相关联。用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种类或概念的描述称为类/概念描述

数据特征化( data characterization):是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。例如,查询一个月内去武汉三天的人的特征。

数据特征化的输出可以用多种形式提供,例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则(称做特征规则)形式提供。

数据区分( data discrimination):将目标类数据对象的一般特性 与一个或多个对比类对象的一般特性进行比较。目标类和对比类可以由用户指定,而对应的数据对象可以通过数据库查询检索。例如,用户可能希望将上一年销售增加10%的软件产品A与同一时期销售至少下降30%的软件产品B进行比较。发现A产品价格实惠,B产品价格昂贵。

2.1.3 挖掘频繁模式、关联和相关性
  • 频繁模式(frequent pattern)是在数据中频繁出现的模式。包括频繁项集、频繁子序列( 又称序列模式)和频繁子结构。

  • 频繁项集一般是指频繁地在事务数据集中-起出现的商品的集合,如小卖部中被许多顾客频繁地–起购买的牛奶和面包。

  • 频繁出现的子序列,如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡这样的模式就是一个(频繁)序列模式。

  • 子结构可能涉及不同的结构形式(例如,图、树或格),可以与项集或子序列结合在一起。

  • 如果一个子结构频繁地出现、则称它为(频繁)结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。

  • 频繁项集挖掘是频繁模式挖掘的基础。

  • 其中特别强调频繁项集挖掘的有效算法。序列模式挖掘和结构化模式挖掘被看做高级课题。

2.1.4 用于预测分析的分类与回归

找出描述和区分数据类或概念的模型是分类的过程。

  • 决策树的树结构,神经网络的处理单元。还有很多分类模型:如 朴素贝叶斯分类、支持向量机和k最近邻分类
  • 回归用来预测缺失的或难以获得的数值、数据值。回归分析是经常使用数值预测的统计学方法。
  • 相关分析是试图识别分类与回归过程显著相关的属性。
2.1.5 聚类分析

聚类分析更好的为人识别,理解。

2.1.6 离群点分析

数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。 大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用中(例如,欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称做离群点分析异常挖掘

2.2 模式有趣

  • 一个模式是有趣的(interesting), 如果它: (1)易于被人理解; (2) 在某种确信度上,对于新的或检验数据是有效的; (3) 是潜在有用的; (4)是新颖的。
    如果一个模式证实了用户寻求证实的某种假设,则它也是有趣的。有趣的模式代表知识

2.3 使用什么技术

  • 作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。
  • 数据挖掘研究与开发的边缘学科特性极大地促进了数据挖掘的成功和广泛应用。本节我们给出一些对数据挖掘方法的发展具有重要影响的学科例子。

小结:

需要是发明之母。随着每个应用中的数据的急剧增长,数据挖掘迎合了当今社会对有效的、可伸缩的和灵活的数据分析的迫切需要。数据挖掘可以看做信息技术的自然进化,是一些相关学科和应用领域的交汇点。

  1. 数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程,它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。
  2. 一个模式是有趣的,如果它在某种确信度上对于检验数据是有效的、新颖的、潜在有用的(例如,可以据之行动,或者验证了用户关注的某种预感),并且易于被人理解。有趣的模式代表知识。
  3. 模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程。我们提供了一个数据挖掘的多维视图。主要的维是数据、知识、技术和应用。只要数据对于目标应用是有意义的,数据挖掘可以在任何类型的数据上进行,如数据库数据、数据仓库数据、事务数据和高级数据类型等。高级数据类型包括时间相关的或序列数据、数据流、空间和时空数据、文本和多媒体数据、图和网络数据、Web 数据。
  4. 数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放, 并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理
  5. 多维数据挖掘(又称探索式多维数据挖掘) 把数据挖掘的核心技术与基于OLAP的多维分析结合在一起。它在不同的抽象层的多维(属性)组合中搜索有趣的模式,从而探索多维数据空间。
  6. 数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型,包括特征化和区分,频繁模式、关联和相关性挖掘,分类和回归,聚类分析和离群点检测。随着新的数据类型、新的应用和新的分析需求的不断出现,毫无疑问,将来我们会看到越来越新颖的数据挖掘任务。
  7. 作为一个应用驱动的领域,数据挖掘融汇来自其他一些领域的技术。 这些领域包括统计学、机器学习数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖掘的成功和广泛应用。
  8. 数据挖掘有许多成功的应用,如商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府。
  9. 数据挖掘研究存在许多挑战性问题。领域包括挖掘方法、用户交互、有效性与可伸缩性,以及处理多种多样的数据类型。数据挖掘研究对社会具有很大影响,并且未来这种影响将继续。

资料参考《数据挖掘概念与技术》第三版。

数据挖掘➡谈谈为什么学?相关推荐

  1. 思想开放-学数学之人必备的特质(转载)

    读了这许多年数学,越来越发现思想开通是学数之人的一种必备特质.这里的「思想开通」是指脑筋灵活,不宥于一种思维定势,不墨守陈规,随时准备接受新概念或意念.虽然学习其它学科往往也需要具备这种特质,但由于数 ...

  2. “软件工程”到底学什么(一)

    "软件工程"到底学什么? 学弟或者准学弟是不是有这样的疑问?然后我会以我大学个人经历开始写,废话会比较多,就当看故事吧. (题外话,不喜欢看的略过)其实我当初选择软件工程是因为我从 ...

  3. 自学python经验_我学Python的经验,Python学习经验分享

    今天我想谈谈我学Python的几个经验感悟,也许对你有启发. 1.一定要弄清楚自己的为啥学Python 做一件事情,你的动机很重要,如果意愿不很强烈,目标不清晰,很容易就会三天打鱼两天晒网,甚至稍微遇 ...

  4. 【第40期】不可错过的数据挖掘好书

    "数据是新时代的石油." --Clive Humby 在当今的人工智能时代,数据分析和挖掘似乎已经是一个很古老的话题.这也难怪,对数据的分析甚至可以追溯到中国第一经-<易经& ...

  5. 数据挖掘思维和实战24 实践 5:使用 fatText 进行新闻文本分类

    你好,欢迎来到第 24 课时,这是我们的最后一节实践课,也是我们的数据挖掘思维与实战的最后一节正课.在这节课中,我将为你讲解数据挖掘在自然语言处理领域最典型的应用--文本分类,并带领你一步步解决文本分 ...

  6. Web数据挖掘技术综述

    摘要:Web数据挖掘是目前数据挖掘领域中的一个很重要的研究领域,文章首先分析了Web数据挖掘所面临的问题,然后简要介绍了Web数据挖掘的几个分类,最后简单阐述了在Web2.0到来之时,Web数据挖掘所 ...

  7. 常见的机器学习数据挖掘知识点之Basis

    常见的机器学习&数据挖掘知识点之Basis SSE(Sum of Squared Error, 平方误差和) SSE=∑i=1n(Xi−X⎯⎯⎯)2 SSE=\sum_{i=1}^{n}(X_ ...

  8. (更新)数据挖掘,自学一年拿了腾讯京东华为网易YY的Offer,方法与建议

    成果 秋招结束了,我最终获得了: 腾讯 京东 华为 网易游戏 欢聚时代 搜狐视频 这几个offer,均待遇不错,收获颇丰. 写作动机 回想起一年多以前选择数据挖掘的时候,一度以为找不到工作,非常着急. ...

  9. Java面试人事篇(二)

    1.请你自我介绍一下你自己? 回答提示:一般人回答这个问题过于平常,只说姓名.年龄.爱好.工作经验,这些在简历上都有.其实,企业最希望知道的是求职者能否胜任工作,包括:最强的技能.最深入研究的知识领域 ...

  10. 传闻,Google曾用股票来换取他的数学研究

    学计算机专业的人,很多都逃不开线性代数的噩梦,更别说是研究算法和AI建模,几乎每天都要沉浸在各种矩阵之中.想掌握线性代数课程,无论你从行列式入手还是从向量空间入手,一开始就充斥着莫名其妙. 事实上一般 ...

最新文章

  1. 线段树 ---- 2021牛客多校第一场 J Journey among Railway Stations [线段树维护区间可行性判断]
  2. TODO: ping和telnet
  3. C++11带来的全新数值和字符串转换函数
  4. swoole学习(一)----linux安装swoole
  5. 新年图书整理和相关的产品
  6. 音频光端机的几个重要指标
  7. python画国际象棋_python图形工具turtle绘制国际象棋棋盘
  8. Android自动化打包工具,利用Jenkins实现Android自动化打包
  9. 征稿通知!ICCV 2021 第一届面向意图表达的手绘草图研讨会
  10. 浮动float的一些规则
  11. Storm vs. Spark Streaming
  12. [HTML5]块和内联元素的嵌套
  13. c语言怎样用vc绘图,大佬们,小菜鸟想问一问用vc编译器做简易画图软件
  14. 六款练手的javaweb项目源码!
  15. MapGIS基础开发环境搭建(IGSserver的安装、开发人员资格申请)
  16. 日版iphone5 SB 配合REBELiOS卡贴破解电信3G步骤
  17. 域名解析服务器地址,中国优秀DNS公共域名解析服务器IP地址列表
  18. Ubuntu下deb包的安装方法
  19. win10家庭版调出组策略_正版Win10免费送!这绝对是全网最低价的正版Win10系统
  20. 浙里办对接H5微应用遇到的问题

热门文章

  1. 从一个路由器里面接出一条网线,连接到另一个路由器
  2. sk_buff 剖析
  3. 苹果手机电池容量已经82%了,需要更换吗?
  4. 解决服务器上传的tar格式的中不可以解压tar格式的压缩包 zip解压中文会在文件中显示乱码
  5. People Counter - People Counting
  6. 2019年10月中国编程语言排行榜
  7. 【Errors】Errors during downloading metadata for repository ‘AppStream‘:
  8. 从零搭建一辆ROS小车
  9. Java模拟醉汉行走问题_醉汉随机行走问题的统计学模型.pdf
  10. VMware 8安装Mac OS X 10.7 Lion