知识发现的基本过程

KDD是一个多步骤的处理过程,分为问题定义、数据抽取、数据预处理、数据挖掘以及知识评估等基本阶段。

数据抽取与集成技术要点

首先准确地界定所选取数据源抽取原则,将多数据库运行环境中的数据进行合并处理达到世界集成的目的,然后设计存储新数据的结构和准确定义它与源数据的转换和装载机制,作为元数据被存储起来。

数据清洗与预处理技术要点

数据预处理是进行数据分析和挖掘的基础,对源数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪声数据进行平滑,对丢失的数据进行填补,清楚“脏”数据。

数据的选择与整理技术要点

数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据挖掘的质量。

数据挖掘技术要点

不管是自己建立的挖掘模型还是改进已有的模型都必须要进行验证,其中最常用的方法就是样本学习

先用一部分数据建立模型,然后再用剩下的数据测试和验证这个模型。

数据挖掘是一个反复的过程,不断产生、筛选和验证,才能得出有意义的结论。

模式评估技术要点

根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求,并将发现的知识以用户能了解的方式呈现。

数据库中的知识发现处理过程模型

阶梯处理过程模型

阶梯处理过程模型将数据库中的知识发现看作是一个多阶段的处理过程,再整个知识发现的过程中包括很多处理阶段。

Usama M. Fayyad等人给出的阶梯处理过程的九个处理阶段:数据准备数据选择数据预处理数据缩减KDD目标确定挖掘算法确定数据挖掘模式解释知识评价

螺旋处理过程模型

螺旋处理过程模型强调领域专家参与的重要性。

G. H. John提出的螺旋处理过程模型阶段:定义问题抽取数据清洗数据数据工程算法工程运行挖掘算法分析结果

以用户为中心的处理模型

以用户为中心的处理模型着重对用户进行知识发现的整个过程的支持。

整个处理过程分为下面一些步骤:任务发现数据发现数据清洗模型开发数据分析输出结果生成

联机KDD模型

OLAM(联机分析挖掘)的概念是OLAP的发展(联机事务处理),J. W. Han提出OLAM概念,并把其分为若干抽象层次:

L0层:数据集,包括了相关的数据库和数据仓库等。
L1层:形成支持OLAP和OLDM的多维数据集,它是对相关数据的综合和多维化处理。
L2层:是OLAP和OLDM的应用层,包括相互关联并协同工作的OLAM引擎和OLAP引擎。
L3层:是一个用户接口层,承担用户请求的理解与挖掘结果的结束与表达。

支持多数据源多知识模式的KDD处理模型

基本过程:从一个或多个数据库、数据仓库以及像Web这样的其他信息存储源进行数据抽取,抽取出来的数据作为备选数据进行下一步的数据清洗等数据预处理,得到适合挖掘的目标信息,进行数据挖掘、模式评估得到需要的知识。

知识发现软件或工具的发展

粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件横向的知识发现工具集纵向的知识发现解决方案三个主要阶段。

独立的知识发现软件

独立的知识发现软件出现在数据挖掘和知识发现技术研究的早期,这类软件要求用户必须对具体的数据挖掘技术和算法有相当的了解,还要手工负责大量的数据预处理工作。

横向的知识发现工具集

这类集成软件属于通用辅助工具范畴,可以帮助用户快速完成知识发现的不同阶段的处理工作。

纵向的知识发现解决方案

这种方法的核心是针对特定的应用提供完整的数据挖掘和知识发现解决方案,发现的知识可靠性也比较高。

KDD系统介绍

(1)Quest:使用Client/Server结构进行设计的一种多任务KDD系统。

(2)DBMiner:多任务数据挖掘系统,把关系型数据库和数据挖掘功能集成在一起,由图形用户界面、DBMiner引擎和通信模块构成。

知识发现项目的过程化管理

I-MIN(强度挖掘):此模型把KDD分为IM1至IM6等步骤处理:
IM1:KDD项目的计划阶段,确定企业挖掘目标、选择知识发现模式、编译知识发现模式得到元数据。
IM2:KDD的预处理阶段。
IM3:KDD的挖掘准备阶段。
IM4:KDD的数据挖掘阶段。
IM5:KDD的知识表示阶段。
IM6:KDD的知识解释与使用阶段。

数据挖掘语言介绍

数据挖掘语言的分类

根据功能和侧重点不同,数据挖掘语言可以分为三类:数据挖掘查询语言数据挖掘建模语言通用数据挖掘语言

数据挖掘查询语言

DBMiner系统中的数据挖掘查询语言是这类挖掘语言的典型代表,其由数据挖掘原语组成。

数据挖掘原语用来定义一个数据挖掘任务,用户使用数据挖掘原语与数据挖掘系统通信。

这些原语包括五类:任务相关数据原语、被挖掘知识的种类原语、背景知识原语、兴趣度测量原语、被发现模式的表示和可视化原语。

数据挖掘建模语言

预言模型标记语言是这种数据挖掘建模语言,PMML是一种基于XML的语言,用来定义预言模型,其提供了一个灵活机制来定义预言模型的模式,同时支持涉及多个预言模型的模型选择和模型平衡。

通用数据挖掘语言

通用数据挖掘语言有以上两类语言的特点,微软推出的数据挖掘语言OLE DB for Data Mining (DM),是一个通用数据挖掘语言中最具代表的尝试,其扩充了SQL的语言语法,使得商业分析和开发人员只要调用单一确定的API(应用程序接口)函数即可实现数据挖掘功能。

DMQL挖掘查询语言介绍

这里介绍DMQL数据挖掘语言顶层语法的直观印象。

{DMQL}::=<DMQL_Statement>;{DMQL_Statement}
<DMQL_Statement>::=<Data_Mining_Statement>|<Concept_Hierarchy_Definition_Statement>|<Visualization_and_Presentation>

数据挖掘 知识发现过程与应用结构相关推荐

  1. 【机器学习】数据挖掘/知识发现/人工智能相关概念梳理

    1 引言   前段时间,花了很多精力在了解.学习和思考有关--大数据/数据挖掘/知识发现/人工智能等等的知识/概念.思维上很受启发,对一些曾经很模糊的概念,也有了较为清晰的认识.   另一方面,作为一 ...

  2. 数据挖掘的过程是什么?通俗易懂

    数据挖掘的过程是什么? 01 数据挖掘过程 1. 数据采集 2. 特征提取和数据清洗 3. 分析处理和算法 02 数据预处理阶段 1. 特征提取 2. 数据清洗 3. 特征选择与转换 03 分析阶段 ...

  3. 2022-11-14:rust语言,请使用过程宏给结构体AAA生成结构体AAABuilder和创建AAABuilder实例的方法。 宏使用如下: #[derive(Builder)] pub stru

    2022-11-14:rust语言,请使用过程宏给结构体AAA生成结构体AAABuilder和创建AAABuilder实例的方法. 宏使用如下: #[derive(Builder)] pub stru ...

  4. 数据挖掘中的中国身份证结构解析

    在数据挖掘中会遇到相同长度数字字串的类型区分问题,个人认为最好的解决方案就是了解各个类型数据的构词方法,从而对不同.甚至相同长度的数据进行解构区分.对于身份证而言,采用第十八位的校验码进行校验计算能够 ...

  5. 数据挖掘的过程有哪些

    随着大数据时代的到来,各行各业都无法避免数据洪流的洗礼,一场无声的数据变革在悄然发生.谁能更好地将隐藏在数据背后有价值的信息挖掘出来,就意味着谁能在这种变化中获得主动权,能更快更好地发展.在这背景下, ...

  6. 数据挖掘与机器学习:函数结构

    目录 第一关:函数的参数 - 搭建函数房子的砖 任务描述: 相关知识: 一.必选参数: 二.默认参数: 三.可变参数: 四.关键字参数: 五.参数组合: 六.小结: 编程要求: 测试说明: 第二关:函 ...

  7. 数据挖掘分析考试笔记

    数据挖掘分析考试笔记 文章目录 数据挖掘分析考试笔记 英译汉 第一章 绪论 第二章 知识发现过程与应用结构 第三章 关联规则挖掘 Apriori算法 close算法 FP-tree 第四章 分类 分类 ...

  8. 数据挖掘算法与原理(第三版)

    一.绪论 数据挖掘(分析):数据挖掘(分析)是从大量的.不完全的.有噪声的.模糊的.随机的数据集中识别有效的.新颖的.潜在有用的信息,以及最终可理解的模式的非平凡过程.它是一门涉及面很广的交叉学科,包 ...

  9. 【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )

    文章目录 一. 数据挖掘算法组件化 二. 组件一 : 模型或模式结构 三. 组件二 : 数据挖掘任务 四. 组件三 : 评分函数 五. 组件四 : 搜索和优化算法 六. 组件五 : 数据管理策略 七. ...

最新文章

  1. 使用XML创建Excel文档
  2. 逆袭!BCH交易超越BTC
  3. Kaldi内存泄漏问题排查
  4. php psr2规范,php标准规范详解
  5. 【Tools】Bandicam安装和卸载
  6. Yii中使用的简单方法
  7. spring体系思维导图
  8. WEB编程学习之配置阿里云+宝塔+WordPress
  9. Picture Box(1) 修正版
  10. matlab找不到vs编译器
  11. lisp 天正标高_建筑设计选择 CAD 和天正画图哪个更好?
  12. 轻松处理PHP开发中微信emoji表情mysql存储的问题
  13. 纳米盘资源搜索经验分享
  14. apr_thread使用内存之谜
  15. django基于python的平南盛世名城小区疫情防控系统--python-计算机毕业设计
  16. 表格td的宽度不随内容自适应
  17. react面试题合集(附答案)
  18. IFTTT与Google+是什么?ifttt怎么玩?
  19. vivo2021笔试愚人节礼品盒问题
  20. 两个图片叠加在一起css,css两张图片怎么叠加在一起?

热门文章

  1. Android使用GridView实现日历功能(详细代码)
  2. 代码 操作 excel 打印且适应纸张大小
  3. 抵触CRM管理软件原因之我见
  4. BUILD SUCCESSFUL有警告无法运行,需忽略警告
  5. 二维材料异质结的纳米卷曲增强光电化学析氢反应
  6. HaaS600硬件规格
  7. python中exp函数_python中exp函数如何实现指数计算?
  8. 在linux下让php支持mssql,WIN和LINUX下PHP连接mssql的方法
  9. xilinx 真双口RAM的primitives /core output 区别
  10. fastjson转换List<T>,Mao<T>泛型类型