商务智能基本概念大总结

第一章导言
1.知识发现过程——7个步骤如下：
1）数据清理：消除噪声或不一致
2）数据集成：多种数据源组合在一起
3）数据选择：从数据库中检索与分析任务相关的数据
4）数据变换：数据变换或统一成适合挖掘的形式，如汇总或聚集操作
5）数据挖掘：使用智能方法提取数据模式
6）模式评估：根据某种兴趣度量，识别表示知识的真正有趣的模式
7）知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

2.分类（classification）是通过对具有类别的对象的数据集进行学习，概括其主要特征，构建分类模型，根据该模型预测对象的类别的一种数据挖掘和机器学习技术。

3.聚类（clustering）是依据物以类聚的原理，将没有类别的对象根据对象的特征自动聚集成不同簇的过程，使得属于同一个簇的对象之间非常相似，属于不同簇的对象之间不相似。

4.关联分析最早用于分析超市中顾客一次购买的物品之间的关联性
例如，发现关联规则（association rule）“尿不湿啤酒（0.5%，60%）”，其含义为，0.5%的交易中会同时购买尿不湿和啤酒，且买尿不湿的交易中有60%会同时买啤酒

5.数值预测用于预测连续变量的取值。
常用的预测方法是回归分析
例如，可以根据客户个人特征，如年龄、工作类型、受教育程度、婚姻状况等，来预测其每月的消费额度。

6.序列分析是对序列数据库进行分析，从中挖掘出有意义模式的技术。
序列模式（sequential pattern）的发现属于序列分析，它是从序列数据库中发现的一种有序模式
例如，《赤壁，鸿门宴，见龙卸甲》，
意味着“看了赤壁之后会接着看鸿门宴，过段时间会看见龙卸甲”。

7.业务绩效管理（business performance management），简称BPM，又称为企业绩效管理（corporate performance management），是对企业的关键性能指标，如销售、成本、利润以及可盈利性等，进行度量、监控和比较的方法和工具。
这些信息通常通过可视化的工具如平衡积分卡和仪表盘等进行展示。

8.社会网络分析（social network analysis）
对社会网络的结构和属性进行分析，以发现其中的局部或全局特点，发现其中有影响力的个人或组织，发现网络的动态变化规律等。

9.关系营销（relational marketing）是一种用于管理企业与其利益相关者关系、培养和维护一种长期良好关系的战略。

第二章商务智能过程
1.商务智能系统的开发过程
规划
需求分析
设计
实现

2.在线事务处理（online transaction processing），简称OLTP，是数据库管理系统的主要功能，用于完成企业内部各个部门的日常业务操作

在线分析处理（online analytical processing），简称OLAP，是数据仓库系统的主要应用，提供数据的多维分析以支持决策过程

3.数据库和数据仓库的区别：
区别：构建目的、管理的数据、管理方法都不同
数据库主要用于实现企业的日常业务运营，提高业务运营的效率；数据仓库的构建主要用于集成多个数据源的数据，这些数据最终用于分析数据库通常只包含当前数据，数据的存储尽量避免冗余，数据的组织按照业务过程涉及的数据实现，是应用驱动的。数据仓库中的数据是按照主题组织的，将某一主题的所有数据集成在一起，数据存在冗余
数据库中的数据需要进行频繁的插入、删除、修改等更新操作，需要复杂的并发控制机制保证事务运行的隔离性。
数据仓库中的数据主要用于分析处理，除了初始的导入和成批的数据清除操作之外，数据很少需要更新操作
数据库中数据的更新操作的时效性很强，事务的吞吐率是个非常重要的指标。而数据仓库的数据量十分庞大，分析时通常涉及大量数据，时效性不是最关键的。数据仓库中的数据质量非常关键，不正确的数据将导致错误的分析结果。

第三章关联分析
1.挖掘多层关联规则的方法
对于所有层使用一致的最小支持度：在每一层挖掘时，使用相同的最小支持度阈值。如整个使用最小支持度阈值5%
在较低层使用递减的最小支持度：在每个抽象层有自己的最小支持度阈值。抽象层越低，对应的阈值越小。如层1和层2的最小支持度阈值分别为5%和3%
逐层独立：完全的宽度搜索，没有频繁项集的背景知识用于剪枝。考察每个节点，不管它的父节点是否是频繁的。
层交叉单项过滤：一个第i层的项被考察，当且仅当它在第（i-1）层的父节点是频繁的。根据递减支持度，如果父节点是频繁的，它的子女将被考察；否则，它的子孙将由搜索中剪枝。
层交叉K-项集过滤：一个第i层的k-项集被考察，当且仅当它在第（i-1）层的对应父节点k-项集是频繁的。

2.挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法：
使用预定义的概念分层对量化属性离散化，该方法称为使用量化属性的静态离散化挖掘多维关联规则
根据数据的分布，将量化的属性离散化到“箱”，这种方法挖掘的关联规则称为量化关联规则
量化属性离散化，以符合区间数据的语义，这种量化关联规则称作基于距离的关联规则

3.CART算法：限定每次对数据集的分裂都是二分的

4.决策树的剪枝：
过度拟合（overfitting）
过度拟合了训练集中的样本特点，训练集的准确度高，但通常具有较低的概括（generalization）能力，在预测未知类别对象时的准确率较低
拟合不足（underfitting）
如果过早地停止对结点的进一步分裂也会导致拟合不足问题
剪枝（pruning）优化
先剪枝（pre-pruning）
后剪枝（post-pruning）

5.关联规则的类型：
多层次关联规则
什么品牌的啤酒和尿片（diapers）有关联?
多维关联规则：关系数据库和数据仓库中的数据的存储是多维的。如购物顾客的信息可能包括年龄、职业、收入和地址等。将数据库的每个属性或数据仓库的每个维看作一个谓词，这样就可以挖掘多维关联规则，如
age（X，“23…33”） occupation （X，“teacher”）
buys （X，“laptop”）
涉及两个以上维或谓词的关联规则称为多维关联规则。
每个谓词不重复出现，称为不重复谓词。具有不重复谓词的关联规则称作维间关联规则
负关联规则、无关规则（dissociation rule)
play basketball not eat cereal [20%, 33.3%]
结构化数据中的关联分析

第四章分类
1.测试数据集的构造：
保持法（holdout）人为确定训练数据集和测试数据集的比例，常用的比例是2:1和1:1
交叉验证法（cross-validation）
自助抽样法（bootstrap）

2.积极方法（eager method）
决策树，贝叶斯
懒惰方法（lazy method）
K近邻
对于一个预测样本，从训练数据集中找到与其最相似的K个样本，利用这K个样本的类别来决定此样本的类别
K由用户指定。相似样本的选择方法取决于样本之间相似度的衡量方法，多种相似度衡量方法的介绍详见第6章
为一个测试样本选取了K个与其距离最小的样本之后，可以利用投票法（voting），统计各个类别的样本个数，将K个类别中占大多数的类别赋予测试样本

3.相似性度量：欧式距离：
给定样本a 和样本b，分别由n个属性A1, A2, …, An描述，两个样本分别表示为a=(xa1, xa2,…, xan)，b=(xb1, xb2,…, xbn)，两个样本之间欧式距离dab

规范化（normalization）
最小-最大值法（min-max method）。假设属性A原来的最大值为max，最小值为min，规范化后的取值范围为[min1,max1]，则对于该属性的任意的一个取值v，规范化后的取值v1可以如下计算：

第六章聚类分析
1.聚类效果分类：
根据簇之间的关系
划分型聚类：属于各个簇的对象之间没有交集，即Ci∩Cj=空集
层次型聚类：簇之间具有包含关系，如Ci 属于 Cj
重叠聚类: 簇之间具有重叠关系，即Ci∩Cj≠空集
根据数据集D与簇之间的关系
完全聚类: C1∪C2∪…∪Ck=D，所有对象都被分配到簇中
部分聚类: C1∪C2∪…∪Ck⊂D
孤立点(outlier)：那些未被分到任一个簇中的对象

2.聚类方法分类：
划分法（Partitioning approach）：
k均值（k-means）、k中心点（k-medoids）等方法。
层次法（Hierarchical approach）：
凝聚层次聚类（agglomerative hierarchical clustering）和分裂层次聚类（divisive hierarchical clustering）
Diana、 Agnes、BIRCH、 ROCK、CAMELEON等。

3.数据类型：

第七章数据预处理
1.数据规范化又称标准化（standardization），通过将属性的取值范围进行统一，避免不同的属性在数据分析的过程中具有不平等的地位
数据清洗：处理数据的缺失、噪音数据的处理以及数据不一致的识别和处理
特征提取：主要是通过属性间的关系，如组合不同的属性得到新的属性。
特征选择：从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。

第八章数据仓库
1.数据仓库最早由美国计算机科学家William H. Inmon于1991年提出，他也因此被称为“数据仓库之父”。他对数据仓库的定义是：“
数据仓库是一个面向主题的（subject-oriented）、
集成的（integrated）、
随时间变化的（time-varying）、
稳定的（non-volatile）
用于支持组织决策的数据集合。”

2.数据集市是一种部门级的数据仓库，它包含的数据量较少，是面向一个部门的分析需求而建立的
提供更快速的数据访问
便于控制信息的访问权限

3.多维数据模型又称维度数据模型（dimensional data model），由维度表（dimension table）和事实表（fact table）两种类型的表构成
将事实表和维度表组合起来
星型模式（star schema）
雪片模式（snowflake schema）
事实星座（fact constellation）

4.多维数据模型的构建过程分为四个步骤：
选择业务过程或主题
选择粒度
确定维度
确定度量

5.数据仓库系统的开模式主要分为两类：自顶向下和自底向上。
自顶向下的方法是先构建企业范围内的数据仓库，然后，根据各个业务过程的分析要求，将数据仓库内的数据调入数据集市进行分析。
自底向上的方法则相反，想根据各个业务过程的分析需求，按照紧迫程度先后构建各个数据集市，然后，集成数据集市中的数据最终构成数据仓库。

6.数据仓库项目的开发可以分为六个阶段：
项目规划
需求分析
概念设计
ETL设计
逻辑和物理设计
实现与培训

第九章在线分析处理
1.在线分析处理（online analytical processing），简称OLAP
由E.F. Codd于1993年提出，是针对特定问题的在线数据访问和分析，通过对信息的多种可能的观察形式进行快速的存取，允许管理决策人员对数据进行深入的多方面的探察。
它是在企业信息系统内积累的数据不断增多，查询要求越来越复杂，分析需求越来越多，操作型信息系统中的查询和报表功能已不能满足要求的背景下产生的

2.OLAP的五个特性：
快速（fast）
分析性能（analysis）
共享性（shared）
多维性（multidimensional）
信息性（information）
简称FASMI

3.OLAP的多维数据分析的主要分析操作类型包括
切片（slice）
切块（dice）
上卷（roll up）
下钻（drill down）
旋转（rotate）

第十一章商务智能应用
1.关系营销（relational marketing）是一种用于管理企业与其利益相关者关系、培养和维护一种长期良好关系的战略

2.用户生命周期中的关键关系营销环节：
客户获取（customer acquisition）
客户保留（customer retention）
交叉/提升销售（cross/up sale）

3.意见挖掘（opinion mining）或者情感分析（sentiment analysis）
是从文本信息中识别、抽取用户对某一对象表达的意见、态度、情绪的技术或应用。
态度（sentiment），又称极性（polarity），通常分为正面（positive）、负面（negative）或中立（neutral）。

4.有关产品评论的意见挖掘相关的概念和主要方法，包括：
特征和意见的抽取
意见极性判断

商务智能基本概念大总结相关推荐

抓包概念大比较：数据报、数据包、分组
抓包概念大比较:数据报.数据包.分组数据报.数据包和分组是常见的三个概念.他们是否一样?如果不一样,他们差别在哪里?下面依次说明这三个词.大学霸IT达人 1.数据报:当应用程序按照协议格式构建好要发 ...
[大数据概念]-- 大数据的技术生态比喻
作者:Xiaoyu Ma 链接:https://www.zhihu.com/question/27974418/answer/38965760 来源:知乎著作权归作者所有.商业转载请联系作者获得授权 ...
计算机视觉基本概念大起底！
计算机视觉及其基本任务什么是计算机视觉计算机视觉(Computer Vision) 计算机视觉与其相关领域机器视觉图像处理模式识别信号处理总结计算机视觉的任务: 处理对象三大经典任务 ...
上海亚商投顾：沪指尾盘快速反弹微幅收跌 6G概念大涨
上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股. 市场情绪三大指数今日震荡调整,临近尾盘集体回升,石油.保险等权重蓝筹走低,上证50盘中跌超1%, ...
2016年商务智能的十大发展趋势
摘要:在过去的2015年中,我们看到了在商务智能领域所发生的重大的转型.越来越多的企业纷纷开辟了利用数据的理念,以便能够从数据中探索和发现更多有洞察价值的信息.甚至有相当一部分的企业已经开始将数据分析 ...
【基础概念大总结】— 网络安全 Java 基础知识大汇总
这一篇,我们介绍一下:Java语言中存在有哪些安全漏洞. 我们在渗透测试中,可以如何利用这些漏洞. 那这一篇,首先全面总结一下JAVA中的基础概念. 上课了~~~上课了~~· 目录 JVM JDK J ...
NGS概念大科普（转）
NGS又称为下一代测序技术,高通量测序技术以高输出量和高解析度为主要特色,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用.缩短测序时间的测序技 ...
涨握在线收评：两市反弹沪指涨0.39% 三季报行情升温国产芯片概念大涨
(文章来源:涨握在线) 以下观点由涨握在线官方唯一指定第三方策略研究部发布,仅供参考:涨握在线不对依赖本报告中的任何意见或观点而导致的投资损失承担任何责任. 周三,受隔夜美股下跌影响,A股三大指数全线 ...
大数据入门--大数据概念,大数据是什么?
大数据是什么? 大数据(Big Data) :指无法在一定的时间范围内,用常规软件工具进行捕捉,管理和处理的数据集合.是需要新的处理模式,才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增 ...
再不入坑就晚了,深度神经网络概念大整理，最简单的神经网络是什么样子？
目录 1.神经网络训练过程 2.基础概念 3.数据预处理手段 4.数据处理库

商务智能基本概念大总结

商务智能基本概念大总结相关推荐

最新文章

热门文章