big data-data mining 学习地图

1、数据挖掘介绍

1.1 数据挖掘概述

1.2 数据挖掘流程

1.3 数据、属性和度量

1.4 数据挖掘开发工具

1.5 数据挖掘学习路径

2、预备知识-数学

2.1 矩阵和线性代数

2.2 概率论和数理统计

2.3 信息熵与基尼系数

2.4 最优化

3、预备知识--python

3.1 python语言基础

3.2 数据采集与爬虫

3.3 数据可视化

4、数据预处理

4.1 数据抽取、转换和加载

4.2 数据清洗

4.3 特征处理

5、特征选择与降维

5.1特征选择

5.2降维

6、有监督学习

6.1 有监督学习的预备知识

6.2 线性回归

6.3 逻辑回归

6.4 knn

6.5 朴素贝吐斯

6.6 svm

6.7决策树

6.8集成算法

7、无监督学习

7.1 无监督学习

7.2 聚类算法

7.3 关联算法

8、模型评估与优化

8.1 模型评估与优化预备知识

8.2 最优化模型

8.3 模型评估与选择

8.4 正则化

9、数据挖掘综合应用

9.1 数据挖掘的流程

9.2 综合应用案例分析

10、spark mlib数据挖掘

spark mlib基础入门

spark mlib基础统计分析

spark mlib特征提取和转换

spark mlib分类和回归

spark mlib聚类和降维

spark mlib关联规划和推荐算法

spark mlib评估矩阵

11、大数据架构和大数据治理

11.1 大数据架构

11.2 大数据治理

12、大数据挖掘

12.1 数据挖掘背景

12.2 银行客户精准画像案例

12.3 提升信息卡安全案例

12.4 城市环境质量分析挖掘案例

数据挖掘概述：

金融

针对商业银行中的零售进行细分，基于零售客户的特征变量（人口特征、资产特征、负债特征、结算特征），计算客户之间的距离。然后按照客户距离的远近，把相似的客户聚集为一类，从而有效的细分客户，把全体客户划分为诸如理财偏好者、基金偏好者、国债偏好者、风险均衡者、渠道偏好者等。

警务

大数据信息技术在公安工作中的应用，为公安工作注入鲜活的血液，迎来了新的发展机遇。随着公安信息化建设进程的加快，大部分公安机关已经逐渐形成了案事件管理系统，警用地理信息系统、视频监控等信息系统，这些信息系统的建设和运用，极大便利了公安工作所涉及的数据分析，数据挖掘，信息研判的处理效率，为公安机关工作提供了强有力的支撑。

数字政府

数字政府是指在现代计算机、网络通信等技术支撑下，政府机构的日常办公、信息收集与发布、公共管理等事务在数字化，网络化的环境下进行的国家行政管理形式。包含多方面的内容，如政府办公自动化，政府实进信息发布、各级政府间的可远程会议，公民随机网络上查询信息，民意调查和社会经济统计，电子选举等等。

数据挖掘概述：

数据挖掘是通过对大量的数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的过程。

与数据挖掘相关联的其他名称

数据库内知识发现（kdd-knowledge discovery in databases ）

数据/模式分析

商业智能

人工智能

大数据存储 ---基础
数据的存储与读取
nosql
云数据库

大数据应用 ---价值
数据管理
统计分析
数据挖掘
并行计算
分布式计算

数据分析：
概念：对数据进行分析，重点是观察数据
分析目的：对历史数据进行统计学上的一些分析
分析过程：侧重于统计学上面的一些方法，经过人们的推理演译得到结论
分析结果：准确的统计量
使用工具：用到成熟的分析工具，比如excel、spss、sas等

数据挖掘：
概念：从大量的数据中，挖掘出未知的，且有价值的信息和知识的过程，重点是从数据中发现知识规则。
分析目的：数据挖掘侧重于机器对未来的预测。
分析过程：侧重于机器进行自学习，直接得出结论。
分析结果：一般是模糊的结果
使用工具：数据挖掘需要有编程基础

联系：都跟数据打交道
知识技能都有很多交叉点
在职业上他们没有明显的界限
数据分析和数据挖掘本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营，改进产品以及帮助企业做更好的决策。
狭义的数据分析和数据挖掘构成广义的数据分析。

数据挖掘是多个领域的融合：
人工智能
数据库
统计学
并行计算
图形学

数据挖掘模式分类：
根据训练数据是否拥有标记信息
监督学习
半监督学习
非监督学习

根据应用解度
分类：对现有的数据进行学习，得到一个目标函数或规划，把每个属性集x映射到一个预先定义的类标号y上。比如分类案例为识别手写数字图像。
回归：回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据。将299个增强（300个决策树）与单个决策树回归进行比较，属于adaboost决策书回归算法。
聚类：将数据对象分组为多个类或者簇，它的目标是：在同簇中的对象之间具有较高的相似度，而不同簇的对象差别较大。查找高密度的核心样本并从中扩展聚类，属于dbscan聚类算法。
神经网络：由众多的神经元可调的连接槡值连接而成，具有大规模并行处理，分布式信息存储，良好的自组织学习能习等特点。神经网络案例为是minst数据集上训练的mlpclassifier中的第一层权重。
预处理：大工程实践中，我们得到数据会存在有缺失值、重复值、单位不统一等问题，在使用之前需要进行数据预处理。右图的预处理案例为未缩放的数据应用pca之后的可视化图进行比较，第一个图中各个特征的数量级相差很大，第二个图中所有特征的数量级大致相同，通过朴素贝叶斯分类器后standardscaler缩放的数据预测精度远大于未缩放的数据。
特征选择：将高维高间的样本通过映射或者变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
特征选择通过交叉选择特征数量，最佳特性数量为3。

数据挖掘误区：
数据挖掘是人们处理商业问题的某些方法，通过适量的数据挖掘来获得有价值的结果，最好的数据挖掘工程师往往是那些熟悉和理解业务的人。
一个平台不会因为数据挖掘就变成金钥匙，反而一个拥有数据挖掘思维的人员才是关键，而且他还必须对业务有深刻的认识，这样才可能从数据导出模式指导业务的改善。

CRISP-DM模型：
crisp-dm（跨行业数据挖掘标准流程）是cross industry standard process -- data mining的缩写，是当今数据挖掘业界通用流行的标准之一，它强调数据挖掘技术在商业中的应用，是用以管理并指导data miner有效，准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。
商业理解
数据理解
数据准备
建立模型
模型评估
模型实施

商业理解（business understanding ）：这一初始阶段集中在商业角度理解项目的目标和要求，然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步设计。具体包括：
确定业务目标：分析项目的背景，从业务视点分析项目的目标和需求，确定业务角度的成功标准。
项目可行性分析：分析拥有的资源，条件和限制，风险估计，成本和效益估计。
确定数据挖掘目标：明确数据挖掘的目标和成功标准，数据挖掘的目标和业务目标是不一样的，前者是指技术，例如生成一棵决策树。
提出项目计划，对整个项目做一个目标，初步估计用到的工具和技术。

数据理解：
数据理解阶段开始于原始数据的收集，然后熟悉数据，标明数据质量问题，探索数据进而对数据初步理解，发觉有趣的子集以形式对隐藏信息的假设，具体地，包括：
收集原始数据：收集本项目所涉及到的数据，如有必要，把数据装入数据处理工具，并作一些初步的数据集成工作，生成相应的报告。
数据描述：对数据做一些大致的描述，例如记录数，属性数等，给出相应报告；
探索数据：对数据做简单的统计分析，例如关健属性的分布等。
检查数据质量：包括数据是否完整，数据是否有错，数据是否有缺失值等。

数据准备（data preparation）
数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动（这些数据集指将要嵌入建模工具中的数据）。数据准备任务可以补实放多次，而且没有任何规定的顺序，这些任务包括表格，记录和属性的选择以及按照建模工具要求，对数据的转换和清洗，具体包括：
数据选择：根据数据挖掘目标和数据质量选择合适的数据，包括表的选择，记录选择和属性选择。
数据清洗：提高选择好的数据的质量，例如去噪音，填充缺失值等
数据创建：在原有数据的基础上生成新的属性或记录
数据合并：利用表连接等方式等方式将几个数据集合并在一起。
数据格式化：把数据转换成适合数据挖掘处理的格式。

建立模型（modeling）
在此阶段，主要是选择和应用各种建模技术，同时对它们的参数进行校准达到最优值。通常对于同一个数据挖掘问题类型，会有多种模型技术。一些技术对数据格式有特殊的要求。因此，常常需要返回到数据准备的阶段。具体包括：
选择建模技术：确定数据挖掘算法和参数，可能会利用多个算法。
测试方案设计：设计某种测试模型的质量和有效性的机制。
模型训练：在准备好的数据集上运行数据挖掘算法，得出一个或多个模型。
模型测试评估：根据测试方案进行测试，从数据挖掘的角度确定数据挖掘目标是否成功。

模型评估（evaluation）
进入项目的这个阶段时，你已经建立了一个模型（或者多个），从数据分析的角度来看，该模型似乎有很高的质量，在模型最后发布前，有一点很重要的更为彻底地评估模型和检查建立模型的各个步骤，从而确保它真正地达到商业目标。此阶段关键目的决定是否存在一些重要的商业问题仍未充分地考虑。
结果评估：从商业角度评估得到模型，甚至实际试用该模型测试其效果；
过程回顾：确定每一个阶段是否有失误。
确定一步工作：根据结果评估和过程回顾得出结论，确定是部署该挖掘模型还是从某个阶段重新开始。

模型实施（deplyment）
模型的创建通常并不是项目的结尾，即使建模的目的是增加对数据的了解，所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。
具体包括：
实施计划：对在业务运作中部署模型作出计划。
监控和维护计划：如何监控模型在实际业务中的使用情况，如何维护该模型，
作出最终报告：项目总结，项目经验和项目结果
项目回顾：回顾项目实施过程，总结经验教训，对数据挖掘运行效果做一个预测。

数据属性、度量
数据对象和属性类别
现实中的数据一般有噪声、数量庞大并且可能来自不同数据源。
数据集由数据对象组成，一个数据对象代表一个实体。
数据对象：又称样本、实例、数据点或对象
数据对象以数据元组形式存放在数据库中，数据库的行对应数据对象，列对应于属性
属性是一个数据字段、表示数据对象的特征，在文献中，属性、维度（dimenison）、特征(feature)、变量(variance)之间可以互相使用。
维：一般在数据仓库中
特征：一般用在机器学习中
变量，一般用在统计学中
一个属性的类型由该属性可能具有的值的集合决定的，可以是标称的，二元的，序数的，数值的。

标称属性：
特点：
标称属性的值是一些符号或事物的名称
每个值代表某种类别，编码，状态，因此标称属性又被看做是分类
标称属性的值不具有意义的序，而且不是定量的。（也就是说，给定一个对象集、找出这种属性的均值没有意义）。

二元属性：
特点：
二元属性是一种标称属性，只有两个状态0和1其中0通常表示该属性不出现，1表现出现。
二元属性又称布尔属性，如果两种状态对应是true和false .

序数属性：
特点：
属性对应的可能的值具有意义的序或秩评定，但是相继之间差是未知的，（也就是对应的值有先后次序）
其它：
例如drink_size 表示杯的大小：大中小，这些值的意义的先后次序。
序数属性可以通过把数值量的值或分成有限个有序类别（如，0-很满意、1-不满意、2-中性、3-满意、4、很满意）把数据离散化而得到。
可以用众数和中位数表示序属性的中性趋势，但不能定义均值。
标称，二元和序数属性都是定性的，即它们描述的对象的特征，而不给出实际大小或数值。

数值属性
物点
是定量的可度量的量，用整数或实数表示
可以是区间标度或比率标度的。
区间标度属性
用相等的单位尽度度量
区间属性的值
比例标度属性
具有固定零点的数值属性。

离散属性和连续属性
机器学习中的分类算法通常需要把属性分为离散的和连续的。
离散属性：
具有有限个或无限个数，可以及用整数表示。
连续属性：
如果属性不是离散的，则它是连续的。

数据集的类型：
数据集：数据集是指很多数据对象组成的集合，数据对象有时叫作记录、点、向量、模式、事件、案例、样本、观测或实体。
训练集：用来训练模型
测试集：用来评估模型或预测数据。
数据集的一般特征：维度、稀疏性、分辨率。

数据集的维度：
维度：一组数组的组织形式（一维、二维、三维等）
一维数据由对等关系的有序或无序数据构成，采用线性试组织。
二维数据由多个一维数据构成，是一维数据的组合形式。比如说表格就是二维数据的一种。
多维数据由一维和二维数据在新维度上扩展形式，比如说加上时间维度。
高维数据利用最简单的二元关系展示数据间的复杂结构，比如说分健值对。

数据集的稀疏性：
在矩阵中，如果数值为零的元素远大于非零元素的个数，且非零元素分布没有规律时，这样的矩阵被称为稀疏矩阵；如果非零元素数据占据绝大数时，这样的矩阵称为稠密矩阵
稀疏矩阵在工程应用中经常被使用，尤其在通信编码和机器学习中。若编码矩阵或特征表达矩阵是稀疏矩阵，其计算速度会大大得升，对于机器而方，稀疏矩阵应用非常广，比如在数据特征表示，自然语言处理等领域。

数据集分辨率：
数字图像就是能够在计算机上显示和处理图像，自然界中的图像都是模拟量，将模拟图像经过离散化之后，得到用数字表示图像，图像的数字化包括采样和量化两个过程，采样是指将空间上连续的图像转换成离散的采样点（即像素）集的操作，即空间坐标的离散化；把采样后所得到各像素的灰度值从模拟量到离散量的转化称为图像的灰度的量化，即灰度的离散化。
空间分辨率越高，图像质量越好，空间分辨越低，图像质量越差，会出现棋盘模式，灰度分辨率越高，图像质量越好，灰度分辨越低，图像质量越差。

数据汇总统计：
汇总统计是量化，用单个数或数的小集合捕获可能很大的值集的各个特征。
中心趋势度量：均值、中位数和众数
度量数据散布：极差、四分位数、方差、标准差和四分位数极差。

均值、中位数和众数：
均值：在一组数据中所有数据之和再除以这组数据的个数。
加权算术均值：简称加权平均数，在对被测定的定量进行多组测定时，考虑每组测定结果的权后计算出的算术平均值，是全部权值之和除以总权。
截尾均值：丢弃高低极端值后的均值。
中位数，有序数据的中间值。
众数：众数是样本观测在频数分布表中的频数最多的哪一组的组中值。
中列数：最大和最小值的平均数。
正倾斜：众数出现小于中位数的值上。
负倾斜：从数出现大于中位数的值上。

度量数据散布：
极差、四分位数、方差、标准差和四分位数极差。
极差：最大数和最小数之差
分位数，把数据划分成基本大小相等的连贯集合。
四分数：也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等分，处于三个分割点位置的数值。
百分位数：如果一组数据大小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。
第一个四分位数：Q1，第25个百分位数。
第三个四分位数：Q3，第75个百分位数。
四分位数极差IQR:Q3-Q1

数据挖掘工具：
华为 mls
python
spark mlib
rapid miner
ibm spss modeler
oracle data mining

数据挖掘