大数据基础概念（三）

数据挖掘模块

作为一个跨学科的计算机科学分支，数据挖掘是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程，属于非传统的数据处理。相对于传统ETL数据处理，数据挖掘更侧重于知识发现，其计算和规则也更加复杂。大数据分析的理论核心，其本质是一组根据算法事先定义好的数学公式，将收集到的数据作为参数变量带入其中，从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析，挖掘出以前未知的两者间的联系，并利用这种联系提升了商品的销量。常用的数据挖掘软件：AnalysisService、KNIME、KXENAnalyticFramework、MicrosoftSQLServer、OracleDataMining、Python、R语言、RapidMiner、SAS、SPSS、Weka等。

“数据分析”与“数据挖掘”

一、数据分析（狭义）

（1）定义：简单来说，数据分析就是对数据进行分析。专业的说法，数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

（2）作用：它主要实现三大作用：现状分析、原因分析、预测分析（定量）。数据分析的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论。

（3）方法：主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。

（4）结果：数据分析一般都是得到一个指标统计量结果，如总和、平均值等，这些指标数据都需要与业务结合进行解读，才能发挥出数据的价值与作用。

二、数据挖掘

（1）定义：数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、且有价值的信息和知识的过程。

（2）作用：数据挖掘主要侧重解决四类问题：分类、聚类、关联和预测（定量、定性），数据挖掘的重点在寻找未知的模式与规律；如我们常说的数据挖掘案例：啤酒与尿布、安全套与巧克力等，这就是事先未知的，但又是非常有价值的信息；

（3）方法：主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘；

（4）结果：输出模型或规则，并且可相应得到模型得分或标签，模型得分如流失概率值、总和得分、相似度、预测值等，标签如高中低价值用户、流失与非流失、信用优良中差等。

综合起来，数据分析（狭义）与数据挖掘的本质都是一样的，都是从数据里面发现关于业务的知识（有价值的信息），从而帮助业务运营、改进产品以及帮助企业做更好的决策。所以数据分析（狭义）与数据挖掘构成广义的数据分析。

二者有以下几点区别

1.对计算机编程能力的要求不同

一个对编程、敲代码一窍不通的人完全可以成为一名优秀的数据分析师。数据分析很多时候用到的都是诸如Excel、SPSS、SAS等成型的分析工具，这些工具已经可以满足大多数数据分析的要求。

而数据挖掘则需要一定的编程基础。在做数据仓库组建、分析系统开发、挖掘算法设计等工作时，常常需要工作人员亲力而为地从ETL开始处理原始数据，因此对计算机水平有较高要求，并且更偏技术方向。目前从事数据挖掘相关工作的人大多都隶属于计算机系。

2. 侧重于解决的问题不同

数据分析主要侧重点在于通过观察数据来对历史数据进行统计学上的分析；而数据挖掘则是通过从数据中发现“知识规则”来对未来的某些可能性做出预测，更注重数据间的内在联系。

3. 对专业知识的要求不同

一名数据分析师，必须要对所从事的行业有较深入的了解，并且需要将数据与自身的业务紧密地结合起来。当然，除了需要了解本行业之外，还应当懂得统计学、营销学、社会学、心理学、经济学等方面的知识。假若能对数据挖掘等相关知识有所了解会对工作更有帮助。

而想要成为优秀的数据挖掘工程师，则需要拥有良好的统计学知识、数学能力、编程能力，熟悉数据库技术、数据挖掘的各种算法，并且要能够根据不同的业务需求，建立相应的数据模型并将模型与实际相结合，甚至需要对已有的模型和算法进行优化或者开发新的算法模型。

相比而言，数据挖掘在广度上稍逊于数据分析，但在深度上，数据挖掘则更胜一筹。

可视化分析（Analytic Visualization）

普通消费者常常可以见到的一种大数据分析结果的表现形式，比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表，使其能够更加容易的被普通消费者所接受和理解。

预测性分析能力（Predictive Analytic Capabilities）

大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律，建立起科学的事件模型，通过将新的数据带入模型，就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。

ETL模块

对于传统ETL，大部分ETL软件都可以胜任；但是对于大数据下的ETL，ETL工具对其支持非常有限。Informatica（信息学）为大数据下的ETL开发推出InformaticaBigData版本，它将之前的Mapping翻译为HQL脚本，从而在Hive引擎上执行。IBM的DataStage则通过相应BalancedOptimizer实现Mapping到Netezza、Oracle和DB2等专用数据库的脚本翻译，以利用不同的更为强大的数据处理引擎。TalendETL则把Mapping翻译为SparkSQL，从而利用Spark引擎对数据进行处理。

常用的ETL软件：IBMDataStageandQualityStage、InformaticaPowerCenter、MicrosoftIntegrationService、OracleOWB、PentahoDataIntegration（Kettle）、TalendETL等，主要表现为通过拖拽和配置的方式可视化、免编码地完成ETL工作。脚本包括标准AWK、HQL、Java、Pig、PL/SQL、Python、Ruby、SparkSQL、SQL等，主要表现为通过特定的语法进行编码实现ETL工作。

调度模块

可以对企业内跨平台和跨主机的软硬件资源进行统一调度。这些资源包括ETL主机、数据交换主机、报表主机、数据库主机、DQ主机、邮件服务器和打印机等。常用的调度软件：ApacheOozie、AsisinfoScheduleServer、AutoSys、BMCControl-M、成都塔斯克TaskCtl、JobServer、LinkedinAzkaban、MoiaControl等。这些调度软件往往提供GUI和CLI的配置方式，但是在智能化配置方面支持极其有限。

数据交换模块

数据交换模块，包括①数据导入②数据导出。数据导入包括①文件日志接入②数据库日志接入③关系型数据库接入④应用程序接入等。常用的数据交换软件：文件日志接入可采用Flume等；数据库日志接入则往往需要开发特定的插件来读取MySQL、Oracle和SQLServer等的数据库日志或变更表；关系型数据库和NoSQL数据库接入则使用Apache Sqoop、大众点评wormhole、TaobaoDataX等；应用程序接入则通过应用程序对外接口进行接入。

报表模块

报表工具的学习成本和开发难度比起手工编写页面来说，无疑更低，而且，它的开发周期和项目风险也得到了有效的控制。常用的报表软件：BusinessObject、CrystalReports、FineReport、IBMCognos、JasperReport、MicrosoftReportService、MicroStrategy、Pentaho、Tableau等。这些报表软件多数都提供了列表、交叉表、图表、地图和仪表板的能力。

监控模块

监控模块，可以对系统硬件（交换机、路由器和主机等的电力、通信、磁盘、内存、CPU等）、系统软件（Web服务器、中间件服务器、数据库服务器和缓存服务器等的资源、连接数和负载等）和数据（数据的一致性、稳定性和可靠性等）进行实时监控，发现问题及时告警甚至按预设方案自动进行处理。常用的监控软件：Argus、Cacti、Collectd、Ganglia、Monit、Munin、Nagios、Observium、Zabbix、Zenoss等。

语义引擎（Semantic Engines）

机器学习的成果之一。过去，计算机对用户输入内容的理解仅仅停留在字符阶段，不能很好的理解输入内容的意思，因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析，让计算机从中自我学习，可以使计算机能够尽量精确的了解用户输入内容的意思，从而把握住用户的需求，提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。

DQ（Data Quality Management：数据质量管理）模块

DQ模块，主要对数据质量进行控制，包括源数据的质量检查、数据清洗、数据融合和数据监控等，贯穿数据处理的整个生命周期。尽管DQ模块非常重要，但是目前好些数据处理项目都没有专门的DQ模块，这些功能以脚本形式零散分布于不同的作业中。从大量复杂数据中，剔除无效数据，挑选出真实有效数据。常用的DQ软件：AggregateProfilier、DataCleaner、IBMQualityStage、InformaticaDataQuality、InformaticaMasterDataManagement、StudioforDataQuality、TalendOpen等。

资产权限模块

资产权限模块，能够统一对一些无形资产（企业的各种数据库表、视图、ETL作业、报表、邮件等）进行权限管控，保障信息安全和共享。该模块完整实现的工作量还是比较大的，多数企业都会借助不同软件自带的权限管理能力，形成分散的资产权限模块。常用的资产权限软件：并没有完全开箱即用的资产权限模块。

ETL概念解析

英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。（数据抽取->清洗->转换->装载）

信息是现代企业的重要资源，是企业运用科学管理、决策分析的基础。目前，大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统，用来记录事务处理的各种相关数据。据统计，数据量每2～3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占在总数据量的2%～4%左右。因此，企业仍然没有最大化地利用已存在的数据资源，以至于浪费了更多的时间和资金，也失去制定关键商业决策的最佳契机。于是，企业如何通过各种技术手段，并把数据转换为信息、知识，已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段（最大化分析数据挖掘数据价值）。

ETL工具的典型代表

Informatica、Datastage、OWB、微软DTS、Beeload、Kettle等等，开源的eclipse的ETL插件：cloveretl。

使用ETL常见问题

ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多，由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致；业务系统不同时期业务过程有变化；旧系统模块在运营、人事、财务、办公系统等相关信息的不一致；遗留系统和新业务、管理系统数据集成不完备带来的不一致性。

ETL转换的过程：（实现ETL前提）

1）空值处理：可捕获字段空值，进行加载或替换为其他含义数据，并可根据字段空值实现分流加载到不同目标库。
2）规范化数据格式：可实现字段格式约束定义，对于数据源中时间、数值、字符等数据，可自定义加载格式。
3）拆分数据：依据业务需求对字段可进行分解。例，主叫号861082585313-8148，可进行区域码和电话号码分解。
4）验证数据正确性：可利用Lookup及拆分功能进行数据验证。例如，主叫号861082585313-8148，进行区域码和电话号码分解
后，可利用Lookup返回主叫网关或交换机记载的主叫地区，进行数据验证。
5）数据替换：对于因业务因素，可实现无效数据、缺失数据的替换。
6）Lookup：查获丢失数据 Lookup实现子查询，并返回用其他手段获取的缺失字段，保证字段完整性。
7）建立ETL过程的主外键约束：对无依赖性的非法数据，可替换或导出到错误数据文件中，保证主键唯一记录的加载。

ETL架构优势

1）ETL可以分担数据库系统的负载（采用单独的硬件服务器）。
2）ETL相对于EL-T架构可以实现更为复杂的数据转化逻辑。
3）ETL与底层的数据库数据存储无关。
4）ELT主要通过数据库引擎来实现系统的可扩展性（尤其是当数据加工过程在晚上时，可以充分利用数据库引擎的资源）。
5）ELT可以保持所有的数据始终在数据库当中，避免数据的加载和导出，从而保证效率，提高系统的可监控性。
6）ELT可以根据数据的分布情况进行并行处理优化，并可以利用数据库的固有功能优化磁盘I/O。
7）ELT的可扩展性取决于数据库引擎和其硬件服务器的可扩展性。
8）通过对相关数据库进行性能调优，ETL过程获得3到4倍的效率提升一般不是特别困难。

实施ETL过程注意点

1）如果条件允许，可利用数据中转区对运营数据进行预处理，保证集成与加载的高效性。
2）如果ETL的过程是主动“拉取”，而不是从内部“推送”，其可控性将大为增强。
3）ETL之前应制定流程化的配置管理和标准协议。
4）关键数据标准至关重要。ETL面临的最大挑战是当接收数据时其各源数据的异构性和低质量。以电信为例，A系统按照统计代码管理数据，B系统按照账目数字管理，C系统按照语音ID管理。当ETL需要对这三个系统进行集成以获得对客户的全面视角时，这一过程需要复杂的匹配规则、名称/地址正常化与标准化。而ETL在处理过程中会定义一个关键数据标准，并在此基础上，制定相应的数据接口标准。
5）将数据加载到个体数据集时。在没有一个集中化的数据库情况下，拥有数据模板是非常重要的。它们是标准化的接口，每一个个体或者部门数据集市都能够填充。确保你的ETL工具有这样的功能，能够扩展到一个数据仓库平台，将信息从一个数据集市流动到下一个。

大数据平台创建大体步骤

1.硬件平台

大数据分析平台需要进行PB级数据的读取、写入，需要进行数据挖掘模型的大规模运算，需要进行预测结果的发布，对底层基础硬件的磁盘IO和运算速度要求很高，同时需要满足分布式、动态扩展的要求，因此采用配置为2路8核CPU、128GB内存、千兆网卡的x86架构 PC Server 服务器比较合适。具体如何控制节点，可通过虚拟化技术或容器技术完成，或者直接租用云服务器。

2.软件平台

①操作系统

一般安装的是linux系统，例如：Red Hat、Ubunt、CentoOS等。以下是各linux系统之间对比：

一般使用开源版的Redhat（红帽）系统--CentOS作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID和挂载数据存储节点的时，需要按情况配置。例如，可以选择给HDFS的namenode做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。

a.Ubuntu系统

Ubuntu有亮丽的用户界面，完善的包管理系统，强大的软件源支持，丰富的技术社区，并且Ubuntu对计算机硬件的支持好于centos和debian，兼容性强，Ubuntu应用非常多，但对于服务器系统来说，个人感觉并不需要太多的各种应用程序，需要的是稳定，操作方便，维护简单的系统。如果你需要在服务器端使用图形界面，ubuntu是一个不错的选择，你需要注意的是，图形界面占用的内存非常大，而内存越大的vps价格也越高。（vps：虚拟专用服务器，将一台服务器分割成多个虚拟专享服务器的优质服务。）

总结Ubuntu系统：①界面化的用户操作体系②包管理完善③对软件源、技术、硬件上兼容性强④因为界面化的体系，导致占内存大。随着技术的发展，ubuntu系统的稳定性也在逐步改善。

b.CentOS系统

商业公司部署在生产环境上的服务器都是使用的CentOS系统,CentOS简约，命令行下的人性化做得比较好，稳定，有着强大的英文文档与开发社区的支持。CentOS去除很多与服务器功能无关的应用，系统简单但非常稳定，命令行操作可以方便管理系统和应用，并且有帮助文档和社区的支持。

总结CentOS系统：①简约，命令行人性化②稳定③有强大的英文文档和开发社区支持，帮助文档多。

c.Debian系统

一般来说Debian作为适合于服务器的操作系统，它比Ubuntu要稳定得多。可以说稳定得无与伦比了。debian整个系统，只要应用层面不出现逻辑缺陷，基本上固若金汤，是个常年不需要重启的系统（当然，这是夸张了点，但并没有夸大其稳定性）。debian整个系统基础核心非常小，不仅稳定，而且占用硬盘空间小，占用内存小。128M的VPS即可以流畅运行Debian，而CentOS则会略显吃力。但是由于Debian的发展路线，使它的帮助文档相对于CentOS略少，技术资料也少一些。Debian也非常适合做服务器操作系统，与Ubuntu比较，它没有太多的花哨，稳定压倒一切，对于服务器系统来说是一条不变的真理，debian这个linux系统，底层非常稳定，内核和内存的占用都非常小，在小内存的VPS就可以流畅运行Debian，比如128m的内存，但debian的帮助文档和技术资料比较少。对于小内存，首选debian，对于非常熟悉linux系统的vps高手，首选debian。

总结Debian系统：①稳定、相当稳定、太稳定②占用内存空间小③帮主文档少④适合Linux高手使用

②分布式计算平台/组件安装

国内外的分布式系统的大多使用的是Hadoop系列开源系统，至于hadoop的一些缺点就仁者见仁智者见智了。Hadoop的核心是HDFS，一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。开源组件的优点：

1）使用者多，很多BUG在网上可以找到答案（这往往是开发中最耗时的地方）。
2）开源组件一般免费，学习和维护相对方便。
3）开源组件一般会持续更新，提供必要的更新服务（当然还需要手动做更新操作）。
4）因为代码开源，若出bug可自由对源码作修改维护。

各组件大概概念：分布式集群的资源管理器一般用Yarn（全名是Yet Another Resource Negotiator），常用的分布式数据数据仓库有Hive、Hbase。Hive可以用SQL查询但效率略低，Hbase可以快速近实时读取行。外部数据库导入导出需要用到Sqoop。Sqoop将数据从Oracle、MySQL等传统数据库导入Hive或Hbase。Zookeeper是提供数据同步服务，Yarn和Hbase需要它的支持。☆Impala☆是对hive的一个补充，可以实现高效的SQL查询。ElasticSearch是一个分布式的搜索引擎。针对分析，Spark是个不错选择，此处忽略其他，如基础的MapReduce 和 Flink。Spark在core上面有ML lib，SparkStreaming、Spark QL和GraphX等库，可以满足几乎所有常见数据分析需求。值得一提的是，上面提到的组件，如何将其有机结合起来，完成某个任务，不是一个简单的工作，会非常耗时。

高性能高可用分布式数据采集系统：HAProxy+Keepalived+Flume-NG

海量数据存储及分布式计算采用：Hadoop

数据清洗采用：Hive----PB级数据预处理、加工、整合服务。

数据挖掘引擎采用：Spark R--提供了 Spark中弹性分布式数据集的 API，用户可以在集群上通过 R shell 交互性的运行 job。

数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

预测结果保存：HBase----提供海量数据的高效发布。

数据导入：数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台，一般主要导入到Hive，也可将数据导入到Hbase。

数据分析：数据分析一般包括两个阶段：数据预处理和数据建模分析。

1）数据预处理：为后面的建模分析做准备，主要工作是从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala。

2）数据建模分析：针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等，都已经在ML lib里面，调用比较方便。

大数据挖掘模型开发：

数据采集存储模块：DPI、业务侧、网元侧数据通过文件接口方式发送到 Flume-NG 集群，Flume-NG 通过 memory 数据传输方式，将接收到的数据实时的通过 hdfs 方式汇聚到大数据分析平台。数据清洗模块：通过编写 HQL 脚本对数据进行清洗、转换，形成特征宽表。数据挖掘模块：基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法，进行模型开发、模型评估、模型应用。分析结果发布：模型应用的结果集存储在HBase中，首先需要在HBase中新建存储结果集的HBase表，通过Map Reduce生成HFile文件，然后通过 Bulk Load 方式入库。数据的调用通过 HBase API实现，数据的展现通过ECharts技术实现。（可以关注一下ETHINK数据智能分析平台）

结果可视化及输出API：

可视化一般式对结果或部分原始数据做展示。一般有两种情况，行数据展示，和列查找展示。在这里，要基于大数据平台做展示，会需要用到ElasticSearch和Hbase。Hbase提供快速ms级别的行查找。 ElasticSearch可以实现列索引，提供快速列查找。

3.平台搭建遇到主要问题

稳定性 Stability

理论上来说，稳定性是分布式系统最大的优势，因为它可以通过多台机器做数据及程序运行备份以确保系统稳定。但也由于大数据平台部署于多台机器上，配置不合适，也可能成为最大的问题。曾经遇到的一个问题是Hbase经常挂掉，主要原因是采购的硬盘质量较差。硬盘损坏有时会到导致Hbase同步出现问题，因而导致Hbase服务停止。由于硬盘质量较差，隔三差五会出现服务停止现象，耗费大量时间。结论：大数据平台相对于超算确实廉价，但是配置还是必须高于家用电脑的。

可扩展性 Scalability

如何快速扩展已有大数据平台，在其基础上扩充新的机器是云计算等领域应用的关键问题。在实际2B的应用中，有时需要增减机器来满足新的需求。如何在保留原有功能的情况下，快速扩充平台是实际应用中的常见问题。上述是自己项目实践的总结。整个平台搭建过程耗时耗力，非一两个人可以完成。一个小团队要真正做到这些也需要耗费很长时间。

总结

目前国内和国际上已有多家公司提供大数据平台搭建服务，国外有名的公司有Cloudera，Hortonworks，MapR等，国内也有华为、阿里、腾讯、明略数据、星环等。另外有些公司如明略数据等还提供一体化的解决方案，寻求这些公司合作对于入门级的大数据企业或没有大数据分析能力的企业来说是最好的解决途径。

理解BI

BI（Business Intelligence）即商务智能，它是一套完整的解决方案，用来将企业中现有的数据进行有效的整合，快速准确的提供报表并提出决策依据，帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库（或数据集市）、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。而这些数据可能来自企业的CRM、SCM等业务系统。商业智能能够辅助的业务经营决策，既可以是操作层的，也可以是战术层和战略层的决策。为了将数据转化为知识，需要利用数据仓库、联机分析处理（OLAP）工具和数据挖掘等技术。因此，从技术层面上讲，商业智能不是什么新技术，它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

把商业智能看成一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理，以保证数据的正确性，然后经过抽取（Extraction）、转换（Transformation）和装载（Load），即ETL过程，合并到一个企业级的数据仓库里，从而得到企业数据的一个全局视图，在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理（这时信息变为辅助决策的知识），最后将知识呈现给管理者，为管理者的决策过程提供数据支持。

BI与大数据的关系

搭建大数据平台离不开BI。在大数据之前，BI就已经存在很久了，简单把大数据等同于BI，明显是不恰当的。但两者又是紧密关联的，相辅相成的。BI是达成业务管理的应用工具，没有BI，大数据就没有了价值转化的工具，就无法把数据的价值呈现给用户，也就无法有效地支撑企业经营管理决策；大数据则是基础，没有大数据，BI就失去了存在的基础，没有办法快速、实时、高效地处理数据，支撑应用。所以，数据的价值发挥，大数据平台的建设，必然是囊括了大数据处理与BI应用分析建设的。

总结：大数据提供技术上支持和理念，BI提供业务上管理把控。