2015年《大数据》高被引论文Top10文章展示

【编者按】本刊将把2015年《大数据》高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2,刊登在2015年第4期。引用格式如下:

李涛, 曾春秋, 周武柏, 等. 大数据时代的数据挖掘——从应用的角度看大数据挖掘[J]. 大数据, 2015041.

LI T, ZENG C Q, ZHOU W B, et al. Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.

李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2

1. 南京邮电大学计算机学院 南京 210023;2. 美国佛罗里达国际大学 迈阿密 33199;3. 厦门大学自动化系 厦门 361005

摘要:介绍了大数据时代数据挖掘的特点、任务及难点,分析了大数据挖掘的核心架构,提出大数据的核心和本质,即应用、算法、数据和平台4个要素的有机结合。在此基础上介绍了本团队研究设计的大数据挖掘系统FIU-Miner。该系统是一个用户友好并支持在分布式环境中进行高效率计算和算法快速集成的数据挖掘系统平台,使得数据分析人员能够快速有效地进行各类数据挖掘任务。最后,介绍了基于FIU-Miner的3个典型的成功应用案例:高端制造业数据挖掘、空间数据挖掘和商务智能数据挖掘。

关键词:大数据;数据挖掘;FIU-Miner;高端制造业;空间数据挖掘;商务智能

doi: 10.11959/j.issn.2096-0271.2015041

Data mining in the era of big data: from the application perspective

LI Tao1,2, ZENG Chunqiu1,2, ZHOU Wubai1,2, ZHOU Qifeng3, ZHENG Li1,2

1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China

2. School of Computer Science, Florida International University, Miami 33199, USA

3. Department of Automation, Xiamen University, Xiamen 361005, China

Abstract: The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.

Key words: big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence

1   对大数据的理解和认识

大数据(big data)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。

1.1  大数据的特点“4V+4V”

从数据的表现形式看,业界普遍认为大数据具有如下的“4V”特点[1]

● volume(大量):数据体量巨大,从TB级别跃升到PB级别。

● variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。

● velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术的本质上的不同。

● value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。

上述“4V”特点描述了大数据与以往部分抽样的“小数据”的主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点。

● variable(变化性):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景。

● veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。

● volatility(波动性):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。

● visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。

1.2   对大数据的理解

国内外不同的专家和学者对大数据有不同的理解,中国科学院计算技术研究所李国杰院士认为:大数据就是“海量数据” 加“复杂数据类型”[2]。维基百科对大数据的定义是:“大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存贮、搜索、分享、分析、可视化的数据集合”。 Gartner咨询公司给出的定义是:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。而互联网数据中心将大数据定义为:“为更经济地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术”。

结合上述大数据的“8V”特征,笔者认为大数据的核心和本质是应用、算法、数据和平台4个要素的有机结合,如图1所示。大数据是应用驱动的,大数据来源于实践,海量数据产生于实际应用中。

图1  大数据架构

数据挖掘源于实践中的实际应用需求,用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息用到实践中去,从而提供量化、合理、可行、能够产生巨大价值的信息。另外,挖掘大数据所蕴含的有用信息,需要设计和开发相应的数据挖掘和机器学习算法。算法的设计和开发要以具体的应用数据为驱动,同时也要在实际问题中得到应用和验证,而算法的实现与应用需要高效的处理平台。高效的处理平台需要有效地分析海量的数据及对多源数据进行集成, 同时有力支持数据挖掘算法以及数据可视化的执行,并对数据分析的流程进行规范。总而言之,这个应用、算法、数据和平台相结合的思想是对上述大数据的理解和认识的一个综合与凝练,体现了大数据的本质和核心。建立在此架构上的大数据挖掘,能够有效处理大数据的复杂特征,挖掘大数据的价值。

本文在此框架下,从应用的角度探讨了大数据时代的数据挖掘的机遇与挑战, 介绍了研究团队开发的大数据挖掘平台FIU-Miner以及成功应用该平台实现的高端制造业数据挖掘、空间数据挖掘和商务智能3个大型、复杂数据挖掘案例。

2 大数据时代的数据挖掘

2.1  数据挖掘

在大数据时代,数据的产生和收集是基础,数据挖掘是关键。数据挖掘是大数据中最关键也最有价值的工作。通常,数据挖掘或知识发现泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。数据挖据可以用以下4个特性概括[3]

(1)应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践。

(2)工程性:数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。

(3)集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。

(4)交叉性:数据挖掘是一个交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时,一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。

具体而言,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining) 和 Web 挖掘(Web mining),再到社交媒体挖掘(social media mining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能, 而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,2 0 世纪9 0 年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪9 0年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classification based on association),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspace clustering)(特征抽取和聚类的结合)和图分类(graph classification) (图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。

2.2  从数据挖掘应用的角度看大数据

大数据是现象,核心是要挖掘数据的价值。结合数据挖掘的各种特性,尤其是其应用性,从应用业务的角度对大数据提出如下两点的认识[3]

首先,大数据是“一把手工程”。在一个企业里,大数据通常涉及多个业务部门,业务逻辑复杂。一方面,要对大数据进行收集和整合,需要业务部门的配合和沟通以及业务人员的大力参与,这些需要企业决策人员的重视和认可,提供必要的资源调配和支持。另一方面,要对数据挖掘的结果进行验证和运用,更离不开相关人员的决策。数据挖掘的结果大多是相关关系,而不是因果关系,这些结果还可能有不确定性。另外,有时候数据挖掘的结果与企业运作的常识不一致,甚至相悖。所以,如何看待这些可能的不确定性和反常识的分析结论,充分利用好数据挖掘结果,必然离不开决策者的远见卓识。

其次,大数据需要数据导入、整合和预处理。当面对来自不同数据源的大量复杂数据时,具体业务逻辑复杂与数据之间的关系琐碎直接导致企业的业务流程和数据流程很难理解。因此,企业在实施大数据时可能并不清楚要挖掘和发现什么,对数据挖掘到底能帮助企业做什么并没有直观和清楚的认识。所以,很多时候都不可能先把数据事先规划好和准备好,这样在具体的数据挖掘中,就需要在数据的导入、整合和预处理上有很大的灵活性,只有通过业务人员和数据挖掘工程师的配合,不断尝试,才能有效地将企业的业务需求与数据挖掘的功能联系起来。

2.3   大数据时代应用数据挖掘的挑战

大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘技术对数据进行分析。在应用领域中,如医疗保健、高端制造、金融等,一个典型的数据挖掘任务往往需要复杂的子任务配置,整合多种不同类型的挖掘算法以及在分布式计算环境中高效运行。因此,在大数据时代进行数据挖掘应用的一个当务之急是要开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。

现有的数据挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用户进行分析。然而,这些工具并不适合进行大规模的数据分析。同时使用这些工具时,用户很难添加新的算法程序。流行的数据挖掘算法库(如Mahout[5]、MLC++和MILK)提供了大量的数据挖掘算法。但是,这些算法库需要有高级编程技能才能在一个具体的数据挖掘任务中进行任务配置和算法集成。最近出现的一些集成的数据挖掘产品(如Radoop[6]和BC-PDM[7])通过提供友好的用户界面来快速配置数据挖掘任务。然而,这些产品是基于Hadoop框架的,对非Hadoop算法程序的支持非常有限。此外,这些产品并没有明确地解决在多用户和多任务情况下的资源分配问题。

为了解决现有工具和产品在大数据挖掘中的局限性,开发了一个新的平台——FIU-Miner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一个用户友好并支持在分布式环境中进行高效率计算和快速集成的数据挖掘系统,该平台支持数据分析人员快速、有效地进行数据挖掘任务。

3  大数据挖掘系统FIU-Miner的研究设计

3.1  FIU-Miner平台介绍

与现有数据挖掘平台相比,FIU-Miner提供了一组新的功能,能够帮助数据分析人员方便并有效地开展各项复杂的数据挖掘任务。

具体而言,FIU-Miner 具有以下突出的优点。

(1)用户友好、人性化、快速的数据挖掘任务配置:基于“软件即服务”这一模式,FIU-Miner隐藏了与数据分析任务无关的低端细节。通过FIU-Miner提供的人性化用户界面,用户可以通过将现有算法直接组装成工作流,轻松完成一个复杂数据挖掘问题的任务配置,而不需要编写任何代码。

(2)灵活的多语言程序集成:FIU-Miner允许用户将目前最先进的数据挖掘算法直接导入系统算法库中,以此对分析工具集合进行扩充和管理。同时,由于FIU-Miner 能够正确地将任务分配到有合适运行环境的计算节点上,所以对这些导入的算法没有实现语言的限制。

(3)异构环境中有效的资源管理: FIU-Miner支持在异构的计算环境中(包括图形工作站、单个计算机和服务器等)运行数据挖掘任务。FIU-Miner综合考虑各种因素(包括算法实现、服务器负载平衡和数据位置)来优化计算资源的利用率。

3.2  FIU-Miner系统架构

FIU-Miner的系统架构如图2所示。该系统分为4层:user interface(用户接口层)、task and system management(任务与系统管理层)、abstracted resources (抽象资源层)和heterogeneous physical resource(异构物理资源层)。这种分层架构充分考虑了海量数据的分布式存储、不同数据挖掘算法的集成、多种分析任务的配置以及系统和用户的交互功能。

图2  FIU-Miner 系统架构

3.2.1 用户接口层

为了最大限度地提高系统的兼容性, 用户接口层是完全用HTML 5开发的Web 应用程序。如图3所示,用户接口层有如下3个功能模块。

(a)任务配置和执行

(b)程序注册模块

(c)系统监控模块

图 3  用户接口层功能模块

(1)任务配置和执行(task configuration and execution)

该模块支持面向工作流的数据挖掘任务配置。一个数据挖掘任务的工作流可以被表示为一个有向图,其中图的节点表示特定的算法,图的边表示算法中的数据相关性。在FIU-Miner 中,一个工作流程可通过图形用户界面来快速配置,而不需要编程。此外,用户可以设置数据挖掘任务的执行计划,包括程序的定时、循环、顺序等执行方式。

(2)程序注册(program registration)

该模块可以让用户轻松地导入外部数据挖掘算法,充实FIU-Miner的算法库。如果要导入外部程序,用户需要上传可执行文件,提供详细的描述信息,包括程序的功能描述、需要的运行环境、程序和相关数据以及参数规范。导入的程序可以使用任何语言编写,只要后端服务器能支持它需要的运行环境。FIU-Miner目前支持Java(包括Hadoop的环境)、Shell、Python和C/C+ +等语言编写的程序,因此几乎所有实现的主流数据挖掘算法,如基于Weka、Mahout、MILK等数据挖掘和机器学习算法库的程序,都可以很容易地导入FIU-Miner。用户还可以将自己实现的算法导入系统中。

(3)系统监控(system monitoring)

该模块实时监测FIU-Miner的资源利用率,并且动态跟踪系统中提交任务的运行状态。注意该模块只显示了抽象的资源(逻辑存储和计算资源包括数据库、文件系统、计算单元等),使底层物理资源对用户透明。

3.2.2  任务及系统管理层

任务及系统管理层包含了两个主要功能模块:任务管理和系统管理。

(1)任务管理

FIU-Miner允许用户动态配置数据挖掘任务,以满足他们的分析需求。用户可以选择在算法库(algorithm library)中注册的算法作为基本模块来构造工作流。工作流集成器(workflow integrator)负责工作流的任务集成和验证,同时发现和报告无效的流程。一旦新的数据挖掘任务集成和配置完成后,它将被自动添加到任务库(task library),可以随时被调度运行。作业调度器(job scheduler)负责分配计算资源及优化运行时间。FIU-Miner里的调度比较复杂。一方面,FIU-Miner支持不同编程语言实现的程序在异构的计算环境中运行。一个任务里的不同程序可能会有不同的运行环境要求。所以,简单地把任务分配到空闲的计算单元不一定可行。另一方面,将一个作业分成不同的步骤,让每个步骤在不同的计算单元上运行,可能会增加I/O成本。如果再考虑多用户、多任务的情况,FIU-Miner里的调度就会变得更加困难和复杂。为了解决上面的难题,在实现FIU-Miner的调度时,综合考虑了如下因素:给定任务每一步的运行环境要求; 每个计算单元支持的运行环境;每个计算结点的当前运行状态;输入数据的大小。

(2)系统管理

作业管理器(job manager)跟踪执行作业的运行状态。用户会收到作业的实时状态。除了作业监视,FIU-Miner还会跟踪计算单元以及相关计算资源的状态。资源监视器(resource monitor)监视计算单元并提供作业调度程序的运行状态, 以帮助调度决策。资源管理器(resource manager)管理所有可用的计算单元。FIU-Miner的一个独特的优点是,它不需要人工登记可用物理资源。一旦计算单元部署在物理服务器上,它会将服务器的信息发送给资源管理器,自动将服务器在FIU-Miner里注册。

3.2.3  抽象资源层

抽象资源层包括存储和计算资源。存储资源建立在物理设备的基础上,包括传统数据库、本地文件系统、分布式文件系统(比如HDFS)等。计算单元是逻辑上的计算资源。平台的计算能力依赖计算单元的数量。通过扩展配置计算单元的数量,能有效地支撑上层的数据挖掘任务。

在FIU-Miner中,物理服务器的计算能力是由计算单元的数量和安排的数据挖掘任务来量化的。这种机制是一个系统虚拟化的简化版本,能够最大限度地提高计算资源的利用率。为了有效地管理计算资源,每个计算单元都包含详细规范的配置文件(信息包括计算能力、支持的运行环境、运行状态等)。一台物理服务器的存储(包括可用的数据库、HDFS和本地文件系统)由该服务器上布置的计算单元共享。

3.2.4  异构物理资源层

异构物理资源层亦称物理资源层,主要包括底层的物理设备。这些物理设备能有效地支撑数据存储和扩展。

3.3  FIU-Miner系统亮点评述

FIU-Miner 建立于分布式异构环境之上,大大减少了不同物理环境给构建数据分析任务带来的复杂度,充分利用分布式计算的能力提升数据分析的效率。另外,FIU-Miner的计算资源是可动态增减的,使其具备根据具体分析任务数量进行在线调整计算物理资源的能力。最后,友好的用户接口为基于FIU-Miner构建不同的大数据挖掘应用提供了极大的便捷。

4  FIU-Miner应用实例一:高端制造业

4.1  高端制造业大数据挖掘任务

制造业是指大规模地把原材料加工成成品的工业生产过程。高端制造业是指制造业中新出现的具有高技术含量、高附加值、强竞争力的产业。典型的高端制造业[9] 包括电子半导体生产、精密仪器制造、生物制药等。这些制造领域往往涉及严密的工程设计、复杂的装配生产线、大量的控制加工设备与工艺参数、精确的过程控制和材料的严格规范。产量和品质极大地依赖流程管控和优化决策。因此,制造企业不遗余力地采用各种措施优化生产流程,调优控制参数,提高产品品质和产量,从而提高企业的竞争力。

随着工艺、装备和信息技术的不断发展,现代制造业(特别是高端制造业)产生和积累了大量生产过程的历史数据。这些数据中蕴含对生产和管理有很高价值的知识和信息。高端制造企业利用这些技术能够更好地收集和管理生产流程数据,也使得企业累积的相关数据在日益增多的同时,也变得更加丰富、完备、准确。

这些采集的数据来源于实际生产,并与生产设计、机器设备、原材料、环境条件、生产流程等生产要素信息高度相关。通常情况下,工程人员通过人工分析很难察觉到参数间的关联模式和影响品质的重要生产要素等信息。然而,如何有效地利用这些数据优化生产过程,提升生产效率,成为了企业关注的焦点。因此,制造企业需要一种高效、可靠的分析方法及工具,把隐藏在海量数据中有用的、深层次的知识和信息挖掘出来,以提升高端制造业在控制、优化、调度、管理等各个层面分析和解决问题的能力。幸运的是,利用数据挖掘可以对这些数据进行有效的分析并转换成有价值的生产知识,从而能够在实际应用中改进产品品质,提升产品性能和生产效率,最终达到提高企业行业竞争力的目的。因此,数据挖掘技术是解决制造业海量信息数据处理的关键技术之一。

4.2  高端制造业大数据挖掘挑战

高端制造业中的数据挖掘面临很多挑战,比如:如何有效分析大规模数据、如何保证数据分析效率和分析结果的准确性?在实际应用中,从海量数据中依靠传统信息系统进行查询和报警或单纯利用专家经验来分析和发现潜在有价值的信息已经变得不太现实。因此,企业需要利用数据分析技术、工具或平台,智能地从大量复杂的生产原始数据中发现新的模式和知识作为改善生产过程的决策依据,系统性地提高生产效率。

4.3  具体案例

FIU-Miner已经被成功地应用在四川虹欧显示器件有限公司,作为等离子屏制造过程的数据分析平台[3,10]

4.3.1  等离子显示器制造

等离子显示器(plasma display panel,PDP)是一种利用气体等离子效应放出紫外线,从而激发三原色发光体独立发光,达到显示不同颜色和控制亮度的高端图像显示器。它具有亮度高、色彩多、面积大、视角广、图像清晰等众多优势,是大面积显示需求(如家庭影院、电子广告墙)的首选显示器。

四川虹欧显示器件有限公司是国内最大的等离子生产公司,每天生产超过1万张等离子显示面板,其生产线的一些指标包括[10]:20个大工序、151个小工序;1 000多台设备串联;工艺设备共计279台,设备种类达8 3 种;2 225个物流单元,全长6 000 m;产品制造时间约76 h;单台产品涉及的过程设备参数超过1.17 万个。

具体而言,在生产实践中,技术人员关注如何提高产品的良品率。实现这个目标, 需要回答下面的一些问题:哪些是关键的工艺参数(它们对产品的良品率有显著的影响)、参数值的变动会怎样影响产品的良品率、哪些是有效的可以确保高良品率的工艺参数配方等。从PDP的数据特点来说,每天生产的数据存储量是10 GB以上,每月有3~5亿笔制造过程记录,在数量、维度和数据产生速度上具有海量大数据特征。在生产工序复杂、设备参数众多、数据量大的背景下,人为分析PDP生产过程,以期达到提高生产质量的效果几乎是无法实现的。因此,迫切需要研究基于等离子显示屏制造过程的自动化流程和产品优化工具,从而提升制造过程参数管控能力和产品品质。

4.3.2  基于FIU-Miner 的解决方案

在过去的几年里,笔者的研究团队一直与四川虹欧显示器件有限公司的技术人员和工程师紧密合作,利用数据挖掘来提高等离子屏的生产良品率。在这个合作过程中,确定了如下两个主要的分析难点,并提出了相应的基于FIU-Miner 的解决方案。

● 7×24 h的自动化生产方式和新数据采集工具的使用,使得数据量急剧增长, 需要强大的数据分析能力来支撑。

● 大量过程控制参数造成的数据高维特性对数据分析效率和分析结果的准确性提出了更高要求。生产数据分析是对生产工作流程的一个认知过程。这个过程本身就是对数据进行探索、分析和理解的一个循序渐进的迭代过程。因此,一个实用的系统应该提供一个集成的、高效率的分析平台来支持这个过程。

笔者的研究团队在FIU-Miner的基础上,开发了离子屏制造过程数据挖掘系统(PDP-Miner)[10]来解决PDP数据分析的难题。PDP-Miner的架构如图4所示。具体而言,在FIU-Miner的基础上增加了数据分析层。

图 4  PDP-Miner 的系统架构

数据分析层提供具体分析任务的用户执行接口。以等离子屏数据挖掘系统为例, 数据分析任务主要包括数据立方、对比分析、回归分析、参数选择、参数配方、操作平台、结果展示和报告管理。

其中,数据立方使分析人员能够对数据进行宏观理解和快速预览。数据立方子系统可以通过OLAP技术建立数据立方来帮助分析人员大致掌握数据特性。通过选择维度和建立测度来对数据集进行分析。通过数据立方操作(下钻、上卷等)实现对数据的多粒度、多角度的理解。

对比分析子系统,能快速发现敏感参数和验证重要参数,因此,在PDP生产系统中显得特别重要。通过比较参数在不同时期取值的统计特性,有效发现异常参数值,从而定位敏感设备或数据集。

数据分析子系统主要负责集成数据挖掘算法,提供业务操作接口。由于该系统面向非专业领域的操作人员,并聚焦到具体的分析业务,因此数据挖掘算法被合理封装到各个业务中,对操作人员透明。现在的挖掘算法主要支持回归分析、参数选择、参数配方等任务。 

分析报告系统基于业务分析结果产生分析报告。这些分析报告可以直接给决策者提供决策依据。同时报告系统也为领域专家提供收集反馈的接口。领域专家知识的引入对优化模型、改进算法具有很大的指导意义。

图5给出了两个具体PDP挖掘的工作流。其中第一个工作流(workflow 1)先集成多种特征选择的方法来选出影响PDP生产的重要工艺参数,然后利用回归分析来建立这些参数与产品质量的关系。第二个工作流(workflow 2)是利用频繁模式分析来挖掘重要工艺参数的关联关系,从而产生可能的参数配方。图6给出了工作流的配置界面。

图 5  PDP-Miner 工作流程

图 6  PDP-Miner 工作流配置界面

使用等离子屏制造过程数据挖掘系统大大降低了对前台使用人员的要求,可以使得操作人员能够将精力聚焦到快速发现问题和解决问题上。

通过技术人员将数据挖掘研究的结果和平台进行有效应用,提高了对制造过程中所出现问题的分析和解决的效率(见表1),使PDP屏生产线的综合良品率及生产效率得到了快速提升。一方面,在显示器件制造业首次采用大数据挖据技术,实现了由传统离散型的试验设计方法到数据挖掘模型来进行制造过程参数管控的动态在线分析处理方法,降低了制造过程品质管控的试验成本。另一方面,通过数据挖掘平台,建立了等离子屏制造过程单工序/全工序的参数管控的主要数据挖掘分析模型,通过挖据结果的有效应用,促进了等离子显示屏的制造良品率和生产效率的提升。最后,利用平台挖掘方便快捷地指导技术人员进行参数管控的常态化螺旋式提升。在成果应用的这些年里, 促进了PDP良品率和产能的快速提升,给公司带来了巨大的生产经济效益。图7给出了PDP-Miner的实际应用的主界面,该系统的功能模块包括数据探索(对比分析、数据立方)、数据分析(操作平台、参数选择、回归分析、判别分析)、结果管理(可视化、结果列表和反馈收集)。需要特别指出的是,等离子显示屏制造挖掘平台可方便地移植于液晶面板、OLED面板等其他平板显示领域,具备向整个平板行业推广的基础。

表 1  PDP-Miner 数据挖掘技术与传统数据挖掘技术比较

图 7  PDP-Miner 实际应用的主界面

4.4  应用亮点评述

将FIU-Miner应用于高端制造业的实际案例,在国际上率先将数据挖掘技术应用于显示器件制造业,为四川虹欧显示器件有限公司构建了制造过程单工序/全工序数据挖掘分析模型,开发了基于数据挖掘的PDP-Miner平台,有效提升了生产效率和产品质量。该公司应用PDP-Miner平台后,产品综合良品率得到了很大提高,同时,生产效率的提升也带来了很大的经济效益。该研究获得2013年“中国制造业IT 新兴技术应用最佳实践奖”。

考文献:

[1] 严霄凤, 张德馨. 大数据研究[J]. 计算机技术与发展, 2013, 23(4): 168~172.

YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.

[2] 李国杰. 对大数据的再认识[J]. 大数据, 2015001.

LI G J. Further understanding of big data[J]. Big Data Research, 2015001.

[3] 李涛. 数据挖掘的应用与实践: 大数据时代的案例分析[D]. 厦门: 厦门大学出版社, 2013.

LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.

[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.

[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.

[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.

[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.

[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.

[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.

[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.

[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).

[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.

[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014.

李涛,男,南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。2004年7月获美国罗彻斯特大学(University of Rochester)计算机科学博士学位,2004-2014年先后任美国佛罗里达国际大学(Florida International University)计算机学院助理教授、副教授(终身教授)、教授(full professor)、研究生主管(graduate program director)。由于在数据挖掘及应用领域成效显著的研究工作,曾多次获得各种荣誉和奖励,其中包括2006年美国国家自然科学基金委颁发的杰出青年教授奖,2010年IBM大规模数据分析创新奖,并于2009年获得佛罗里达国际大学最高学术研究奖。

曾春秋,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。2009年7月—2012年1月为阿里巴巴(中国)网络技术有限公司高级数据工程师。主要研究兴趣包括大规模分布式数据挖掘和系统管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍的编写工作。

周武柏,男,美国佛罗里达国际大学计算机科学博士生,南京邮电大学计算机学院大数据项目组成员。主要研究兴趣包括数据挖掘和计算机系统管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍的编写工作。

周绮凤,女,博士,厦门大学自动化系副教授。2002年起从事数据挖掘及智能系统方面的研究工作,2014—2015年在美国佛罗里达国际大学访学,主要研究兴趣包括机器学习、数据挖掘及其在可持续发展等领域的应用。

郑理,男,2014年在美国佛罗里达国际大学获得计算机科学博士学位,南京邮电大学计算机学院项目研究员。主要研究兴趣包括信息检索、推荐系统及灾难信息管理,发表多篇顶级数据挖掘国际期刊和会议论文,参与多本数据挖掘相关应用领域书籍编写。

2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...相关推荐

  1. 2015年《大数据》高被引论文Top10文章No.10——我国大数据交易的主要问题及建议...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.10, ...

  2. 2015年《大数据》高被引论文Top10文章No.9——大数据是数据、技术,还是应用

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.9,刊 ...

  3. 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...

  4. 2015年《大数据》高被引论文Top10文章No.5——对大数据的再认识

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.5,刊 ...

  5. 2015年《大数据》高被引论文Top10文章No.4——关于大数据交易核心法律问题 —— 数据所有权的探讨...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.4, ...

  6. 2015年《大数据》高被引论文Top10文章No.3——我国政府数据开放现状和保障机制...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.3, ...

  7. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

  8. 2015年《大数据》高被引论文Top10文章No.6——医疗健康大数据:应用实例与系统分析...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将陆续发布2015年<大数据>高被引论文Top10的文章,欢迎大家关注!本文为高被引Top10论文的No.6,刊 ...

  9. 2015年《大数据》高被引论文Top10文章No.7——大数据机器学习系统研究进展(下)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.7, ...

最新文章

  1. 数据库的表和字段的注释。表的结构。(转)
  2. 软件性能测试瓶颈定位,软件性能问题正确定位思路
  3. mktime函数实现获取当前系统时间
  4. 重拾IP路由选择:CCNA学习指南中的IP路由选择
  5. winform界面嵌入dwg图纸_c# cad中插入另一个dwg的图块
  6. POI的入门:加载解析Excel
  7. android程序root权限,android – 如何从源代码授予对特定应用程序的root访问权限而不是root权限?...
  8. npm eject 暴露webpack报错,less或sass添加报错
  9. kali的burpsuite笔记
  10. MyCat 数据库分片极简体验
  11. 模拟监控和真实用户体验监测,选哪个?
  12. 网桥和交换机的工作原理及区别
  13. 快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
  14. 手机usb计算机连接不能选择,USB调试 是灰色按钮,无法点击,现在手机无法与电脑连接。...
  15. 一文分析 Only fullscreen opaque activities can request orientation 报错原因及解决方案
  16. Android虚拟化
  17. 计算机开机图片怎么换,如何把电脑开机画面换成自己的图片?
  18. CSS——CSS盒子模型(重点※)
  19. 简单的图像相似度计算方法
  20. XDOJ指针 字符统计

热门文章

  1. 计算机考研初试复试比例,考研初试400多分,16人都被刷,计算机专业报考人太多,报应来了...
  2. 下面哪个进制能表述 13*16=244是正确的?)[中国台湾某计算机硬件公司V2010年5月面试题]...
  3. JSP、Servlet中get请求和post请求的区别总结
  4. 向量叉乘判断两向量之间是顺时针还是逆时针
  5. 用spring搭建微信公众号开发者模式下服务器处理用户消息的加密传输构架(java)
  6. VS Code编译C/C++
  7. jQuery实现checkbox的全选反选方法
  8. regini.exe使用方法
  9. Nacos版本升级1.1.3 >> 1.3.1 —>再升级至1.3.2
  10. wex5链接mysql_wex5数据库连接自己的数据库在哪里配置的