引言

最近在写关于Apriori算法的研究论文,这一部分分享出来给大家研究。

摘要

近几年来,随着高校扩招规模不断地扩大,每年都有大量的应届毕业生面临就业问题,高校就业指导工作就显得尤为重要。对于高校而言,毕业生的就业率成为评估高校办学水平和学校社会声誉的重要指标,就业率低下将成为影响高校生存发展的制约因素。在高校就业指导部门的就业管理信息系统中积累了大量的、重要的学生就业信息资源,虽然大多数就业管理系统具有管理和分析功能,但是这些就业管理系统大多是面向业务操作而设计的,不能对这些数据所包含的内在信息和规律、趋势进行提取和分析,更不能提供重要的决策信息。随着学生数量、就业行业、影响就业因素的多元化和就业管理的提高,高校管理者对毕业生就业趋势的预测以及学生培养模式的改进越来越多的依赖于毕业生就业信息分析的结果。随着近十几年高校大规模扩招,大学生的就业问题在我国已经成为非常严峻的社会热点问题,同时也成为教育工作者比较关注的现实问题。如果我们想要缓解大学生的就业问题,那么首先要解决关于大学生的就业能力方面的培养问题,通过对国内外大学生就业能力问题的考察,探索大学生就业能力问题的最佳解决方案,从而找出束缚大学生就业的真正原因。

  • 关键词:大学生就业;产业结构;关联规则;Apriori算法;支持度

第一章 绪论

1.1背景

本节将从高职院校学生的特点、就业状况、研究技术等方面来介绍高职学生就业的研究背景。

1.1.1 高职院校学生特点

随着经济技术的发展,我国高等教育也处于大众化发展时期,人们开始对高等教育有了更多的关注和更进一步的认识。从1999年开始,我国高校连续五年进行了大规模的扩招,在高等教育的各个层次中,高职教育也得到了迅速发展,其中包括专科和本科两个学历教育层次。相对于普通高等教育培养学术型人才而言,高等职业教育偏重于培养高等技术应用型人才。

1.1.2 高职院校学生就业状况

高等教育的大众化发展使得全国大部分高等学校均根据自身情况进行了不同程度的扩招,再加上要面临每年倍增的劳动与技术密集型就业大军的竞争,因而造成了如今高校毕业生的就业形势愈来愈严峻。大学毕业生就业难正逐渐成为一个不可忽视的社会难题,但总体来说我国的人才需求总量却是匮乏的。据人力资源和社会保障部与教育部数据统计显示,目前每年(2006-2012)社会新增就业机会大约1100万至1200万个,而每年(2006-2012)大学生毕业人数则大约在600万左右,2012年更是超过了680万[1]。
针对上述数据比较而言,大学毕业生应当还是有比较大的就业空间。但我国在疏通渠道和就业服务上有明显不足,也有很大拓展空间。对高校而言,各高校在大学生就业指导方面,尽管逐年累月积累的就业指导模式已比较全面,但都显得比较形式化与固定化,依旧很难满足高校对就业指导内容的需求。《国家中长期教育改革和发展规划纲要》[2](2010-2020年)中提到:“适应国家和区域经济社会发展需要……重点扩大应用型、复合型、技能型人才培养规模……”。
《重庆市中长期城乡教育改革和发展规划纲要(2010—2020)》[3]也同时指出,要加强就业指导和职业生涯规划教育,引导毕业生树立正确的就业择业观念。拓宽就业渠道,促进毕业生充分就业,提高就业质量……国家和重庆市对于大学生就业工作提出了指导意见,根据这些政策的导向,如何改进现有就业指导模式是亟须解决的一个问题。

1.1.3 数据挖掘技术与高职院校学生就业

数据库技术的快速发展与数据库管理系统的广泛应用使得数据库中存储的数据急剧增加,如此庞大的数据背后肯定蕴藏着很多有用的信息,人们期望能够进行更加深入的分析,以便更加充分地运用这些数据。尽管当前的数据库管理系统通过其查询、排序与统计等功能可以获得数据的部分表面信息,然而却无法将隐藏在这些数据背后的更加重要的、更深层次的信息与知识挖掘出来并加以利用,无法从已有的数据中预测出发展趋势,进而达到为决策建议提供服务的目的,因此导致了“数据庞大但知识匮乏”的现象。如何有效地利用和处理大量的数据成为当今世界共同关心的话题。随着数据库管理技术、统计技术、人工智能与并行计算等技术的发展和融合,数据挖掘技术应时而生,数据挖掘技术是从大量数据中挖掘出隐藏在数据背后的有价值的信息和知识,它被广泛地应用于许多领域,并取得了不错的效果,给人们的正确决策也带来了莫大的帮助。
(KnowledgeDiscoveryinDatabase,KDD)[4],是在1989年8月举行的第11届美国人工智能协会(AmericanAssociationforArtificialIntelligence,AAAI)学术会议上首次提出的。数据挖掘综合了机器学习、模式识别、数据库管理、人工智能与数理统计等多个学科的理论、技术与方法,已经在金融业、市场业、零售业、科研及体育等多个领域中取得了广泛的应用[5]。我国高等教育由精英化向大众化的转变使得全国高等学校的招生规模逐年扩大,为了方便日常的教学与就业等管理工作,各高校均运用计算机与数据库技术建立了相应的信息系统,然而,随着高等学校招生人数的不断增加,其信息系统数据库中存储的数据量也逐渐增大。
面对庞大的数据集,传统的数据分析方法已难以满足管理者的真正需求,因为现有的信息系统主要是基于查询的,数据库可以高效地实现对数据的存储、查询、统计与排序等功能,但是这些功能只能获取数据表面的信息,即不能获得隐藏在这些数据背后的更深层次与更加重要的信息,无法发现数据中隐含的有价值的规则,无法从已有的数据中预测出发展趋势。为了充分地利用这些数据,提高信息的利用率,就需要利用数据挖掘技术智能地、快速地和自动地分析处理数据。
因此,本文以大量实际的毕业生就业信息数据为研究对象,利用决策树分类技术,对其进行数据挖掘,挖掘出其中对就业工作具有指导价值的信息,然后将数据挖掘结果应用于大学生就业指导中,为就业指导提供决策依据。

1.2国内外研究现状

美国麻省理工学院的《科技评论》(TechnologyReview)杂志曾于2001年1月提出,“数据挖掘”为未来5年对人类产生重大影响的10大新兴技术之一,且位列第三[6]。数据挖掘技术的应用相当广泛,只要某领域拥有具分析价值与业务需求的数据库或数据仓库等挖掘对象,皆可利用数据挖掘工具对其进行有目的的数据挖掘。目前,数据挖掘已经被广泛地应用于金融、保险、电信、销售、电子商务以及交通等众多领域。但总体来说,将数据挖掘技术应用于大学生的就业指导分析国内外研究都比较少,相比之下,国内外学者将数据挖掘相关技术应用于教育教学领域的研究比较丰富。
与数据挖掘 (Data Mining) 极为相似的术语――从数据库中发现知识 (KDD) 一词,首次出现在 1989 年 8 月在美国底特律召开的第 11 届国际人工智能联合会议的专题讨论会上。1993 年以后,美国计算机协会 (ACM) 每年都举行了专门的会议研究探讨数据挖掘技术,会议名称为ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,简称 KDD 会议。KDD 会议[7]的规模由原来的专题讨论会发展到国际学术大会, 研究重点也逐渐从发现方法转向系统应用, 并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。
与国外相比,国内对 DMKD( 数据挖掘和知识发现 ) 的研究稍晚,没有形成整体力量。1993 年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目, 目前从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。 研究领域一般集中于学习算法的研究、 数据挖掘的实际应用以及有关数据挖掘理论方面的研究。 目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、 863 计划、 " 九五 " 计划等。国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究,其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究, 北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。
国内对数据挖掘的研究起步稍晚且不成熟,目前正处于发展阶段。最新发展:分类技术研究中,试图建立其集合理论体系,实现海量数据处理;将粗糙集和模糊集理论二者融合用于知识发现;构造模糊系统辨识方法与模糊系统知识模型;构造智能专家系统;研究中文文本挖掘的理论模型与实现技术;利用概念进行文本挖掘。我国也有不少新兴的数据挖掘软件:

  • MSMiner:由中科院计算技术研究所智能信息处理重点实验室开发的多策略通用数据挖掘平台[8]。该平台对数据和挖掘策略的组织有很好的灵活性。
  • DMiner:由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘系统。该系统提供了丰富的数据可视化控件来展示分析结果,实现了数据查询结果可视化、数据层次结构可视化、多维数据结构可视化、复杂数据可视化。
  • Scope Miner:由东北大学开发的面向先进制造业的综合数据挖掘系统。
  • iDMiner:由海尔青大公司研发的具有自主知识产权的数据挖掘平台。该平台大胆采用了国际通用业界标准,对该软件今后的发展有很大的促进作用,同时也为国内同类软件的开发提供了一条新的思路[9]。
    除此之外,还有复旦德门公司开发的CIAS和AR Miner、东北大学软件中心开发的基于SAS的Open Miner以及南京大学开发的一个原型系统Knight等。
    目前,国内数据挖掘软件产业还不成熟,从事此方面研究的人员主要集中在高校,只有少部分分布在研究所或公司,且大多数研究项目都是由政府资助,主要的研究方向集中在数据挖掘的学习算法、理论方面以及实际应用。研究的产品尚未得到国际市场的认可,在国际上的使用更是为数甚少。

1.2.1数据挖掘的研究现状

多年来,国内外广大学者已经对数据挖掘系统与数据挖掘过程进行了丰富的研究。早在1996年,美国人工智能协会的Bachman和Anand首先提出了强调以用户为中心的挖掘过程模型[10],之后Reinartz在文章中进一步强调了数据挖掘过程中以用户为中心的重要性[11],Williams[12]则从理论上对整个挖掘过程进行了形式化的描述,以便于对不同的挖掘方法进行比较和区分。
Grossman[13]于1998年提出了第四代数据挖掘系统的概念,Goeble[14]等通过对已有的43个数据挖掘系统进行比较与分析,在KDD1999会议上提出了一种数据挖掘系统的分类方法,PiatetskyShaprio[15]在KDD2000会议上总结了数据挖掘系统发展的三个阶段。
目前,数据挖掘的研究主要围绕着理论、技术与应用三个方面展开,如数据挖掘语言的标准化研究,数据挖掘过程中可视化方法的研究以及针对特定应用领域的数据挖掘系统的开发研究等等[16]。研究热点主要有Web数据挖掘、文本数据挖掘以及生物基因数据挖掘等。
当前,国外数据挖掘研究的最新发展趋势主要体现在对数据挖掘方法的进一步研究,如近年来注重对Boosting方法[17]以及Bayes(贝叶斯)方法[18]的研究和改进、传统的数理统计学回归方法在KDD中的应用、KDD与数据库的紧密结合,在应用方面则主要包括:从着力于建立解决问题的整体系统而不是孤立的过程出发,不断产生和完善KDD商业软件工具,主要用户有保险公司、大型银行、电信公司以及销售业等。国外许多计算机软件公司都非常重视数据挖掘的开发应用,IBM和微软均成立了相应的研究中心以进行这方面的研究工作。
此外,其中一些公司的数据挖掘软件产品也开始出现在国内销售市场,如Platinum,BO以及IBM等,还有一些开源数据挖掘软件也被广泛地运用[11],如新西兰怀卡托大学计算机科学系开发的weka软件[19]与A.LCALÁ-FDEZ、A.FERNÁNDEZ等研究开发的KEEL(KnowledgeExtractionbasedonEvolutionaryLearning)数据挖掘软件工具等[20]。
相比于国外,国内在数据挖掘方面的研究起步比较晚,开始于20世纪90年代中期,比国外晚几年,到了90年代后期,初步形成了数据挖掘与知识发现理论的基本架构。国内对数据挖掘的研究主要有:对面向属性的归纳方法进行研究,提出改进方法,以提高算法效率并自动生成概念层次;结合粗糙集、模糊集、神经网络等其他学科的先进理论对数据挖掘方法进行研究;Web数据挖掘方法的探讨[21];中文文本数据挖掘的理论研究与实现技术探讨;构造相应领域的智能专家系统。国内对数据挖掘的研究主要集中在众多科研单位与各大高校,也有一些研究所或公司参与其中,他们主要分别对数据挖掘的基础理论与其在相关领域的应用进行研究[22]。
虽然我国数据挖掘软件产业不够成熟,但我国也有一些新兴的数据挖掘软件,如上海复旦德门软件公司开发的DBMiner,东北大学开发的面向先进制造业的数据挖掘系统ScopeMiner以及海尔青研发的iDMiner等[23]。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议上有30多家软件公司展示了数据挖掘软件产品,不少软件已经在北美和欧洲的国家得到了广泛的应用, 并收到明显的效益。
随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料[24]。这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖,从而达到为决策服务的目的。在这种情况下,一个新的技术——数据挖掘(Data Mining,DM)[25][26]技术应运而生。数据挖掘正是为了迎合这种需要而产生并迅速发展起来的、用于开发信息资源的、一种新的数据处理技术。
数据挖掘通常又称数据库中的知识发现(Knowledge Discovery in Databases)[27],是一个多学科领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的主要算法及其各自的优缺点,并对国内外的研究现状及研究热点进行了详细的总结,最后指出其发展趋势及问题所在。

1.2.2 数据挖掘技术在教育教学以及就业方面的研究现状

随着计算机的不断普及和多媒体技术的快速发展,教育教学早已不再只是简单的传统课堂教学方式,基于网络的课程教育和远程教育层出不穷[28]。因而,各式各样的教育系统和教育信息数据库中积累了大量的数据,此外,各类高校为了方便数字化管理,日常管理工作中所使用的学生管理系统、教学教务系统以及就业系统中也存储了大量的数据。因此,国内外不少学者将数据挖掘技术应用于教育教学领域,以便从这些数据中挖掘出大量有价值的知识与信息来指导和发展教育,从而促进教育教学决策的科学化。然而,对于就业指导方面的数据挖掘分析比较少也不够系统,只是相对简单和零星的分析。
相比国内而言,国外对于教育教学领域的数据挖掘研究则比较全面,也比较深入,而且更多的侧重于网络教育教学。Buldu和Ucgun [29]利用Apriori算法[30]对伊斯坦布尔埃尤普商务职业高中(IstanbulEyupI.M.K.B.VocationalCommerceHighSchool)中的学生数据进行挖掘,形成了一些规则,并得到了学生成绩不理想的课程之间的关系[31]。García等[32]提出了一种基于关联规则的合作教育数据挖掘工具,它可以不间断地改善网络课程,而且能够帮助那些拥有相似课程资料的老师一起分享挖掘到的有用信息。Chen等[33]综合灰关联理论(GRA)、K-means聚类算法、模糊关联规则和模糊推理四种计算智能理论,提出了基于数据挖掘的学习绩效评估系统。
通过该系统,老师可以知道是什么原因影响了网络教育环境中的学习者的学习成绩。Talavera和Gaudioso[34]利用聚类算法挖掘学生信息以发现反映用户行为的模式,他们基于协同管理方案提出了模型,能够在非结构化的合作空间中描述相似行为群体的特征。Wang等[35]通过对学生个人信息使用决策树算法研究而提出了一种自适应分析系统,它能帮助用户优化学习顺序,为每一个特定的教学内容制定出最合适的学习顺序。Hamalainen[36]等提出了一个贝叶斯网络模型来描述学生的学习过程,它可以根据学生的技能和其他特征对学生进行分类并进行针对性地引导。
Romero等[37]利用Web挖掘技术提出了一个先进的个性化系统架构,他们开发出了一种特定的Web挖掘工具,并把它和一种推荐搜索引擎一同整合进了AHA!网络教育系统,该系统能够提供非常个性化的服务,引导学生点击最合适的链接,方便学生学习。Tane,Schmitz和Stumme[38]提出了一种基于本体论的工具,以便能充分利用Web上的有效资源,他们根据Web文档内容的相似性和主题,利用文本挖掘和文本聚类技术对这些文档进行分组,从而方便用户更好地查询和组织网络资源,提高学习效率。然而,国外对于就业指导方面的数据挖掘研究相当少,基于高校毕业生就业指导方面的更是几乎没有,这可能是因为国外的就业指导模式跟我国的不一样造成的。CristinaIoanaMuntean,DarieMoldovanandOvidiuVeres[39]从专业的求职门户网站搜集相关信息用以构造数据集,然后利用两种分类算法(贝叶斯网络与J48)对其进行分析研究,找出就业规律,有针对性地对毕业生与社会人士进行就业指导与帮助。

第二章 数据挖掘

2.1数据挖掘的定义

随着数据库技术的不断发展和数据库管理系统的广泛应用,像银行、保险公司、证券公司和大多数金融服务机构一样,许多组织或者企业在日常的业务活动中积累了大量数据。然而,绝大多数组织或者企业并没有把他们的数据转换成有价值的资本,造成这种局面的原因是隐藏在这些数据背后的信息并不那么容易被发现。为了有效地参与如今的市场竞争,管理者们必须发现并合理运用蕴藏于历史数据背后的有价值的信息。这种发掘和运用隐藏于历史数据背后的信息的过程就是数据挖掘。
数据挖掘(Data Mining)[40],又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)[41],就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备;(2)数据挖掘;(3)结果表达和解释[42]。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
数据挖掘是一种与计算机科学密切相关的决策支持过程,它主要通过机器学习、专家系统、模式识别、数据库技术、数理统计、并行计算、可视化技术等方法来充分自动地分析组织或企业的数据,做出合理性的判断与逻辑性的推理,进而从中挖掘出具有潜在价值的信息和知识,帮助管理决策者调整市场竞争策略,减少不必要的风险,做出有利的决策。根据统计学与非统计学之间的差异,可以把数据挖掘分为两种不同类型:假设驱动和发现驱动的数据挖掘。
为迎接前一节中的这些挑战,来自不同学科的研究者汇集到一起,开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上,在数据挖掘领域达到高潮。特别地,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。
一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
两者之间最大的不同之处在于获取信息的过程。假设驱动往往也称作验证驱动,它主要致力于证实一个隐含在数据之中的模式或者关系的假设。验证驱动型的数据挖掘主要取决于决策者或者业务分析员要在数据中找寻什么。首先往往需要在尚未进行数据查询与数据挖掘之前构成某种假设,然后再利用挖掘所得到的结果对假设结论进行适当的解释。该方法存在两个潜在的不足,一个不足是决策者或者业务分析员必须首先对数据将展现出来的信息与知识做出猜测,而这又局限于他们对组织机构、数据、技术和行业的理解程度。另一个不足则是所获取信息与知识的质量依赖于决策者或者业务分析员对挖掘出来的结果所做出的解释。查询语言、统计表格、图形和多维分析等是验证驱动所采用的主要技术。发现驱动型数据挖掘也称作知识发现,主要就是找寻蕴藏于数据之中的不易察觉的关系与模式。它通过数据挖掘软件来自动地找寻和挖掘商业数据中蕴藏的新知识。
然而,一次成功的数据挖掘应该是假设驱动与发现驱动这两种类型数据挖掘的有机结合。假设驱动型数据挖掘允许决策者或者业务分析员表达和验证个人与组织的领域知识,而发现驱动型数据挖掘则提炼这些知识并能识别之前未曾假设的信息。
数据挖掘( Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把数据看作是形成知识的源泉, 好像从矿石中采矿或淘金一样。 原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的, 也可以是非数学的;可以是演绎的,也可以是归纳的。 发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。数据挖掘与传统的数据分析 ( 如查询、报表、联机应用分析 ) 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。 数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。 数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。 数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。

2.2数据挖掘的过程

数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。
数据挖掘是一个完整的、循环往复的人机相互交流处理过程,通常由多个彼此之间存在着关联的步骤组成,如定义问题、数据选取、数据预处理、数据变换、数据挖掘、模式解释、知识评价等。

2.2.1样本数据集采集及选取

数据准备包括所有从原始的未加工的数据构造最终分析数据集的活动,是数据挖掘过程中最耗时的环节,甚至要占据整个数据挖掘项目一半以上的工作量。
样本数据集采集及选取过程如下:
(1)确定项目目标,制定挖掘计划。
(2)分析变量的获取。
(3)数据收集和获取。
(4)数据集成。
确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集。

2.2.2数据清洗

得到样本数据集后需要对数据进行预处理,只有处理得当的数据才能进到数据挖掘的步骤。而处理数据包括对数据数量和质量的处理,即清除错误异常样本,清除重复样本。
从数据数量的角度进行数据清洗时,主要有以下几个问题:
1.数据数量过多。即数据是从多个分散的数据仓库中抽取的,可能会造成冗余的情况,此时要做的是数据集成。其中数据集成包括冗余属性识别和矛盾实体识别两个方面。也可以用数据规约的方法,从属性规约和数量规约来减少数据量。属性规约是减少属性个数或合并旧属性成一个新属性,可以删除不需要作挖掘的属性。数量规约是通过选择替代的,较小的数据来减少数据量。
2.数据数量过杂。由于原始数据往往含有很多维度,这些维度之间往往不是独立的,也许其中之间若干的维度之间存在关联,因此可以使用数据的相关性分析来降低数据维度。可以使用主成分分析法(PCA)和核主成分分析法(KPCA)来降维。也可以使用简单函数的变换,例如将非正态的变换为正态分布的,将非平稳序列转换为平稳序列,有时数据的区间十分大时取其对数也能起到压缩的作用。
从数据质量的角度进行数据清洗时,主要有以下几个问题:
1.数据完整性问题。可以通过其他信息补全缺失的信息,例如使用身份证号码推算出性别、籍贯、年龄。也可以使用属性均值或者预测值来填写空缺记录。如果不能补全的数据要将它从数据集中删除。
2.数据唯一性问题。可以用SQL语句按照主键去除重复记录,或者编写一系列的规则,对重复情况复杂的数据进行去重。
3.数据合法性问题。设定强制合法规则,不在此规则范围内的,将它从数据集中删除。
4.数据权威性问题。如果两个数据发生了冲突,选取最权威的那个渠道的数据放入数据集中。
5.数据异常值问题。即数据噪声,数据中存在错误或者数据偏离期望值。可将异常值视为缺失值重新插值,也可以删除该条记录,或用分箱、回归、聚类方法进行修正。分箱方法是对原始数据进行分组,然后对每一组数据内的数据进行平滑处理。而回归方法是通过拟合函数(对数据进行拟合发现匹配数据的曲线或者曲面)对数据进行平滑处理。聚类方法是将具有相同值的项分在一个类里面,这样就可以很容易得到哪些数据是异常的。

2.2.3数据挖掘实现

数据挖掘实现主要有以下几个步骤:

  • 定义问题:准确地找出待挖掘问题的定义、弄清挖掘的主题与目标是数据挖掘取得成功的基石。在准备有用的数据之前,数据挖掘相关人员必须明确了解最终用户的目标需求所在,理清背景知识,了解相关应用领域的有关情况以及数据挖掘过程中将要采用的数据挖掘算法等。一般来说,数据挖掘的最后结果是无法预测的,但是需要探索挖掘的问题却是可以预先知道的,为了数据挖掘而进行的所谓数据挖掘带有一定的盲目性,终究很难取得成功。所以,在定义问题阶段,数据挖掘人员与相关应用领域专家以及最终用户的密切合作显得尤为重要。
  • 数据选取:数据选取的关键之处在于确定目标数据,根据最终用户的需求,在相关应用领域专家的指导下,从原始数据库中抽取相关数据或样本组成新的有意义的目标数据集。在此过程中,主要利用一些数据库操作对原始数据集进行相关处理。
  • 数据预处理:将步骤②中确定好的数据做进一步的处理,对抽取出的数据集进行数据的一致性与完整性检查,去掉与挖掘目标偏离的无用数据,清洗噪音数据,完成数据类型转换,根据已选取数据集的数据特征与变化情况,利用统计学等方法推导计算空缺数据。
  • 数据变换:根据数据挖掘的目标任务对已经过预处理的数据进行再处理,以便消除数据中的冗余特征,通常采用的做法是利用投影或数据库的其他操作等方法来减少数据集中的变量或决策属性的个数。

2.3数据挖掘的发展

随着越来越多的业务需求被不断开拓,数据挖掘已成功应用于社会生活的方方面面,目前在很多领域如商业、医学、科学研究等均有不少成功的应用案例。为了提高系统的决策支持能力,像ERP、SCM、HR等一些应用系统也逐渐与数据挖掘集成起来[45]。多种理论与方法的合理整合是大多数研究者采用的有效技术。以下是未来比较重要的数据挖掘发展趋势:

  • 数据挖掘技术与特定商业逻辑的平滑集成问题;
  • 数据挖掘技术与特定数据存储类型的适应问题;
  • 大型数据的选择与预处理问题;
  • 数据挖掘系统的构架与交互式挖掘技术;
  • 数据挖掘语言与系统的可视化问题;
  • 数据挖掘理论与算法研究;
  • 与数据库数据仓库系统集成;
  • 与语言模型系统集成;
  • 挖掘各种复杂类型的数据;
  • 支持移动环境;

2.4数据挖掘的应用方式

数据挖掘技术的精确智能营销随着大数据、移动应用等的快速发展,已经越来越重要,目前数据挖掘的应用领域主要包括以下六个方面: 银行金融、医疗保健、电信业、保险业、司法领域、制造业。

  • 数据挖掘在银行金融的应用:金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对电子信息化有着更加强烈的要求[46]。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。Mellon银行使用数据挖掘技术提高销售和定价金融产品的精确度;美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品;汇丰银行对不断增长的客户群进行分类,对每种产品找出最有价值的客户,营销费用减少了30%。
  • 数据挖掘在医疗保健领域的应用:医学数据挖掘是提高医疗服务质量和医院管理水平的必要步骤,在疾病诊断、预测及分析等方面发挥出巨大的作用,其面向整个医学数据库或医学信息集合提供知识和决策,是医疗决策支持系统的重要组成部分。在医疗管理领域中,应用数据挖掘技术即综合运用现代医疗、计算机技术、统计学及人工技能等,可促使医疗服务质量得以提升,强化管理水平,应用前景十分广阔。因医学信息自身具备复杂性与特殊性,故而数据挖掘对象更广泛,算法更高效,知识与决策提供准确性更高。相信未来数据挖掘技术会广泛运用于医疗管理领域中,为患者提供更优质高效的医疗服务。
  • 数据挖掘在电信业的应用:电信业务领域的全面开放,激烈竞争使得目前的中国电信市场烽烟四起[47]。“客户-产品-市场-利润”成为目前各电信运营商的基本发展思路。中国电信集团去年在全国推出营销分析系统,该系统具有主题分析、专题分析、统计报表等功能。而在海量的业务数据基础上,隐含着某些内在的商业规律,使用数据挖掘技术能够发现这些商业规律,做到有针对性营销,实现从数据到知识再到价值的提升。在电信行业的今天,大量发展新的客户越来越困难,而且成本比较高,企业要做的不仅要挽留目前的客户,而且还必须通过有效的交叉销售和提升销售来最大化他们的价值。
  • 数据挖掘在保险业的应用:随着国内经济的快速发展,保险业也进入了激烈竞争的时代[48]。面对大量产生的保单业务,许多业内公司需要对大量的数据进行深层次的分析和挖掘,让海量数据发挥巨大的增值作用。海量数据显示,保险业欺诈包括承保欺诈和理赔欺诈,广泛发生在车险、意外险和健康险领域,主要侵害保险公司利益。作假包括保单作假和手续费作假,主要发生在农险、中介业务等领域,主要侵害消费者、国家财政利益,破坏市场竞争秩序。据中国保信相关人士介绍,中国保信的数据平台在行业全量数据汇总的基础上生成强大的数据比对功能,加上外部数据的综合验证,建立有效的模型和算法,最终通过两种方式发挥作用:一是通过对特定标的或事故提供欺诈风险等级或分值判断,事前及时阻断欺诈声索,减少不合理的理赔支出;二是事后为欺诈案件侦查提供线索,打击欺诈犯罪行为,净化保险经营环境。
  • 数据挖掘在司法领域的应用:法院系统生成的“大数据”,是极其宝贵的司法宝藏,借助于对司法统计大数据深度挖掘,不但可以发挥专业优势,争取批量产出高质量的研究成果,助推审判实践,及时破解审判实践难点问题,科学预测审判实践发展趋势,还可以从宏观层面衡量法治建设的进度、立法与法律实施情况、经济社会发展形势,更好地回应广大人民群众对于司法的新关切和新要求。数据挖掘技术对破解法治难题,繁荣法学研究,助推我国法院审判体系和审判能力现代化具有重要的战略意义。
  • 数据挖掘在制造业的应用:计算机科学与技术在制造业的革命过程中发挥了巨大的作用。自动化的流程和机械化产生了大量数据,使用数据挖掘技术将这些数据点导入分析软件,可获得改善制造过程和提高生产率的有价值信息。制造业数据挖掘系统还可以降低运输,包装,仓储的花费,因而大大降低了库存成本。

2.5数据挖掘算法

如图2-1所示,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。首先确定要挖掘的知识类型,然后选择对应的数据挖掘算法,因为针对不同的知识类型采用的数据挖掘算法不尽相同,如关联规则、分类、聚类、总结等,它们所得结果的表现形式全然不同。确定算法后,选择合适的数据挖掘算法还包括选取合适的模型与参数。有两种选择算法的方法:一种是依据数据特点的不同,选择对应的算法:另一种则是根据用户的需求,有的用户需要描述型的结果,有的用户则希望得到预测精准度尽可能高的结果。


图2-1 数据挖掘算法分类

  1. 有监督学习
    有监督的学习,即存在目标变量,需要探索特征变量和目标变量之间的关系,在目标变量的监督下学习和优化算法。例如,高职院校学生就业模型就是典型的有监督学习,目标变量为“是否签约”。算法的目的在于研究特征变量(学习能力、家庭情况、学历等)和目标变量之间的关系。
  • 分类算法
    分类算法和预测算法的最大区别在于,前者的目标变量是分类离散型(例如,是否签约、学历类别、就业产业类别等),后者的目标变量是连续型。一般而言,具体的分类算法包括,逻辑回归、决策树、KNN、贝叶斯判别、SVM、随机森林、神经网络等。
  • 预测算法
    预测类算法,其目标变量一般是连续型变量。常见的算法,包括线性回归、回归树、神经网络、SVM等。
  1. 无监督学习
    无监督学习,即不存在目标变量,基于数据本身,去识别变量之间内在的模式和特征。例如关联分析,通过数据发现项目A和项目B之间的关联性。例如聚类分析,通过距离,将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。
  • 聚类分析
    聚类的目的就是实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。常见的聚类算法包括kmeans、系谱聚类、密度聚类等。
  • 关联分析
    关联分析的目的在于,找出项目(item)之间内在的联系。例如分析高职院校学生就业产业与个人属性之间的联系,从而达到预测精准度尽可能高的结果。
    其中,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。以高职院校中的毕业生的就业信息为基础,建立就业事务数据库,运用Apriori算法对就业数据进行处理,产生频繁项集。根据最小支持度和最小置信度的定义,找出强关联规则,并引入重要性对强关联规则进行分析,发现具有实际意义的信息,为高职院校就业指导提供决策,为高职院校学生就业提供了有效的建议。

2.6本章小结

数据挖掘融合了包括数据库技术、机器学习等在内的许多学科的理论知识,博大精深。本章主要对数据挖掘的一些相关理论做了简要介绍,其中包括数据挖掘的定义、过程、发展、应用方式以及主要算法,为后续的研究奠定铺垫与坚实的理论基础。

第三章 Apriori算法关联分析

3.1 关联规则Apriori算法

Apriori算法[49,50,51]主要由两阶段构成:频繁项集的提取与规则的产生。算法流程如下:输入:高职院校学生就业信息记录D,最小支持度minsup,最小置信度minconf。输出: 高职院校学生个人属性与就业产业的关联规则。

  • Step1:数据清理。筛选出已签约的高职院校学生记录,并删除定向、统分高职院校学生数据记录,并去除缺失数据记录。
  • Step2:计算就业信息记录的频繁1-项集L1。
  • Step3:若就业信息记录的频繁k-项集Lk非空,转到Step4;否则,转到Step6。
  • Step4:计算就业信息记录的候选(k+1)-项集Ck+1。Step5:对于Ck+1中的任意数据记录c,若c在数据集中的记录数目大于最小支持度minsup,则c属于就业信息记录的频繁(k+1)-项集,计算就业信息记录频繁(k+1)-项集Lk+1。k=k+1,转Step3。
  • Step5:计算就业信息记录的频繁项集L=∪kLk。
  • Step6:根据最小支持度计算高职院校学生个人属性与就业产业间的关联规则。

3.2 关联规则挖掘

关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入"购物篮"中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。
1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。
关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets),第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
关联规则是数据挖掘中的一种主要挖掘技术,关联规则挖掘是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。目前,关联规则挖掘问题已在人工智能、统计学、信息检索、教育管理等领域得到了广泛的应用。应用关联规则挖掘可以发现大量数据中项集之间的关联或相关关系。如通过获得高职院校学生信息中的学生学习能力、家庭情况、专业和就业信息,可以帮助学校更有针对性地安排教学培养计划,以适应社会需求。关联规则由支持度和置信度进行度量。支持度表示规则出现的频度,置信度表示规则的强度。
数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套 ,也就是说很大一部分顾客会同时购买床单和枕套,那么对于商场来说,可以把床单和枕套放在同一个购物区,那样就方便顾客进行购物了。
设代表一个事务数据库,某条规则具有支持度,表示中的事务中包含该条规则规则还具有置信度,表示包含的事务中的事务也包含事务。项集的支持度定义为包含的事务数占总的事务数的百分比。对于用户给定的最小支持度和最小置信度两个闽值,关联规则挖掘的任务是找出中具有最小支持度和最小置信度的所有的关联规则。挖掘主题。我们这里设计了个关联规则挖掘主题,分别是基卞信息关联、课程关联、综合素质关联、学生就业状况关联。
在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
  数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
基本属性关联,主要是挖掘出学生就业与性别、专业、政治面貌、生源地、奖学金、竞赛获奖等属性之间的联系课程关联,主要是挖掘出学生就业与所学课程及课程成绩之间的联系综合素质关联,主要是挖掘出学生就业与政治素质、身心素质、思想道德素质、人文素质及、创新实践能力之间的联系学生就业状况关联,主要挖掘学生就业与就业地域、单位性质、行业及职位年收人之间的联系。
关联规则挖掘是从事务集合中挖掘出这样的关联规则:它的支持度和置信度大于最低阈值(minsup,minconf),这个阈值是由用户指定的。根据支持度=(X,Y).count/T.count,置信度=(X,Y).count/X.count ,要想找出满足条件的关联规则,首先必须找出这样的集合F=X U Y ,它满足F.count/T.count ≥ minsup,其中F.count是T中包含F的事务的个数,然后再从F中找出这样的蕴含式X—>Y,它满足(X,Y).count/X.count ≥ minconf,并且X=F-Y。我们称像F这样的集合称为频繁项目集,假如F中的元素个数为k,我们称这样的频繁项目集为k-频繁项目集,它是项目集合I的子集。所以关联规则挖掘可以大致分为两步:
  (1)从事务集合中找出频繁项目集;
  (2)从频繁项目集合中生成满足最低置信度的关联规则。
  最出名的关联规则挖掘算法是Apriori算法,它主要利用了向下封闭属性:如果一个项集是频繁项目集,那么它的非空子集必定是频繁项目集。它先生成1-频繁项目集,再利用1-频繁项目集生成2-频繁项目集。。。然后根据2-频繁项目集生成3-频繁项目集。。。依次类推,直至生成所有的频繁项目集,然后从频繁项目集中找出符合条件的关联规则。
  下面来讨论一下频繁项目集的生成过程,它的原理是根据k-频繁项目集生成(k+1)-频繁项目集。因此首先要做的是找出1-频繁项目集,这个很容易得到,只要循环扫描一次事务集合统计出项目集合中每个元素的支持度,然后根据设定的支持度阈值进行筛选,即可得到1-频繁项目集。下面证明一下为何可以通过k-频繁项目集生成(k+1)-频繁项目集:
  假设某个项目集S={s1,s2…,sn}是频繁项目集,那么它的(n-1)非空子集{s1,s2,…sn-1},{s1,s2,…sn-2,sn}…{s2,s3,…sn}必定都是频繁项目集,通过观察,任何一个含有n个元素的集合A={a1,a2,…an},它的(n-1)非空子集必行包含两项{a1,a2,…an-2,an-1}和 {a1,a2,…an-2,an},对比这两个子集可以发现,它们的前(n-2)项是相同的,它们的并集就是集合A。对于2-频繁项目集,它的所有1非空子集也必定是频繁项目集,那么根据上面的性质,对于2-频繁项目集中的任一个,在1-频繁项目集中必定存在2个集合的并集与它相同。因此在所有的1-频繁项目集中找出只有最后一项不同的集合,将其合并,即可得到所有的包含2个元素的项目集,得到的这些包含2个元素的项目集不一定都是频繁项目集,所以需要进行剪枝。剪枝的办法是看它的所有1非空子集是否在1-频繁项目集中,如果存在1非空子集不在1-频繁项目集中,则将该2项目集剔除。经过该步骤之后,剩下的则全是频繁项目集,即2-频繁项目集。依次类推,可以生成3-频繁项目集。。直至生成所有的频繁项目集。
  得到频繁项目集之后,则需要从频繁项目集中找出符合条件的关联规则。最简单的办法是:遍历所有的频繁项目集,然后从每个项目集中依次取1、2、…k个元素作为后件,该项目集中的其他元素作为前件,计算该规则的置信度进行筛选即可。这样的穷举效率显然很低。假如对于一个频繁项目集f,可以生成下面这样的关联规则:
  (f-β)—>β
  那么这条规则的置信度=f.count/(f-β).count
根据这个置信度计算公式可知,对于一个频繁项目集f.count是不变的,而假设该规则是强关联规则,则(f-βsub)—>βsub也是强关联规则,其中βsub是β的子集,因为(f-βsub).count肯定小于(f-β).count。即给定一个频繁项目集f,如果一条强关联规则的后件为β,那么以β的非空子集为后件的关联规则都是强关联规则。所以可以先生成所有的1-后件(后件只有一项)强关联规则,然后再生成2-后件强关联规则,依次类推,直至生成所有的强关联规则。
修改意见7

3.3 Apriori算法在高职院校学生信息中的问题

随着计算机电子信息化的不断发展,教育管理系统也在逐渐完善,我国大量投入高职院校基础设施的信息化建设,那么如何从大量的学生属性,例如性别、专业、学习成绩、学历等挖掘出与就业信息有用的信息,这会为高职院校学生就业能力分析提供有力的帮助,从而使得高职院校更加优化自己的招生计划、管理计划、人才培养计划以及就业计划。在我们使用数据挖掘技术来对高职院校学生信息进行挖掘之前,需要了解高职院校学生就业属性因素,具体包括三个方面。

  1. 自身信息因素:学院、学号、毕业去向、单位名称、单位隶属、单位地址、单位性质、就业状况、备注单位、派遣证号、档案处理方式、性别、学历、专业、师范标志、培养方式、学制、民族、政治面貌、入学时间、毕业时间、原单位名称、生源地、考生号、档案接收单位、QQ号、联系电话、特长、定位、观念、期望、职业生涯规划、英语水平、计算机水平、专业能力水平等。
  2. 社会属性因素:高校迅速扩招、社会盲目追求学历、用人单位招人受整体社会经济的影响。
  3. 高职院校属性因素:高职院校的专业设置与社会需求不平衡、学生就业结构性失衡、高职院校就业指导与服务中心没有很好的应对市场挑战、学生没有受到高职院校的良好的就业指导培训。
    在Apriori算法中,本文将使用逐层搜索并迭代的方式,采取的是Apriori算法的其中一个性质在频繁项集中全部的子集也是频繁的,对于这个性质是通过连接操作和频繁剪枝操作来完成的,高职院校学生就业信息与传统的购物篮子信息还是有很大的差异性的,要选取适合的Apriori算法。

3.3 本章小结

关联规则挖掘方法是数据挖掘技术中一种用于预测挖掘任务的常用方法,而其中Apriori算法又是该类方法所有算法中最基本、最普遍的一种算法。本章在详细介绍决策树分类方法与Apriori算法相关理论的基础上,以本文研究中的毕业生就业信息数据为对象。

第四章 高职院校学生就业能力系统的设计

本章将设计基于Apriori算法的高职院校学生就业能力系统,首先要对数据进行采集和预处理,选取好样本数据以后,用Apriori算法计算频繁项集,然后选择出几项属性,再计算关联度系数,确定最小支持度和最小置信度以后进行比较,如果置信度大于支持度的阈值,那么生成强关联规则。整个流程如图4.1所示,本章将分别对一下几个步骤进行详细介绍。

图4.1 基于Apriori算法的高职院校学生就业能力设计流程

4.1 高职院校学生就业能力分析系统设计原则

对于高职院校学生就业能力分析系统的设计来说,首先考虑的是客户主要面向高职院校,因此在对高职院校的考核和量化的时候需要考虑到高职院校的特点,需要考虑专业、学历等对就业能力的影响因素。而数据要尽量选取可靠、多样性的数据,并剔除一些无用的数据信息。在进行数据挖掘时,需要选取合适的算法,并对其调优调参,提高挖掘算法的效率和准确性。

4.2 高职院校学生就业能力分析系统结构设计

4.1.1数据库表的设计

首先要进行数据集成,将不同数据来源的文件能够合并到数据库管理系统当中。采用SQL Server数据库管理系统来存储样本学生的基本信息数据库,里面存储高职院校学生的多种属性数据,根据实际需要可以对这些数据进行数据挖掘和分析,其中数据表中的自然属性主要有:籍贯、性别、学习成绩、家庭情况、专业、学历和就业情况。具体如表4.1所示。

4.1.2 数据预处理

建立数据库以后,需要对得到的数据进行冗余的检查,并且消减取一些无关数据,保证数据精确性和完整性。并通过数据清理使得原来的数据更加准确,去掉一些存在错误和缺陷的数据信息。而数据转换同样必不可少,将数据统一到结构化的数据中来。本节将对这三个数据预处理的步骤展开。
传统的数据库系统主要面向结构化数据的存储和处理,但现实世界中的大数据具有各种不同的格式和形态,据统计现实世界中80%以上的数据都是文本和媒体等非结构化数据;同时,大数据还具有很多不同的计算特征。我们可以从多个角度分类大数据的类型和计算特征。
(1)从数据结构特征角度看,大数据可分为结构化与非结构化/半结构化数据。
(2)从数据获取处理方式看,大数据可分为批处理与流式计算方式。
(3)从数据处理类型看,大数据处理可分为传统的查询分析计算和复杂数据挖掘计算。
(4)从大数据处理响应性能看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与线下计算。前述的流式计算通常属于实时计算,此外查询分析类计算通常也要求具有高响应性能,因而也可以归为实时或准实时计算。而批处理计算和复杂数据挖掘计算通常属于非实时或线下计算。
(5)从数据关系角度看,大数据可分为简单关系数据(如Web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)。
(6)从迭代计算角度看,现实世界的数据处理中有很多计算问题需要大量的迭代计算,诸如一些机器学习等复杂的计算任务会需要大量的迭代计算,为此需要提供具有高效的迭代计算能力的大数据处理和计算方法。
(7)从并行计算体系结构特征角度看,由于需要支持大规模数据的存储和计算,因此目前绝大多数禧金信息大数据处理都使用基于集群的分布式存储与并行计算体系结构和硬件平台。
数据预处理是数据挖掘整个过程中一个很繁琐却又相当重要的步骤,几乎占到全过程的一半时间甚至更多,而且数据预处理工作的好坏直接影响数据挖掘的最终结果。数据预处理的方法主要有数据清洗、数据集成、数据转换以及数据规约等,这些数据预处理方法将数据进行处理之后再对其进行数据挖掘,它们不但极大地提高了数据挖掘最终结果的质量,而且还有效地降低了挖掘的实际时间。

  1. 数据清洗数据清洗的工作主要是找出原始数据集中存在的一些由于人为因素或是错误而产生的一些数据,主要包括缺失值处理、噪声数据处理以及数据不一致的处理等。
    缺失值的处理方法主要有忽略元组、人工填写缺失值(该方法比较费时)、使用各种取值(如属性均值、全局常量等)填充缺失值,噪声数据的处理方法主要有分箱、回归与聚类,数据不一致的处理主要采用消除数据冗余的方法。
  2. 数据集成数据集成是指采用一定的技术手段将多个数据源中的数据合并并存放到一个新的一致的数据存储中,这些数据源可能包含多个数据立方体、数据库或一般文件。数据集成主要需要注意三个问题,它们分别是实体识别问题、属性冗余问题以及数据冲突的检测与处理。
  3. 数据转换数据转换是指将数据转换或统一成适合挖掘的形式。它主要包括以下三种方法:数据泛化、规范化以及属性构造。
    数据泛化主要是使用高层概念替换低层或原始数据的方法进行概念分层,如将上海、北京等东部城市可以泛化为东部这个较高的概念,规范化是指将属性数据按照一定的比例进行缩放,使其落入到一个较小的指定区间内,属性构造则是指在原有属性集的基础上添加新构造的属性,方便数据挖掘,以得到更好的挖掘模式。
  4. 数据规约数据挖掘时往往数据量非常大,在大量数据上挖掘分析需要很长的时间,数据规约方法可以用来获取原始数据集的规约表示,它小得多,但仍保证了接近于原始数据的完整性,数据规约的策略主要有数据方聚集、数据与数值压缩、维规约以及离散化和概念分层等。
    数据预处理的本质属于数据的“深度采集”,是信息数据的智能分析处理。利用网页内容分析、自动分类、自动聚类、自动排重、自动摘要/主题词抽取等智能化处理技术,对采集到的海量数据信息进行挖掘整合,最终按照统一规范的组织形式存储到DSM数据仓库,供图1 系统体系结构分析研究使用。数据预处理的工作质量很大程度上决定最终服务数据的质量,是DSM类项目( 如,DSM项目全过程管理、有序用电方案评价等)深度分析的重要基础。在数据智能分析处理中,主要包括:
  • 自动分类,用于对采集内容的自动分类;
  • 自动摘要,用于对采集内容的自动摘要;
  • 自动排重,用于对采集内容的重复性判定。
    关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。
    再比如市场的数据,它不仅十分庞大、复杂,而且包含着许多有用信息。随着数据挖掘技术的发展以及各种数据挖掘方法的应用,从大型超市数据库中可以发现一些潜在的、有用的、有价值的信息来,从而应用于超级市场的经营。通过对所积累的销售数据的分析,可以得出各种商品的销售信息。从而更合理地制定各种商品的定货情况,对各种商品的库存进行合理地控制。另外根据各种商品销售的相关情况,可分析商品的销售关联性,从而可以进行商品的货篮分析和组合管理,以更加有利于商品销售。
    同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
    但是在我国,"数据海量,信息缺乏"是商业银行在数据大集中之后普遍所面对的尴尬。金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

4.3 高职院校学生就业能力分析系统中Apriori算法的设计

根据高职院校学生就业能力分析系统的特性,将Apriori算法在设计完成的数据库系统上运行,来对数据进行挖掘。设计的Apriori代码如图4.2所示。

图4-2(a)Apriori代码

图4-2(b)Apriori代码


图4-2(c)Apriori代码

4.4 本章小结

本章设计了基于Apriori算法的高职院校学生就业能力系统,首先说明了系统的设计原则,应考虑面向客户群体,并选取可靠、多样性的数据,以及选取合适的数据挖掘算法。进而进一步设计了系统结构,首先要进行数据集成,将不同数据来源的文件能够合并到数据库管理系统当中。建立数据库以后,需要对得到的数据进行冗余的检查,并且消减取一些无关数据,保证数据精确性和完整性。并通过数据清理使得原来的数据更加准确,去掉一些存在错误和缺陷的数据信息。而数据转换同样必不可少,将数据统一到结构化的数据中来。然后,设计了Apriori算法进行数据挖掘,在对就业信息数据进行挖掘分析的基础上,确立了数据挖掘的主题,即挖掘发现就业单位类别与单位城市类别、地区类别、单位隶属地、专业、籍贯、性别、学历等之间存在着怎样的约束关系,进而为就业指导工作提供决策建议。

第五章 高职院校学生就业能力系统的实现

5.1 高职学生样本数据集的采集与选取

5.1.1数据采集

目前,高职院校的就业信息基本都已经电子信息化,本文研究数据来源于东北某高校就业指导中心就业信息数据库,主要以某一届毕业生的就业信息数据为主。原始数据集是一个Excel格式的文件,其中包含4927条记录,属性字段主要有学院、学号、毕业去向、单位名称、单位隶属、单位地址、单位性质、就业状况、备注单位、派遣证号、档案处理方式、性别、学历、专业、师范标志、培养方式、学制、民族、政治面貌、入学时间、毕业时间、原单位名称、生源地、考生号、档案接收单位、QQ号、联系电话等27个属性。
在对就业信息数据库进行设计时,选取了学历、籍贯、性别、学习成绩、家庭情况、专业、就业信息这6个属性,样本数据集如表5.1所示,数据库表如表5.2所示。

由于种种原因,原始数据集中的数据往往是不完整的,可能包含一些虚假的信息,或者是错误的信息[45];
数据准备是从一个或者多个数据源中构造数据集,用来探索和数据建模。在实践中,很重要的一点就是首先要熟悉数据,从而发现对数据的第一感觉,同时对可能存在的数据质量问题有很好的理解。数据准备往往是一个需要花费很多时间和探索错误的过程。“垃圾进,垃圾出”就很好的描述了数据挖掘项目中,数据无效、超出范围和缺失值的影响。分析那些没有仔细处理的数据,将会导致输出的结果错误性很高。因此,数据挖掘项目的成功与否很大程度上依赖于准备的数据的质量。
数据通常是度量或者计数的结果信息。变量是用来存放数据位置的地方,主要有两种类型的变量:数值型和类别型。
数值型或者连续型变量:能够接受任何有限或者无限区间值。数值型包括区间型和比率型变量。
类型变量:能够接受两种或者多种类型值。类型变量包括名义变量和序数型变量。
此外,某些数据对于数据挖掘分析来说可能毫无意义等等。因此,在进行数据挖掘之前,往往需要对原始数据做适当的数据预处理,否则可能会出现意想不到的错误结果。
数据采集功能主要用于实现对DSM分析研究中所需的电力供需、相关政策法规等原始数据、信息的多种途径采集。数据采集为使用者提供定时数据采集、随机采集、终端主动上报数据等多种数据采集模式,支持手工输入、电子表格自动导入等多种导入方式,且能够对所采集的数据进行维护,包括添加、修改、删除等,并能进行自动定期备份。在需求侧管理专业化采集中,`
采集的数据根据结构特点,可以分为结构化数据和非结构化数据,其中,结构化数据包括生产报表、经营报表等具有关系特征的数据;非结构化数据,主要包括互联网网页( HTML) 、格式文档( Word、PDF)、文本文件(Text)等文字性资料。这些数据目前可以通过关系数据库和专用的数据挖掘软件进行挖掘采集。特别是非结构化数据,如DSM相关的经济动态、政策法规、行业动态、企业动态等信息对DSM分析研究十分重要,综合运用定点采集、元搜索、主题搜索等搜索技术,对互联网和企业内网等数据源中符合要求的信息资料进行搜集,保证有价值信息发现和提供的及时性和有效性。DSM信息数据采集系统中数据采集类型如图2所示。在数据采集模块中,针对不同的数据源, 设计针对性的采集模块,分别进行采集工作,主要有网络信息采集模块、关系数据库信息采集模块、文件系统资源采集模块和其他信息源数据的采集模块。
(1)网络信息采集模块。网络信息采集模块的主要功能是实时监控和采集目标网站的内容,对采集到的信息进行过滤和自动分类处理,对目标网站的信息进行实时监控,并把最新的网页及时采集到本地,形成目标站点网页的全部信息集合,完整记录每个网页的详细信息,包括网页名称、大小、日期、标题、文字内容及网页中的图片和表格信息等。
(2)关系数据库采集模块。该模块可以实现搜索引擎数据库与关系型数据库( 包括Oracle、Sybase、DB2、SQL Server、MySQL等) 之间的数据迁移、数据共享以及两者之间的双向数据迁移。可按照预设任务进行自动化的信息采集处理。
(3) 文件系统资源采集模块。该模块可以实现对文件系统中各种文件资源(包括网页、XML文件、电子邮件、Office文件、PDF文件、图片、音视频多媒体文件、图表、公文、研究报告等)进行批量处理和信息抽取。
(4) 其他信息源数据的采集。根据数据源接入方式,利用相应的采集工具进行信息获取、过滤等。

  • 5.1.2 数据处理
    首先对整体数据进行处理,查看是否有缺少或者错误的数据,对于缺少的和错误的数据与辅导员或者本人进行核对,将不能解决的数据在数据库中进行删除。然后针对每一个属性进行处理。只有处理得当的数据才能进到数据挖掘的步骤。
    将数据导入数据库中,为了方便对学历数据进行处理,对数据进行量化,量化的标准如表5.2-5.6所示:

5.2基于Apriori算法的高职院校学生就业指导分析系统的实现

5.2.1计算频繁项集

计算频繁项集算法如图5-1所示,算法过程如下:
(1)连接数据库,获取高职院校学生记录;
(2)选择感兴趣的属性;
(3)求第一次扫描数据的一项集,首先扫描一遍数据库,对每一条事务记录进行搜索算法执行,对于满足的谓词,进行相应的技术,并对结果进行统计选择最小支持度的选项;
(4)根据第一次的一项集结果形成二项集,根据二项集结果形成三项集,依此类推,根据第K-1项集的结果形成第K项集。

图5.1 计算频繁项集过程

5.2.2生成关联规则

得到频繁项集{学历、性别、专业、学习成绩},设为{0、1、2、3}与之一一对应,其生成的所有关联规则流程如图4-2所示,阴影部分为低可信度,根据规则,子集同样也是低可信度的。即包含2、3条件的规则的可信度较低。

图5.2 生成强关联规则流程图

5.3实验结果分析

下表5.3是对高职院校学生属性和就业能力的数据挖掘结果进行分析,使用置信度作为柱状图的数据。

5.3.1毕业生个人属性与就业产业的关联度分析

为了解学生就业产业的划分情况,通过关联规则分析学生所在院系、所学专业以及学生学历和性别与就业产业之间的关联性。专业与就业产业之间的关联性由于各学院学生规模不同,需要在设置支持度阈值时综合考虑各学院的毕业人数差异。
本文对整个数据集选取较小的置信度值,取为0.5%,表示数据集中只要某学院毕业人数超过总数的0.5%就认为符合分析要求可进行关联分析;最小置信度设置为70%。对院系与就业行业产业关联分析,结果见表5-3所示(限于篇幅,表中仅给出置信度大于给定置信度阈值的强关联关系,下同)。

表5-3 专业与就业产业的关系
从表中看出,编号为1~18的院系,其学生就业产业从事第三产业的置信度均大于置信度阈值70%,由此得出编号为1~18的院系学生就业取向与第三产业具有强关联关系。编号为19~21的院系,其学生就业与第二产业具有强关联关系,分析原因,这3个学院专业设置偏向于制造与机械,因而学生更倾向于第二产业就业。

5.3.2毕业生就业产业分析

对高校的2008~2010年间毕业生的就业情况进行分析,图5.3是不同属性学生就业的分布情况。
从图5.3中可以看出:
(1)就业情况与学历和专业关系比较大;
(2)就业情况与学习成绩几乎无关;
(3)男性就业指数稍微高于女性;
(4)本科较专业就业有些优势;
(5)不同的专业就业情况有差别。


图5.3 不同学历的学生就业产业分布情况
所示图5.3中,就业率=就业人数/该学历已就业学生总人数。从图中看出,对于博士生,第三产业就业率是100%;对其他学历的毕业生,第一、第二、第三产业均具有吸纳就业的作用。
从产业结构看,第三产业是毕业生就业的主要行业;第一产业的从业人数一直处于低位,但2010年专科毕业生从事第一产业的人数提高幅度较大,从业人数占该学历总人数的8.33%;第二产业在2009年吸纳硕士毕业生、本科毕业生的就业量下降,但在2010年,吸纳硕士就业人数水平较2008年增长0.22%,且其吸纳本科生的能力显著增强,由2008年的28.06%提高到2010年的31.80%。分析原因是2009年国际金融危机对第二产业有较大影响,大学生就业相对不景气。第三产业吸纳硕士、本科毕业生的能力在2009年小幅增强,这显示出第三产业在抗击金融危机拉动就业方面的积极作用。
值得注意的是,第三产业在2010年对本科毕业生的吸纳能力分别比2008年、2009年下降3.06%与5.48%,由此可见,第三产业吸纳本科毕业生仍有较大的上升空间。

结论

近年来,高等教育的普及与劳动技术密集型就业大军的竞争等原因使得高校毕业生的就业形势愈来愈严峻,如何对就业信息数据进行有效的挖掘分析进而促进高校毕业生就业指导工作是一个值得研究的问题。
本文针对这个问题设计了基于Apriori算法的高职院校学生就业能力分析系统,首先要对数据进行采集和预处理,选取好样本数据以后,用适用于该系统的Apriori算法计算频繁项集,然后选择出几项属性,再计算关联度系数,确定最小支持度和最小置信度以后进行比较,如果置信度大于支持度的阈值,那么生成强关联规则。利用数据挖掘工具Weka进行建模进而挖掘分析的新思路,并提出了依照这一思路的实施方案,即利用数据挖掘技术中的决策树分类模型实现了数据挖掘技术在就业指导中的应用。
研究结果表明,专业在影响因子中起引领作用,且与学历有一定关联。第一产业的从业人数一直处于低位,但专科毕业生从事第一产业的人数提高幅度较大;本科毕业生在第二产业就业量受国际金融危机影响在逐渐下降;而第三产业是所有毕业生的主要行业。
数据挖掘只是一个强大的工具,它不会在缺乏指导的情况下自动地发现模型,而且得到的模型必须在现实生活中验证,数据分析者必须知道你所选用的挖掘算法的原理是什么以及是如何工作的,并且要深刻了解期望解决问题的领域,理解数据,了解其过程,只有这样才能解释最终所得到的结果,从而促使挖掘模型的不断完善和提高,使得数据挖掘真正地满足信息时代人们的要求,服务于社会。

参考文献

[1] 黄志良, 刘燕, 孙静华. 行业性高职院校学生就业能力培养的专业建设[J]. 中国职业技术教育, 2016(4):50-53.
[2] 中国医师协会网. 国家中长期教育改革和发展规划纲要[J]. 西藏教育, 2010(10):3-6.
[3] 重庆市教育委员会. 推动教育事业优先发展科学发展的宏伟蓝图——关于《重庆市中长期城乡教育改革和发展规划纲要(2010—2020年)》的简要说明[J]. 今日教育, 2011(z1):24-26.
[4] Li C. Knowledge Discovery in Database[J]. 1999, 17(3):37-54.
[5] Ng K S, Liu H, Kwah H B. Data mining application[J]. Acm Sigmod Record, 1998, 27(2):522-525.
[6] Woods R, Mcallister J, Lightbody G, et al. Technology Review[M]// FPGA-Based Implementation of Signal Processing Systems. John Wiley & Sons, Ltd, 2009.
[7] Chairapte G, Chairghosh P, Joydeep, et al. Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining[J]. British Journal of Surgery, 2013, 13(1):320-322.
[8] YOU Xiang Tao, YE Shi Ren, SHI Zhong Zhi. GENERAL MULTI-STRATEGY DATA MINING TOOL—MSMINER[J]. Journal of Computer Research\s&\sdevelopment, 2001.
[9] Miner I D. Psychosocial Implications of Usher Syndrome, Type I, throughout the Life Cycle.[J]. Journal of Visual Impairment & Blindness, 1995, 89(3):287-296.
[10] Rehm J, Kehoe T, Gmel G, et al. Statistical modeling of volume of alcohol exposure for epidemiological studies of population health: the US example[J]. Population Health Metrics, 2010, 8(1):3-3.
[11] Reinartz T. Focusing Solutions for Data Mining[J]. Lecture Notes in Computer Science, 1999, 1623.
[12] Williams G J, Huang Z. Modelling the KDD process[J]. 1996.
[13] Grossman R. Supporting the data mining process with Next Generation mining systems. (Technology Information)[J]. Enterprise Systems Journal, 1998(August).
[14] Goebel M, Le G. A survey of data mining and knowledge discovery software tools[J]. ACM SIGKDD Explorations Newsletter, 1999, 1(1):20-33.
[15] Piatestskyshapiro B G, editor. Knowledge Discovery in Databases[M]. Springer Berlin Heidelberg, 2000.
[16] 于洋. 数据挖掘可视化技术的研究与应用[D]. 吉林大学, 2008.
[17] 付彬, 王志海, 王中锋. Boosting算法中基分类器权重的动态赋值方法[C]// 中国数据挖掘学术会议. 2009:85-88.
[18] 李艳美, 张卓奎. 基于贝叶斯网络的数据挖掘方法[J]. 计算机仿真, 2008, 25(2):87-89.
[19] Pavlichmariscal J A, Demurjian S A, Michel L D. A framework of composable access control features: Preserving separation of access control concerns from models to code[J]. Computers & Security, 2010, 29(3):350-379.
[20] Lasota T, Pronobis E, Trawinski B, et al. Exploration of Soft Computing Models for the Valuation of Residential Premises Using the KEEL Tool[C]// Intelligent Information and Database Systems, 2009. ACIIDS 2009. First Asian Conference on. IEEE, 2009:253-258.
[21] 王实, 高文. Web数据挖掘[J]. 计算机科学, 2000, 19(4):28-31.
[22] 王惠中, 彭安群. 数据挖掘研究现状及发展趋势[J]. 工矿自动化, 2011, 37(2):29-32.
[23] 李悦, 孙健, 邱志祺. 基于关联规则的数据挖掘技术的研究与应用[J]. 现代电子技术, 2016, 39(23):121-123.
[24] 刘钊, 蒋良孝. 基于神经网络的数据挖掘研究[J]. 计算机工程与应用, 2004, 40(3):172-173.
[25] Cupples L A, Bailey J, Cartier K C, et al. Data mining.[J]. Genetic Epidemiology, 2005, 29(S1):S103.
[26] Liang M. Data Mining: Concepts, Models, Methods, and Algorithms[J]. Iie Transactions, 2005, 36(5):495-496.
[27] 朱廷劭, 高文, Charlex X.Ling. 数据库中知识发现的处理过程模型的研究[J]. 计算机科学, 1999, 26(2):44-47.
[28] 孙中祥, 彭湘君, 杨玉平,等. 数据挖掘在教育教学中的应用综述[J]. 智能计算机与应用, 2012, 02(1):78-80.
[29] Buldu A, Üçgün K. Data mining application on students’ data[J]. Procedia - Social and Behavioral Sciences, 2010, 2(2):5251-5259.
[30] Inokuchi A, Washio T, Motoda H. An Apriori-Based Algorithm for Mining Frequent Substructures from Graph Data[C]// European Conference on Principles of Data Mining and Knowledge Discovery. Springer-Verlag, 2000:13-23.
[31] Martin S, Diaz G, Sancristobal E, et al. New technology trends in education: Seven years of forecasts and convergence[J]. Computers & Education, 2011, 57(3):1893-1906.
[32] García E, Romero C, Ventura S, et al. A collaborative educational association rule mining tool[J]. Internet & Higher Education, 2011, 14(2):77-88.
[33] Chen C M, Chen Y Y, Liu C Y. Learning Performance Assessment Approach Using Web-Based Learning Portfolios for E-learning Systems[M]. IEEE Press, 2007.
[34] TALAVERA L,GAUDIOSO E.Mining student data to chaacterize similar behavior group in unstructured collaboration spaces[C]//Workshop on artificial intelligence in CSCL.16th European conferenceon artificial intelligence,2004:17-23.
[35] WANG YH,TSENG M H,LIAO H C.Data mining for adaptive learning sequence in English language instruction.Expert Syst-Appl,2009:36:7681-7686.
[36] HAMALAINEN W,SUHONEN J,SUTINEN E,etal. Data mining personalizing distance education courses [C]//World conference on open learning and distance education,HongKong,2004.
[37] Romero C, Ventura S, Zafra A, et al. Applying Web usage mining for personalizing hyperlinks in Web-based adaptive educational systems[J]. Computers & Education, 2009, 53(3):828-840.
[38] Tane J, Schmitz C, Stumme G. Semantic resource management for the web:an e-learning application[C]// International World Wide Web Conference on Alternate Track Papers & Posters. 2004:1-10.
[39] Muntean C I, Moldovan D, Veres O. A data mining method for accurate employment search on the web[C]// International Conference on Communication and Management in Technological Innovation and Academic Globalization. World Scientific and Engineering Academy and Society (WSEAS), 2010:123-128.
[40] Han J, Kamber M. Data Mining: Concepts and Techniques[J]. Data Mining Concepts Models Methods & Algorithms Second Edition, 2006, 5(4):1 - 18.
[41] Li C. Knowledge Discovery in Database[J]. 1999, 17(3):37-54.
[42] 尹世群, 张为群. 基于属性值分类的特征规则的知识发现[J]. 计算机科学, 2002, 29(9):56-58.
[43] 肖苏. 数据挖掘的基本流程及操作[J]. 信息通信, 2012(6):179-179.
[44] 高绪伟. 核PCA特征提取方法及其应用研究[D]. 南京航空航天大学, 2009.
[45] 郭萌,王珏.数据挖掘与数据库知识发现:综述[J].模式识别与人工智能,1998,11(3):292-299.
[46] 张焱, 欧阳一鸣, 王浩,等. 数据挖掘在金融领域中的应用研究[J]. 计算机工程与应用, 2004, 40(18):208-211.
[47] 李宁. 数据挖掘在电信CRM中的应用研究[D]. 重庆大学, 2005.
[48] 王伟辉, 耿国华, 陈莉. 数据挖掘技术在保险业务中的应用[J]. 计算机应用与软件, 2008, 25(3):123-125.
[49] Lazcorreta E, Botella F, Fernández-Caballero A. Towards personalized recommendation by two-step modified Apriori data mining algorithm[J]. Expert Systems with Applications, 2008, 35(3):1422-1429.
[50] BrankoKavšek, NadaLavrač. APRIORI-SD: ADAPTING ASSOCIATION RULE LEARNING TO SUBGROUP DISCOVERY[J]. Applied Artificial Intelligence, 2006, 20(7):543-583.
[51] 刘华婷, 郭仁祥, 姜浩. 关联规则挖掘Apriori算法的研究与改进[J]. 计算机应用与软件, 2009, 26(1):146-149.

基于Apriori算法的高职大学生就业能力的研究相关推荐

  1. #研发解决方案#基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案

    郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...

  2. 基于Apriori算法的网上图书销售ssm java毕业设计

    基于Apriori算法的网络书城,首先系统的主要研究是算法方面,通过算法,进行书籍的关联计算,并且进行图书的精准销售,营销,为客户推荐一些兴趣书籍,扩大用户的选择范围,提高网站的营销量.本系统开发平台 ...

  3. 利用weka进行数据挖掘——基于Apriori算法的关联规则挖掘实例

    文章目录 1. weka安装 2. 先分析一个Apriori算法的关联规则挖掘实例 3. 利用weka进行数据挖掘 3.1 将数据转为ARFF格式 3.2 利用weka进行分析 4. 参考文章 首先, ...

  4. 基于Apriori算法的购物网站商品推荐系统

    基于Apriori算法的购物网站商品推荐系统 目 录 一. 算法内容 3 Step 1 收集用户偏好 3 Step 2 对数据进行预处理 3 Step 3 计算相似度 4 Step 4 找邻居 5 S ...

  5. 基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案 郑昀 基于杨海波的设计文档(转)...

    郑昀 基于杨海波的设计文档 创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...

  6. [当人工智能遇上安全] 5.基于机器学习算法的主机恶意代码识别研究

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  7. apriori算法c++_关联分析——基于Apriori算法实现

    电子商务推荐系统主要是通过统计和挖掘技术,根据用户在网站上的行为,主动为用户提供推荐服务,从而提高网站体验.而根据不同的业务场景,推荐系统需要满足不同的推荐粒度,包括搜索推荐,商品类目推荐,商品标签推 ...

  8. apriori数据集_关联分析——基于Apriori算法实现

    电子商务推荐系统主要是通过统计和挖掘技术,根据用户在网站上的行为,主动为用户提供推荐服务,从而提高网站体验.而根据不同的业务场景,推荐系统需要满足不同的推荐粒度,包括搜索推荐,商品类目推荐,商品标签推 ...

  9. 基于Apriori算法的菜品组合挖掘

    背景: 我们在点外卖的场景中,经常会看到菜品A+菜品B+菜品C的组合,这种组合的产生主要是为了节省用户的点餐时间,方便客户从海量菜品中找到理想菜品,通过引入Apriori推荐算法,得到菜品之间的关联度 ...

  10. 基于Apriori算法,SpringBoot框架作为前端,java语言编写的购物推荐系统 0.0

    1,简介 自己研究的一个小软件,已经申请专利,这里分享出我的思路以及代码作为纪念,也希望能帮到大家,可以根据已经购买的东西利用算法推荐出可能还会购买哪些,类似于淘宝的推荐系统啊之类的巴拉巴拉,不过是简 ...

最新文章

  1. 小米平板android版本,除了安卓MIUI7,小米平板2为什么要推出Win10版?
  2. C++判断网络是否连接
  3. vue 双向数据绑定的实现学习(一)
  4. SELECT COUNT语句
  5. spring boot中利用mybatis-generator插件生成代码
  6. thinking-in-java(20)注解
  7. php 递归求得目录大小
  8. [leetcode]LRU Cache
  9. 【java设计模式】之 工厂(Factory)模式
  10. install memcached for ubuntu
  11. Windows server 2008 iis7 下配置PHP+MySql
  12. PPT,要你好看(全彩)pdf
  13. 数据分析案例:预测乳腺癌是否复发
  14. 每天一道剑指offer-旋转数组的最小数字
  15. iOS面试题06-其他
  16. excel如何批量制作二维码?
  17. caffe入门学习(5):绘制网络结构图
  18. kappa一致性检验教程_诊断试验的一致性检验-Kappa
  19. Going Deeper with Contextual CNN for Hyperspectral Image Classification
  20. 只使用适用于DatetimeIndex的方法

热门文章

  1. 进击的速溶咖啡:当中国AI开始玩工业化
  2. 计算机配置无线网卡在哪能找到,电脑的无线网卡在哪里
  3. MySQL课程超级团,值得再提一次。
  4. Excel图表制作(一):商务图表之加最大值和最小值标签的基本图
  5. gazebo中计算理想相机模型的fx fy
  6. 如何使用微信公众平台测试号进行系统开发
  7. mysql 备份 access_备份access数据库
  8. C++11新特性——std::bind参数绑定
  9. 投 资 网 站 建 设 方 案
  10. Audio Hijack for Mac(音频录制工具)