挑战杯课外学术参赛作品—AI合约问卷调查系统

大学生课外学术科技作品竞赛

1.作品概述

1.1作品选题背景和意义
随着互联网技术的发展以及大数据、人工智能等新科技时代的来临，我国高校教育改革、高校人才培养也面临着新的机遇与挑战。一方面，为了实现国家战略、支撑快速发展的新经济，需要高校变革发展培养新型人才，满足社会发展的新需求；另一方面，新时代教育理念、教育技术的与时俱进，加速教育信息化、智慧教育的发展，为高素质人才培养提供保障。
现今我国高校已经全面建成数字校园，并逐步向“智慧数字校园”迈进。因此，高校学生在校园中每时每刻都会产生大量的行为数据，如何充分利用这些学生行为数据，助力高校教学改革、提升教学管理水平、提高学生培养质量是现代化高校教育面临的热点问题。
而高校教学活动中，学生测评是其中至关重要一环，是对教学质量和学生学习状态的一种监控手段和方法。目前，已有高校学生测评方法主要是根据学生成绩信息和各种量化积分，并依据学校行政部门指定的管理制度给出一个分数，作为学生评优评先和奖学金的依据。由此可知，已有的测评方法具有间断性，且评测结果未能充分体现学生在校期间的动态学习状态和发展路径过程，因而不具备及时地学生导向调节、精准引导学生发展的能力。此外，若评测系统不能实时反映当前学生的学习状态，不仅不利于学生及时对自身进行调整、提高学习效率、提升学习能力，也不利于学校对学生学习行为的精准干预和管理。这将严重影响高校人才的培养质量，使得高校毕业生难于适应如今高速变革的社会发展的需求。而高等教育是社会发展的重要依靠、是社会发展的动力之源，所以高校人才质量直接影响并制约着国家的发展和未来。
由此可见：目前已有高校学生测评存在着测评方法固化、单一以及测评定位不精准、不全面，且难于给出学生针对自身发展需求的合理化建议、缺乏智能性等不足，本研究借助于以深度学习、知识图谱为代表的新一代人工智能技术，尤其是采用知识图谱技术，通过构建学生行为知识图谱并利用知识推理来实现高校智慧测评，并在此基础上构建了基于学生行为知识图谱的高校智慧测评系统。
1.2作品研究目标和主要研究内容
1.2.1 作品研究目标
本作品的研究目标细化为以下几点：
(1) 旨在提高学生对自身的了解及管理能力，适应当代社会人才发展的需要。
通过智慧测评系统平台，学生能够通过多维度、多种形式的数据图表，全面掌握个人数据及发展趋势是否与规划目标一致，掌握个人发展阶段的具体情况。使学生能更加了解到自己自身的不足与优势，扬长避短，增强自身发展能力，尽早地对自己的不足之处进行填补，发扬自身优势，积累经验，同时让学生对自身专业、升学和就业等相关实现学生综合能力的信息进行深入了解，提高学生自我管理能力，为学生未来步入社会打下坚实基础。
(2) 为对学校的教学管理决策提供借鉴。
该项目拟完成的学生行为知识图谱及智慧测评系统，能够全方位跟踪、监控学生的学习行为轨迹，及时提供学生学习态势分析结果，并能给出学情预警等，为学校的教学管理决策提供了借鉴。并且平台可以对全校教学管理、教师管理、课程管理、学生异动管理、在校人数动态等综合信息数据进行可视化图展示，帮助学校管理者及教育主管部门全面了解学校在校生情况、教学情况、校园管理运行情况等实时数据，方便对教育决策进行反馈及修改。
(3) 为教学改革提供探索路径。
积极应对新形势下教育改革的需求，丰富数据采集维度，全方位展现学生学习和生活的发展。利用技术手段管理产生的各类数据的汇总、清洗、分析，并通过模型设计，来实现综合素质的结果。为开展基于学生行为的个性化教育、资助、服务奠定基础。
(4) 构建出校级学生行为知识图谱及智慧测评系统。
打通学校各业务部门数据流转，收集各部门有关数据，初步构建出面向校园的学生行为知识图谱，并依据知识图谱设计并完成学生智慧测评系统，为学校和学生提供帮助。
(5) 紧跟大数据、人工智能时代，为高校建设智慧数字化校园提供帮助。
系统利用大数据、建设网络基础设施，收集学生在校期间各类行为数据，利用大数据挖掘潜在的有用信息，开展学生过程化分析，为师生提供灵活性、全面性和易用性的智慧化服务，建成校园管理的新模式。
1.2.2 主要研究内容
依据前述研究目标，主要研究内容如下。
（1）探索在学校复杂的数据环境下学生个性化、行为数据的采集
项目拟研发的智慧测评系统平台，为了能够使学生通过平台可以全面了解个人综合能力发展、学习与专业核心能力情况、综合素质评价、健康、饮食情况等信息，首先需要对学生个人信息、在校期间各类的数据（例如课程缺勤、作业完成、对社团及各项体育项目的参加情况）进行汇集、预处理等。
（2）探索学生行为知识图谱的构建及用户画像的可视化模型及方法
在前述采集数据的基础上，进行实体-关系识别，利用知识图谱构建技术，构建出学生行为知识图谱，并利用用户画像方法，构建出学生个性化信息用户画像。
并在此基础上，进一步将前述复杂的数据及分析结果以图形、图像及图表等多种可视化方式呈现出来，以便于为学生和教师直观展示前述学生测评与分析的结果。例如，可视化的呈现出学生行为属性、生活习惯、消费水平等信息，以及完整描述教育目标群体的特征等。
（3）探索智能测评及预警的方法
利用学生行为知识图谱进行逻辑推理、分析，并依据评测指标，构建智能评测算法。此外，利用预警手段为教师、学校提供及时、准确的学生预警，平台根据学校和老师设定的各类教育管理标准，当学生的数据指标达到预警条件时（例如上课缺勤到达一定次数），系统能自动发送预警信息给班主任、教务管理人员等，为学生全面发展提供有力保障。
（4）探索智能测评系统的智能推荐方法
为了能够为学生提供更加便捷和有力的辅助，智能测评系统平台还为用户提供了多功能的智慧推荐模块，系统利用知识图谱并根据构建好的个人用户画像为其生成个性化推荐方案，例如，某学生经过数据分析得出的“数学”方面成绩不好，平台推荐方案就会给出“多加强逻辑思维练习，有效率地针对某一道题目练习，理解数学的深层思想”等等方案及建议。
（5）探索高校知识库智慧问答方法
系统为学生构建了高校知识库智能问答模块，问答可以准确理解学生语义意思，依据其深度搜索及推理，给出理想化的答案。
1.3国内外研究及发展现状
现今我国高校已经全面建成数字校园，并逐步向“智慧数字校园”迈进。因此，高校学生在校园中每时每刻都会产生大量的行为数据，如何充分利用这些学生行为数据，助力高校教学改革、提升教学管理水平、提高学生培养质量是现代化高校教育面临的热点问题。
在高校向智慧化水平迈进过程中，学生测评是其中至关重要一环，是对教学质量和学生学习状态的一种监控手段和方法。高校现多采用收集学生行为数据来开展分析以此构建系统来测评学生发展情况。
目前国内外关于高校测评系统的研究有：
（1）哈尔滨工程大学的王萌基于校园一卡通系统的数据分析学生的行为习惯和消费习惯并开发测评系统，对特殊群体跟踪其行为轨迹，从而对不良学生发出预警。
（2）北京邮电大学的周雪基于时间阈值和站点首页的混合会话识别算法构建了基于网络日志的用户行为分析系统，系统以K-means、GMM、协同过滤等算法对日志击落进行标签标注，进而实现多维度统计分析和用户挖掘，建立学生画像，得出学生测评结果。
（3）Johnson等在网络教育中使用K近邻、决策数、朴素贝叶斯、神经网络等算法分析影响辍学的最为重要的原因，设计测评系统对辍学进行预测。
（4）Lee等同学使用Hadoop和Spark平台建立学生用户画像，通过机器学习算法设计了一个预测模型，向学生推荐下学期将要学习的课程。
由上述研究可以分析得出：目前用户画像技术目前被高校测评系统广为应用，测评系统通过为学生用户描绘其自身画像以此来体现学生发展过程。而用户画像技术是为了更好的刻画学生，其本质就是“打标签”。用户画像精准与否决定了对用户的理解是否准确。但在高校实际应用中，用户画像有2个问题需要去解决，第一个方面是画像数据不完整，第二个方面是画像数据不正确。
（1）画像数据不完整
任何画像的来源数据都是有一定偏差的，一般描述的都是用户画像的某一方面，很难有一个非常完整的画像。另外领域中用户的行为数据量不够大也会造成此项问题。
（2）用户画像不正确
即对用户画像的理解本身就是错误的，导致出现错误的推荐。而导致不正确性的原因很多，第一个就是机器无法理解这些标签，也就无法基于画像做出精准的用户判断与推荐。理解标签，就需要有海量的背景知识去支撑它认知这些概念。
而本系统利用知识图谱来解决以上问题：
知识图谱分为领域知识图谱与百科性知识图谱，本系统主要针对学生行为构建领域型知识图谱，据目前研究资料可知：目前高校尚未应用此知识图谱。
知识图谱本身上的节点覆盖足够多的实体，足够多的概念，可以作为用户画像的标签来源，精良的质量使得打上的标签更加的准确。这些标签间有具有联系，图谱中有丰富的语义关系，这样可以帮助机器去理解这些标签的意义。友好的结构利于人们去更好的理解，直观的发现标签间的关系。可以利用标签传播，跨领域推荐等算法去挖掘更多更精准的标签来描述用户，丰富用户标签，提升用户精准度。另外在做学生画像时，学生画像可以单独作为产品可视化的进行呈现，利用图谱中的关系，生成个性化的，动态变化的用户知识图谱。
另外本系统在测评基础上利用构建的学生图谱选择适合的推荐算法对学生进行在校期间进行个性化推荐，以此提高高校智慧化水平。
而知识图谱构建的本身强大的知识库以及其逻辑推理能力为高校知识智能问答提供了丰富且优质的答案来源，系统利用此优势在测评基础上继续扩展了高校知识智能问答模块
1.4作品成果和创新点
本作品的主要成果及创新点如下。
（1）对学生在校期间产生的各项行为数据进行了汇总、分析，深度挖掘其背后关联、隐藏的信息。
（2）构建了高校学生行为知识图谱，挖掘数据内部隐含信息，发现学生隐性特征，提高测评信息的准确度以及全面性。
（3）给出了基于知识图谱的智能推荐方法。系统基于服务为本理念，添加了基于知识图谱的智慧推荐模块，系统针对构建好的学生用户画像的各项标签进行分析，向该学生提出综合评价提升推荐方案；同时针对构建好的一类学生用户画像的各项标签进行分析，向教师提出教学改善推荐方案、教学预警方案等。
（4）构建了基于知识图谱的带有智慧测评能力展示的学生画像及其可视化，并能够有效利用学生用户的结果性数据与过程性数据开展数据分析，得出科学、客观的评价数据。高校智慧测评系统不仅仅是展示学生个人认证的基本信息与自己的行为动作触发的交互反应信息，其更大的作用在于利用学生信息和行为信息的一系列数据，对数据进行汇集和分析，得出科学合理的评价结果。学生随时查看自己的发展轨迹，而学校及教育部门随时查看系统对某一群体的各项数据展示，分析发展趋势。
（5）预测未来“谁是学霸”——针对已经构建出的学生用户画像预测未来学生画像。系统对学生行为数据进行探索分析，分析其某一类学生发展规律。例如：依据图书馆学生打水次数得出学霸通常去图书馆次数较多，而学习成绩差的学生较少、按时吃早饭，坚持锻炼等生活有规律的学生普遍学习好、身边朋友成绩较好则该学生成绩也相对较好等。依据此类行为特征结合当前学生行为画像从而分析得出学生谁是潜力股，给予学生自省以及自我激励的作用，也让教师等教育管理者对学生有实时的教学监控，从而有针对性的教学管理。
后续将对上述成果和创新点进行详细阐述。
1.4 领域知识图谱构建的一般过程及技术、方法
学生行为知识图谱构建主要是基于多种数据处理技术，多渠道抽取有价值的学生行为知识，以三元组的形式存储于图数据库中。[1]
知识图谱的构建主要分为自顶向下和自底向上两种构建方法。自顶向上构建方法需要领域专家参与本体构建，而自底向上方法成本较低、自动化程度高，本项目根据实际情况采用自底向上方法构建学生行为知识图谱。
知识图谱的数据来源：数据分为结构化数据、半结构化数据以及非结构化文本数据，结构化数据主要是从学校管理系统中导出的学生基本信息数据以及在学生官方使用学习软件中导出数据，半结构化数据时网页爬取具有一定结构的数据，例如json数据等，而非结构化数据主要是根据学生填写调查问卷以及领域收集文本数据。对于结构化和半结构化数据可以直接提取识别其实体关系属性，而对于调查问卷所得出的纯文本非结构化数据，不仅包含知识，而且内容设计范围大、参差不齐，需要通过自然语言处理技术来提取文本结构的语义。学生行为知识图谱构建流程如图1.4.1所示。

图1.4.1 构建知识图谱流程

下面首先从学生数据采集开始论述。

2.学生个性化行为数据的采集

2.1数据需求分析与数据源的选取
2.1.1 数据需求分析
项目拟研发的智慧测评系统平台，为了能够使学生通过平台可以全面了解个人学业成绩、学习与专业核心能力情况、综合素质评价、身体健康、饮食情况、心理素质、娱乐上网、课堂评测等信息，首先需要对学生个人信息、在校期间各类的数据进行汇集、预处理等。
学生个人信息包括学生的学院、专业、班级、学号、姓名、性别的数据。
学生在校期间各类的数据包括课程缺勤情况、作业完成情况、对社团及各项体育项目的参加情况、专业成绩情况、体测成绩情况、心理健康情况、身体机能情况、一卡通消费情况、学科选修情况等。
2.1.2 数据源的选取及数据采集过程
（1）结构化数据
通过导出学校教务系统存储的学生数据，获取学生的学号、学院、专业、班级、姓名以及性别等基本信息数据，以及学生各个学期的学习成绩，校园一卡通使用情况，各学年体测成绩，学科选修情况等学生在校期间的数据。
从学习通中获取课程相关数据，包括课程缺勤情况、作业完成情况以及课堂表现情况等，将其导出到Excel表中，等待下一步处理。
导出学生在校一卡通的消费数据成excel表形式，等待处理。
对于学生心理健康情况及身体机能情况等无法获取的数据，我们通过程序模拟学生的相关数据，并严格对照有关文献，保证模拟数据的准确性，并将其最终保存到Excel表中，等待下一步处理。
（2）半结构化数据
学生在访问高校测评系统时，后台会自动记录该学生在该网站的访问时长，浏览记录，以及访问各个模块的有效时间，用来推测学生的关注重点，并以json的格式，将其存储起来，等待预处理。
（3)非结构化数据
获取调查问卷中填写者自己填写的文本数据，例如对本专业的评价、心理测评问卷测评题目、娱乐上网一般时长、校内担任职务叙述、参加实践活动经历、课堂表现自述等，对老师进行走访调查，调查教师所教授班级内学生各项课堂表现情况，均以文本形式存储。
2.1.3 采集数据的预处理
（1）结构化数据的预处理
学生基本信息、学生在校期间各类数据、课程相关数据和模拟数据，都是以Excel表的形式进行的存储，我们通过使用JAVA POI来对其进行处理，并使用正则表达式、字符串操作等技术对学号、模拟数据进行规范化处理，并建立数据表，将各个表通过外键等方式联系起来，最后使用POI操作Excel，将其数据按照所需格式存储到关系型数据库中。
（2）半结构化数据的预处理
所需数据是以json格式进行的初步存储，json字符串都是一个键仅对应一个值，首先通过循环的方式将每一行解析成字典，并保存到列表中，最后通过DataFrame函数完成数据框的转换，接下来需要将拆分出来的这列，与原始表中的变量整合到一起，完成数据的预处理。
（3）非结构化数据的预处理
获取调查问卷的文本数据作为第一数据，对所述第一数据进行校验，得到第二数据，将第二数据存入非结构化数据库中。进一步，将第二数据进行数据清洗，得到第三数据，其具体包括：获取结构化数据库的第一表结构，获取第二数据的第二表结构，根据第一表结构，删除第二表结构中的无效字段的数据，得到第三数据，最终完成非结构化数据的预处理。

2.1.4 数据存储
数据预处理完成后，需要将数据存储到知识图谱构建环境中，为后续的知识建模和知识融合提供数据来源。
（1）关系数据库导入
关系型数据库中存放着构建知识图谱所需的结构化数据，在此使用的关系型数据库为Mysql，将学生个人信息以及学生在校期间数据都存储到了Mysql中，以表单形式存在。为了获取外部关系型数据库中的学生信息，需要连接数据库，并从中读取表单数据，再通过知识图谱建模语言将Mysql中的数据在知识图谱中进行建模。
（2）半结构数据导入
学生上网时长、学生重点关注点等信息以json格式进行存储，为了获取学生上网时长等信息，需要读取并解析半结构化数据，及json文件解析，通过对json文件的解析抽取得到其中包含的知识信息，用于后续知识图谱的建模。

3.学生行为知识图谱及用户画像的可视化模型构建
3.1学生行为知识图谱
根据上述知识图谱构建流程，下面分为知识抽取、知识融合、知识加工三个部分进行论述：
3.1.2 知识抽取
知识图谱基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构。知识抽取主要是抽取实体、关系以及属性[2].具体步骤如下所述：
3.1.2.1 实体识别
实体是知识图谱最基本的组成部分，实体识别又称为命名实体识别。对于从学校教务系统中导出的学生基础信息等结构化数据，可以依据表关系直接提取其实体。
而对于学生数据、课程、课堂表现、心理、运动、身体素质、娱乐、等方面的非结构化文本数据的实体抽取，可以看作序列标注问题。[3序列标注是指对于一个句子，输出其对应的一个序列标记，每个字对应一个标记。在命名实体识别中常用 BMEO来进行序列标记，即如果对应的字不是实体的一部分，则标注为O;如果是实体第一个字，则标注为B;如果是实体最后一个字，则标注为E:如果是实体中间的字，则标注为M;标注时可以加上实体的类型。]示例如图3.1.2.1.2所示。

图3.1.2.1.1 命名实体识别序列标记示例

而根据上下文信息预测当前字的标记，本系统基于整个句子作为特征建模而不仅仅是依据其前一个字，在此使用条件随机场模型（CRF),如下图3.1.2.1.2所示，CRF模型充分考虑了上下文特征，使得结果更加精确。系统提取实体内容如下图3.1.2.1.3所示。

图3.1.2.1.2 CRF网络结构

图3.1.2.1.3 实体抽取图
3.1.2.2 属性抽取
在上述实体抽取基础上，对实体再次进行属性抽取，对于学生基本信息等结构化数据，根据数据表之间存储关系进行属性抽取，例如学生姓名、专业、学院，而对于非结构化数据，主要依靠文本数据对该试题的描述进行识别。属性抽取情况如下表所示;

图3.1.2.2.1 属性抽取图
3.1.2.3 关系抽取
实体关系抽取[3]是在命名实体识别前提下，自动识别有一对实体和联系这对实体的关系构成的相关三元组。基本本系统数据源来源多样，对于学生信息等表结构的数据，可以根据表定义的关系直接进行关系抽取。而对于非结构化的文本数据。系统主要采用了基于规则的关系抽取以及深度学习方法进行关系抽取，基于规则的关系抽取首先通过基于规则的模式匹配方式解决关系抽取问题，从文本数据中抽取实体之间的上下位关系，并将模式泛化，在多种文本中均具有适用性。而深度学习方法近年来在关系抽取领域也得到了很多应用，通过采用卷积神经网络（CNN）的架构来模拟给定实体之间的子句，而并非对整个句子进行建模，同时使用LSTM模型来提取最终的关系模式，此种方法弥补了当前大多数基于深度学习的方法主要集中在学习单个句子的语义表示而不能反应上下文的问题，具体如下图3.1.2.2.1所示：

图3.1.2.2.1 CNN关系抽取模型结构图

在此模型中，将句子中第i个字的k维向量表示作为xi，从而该句子表示为：
令表示为h*k窗口大小的卷积核，所以经过卷积操作的特征c为
b为偏置向量，F是非线性激活函数，经过卷积操作，句子转变为特征图c:
最后经过最大值池化的方法，用每个特征图中值最大的特征表示整个特征图，此为一个卷积核提取特征，CNN同时使用多个不同窗口大小的卷积核提取多个特征，最后在全链接Softmax层进行分类。
3.1.3 知识融合
通过上述对学生行为数据命名实体识别和关系抽取，实现了从结构化文本中获取实体和关系的目标。然而这些结果可能会包含错误及冗余信息，所以还需要对数据进行清理和整合，保证知识图谱的质量。
本系统知识融合通过以下部分来详细阐述：
3.1.3.1 实体对齐
实体对齐是指对于从文本中抽取的得到的实体对象。再从知识图谱中选择一组候选对象，通过计算相似度计算将抽取得到的实体对象链接到知识图谱中的实体对象。核心在于实体相似度的度量。在此本系统利用了谷歌的word2vec思想训练得到词向量矩阵。
3.1.3.2 一致性分析
一致性分析[4]是指在知识图谱构建构成中消除语义上的冲突，即通一组实体识别出不同的关系，一致性分析的方法有三种：基于数据源、基于支持度、和基于人工，基于数据源一般对于结构化数据的可信度要优于非结构化数据，例如：从学校教务系统中导出来的学生基本信息数据要优于对学生文本信息数据进行实体命名关系识别得出来的实体数据。而基于支持度是根据每个实体或关系为真的依据在文本中出现的次数进行取舍，而人工是在上述两种方法无法解决时使用人干预的方法进行取舍，由于本系统数据源多样，既有结构化也有非结构化，所以三种方法均使用。
3.1.3.3 质量评估
质量评估[5]是对提取知识的质量和可信度进行量化，舍弃质量较差的知识。而知识图谱的评判方法一般分为基于本体、基于数据、基于人工三种，基于本体是将提取中的实体与成熟公开的知识库进行对比；基于数据是将提取结果与行业数据集进行对比，基于人工是指人工对结果分析；由于现在尚缺少有关于校园等的成熟知识库且数据集也尚无衡量标准，所以系统暂且采用人工分析的办法，人工衡量知识库的质量水准。
3.1.4 知识存储
针对知识图谱的不同表示方式，存储方式也各有所异。对于图结构，Neo4j作为使用量世界排名第一的图数据库，不仅可以存储图结构的数据，而且提供可视化的界面进行管理。并且Neo4j提供的图算法为频繁查询提供了高性能的保障。而在数据安全方面，有完备的事务管理。Neo4j数据灵活，支持各大主流语言，方便敏捷快速的开发模式，因此对于本系统图结构的知识图谱，采用Neo4j作为基础数据库，提供可视化存储和服务。
3.2基于知识图谱的学生画像可视化模型的构建
3.2.1 学生属性标签的构建
利用知识图谱实体与属性之间的关联，可以利用构建的学生行为知识图谱直接提取学生实体以及与学生关联的实体的属性作为学生画像的静态属性标签，主要包括：学生实体的年龄、班级、性别、姓名、在校担任职位、在校选择课程等静态属性，鉴于图谱覆盖范围足够广、以及实体之间的相互联系，所以标签具有优良的质量。系统刻画的学生画像属性标签如下表1所示：

姓名
年龄
故乡
性别
专业
职位
是否在校居住
荣誉
学院
选择课程
组织社团担任职务
…
表1 学生画像属性标签表

图3.2.1.1 基于属性标签的学生画像
3.2.2 学生行为标签的构建
在获得学生属性标签后,依据学生用户行为数据进行统计分析从而产生行为标签,根据现今已有数据，学生行为标签主要包括学习标签、心理健康标签、身体素质标签、消费标签、娱乐标签。而对于某些学生行为数据不足、数据量过小问题，基于学生行为知识图谱可以使得标签传播、标签扩展，从而扩大学生标签范围以及弥补数据量不足，例如某些学生根据其行为无法为其得出标签结果，则可以通过其好友而分析该学生的画像标签，而且该学生所拥有好友的共性标签越多，该学生具有该标签的可能性越大，从而产生学生好友之间的标签传播，学生标签单单阐述某一种问题，基于图谱可以为其实现标签扩展，例如：学生是软件工程专业从而得到学生是IT行业标签。标签建立体系如下表2所示：

类型标签
学业水平学霸
学习尚可
学渣
上网 5G冲浪达人
2G网速
游戏我最强
学习是目标
运动健步如飞
兵乓球爱好者
羽毛球大神
排球小将
消费高端消费
消费中等
经济较为困难
重度贫困
果粉
心理素质心理强大，耐打击
受的住一般性打击
心理脆弱
抑郁倾向
实践能力实践先行者
组织达人
奖杯一箩筐
无奖小透明
生活按时吃早餐
营养均衡
生活规律
生活规律颠倒
课堂课堂积极参与
课堂跟着老师走
我与课堂无关
作业完成率
… …
表2 学生行为标签表

图3.2.2.1 基于行为标签的用户画像
3.2.3 学生画像的可视化模型
本系统中，学生行为数据主要聚焦在学生学业水平、身体健康、心理素质、实践能力扩展、娱乐、消费、课堂表现等方面。各类原始数据经过数据清洗后，将通过算法和数学模型进行最终的标签匹配，所以算法模型的设计很大程度上决定着用户画像最终实现效果，在学生画像的构建中，系统采用多样的计算模型。
针对学生课堂活跃程度、娱乐等评分类标签，采用了行为类型权重及时间衰减算法：。再结合学生课堂参与程度、课堂考勤、作业完成、阅读类型、打球时间等不同行为的权重类型以及考虑时间衰减因子，最终得到相匹配的学生课堂标签。
针对学生消费标签，采用RFM模型，动态显示了一个客户的全部消费轮廓，标签计算时，通过对每个用户最近消费（R）、消费频率（F）、消费金额（M）三个维度的综合计算，实现学生群体的精确细分，区别出高消费、一般消费、低消费用户，从而确定学生的家庭经济状况，便于教育管理者进行学校内部贫困生评选等活动，使得结果更加客观化。
对于学生学业水平标签，使用统计分析办法，采用规则进行统计计算，例如：学生在校六个学期经过统计分期期末测试学业水平均处于年级前10%，则此学生则有“学霸”标签、学生体测成绩反映其身体素质水平处于班级靠前，则学生拥有“运动健儿”标签，
针对心理素质、生活等标签，根据基于规则的自然语言分析得出标签，例如：学生在调查问卷中填写有关于心理测试问题的答案：对于“焦虑”、“烦躁”、“压力大”、“失眠”、“老师批评”、“心情沮丧”等词汇进行统计分析，从而得出学生近期心理状态，而“按时早饭”、“体育锻炼”、“熬夜”、“通宵”等词汇的频率决定着生活标签的评定。
最终得到的学生用户画像可以单独作为产品为学生进行可视化呈现，利用当下流行技术E charts、D3.js在微信小程序等移动端等为学生用户描绘出多图形、图像及图表数据展示的用户画像，并对学生群体使用进行某一特征向量的提取，从而生成某一类学生群体的用户画像。

图3.2.3.1 学生用户画像

3.2.4预测未来“谁是学霸”——基于知识图谱的学生画像预测
针对学生用户已经构建的学生画像，系统主要采用朴素贝叶斯算法来对学生未来的学业水平成绩进行预测。
朴素贝叶斯（Naive Bayes）假设特征P(A)在特定结果P(B)下是独立的，在已知P(A|B)时求P(B|A)：

使用朴素贝叶斯算法，可以在已知P(第1个学期学业水平成绩×第2学期学业水平成绩×…×第n-1学期学业水平成绩|第n学期学业水平成绩)的情况下求出P(第n学期学业水平成绩|第1个学期学业水平成绩×第2学期学业水平成绩×…×第n-1学期学业水平成绩)，即可以通过该算法根据前n个学期的学业水平成绩预测第n个学期的学业水平成绩，公式如下：

图5.3.1 朴素贝叶斯预测成绩原理
系统在取得大学四年8个学期的学业水平成绩后，以数据为基础，结合构建好的学生知识图谱，针对最低为大一下学期学生的学业水平成绩进行准确预测。
4.基于知识图谱的学生各项素质智慧测评及预警
4.1 需求分析
传统学生自身的测评诊断，一直采用手工的方法，数据的来源、统计、分析都需要依靠人工来做，工作量巨大且准确率不高，难以对学生的各项数据进行融合、挖掘，无法体现其内在的含义，并且难以直观的了解学生现状。随着高校教学质量、学生管理的进一步深化，迫切需要一款能够减少人工工作量、提高工作效率和准确度的测评系统。本系统融入了高校学生在校期间各种数据，能够对学生各项素质进行智慧测评，大大减少人工工作量，并且能够对最近表现较差的同学及时预警，方便老师和领导尽快的了解学生。基于知识图谱的学生各项素质智慧测评及预警，对于高校教学质量、学生管理的信息化建设，具有重要的现实意义。
4.2 智慧测评及预警
基于构建好的知识图谱，使用大数据分析等方法对学习者客观的学习过程进行挖掘，从多种维度做出分析，数据可以挖掘的维度众多，不限于测试成绩，学习记录，学生上网，学生消费等行为轨迹中挖掘的测评结果情况，测评薄弱显性的特征，挖掘一些深层次例如：学习速度，学习偏好，认知水平，发展趋向等隐形特征。让分析结果更加的个性化，客观化。而对于未能达成的目标，利用知识图谱可以做原因分析，发现薄弱点和关联依赖的知识点，能有效的查漏补缺。诊断过程具备更好的自适应性和个性化。
（1）学业水平预警
学生学业水平成绩是体现学生学习状态的标准之一。通过分析学生以往的学业水平成绩，使用朴素贝叶斯算法预测学生未来的学业水平成绩，可以达到对学生学业水平的预警效果，若经过成绩预测，得到某位学生未来的学业水平成绩不理想，系统则会给该学生和导员发送邮件进行学业水平成绩的预警，让学生和教师对学生学业水平都能充分的重视起来。
（2）心理素质预警
学生心理素质主要通过《症状自评量表SCL90》来对学生进行心理方面的评测，可根据自评量表结果分析出学生的躯体化障碍、强迫症状、人际关系敏感、抑郁情绪、焦虑情绪、敌对情绪、恐怖情绪、偏执以及精神病性倾向九个方面的情况，进而得出学生近期心理状况。系统可以监控学生的心理结果，若某位学生心理状况不正常，则系统将其列入心理重点关注对象中，并对管理员提出预警，管理员便可在页面中明显的观察到哪些同学最近的心理出现了问题，需要重点关注，有助于及早发现问题，让学生的心理健康走上正轨。
（3）贫困资助测评
贫困生资助问题一直是高校工作中重点关注的内容，学校无法得到学生的真实消费情况，难免会产生名额及资助等级分配不公的情况。通过分析学生的一卡通数据，可以为贫困生资助工作提供数据支撑。在清洗学生一卡通数据后，考虑到现在电子支付和外卖盛行的情况，系统以学生消费强度和学生使用频率两个指标对其进行分析，根据样本间的距离进行聚类分析，在排除掉一些异常数据和离群点后，对聚类分析的结果进行分析，可以得到学生的消费水平，对其消费水平进行分类，再结合该学生的其他行为，以及相关政策，可以帮助贫困生资助工作评选合理的资助对象。

5.基于知识图谱的智能知识问答及个性化推荐方法
5.1 高校智能问答
高校智能问答模块借助知识图谱，可以突破时间和空间限制，以一问一答的形式，准确理解提问者的意图，通过语义解析将自然语言转化为一系列形式化的逻辑形式（logic form）,通过对逻辑形式进行自底向上的解析，得到一种可以表达整个问题语义的逻辑形式，通过相应的查询语句（类似lambda-Caculus）在知识库中进行查询，知识图谱本身的规模宏大以及其所具有的逻辑推理能力为查询提供了优质且高效的答案。并且通过知识库高效解答，还可以为学生用户提供交互服务。
高校智能问答模块的组成分为问题理解、问题求解和答案生成三个模块。首先问题理解模块需要婆媳用户问题，从中提取出有效信息传递给下各模块，问题求解模块在图谱中查询相关联的内容，最后的答案生成模块以自然语言呈现的形式反馈给用户。整个过程离不开知识图谱，问题理解模块就是将用户提出的问题映射到知识图谱的对应实体上，表达用户真实意图。构建流程如下图5.1所示：

图5.1 高校智能问答构建流程图

针对构建各个流程下面进行详细阐述：
5.1.1 分词和词性标注
由于用户提出的问题要针对知识图谱中的实体，所以用户提出的问题总是可以根据知识图谱中的实体进行拆分，例如：
JAVA课程开设在哪个学期？
数据结构课程和离散数学课程有什么联系？
对问题进行解析，首先需要对句子进行分词以及词性标注，本系统采用python语言中的jieba库对提问语句进行分词处理，jieba库是python基于中文分词组件，其分词结果和准确性已经趋近成熟自然语言。所以当用户输入的自然语言被jieba组件分解后，系统会自动替换语句中的复杂成分以便下一阶段工作，例如：我爱河北经贸大学，“我”替换为r（代词）、“爱”替换成v（动词）、“河北经贸大学”替换为ns（地名），进而套用提前设置的句法类型和结构。只有程序正确解读用户输入的自然语言，智能问答才能发挥作用。
5.1.2 问题分类
对于问题的分类，系统采用了对应问题模板来描述该类问题的特点用于识别问题，在此使用朴素贝叶斯分类器进行分类：
系统将一系列训练文本以不同属性特征为划分利用朴素贝叶斯分类算法进行分析处理得出针对每个特征属性的分类器模型。系统会判断用户输入与其模型的对应度，将最符合模型计算结果的答案作为对用户问题理解的含义。例如：“***的开课时间”就是询问学校一系列课程开课时间的特征属性。
利用jieba库进行分析并替换语句后，系统利用朴素贝叶斯分类器继续处理得到的结果，猜测用户问题意图，朴素贝叶斯算法流程图如下所示：

图5.1.2.1 朴素贝叶斯算法流程图
5.1.3 查询语句模板生成
在上述对自然语言进行分析处理后，接下来需要根据这些信息构造能够用于知识图谱查询的语句来进行问题的答案查询。根据上诉知识图谱构建所言，本系统使用当下流行的图数据库Neo4j进行了知识图谱的存储，而Neo4j提供了高性能查询语言Cypher，因此，本系统基于Cypher构造通用的查询模板。
Cypher查询模板分为属性查询和关系查询，如下表3所示：

模板类型 Cypher查询模板
属性查询 Match§ where p.name=NAME and p.attribute=ATTRIBUTE return p.value as ANSWER
关系查询 Match (a{name:ENTITY_C})-[r]-(b{name:ENTITY_D}) return r.nameas R_SHIP,r.value as R_SHIP_EX
表3 Cypher查询模板

属性查询类中NAME、ATTRIBUTE、ANSWER为变量；
例如：JAVA课程开课时间是什么？JAVA即为NAME、ATTRIBUTE是开课时间，ANSWER即为答案。
关系查询类中ENTITY_C、ENTITY_D、R_SHIP、R_SHIP_EX是变量
例如：离散数学与数据结构的关系是什么？ENTITY_C即为离散数学、ENTITY_D即为数据结构，而R_SHIP即为其关系，R_SHIP_EX为关系的附加说明。
当用户提问语句经过自然语言分析朴素贝叶斯算法处理后，系统可以根据文具类型获得相对应的查询模板，替换变量生成可执行的Cypher语句，在知识图谱中进行查询。
5.2 学生智能个性化推荐方法
系统应用知识图谱，为用户引入了更多的语义关系，可以深层次地发现学生兴趣。通过知识图谱中不同的关系链接种类，有利于推荐结果的发散。系统主要应用基于特征的推荐方法，从知识图谱中抽取一些学生的属性作为特征，放入到传统模型中。例如，LibFM将学生和某个物品的所有属性记为x，然后令该学生和物品之间的交互强度y(x)依赖于属性中所有的一次项和二次项：基于该类方法具有通用性，将知识图谱作为为物品属性，应用此方法为学生作出个性化推荐。

图7 推荐算法公式

图5.2.1 个性化推荐示例图

6.智能测评系统平台的构建
6.1 系统平台的需求分析

图11 系统用例图
（1）登录
学生可通过学号进行登录，系统检测学号是否存在于系统数据库中，若存在则可成功登录到系统平台上，否则提示“不是本校学生”。
（2）查看学生画像
学生登录到系统平台后，可以查看当前学生的个人学生画像，系统会根据当前学生的学号查找构建好的学生画像并以图表等形式进行个性化展示。
（3）查看“谁是学霸”的学生画像预测
学生登录到系统平台后，可以查看当前学生未来的成绩行为数据的预测，系统会根据当前学生的学号查找学生成绩行为数据，通过构建好的成绩预测模型得到预测结果，并将其做个性化的展示。
（4）查看能力测评结果
学生登录到系统平台后，可以查看当前学生的各方面能力测评结果，系统会根据当前学生的学号查找学生信息并使用训练模型得到测评结果，将其以图表等形式进行个性化展示。
（5）高校智能问答
学生登录到系统平台后，可以针对个人情况对系统平台进行提问，系统会根据学生提出的问题进行相关分析，查询知识图谱信息得到答案，并对学生的提问进行回答。
（5）个性化智能推荐
系统会根据当前登录用户的信息经过相关推荐算法，得到推荐结果，并将其个性化的展示到平台上，以供学生借鉴。
6.2 平台体系架构
平台系统架构图如下图所示：

图 6.2.1 平台系统架构图
交互界面
系统交互界面主要为Web网站（HTML），它向管理员提供数据导入功能，方便学生相关数据的导入，同时还提供了对学生信息数据的增删改查功能；它向用户提供系统的学生画像模块、学生知识图谱模块、学生能力测评模块、学生智慧问答模块和智能推荐模块。
（2）构建系统
系统管理员从平台数据库获取学生数据，对其进行相关处理，经过预处理、知识抽取（实体抽取、关系抽取、属性抽取）、实体对齐、实体建边等流程，得到学生知识图谱，并将其存储到知识数据库中，同时提供对知识库数据的增删改查接口供其他服务调用。
（3）知识数据库
系统的知识数据库采用图数据库Neo4j，用来存储构建好的学生知识图谱相关数据。
平台管理
系统管理员将未经处理的结构化学生数据存储到平台数据库中，同时提供学生数据的增删改查接口供其他服务调用。
（4）平台数据库
系统数据库采用关系型数据库MySQL，用来存储未经处理的结构化学生数据。
（5）应用系统
应用系统从知识数据库中获取构建好的学生知识图谱相关数据，一方面将其提供给交互界面进行学生知识图谱的可视化，另一方面用于结合从平台数据库获取的学生数据构建准确的学生画像。除此之外，应用系统还对学生学习、阅读、上网、实践等行为数据进行相关测评，基于学生知识图谱实现学生智慧问答和智能推荐。
6.3 平台设计与实现
平台整体采用Spring Boot框架实现，数据库采用MySQL进行数据存储，同时整合MyBatis持久层框架简化JDBC编程。大数据的环境下，搭建了Hadoop + Spark大数据集群，用以进行平台的大数据存储及分析。除此之外，平台还整合了Neo4j图数据库用以存储构建好的学生知识图谱相关数据、D3.js来对学生知识图谱进行相关数据可视化、ECharts数据可视化图表库用来对学生知识图谱下的学生画像做可视化。
6.3.1 平台设计
平台的体系整体采用MVC（Model-View-Controller）三层架构，即模型层、视图层、控制层，模型层由系统数据对象充当、视图层由系统可视化页面充当、控制层由系统请求分发器充当。系统内进行了模块化开发，分别为依赖层、通用层、领域层、业务层、Web层，依赖层主要负责管理整个系统所需要的相关依赖包；通用层负责管理系统内可复用的相关组件内容；领域层主要负责管理系统中的数据模型，用于和数据库进行交互；业务层负责整个系统的业务逻辑实现；Web层负责系统的相关可视化工作。
6.3.2 功能实现

图6.3.2.1 功能架构图

（1）基于知识图谱下的学生能力测评
平台基于构建好的学生知识图谱和学生各方面的能力模型（文献获取）来对学生相关数据进行分析处理，进而得到学生各方面能力的测评结果。平台通过E Charts将测评结果以图表的形式进行可视化。

图6.3.2.2 学生课堂积极性测评图

图6.3.2.3 学生到勤统计图

图6.3.2.4 学生阅读情况统计图

图6.3.2.5 学生一卡通消费测评图

（2）基于知识图谱构建的学生画像的可视化
学生画像包括基本属性标签和行为标签，平台通过直接提取经过预处理的学生数据信息得到基本属性标签，平台通过指定特征向量对学生样本数据进行聚类分析，得到k个样本标签集合，然后计算学生样本的标签百分比集合，用决策树预测标签相关性，判断学生数据是否有样本标签集合中的样本，进而得到学生样本数据是否拥有标签k的分类器，最后综合标签集的分布信息和决策树预测标签存在的置信分数得到学生行为标签。
平台结合构建好的学生知识图谱及学生基本属性标签和行为标签构建更加准确的学生画像信息，再对其进行相关数据可视化。

图6.3.2.6 学生用户画像可视化
（3）基于知识图谱的学生智慧问答
平台对提出的问题进行语句分词、词性标注等自然语言处理，再结合构建好的学生知识图谱进行相关查询语句匹配请求学生知识图谱信息，最后平台对提出的问题进行回答。

图6.3.2.7 智慧问答
（4）基于知识图谱的学生智能推荐
平台根据构建好的学生知识图谱中学生个体与其他个人之见的联系，得到推荐结果，平台再将其做个性化的展示。
（5）基于知识图谱学生画像的预测
平台根据以构建好的学生画像，结合学生知识图谱，通过朴素贝叶斯算法准确地预测学生未来的成绩行为数据，再将其做个性化的展示，以供学生、教师做参考。

图6.3.2.8 学生成绩预测图

参考文献
[1]魏自强.郑伟伟.许永康[R].基于百科知识的医疗数据知识图谱构建,贵州航天计量测试技术研究所,2020
[2] 魏自强.郑伟伟.许永康[R].基于百科知识的医疗数据知识图谱构建,贵州航天计量测试技术研究所,2020
[3]杨笑然.基于知识图谱的医疗专家系统[D]，浙江大学，2018.1.15
[4]杨笑然.基于知识图谱的医疗专家系统[D]，浙江大学，2018.1.15