MOOCCube:基于MOOC相关研究的开源大规模数据仓库 ACL2020
论文链接:http://keg.cs.tsinghua.edu.cn/jietang/publications/ACL20-Yu-Luo-et-al-MOOCCube.pdf
数据链接:http://moocdata.cn/data/MOOCCube
导读
MOOCCube是一个服务于MOOC相关研究的开源大规模数据仓库。和已有类似的教育资源数据库相比它的规模庞大,数据丰富且多样。其中的学生行为记录包括学习时长、学习次数、学习视频的区间等非常完善的学生行为。包含近20万名学生的、总计将近500万人次的视频观看学习的记录。这部分数据其实可以拿来做包括用户的行为分析建模甚至是相关推荐等等;对于课程视频资源,选取了706门课程和将近4万个视频并做以相应的数据处理;最后以知识概念为核心,将学生行为和课程的内容通过与知识建立联系、来完成实体之间的相互关联,构成MOOCCube。
1、MOOCs研究目的
对NLP和AI在在线教育中的应用研究
包含三个维度的MOOCs大型数据库(学生行为、课程、知识概念)
应用目标为帮助学生更好的掌握更多的知识同时帮助提升教学资源
建立以知识为核心的在线课程资源体系
以学生的需求及知识状态为前提构建智能可交互的应用
2、数据采集
2.1、MOOCCube概述
MOOCCube是从学堂在线中获取课程、概念和学生的实体并根据实体间的丰富关系将数据组织成知识库的形式,以便查询和存储。其次,在构建应用时,也应该充分考虑MOOC这些性质,并考虑到学生不同的需求和知识状态,来构建合理的、智能的、可交互的应用,达到利用AI来自动化辅助学习的目的。
2.2、课程抽取
将MOOC视频作为实体并从中抓取大纲、视频列表以及教师和组织,并作为这门课的属性。并且在获取视频字幕的同时保存视频的顺序以便进一步的知识发现
2.3、概念以及概念图
从课程视频中抽取十个最具有代表性的课程概念并从wiki中记录概念描述,同时从外部资源中搜索十个相关性最高的论文作为资源参考。
作者研究发现由于许多NLP类型的研究都是挖掘了概念之间的语义关系,所以进一步构建了一个新的概念分类法,将先决条件链作为概念图(其中先决条件链。先决关系的定义是:如果概念A有助于理解概念B,那么从A到B存在先决关系)
在构造的过程中作者参考了以往的分类方法。作者发现对于课程分类以往的分类方法有以下不足:2004ConceptNet、2007Wiki分类法不能直接应用于课程概念因为课程概念大多是学术术语,而非学术类别极大地干扰了分类法的质量。
我们从cnctst4中选择了一个跨语言的术语分类法作为基础,并引导手动注释来为MOOCCube构建一个可用的课程概念分类法
2.4、学生行为
学生行为就是记录的学生行为数据。行为数据包括注册记录以及视频观看日志,同时考虑到数据的质量和隐私性,删除视频观看记录少于两条的用户,然后将用户名匿名化为用户名。
2.5、数据处理
- 将课程视频字幕化
- 将相关论文保存为json格式
- 课程/视频依赖性注释
- 概念分类以及前置关系的标注
其中需要标注的三个关系有课程依赖链、概念分类链以及概念前提链
- 其中课程依赖链推荐了课程学习的顺序(专家标注)
- 概念分类分为两个过程,概念前提链选择在同一过程中出现的概念来抽样候选概念对。与先前的工作一样,如果概念A有助于理解B,则标注者会标注标签。同时采用已有的良好数据集作为标准,如果标注与其不符,则由另外的专家进行评估
(1)使用预训练词嵌入来计算最可能的类别。然后要求相应字段中的三个注释者标记该概念是否属于此类别。
(2)对于标记为“不属于”的概念类别对,选择前一个类别的兄弟类别作为新候选者,然后将刷新后的配对再次放入注释池。这样的过程有效地减少了无效注释的数量。
3、应用
以上介绍了MOOCCube的数据构成以及相处理。接下来文章便是介绍了MOOCCube的相关应用,利用MOOCCube中不同类型的数据挖掘先决条件关系。但文章中只是提到了方法和图表对比,并没有详细说明。MOOCCube融合了MOOC现有的研究任务所需的数据集,一类是关注课程内容的课程概念提取、前置关系发现以及课程概念扩展;另一类便是关注学生学习行为的辍学预测、课程建议等。在未来的研究中也将利用MOOCCube中的丰富多样的数据集来促进已有主题;研究使用更加高级的模型;以及在在线教育任务中应用于更具有创新性的NLP任务。
4、思考
除了刚刚提到的这些应用之外,有很多任务供大家去探索!
- 比如MOOC本身虽是一个独立的学习场景,但是能不能帮助学生找到志趣相投的同学,形成一个社交网络相关的研究呢?
- 再比如通过知识在课程资源中的分布以及学生学习课程资源后的反馈学习结果,是否能够对于这些知识进行组织挖掘,为老师接下来改善课程或是补充内容提供建议呢?
- 对于一个正在学习的用户是否在课前提供一些思考题,或者课后出一些重要的练习题,能够帮助他更好地掌握知识概念?
MOOCCube:基于MOOC相关研究的开源大规模数据仓库 ACL2020相关推荐
- BciPy: 一款基于Python用于BCI研究的开源软件
进行脑机接口(BCI)研究对技术和软件有很高的要求.为了加速BCIs的开发和可访问性,研究人员开发了BciPy,一个基于Python的用于BCI研究的开源软件 ...
- 探索“老药新用”最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG
本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟 本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...
- 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用
今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...
- Maplab:一个用于视觉惯性建图和定位研究的开源框架
摘要 鲁棒且精确的视觉惯性估计是当今机器人领域的重要挑战.能够用先验地图(prior map)进行定位(localize)并获得准确且无漂移的姿态估计,可以推动该系统的适应性.然而,目前大多数可用的解 ...
- 800万中文词,腾讯AI Lab开源大规模NLP数据集
参加 2018 AI开发者大会,请点击 ↑↑↑ 10 月19 日,腾讯 AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含 800 多万中文词汇. 腾讯 AI Lab 表示,相比现有的公 ...
- Kimera:一个基于度量语义的SLAM开源库
标题:Kimera:an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping 作者:Antoni Ro ...
- FAST:基于FPGA的SDN交换机开源项目
自1983年自由软件运动领袖Richard Stallman提出了GNU计划以来,开源为软件开发带来了创造性的革命和商业成功.SDN如今的快速发展也离不开开源社区的力量,比如NOX.Floodligh ...
- 阿里开源大规模分布式图学习框架:专为Graph嵌入,无缝对接TF/PyTorch
↑ 点击上方[计算机视觉联盟]关注我们 来源:阿里妈妈 编辑:金金,大明 来自新智元 阿里妈妈开源大规模分布式图表征学习框架Euler,面向工业级用户和高级研究者,结合TF/XDL/PyTorch等深 ...
- 【paper-note6】去摩尔纹相关研究现状
摘要 这篇文章写一个去摩尔纹相关研究的综述,理清自己前段时间看的论文. 上一篇paper note提出了摄屏图像去摩尔纹这个问题后,我去找了一下这个领域至今为止的相关工作,找到了大概8篇论文,看了其中 ...
最新文章
- java代码完全手写模仿qq登录界面
- MultiObjective using Evolutionary Algorithms (2) -- Multi-Objective Optimization
- fileupload的回调方法_jQuery File Upload文件上传插件使用详解
- 01背包问题dp优化
- android 之intent(意图)详解
- Table Controls in ABAP Programs
- check_mk自定义监控增加性能数据图形展示
- 如何使用浏览器网络监视工具进行黑客攻击
- Springboot结合ESAPI——配置XSS防御过滤
- 计算机类专业及行业认识,我对于计算机行业的看法
- VPS部署以及域名设置和DNS解析
- 数组按照字母顺序排序
- uniapp 查看图片点击放大预览图片 单张 多张
- 浅析deep深度选择器
- 桂电计算机系入学怎么分班,桂电研究生-()学期课程总表
- vue导出excel加一个进度条_vue 实现Excel 导入导出功能
- centos7常用命令详解
- 链家地产-Java工程师面试
- 自我评价范文计算机专业,计算机专业学习的自我评价范文
- java处理保留小数点后几位
热门文章
- Postgres 9.2.4的升级方案与步骤
- Dubbo(九) dubbo的配置文件加载顺序优先级
- Got a packet bigger than 'max_allowed_packet' bytes(mysql)
- 线程的3种实现方式并深入源码简单分析实现原理
- centos ping不通内网 网关 外网 域名等以解决 通过设置为动态IP(启用dhcp协议)
- 高效实用Kafka-Kafka消息处理(底层原理)
- 高效实用Kafka-Kafka是什么
- Java并发编程实战_[Java并发编程实战] 简介
- Hadoop:启动与停止命令
- 写出高效优美的C语言代码(单片机)