提示:Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法,通过将相关性从模型的输出层反向传播到其输入层来解释基于rnn的DKT模型。实验结果验证了采用LRP方法解释DKT模型预测结果的可行性,并部分验证了计算得到的问题层面和概念层面的关联分数。

文章目录

  • 前言
  • 1.LRP
    • LRP
    • LRP for LSTM
    • 基于LSTM的DKT模型
  • 2.LPR Method
    • Weighted Linear Connection
    • Multiplicative Connection
  • 3.Interpreting DKT Models using LRP Method
    • Example
  • 4.Evaluation
    • Data and DLKT Model Training
    • Question-Level Validation
    • Concept-Level Relationship
  • 5.Conclusion
  • 参考文献
  • 笔记

前言

在深度学习技术快速发展的推动下,深度神经网络被用于设计新的KT模型,以获得更好的预测性能。然而,由于决策过程不透明、内部结构复杂,这些模型的输出和工作机制都缺乏可解释性,严重阻碍了其实际应用。因此,我们提出采用事后方法来解决基于深度学习的知识追踪模型的可解释性问题。


1.LRP

LRP

文献:Bach S, Binder A, Montavon G, et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation[J]. PloS one, 2015, 10(7): e0130140.
参考文章:【阅读笔记】神经网络中的LRP及其在非线性神经网络中的运用

LRP for LSTM

文献:Arras L, Montavon G, Müller K R, et al. Explaining recurrent neural network predictions in sentiment analysis[J]. arXiv preprint arXiv:1706.07206, 2017.
参考文章:可解释性研究 -LRP-for-LSTM

基于LSTM的DKT模型

文献:Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[J]. Advances in neural information processing systems, 2015, 28.
参考文章:DKT学习(一)

2.LPR Method

Weighted Linear Connection

一般形式:a = activation (Wh + Wx + b)
其中,activate(*)是深度学习模型中常用的激活函数。假设激活函数不改变相关性分布,则weighted connection进一步表示为:

相关性计算:

Multiplicative Connection

一般形式
在前馈方向上,“门”神经元已经决定了应该在上层神经元中保留多少信息,并最终决定了模型的决策,我们可以简单地将其从上层接收到的相关性视为零,同时将全部功劳归功于“源”门。因此,我们有:

3.Interpreting DKT Models using LRP Method

LSTM中具有两种连接类型的前馈预测路径和解释其预测结果的反向传播路径

计算式:

Example

给定一个经过训练的数学DLKT模型和学习者的练习序列作为输入,输入由七个连续的问题组成,这些问题分别与三个不同的数学概念相关联。下表显示了问题的细节和学习者是否正确回答问题。假设下一个问题是关于概念减法数的,我们从输出yt得到预测结果0.746,即正确回答下一个问题的概率。通过迭代使用所提出的解释方法,我们最终可以得到每个输入的相关性值,即从第1个问题到第7个问题,如表1最后一行所示。
我们清楚地看到,正确回答相同或密切相关概念的问题(即第1、2、6和7个问题)会获得显著的正相关性,而错误回答相同概念的问题(即第5个问题)则会获得显著的负相关性。此外,区域矩形(Area Rectangle)上的问题(即第3和第4题)获得的相关性较小,这显然是一个与目标代数概念相距甚远的几何概念,因此对当前预测任务的贡献有限。从这个例子中,我们看到了利用所提方法的一个有意义的解释结果。

4.Evaluation

验证采用LRP方法解释DLKT模型预测结果的可行性

Data and DLKT Model Training

dataset:ASSISTment 2009-2010
使用它的数学“技能构建”数据集,过滤掉所有重复的练习序列和那些没有标记概念的练习。最终,用于训练DKT模型的数据集由4151名学生的325,637个回答记录组成,涉及26,688个问题,涉及110个概念。
所构建的DLKT模型采用LSTM单元,隐维数为256。在训练过程中,将小批量大小和dropout分别设置为20和0.5。模型训练采用Adam优化算法,迭代次数设置为500,初始学习率设置为0.01。随机选取80%的数据作为训练数据,其余20%作为测试数据。重复这个实验10次以计算性能指标。将KT作为分类问题,将练习结果作为二元变量,1代表正确答案,0代表错误答案,整体预测精度ACC和AUC分别达到0.75和0.70。

Question-Level Validation

首先通过实验了解LRP解释结果与模型预测结果之间的关系。
具体来说,选择48,673个练习序列,长度为15,即每个序列包含15个独立的问题,作为解释任务的测试数据集。对于每个序列,我们将其前14个问题作为构建DKT模型的输入,最后一个问题验证模型对第15个问题的预测。结果表明,DKT模型正确预测了34311个序列的最后一个问题,其中阳性和阴性结果分别为25005和9306。
在正确预测序列的基础上,采用LRP方法计算前14题的相关值,然后考察相关值的符号与学习者答案的正确性是否一致。具体地说,我们将之前练习问题中的一致性问题定义为“正确回答的问题具有正相关性值”“错误回答的问题具有负相关性值”。因此,我们计算每个序列中这种一致问题的百分比,并将其命名为一致率。直观地说,较高的一致性反映了大多数正确回答的问题对预测掌握给定概念的概率有积极的贡献,而大多数错误回答的问题对预测掌握概率有消极的贡献。下图为两组积极预测(即掌握概率高于50%)和消极预测(即掌握概率低于50%)的一致性直方图。显然,我们看到大多数练习序列达到了90%(或以上)的一致性率,这部分验证了使用LRP方法解释DKT模型预测结果的问题级可行性。

为了进一步定量验证LRP方法得到的问题级相关性,进行了问题删除实验。在正确预测的练习序列中,分别删除相关值递减顺序(阳性预测组)和递增顺序(阴性预测组)的问题。在错误预测的练习序列中,分别删除了相关值递减顺序(阳性预测组)和递增顺序(阴性预测组)的问题。同时,还对所有实验进行了随机问题删除,以达到比较的目的。下图展示了跟踪预测准确性对问题删除数量的影响的结果。我们可以在上图中看到,删除问题显著降低了DLKT模型在正确预测序列上的性能,同时在下图中,删除问题显著提高了DLKT模型在错误预测序列上的性能。问题删除结果部分验证了LRP方法能够正确计算DKT模型预测的问题级贡献。

Concept-Level Relationship

考虑到每个问题都与一个特定的数学概念相关,进一步利用解释结果来探索这些概念之间的内在联系。
具体来说,对于每个正确预测的序列,在与最后一个问题(即第15个问题)相关的概念上有14个相关值,因此可以获得14个具有相关值的有向概念对。注意,概念对的方向从练习概念(即练习问题)开始,到预测概念(即第15个问题)结束,具有两个相同概念的对可以简单地忽略。然后,从所有的练习序列中收集有效的概念对,并根据预测的概念进行分组。然后,对每组的相关性绝对值取平均值,并据此找出与每个预测概念最相关的概念。下图显示了成对的概念信息,其中使用了三种不同的颜色来描述一些大型集群,这些集群大致可以分为代数、几何和统计。从图中可以观察到许多有趣的关系。

Example
节点34(在蓝色集群的底部)表示概念排序实数,它由许多相关但高级的概念(例如,除法分数和平方根)指示,而它本身指示其先决概念排序整数。这些有趣的结果表明,LRP方法至少可以部分地恢复DKT模型所捕获的内部概念级关系,但可能需要从教育的角度进一步研究其潜在意义。注意,上图只描述了集群内部已识别的关系,而且一些跨集群的潜在关系也值得进一步研究。

5.Conclusion

在KT域引入了一种事后可解释性方法,该方法适用于一般的基于rnn的DLKT模型。通过使用LRP方法来解释基于LSTM的DLKT模型,展示了这种方法的前景,其中设计了两种特定的策略来分别计算加权线性连接和乘法连接的相关值。从问题和概念的角度对所提方法进行了实验验证,实验结果表明,使用导出的相关值来解释DKT模型的预测是可行的。


参考文献

本文章文字大部分为论文翻译内容,加上个人学习过程中的重点标识,方便后期回顾理解

Lu Y, Wang D, Meng Q, et al. Towards interpretable deep learning models for knowledge tracing[C]//International Conference on Artificial Intelligence in Education. Springer, Cham, 2020: 185-190.

笔记

如何验证使用事后解释方法解释模型预测结果的可行性:
1.通过实验了解事后解释方法解释结果与模型预测结果之间的关系。
2.进行了数据(问题)删除实验,分析结果。【加入随机数据(问题)删除,进行对比分析】
3.进一步利用解释结果来探索概念之间的内在联系。

最新论文(2022):
Lu Y, Wang D, Chen P, et al. Interpreting deep learning models for knowledge tracing[J]. International Journal of Artificial Intelligence in Education, 2022: 1-24.
阅读笔记:
【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(二)

【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)相关推荐

  1. 【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(二)

    提示:Interpreting Deep Learning Models for Knowledge Tracing与Towards Interpretable Deep Learning Model ...

  2. 学习笔记三:MLP基本原理、矩阵求导术推反向传播、激活函数、Xavier

    文章目录 一.BP神经网络(MLP) 1.1 感知机模型及其局限性 1.2 BP神经网络基本原理 1.3 softmax多分类.求导 1.4 二分类使用softmax还是sigmoid好? 1.5 为 ...

  3. Traffic Flow Forecasting: Comparison of Modeling Approaches文献阅读笔记(一)

    今天开始陆续更新之前文章的阅读笔记,有一些文章是辅助实验简单读的,有一些文章是精读的.这里也不做分类了,只是每次在开头提一下相关信息. 文章链接:戳我 主要工作:描述了历史 平均值.时间序列.神经网络 ...

  4. 论文解读《Evaluating the visualization of what a Deep Neural Network has learned》–阅读笔记

    本文属于原创,转载请注明出处 *本论文解读的初衷: 1.由于某些原因,最近有关注到神经网络可解释性与可视化方向的发展. 2.本人习惯阅读优秀的博文后直接点赞收藏,而这篇却没有搜到相关解读,不知道是不是 ...

  5. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  6. 《Going Deeper with Convolutions》阅读笔记

    Going Deeper with Convolutions Abstract 我们在ImageNet大规模视觉识别挑战赛2014(ILSVRC14)上提出了一种代号为Inception的深度卷积神经 ...

  7. 阅读笔记 | Code to Comment “Translation”:Data, Metrics, Baselining Evaluation

    摘要 最早的代码摘要自动生成方法是建立在[strong syntac-tic theories of comment-structures]之上的,并且依赖于文本模板.近年来,研究人员已经将深度学习方 ...

  8. 文献 Application of deep learning tothe diagnosis of cervical lymph node metastasis from thyroid阅读笔记

    文献 2019.02-Application ofdeeplearning tothe diagnosis of cervical lymph node metastasis from thyroid ...

  9. 论文阅读笔记:3D deeply supervised network for automated segmentation of volumetric medical images

    摘要 深度卷积神经网络(CNN)在二维医学图像分割方面取得了显著的成功,但由于其复杂的解剖结构等诸多相互影响的挑战,使得CNN从三维医学图像中分割重要的器官或结构仍然是一项艰巨的任务.立体图像中的环境 ...

最新文章

  1. java正则表达式练习题目
  2. 你应该知道的青否小程序第三方平台
  3. 保持用户处于登录状态,加速应用程序启动
  4. 校园综合服务平台小程序
  5. git tag什么时候使用_git使用教程9pycharm 使用 tag 打标签
  6. 基于Ext JS的模块化应用框架搭建及开发
  7. spring不懂的applicationContext
  8. jQuery九宫格鼠标悬停动画效果
  9. APP_FIELD设置Item运行时行为
  10. php v9搜索不到内容,關於如何解決PHPCMS V9內容搜索顯示不全問題解決方案
  11. java连接数据库实现基本的增删改查
  12. N1 armbian cups安装hp m126a打印机
  13. Flash遮罩层初识
  14. Vehicle veh1 = new Vehicle(); 如何理解这个语句
  15. linux服务器console口,Linux重定向console口控制台
  16. SimpleFOC调参3-PID参数整定攻略
  17. linux手机纠错软件,纠错神笔Lernstift:让你远离拼写错误
  18. VoIP通话-基于SIP协议的Asterisk(一)-实现流程
  19. 厘米换算英尺英寸 (15 分)
  20. 如何发布自己的项目到Maven中央仓库?

热门文章

  1. 使用inkscape制作属于自己的logo
  2. 四步练就地道英语发音
  3. 离散中偏序集、乘积群、关系的性质和集合的相关证明
  4. scp复制文件到带空格路径的server目录
  5. 统计正数 和 负数的个数
  6. 岩藻多糖-聚乙二醇-过氧化氢酶,Catalase-PEG-Fucoidan,过氧化氢酶-PEG-岩藻多糖
  7. 关于nginx使用反向代理后,打开网页速度反而变慢的问题
  8. 大公司工资低,小公司工资高,该咋选择?
  9. WiFi也能检测人体3D动作?误差低至2.4厘米
  10. Windows提权的几种姿势