文章目录

  • 课堂对话语义内容的自动分类
  • 摘要
  • 介绍
  • 文献综述
  • 方法
  • 过程
  • 结论
  • 分类模型的性能
  • 论述
  • 结论、限制、贡献和影响

课堂对话语义内容的自动分类

于松1、2,顺伟磊3,天勇浩2、3应鼎1,紫欣兰1,与《教育计算研究学报2021》,卷。 59(3)496-521! 作者2020文章重用指南:sagepub.com/journals-permissions doi:10.1177/0735633120968554 jou

摘要

由于课堂对话对教和学的好处,越来越多的研究集中在课堂对话以及如何使课堂对话富有成效上。 编码通常用于处理由该对话产生的文本数据,其中转录的会话被分配给一组特征。 这通常是手工完成的,不能向参与者提供及时的反馈。 为了解决这个问题,我们探索了自动分类课堂对话语义内容的可能性。 基于人工神经网络的模型自动区分了已知知识、分析知识、协调知识、推测知识、吸收知识、协议知识和查询知识七个类别。 该模型获得了可接受的性能,与人类编码相当。 可以及时确定关于对话质量的信息。 有了这些知识,课堂对话可以更巧妙地管理,教师和学生可能实现更富有成效的对话形式。 1中国广州华南师范大学教育学院2中国广州华南师范大学粤港澳大湾区教育发展高等研究院3中国广州华南师范大学计算机学院对应作者:中国广州华南师范大学计算机学院郝天勇 邮箱:haoty@m.scnu.edu.cn
关键词:课堂对话,语义内容,自动分类,机器学习,对话质量

介绍

课堂对话是指“一个人对另一个人或多个个人发表讲话,并且至少有一个被讲话的个人回答”的交流(Howe&Abedin,2013,p.326)。 对话作为一种在课堂教学中经常使用的教学方法,如果能够巧妙地管理,它可以帮助学生发展批判性思维,增加他们的理解,并促进学习成果(Mercer et al.,2017)。 这些潜在的好处导致对话教学的实施得到了更广泛的接受,在过去的二十年里,关于这一主题的学术出版物急剧增加(Hao et al.,2020;Song et al.,2019)。 这些研究通常以Vygotsky(1978)的工作为基础,他提出了一个理论,强调语言作为分享和发展知识的文化工具的作用。 一种富有成效的课堂对话形式应该以集体、互惠、支持、累积和有目的的方式进行(Alexander,2008)。 知识将通过这些话语序列以及思维和探究的链条来构建(Mercer,2010)。
然而在实践中,对话的质量差异很大(Howe et al.,2019)。 为了提高对话的有效性,进行了观察性、介入性和/或准实验研究,以仔细检查对话过程及其与影响成就因素的关系(Mercer et al.,2017)。 检查对话的一种常用方法是参照编码类别将转录的会话分配到一组特征(Mercer,2010)。 编码主要是手工完成的,而且是劳动密集型的,通常需要比记录课的长度长几倍的时间来处理一份成绩单(Blanchard et al.,2015)。 对话参与者,尤其是教师,不能及时得到关于对话进展情况的反馈,这被证明是导致课堂对话质量低下的一个重要因素(Blanchard et al.,2015;Wang et al.,2014)。 因此,迫切需要对课堂对话进行自动分类,这也是本研究的目的。 在此背景下,我们引入了一种基于人工神经网络的深度学习方法CNN-BILSTM模型。 经过训练后,这台机器有望能够理解对话的语义内容,并协助人类进行编码。 教师和学生对对话表现的及时反馈是可能的。 应当大大提高发现富有成效的对话形式的效率。 基于这些知识,课堂对话可以得到更巧妙、更有效的管理。

文献综述

课堂对话研究
课堂对话被视为课堂环境中师生之间以及学生之间互动的主要指标(Howe&Abedin,2013)。 许多研究对课堂对话对于义务教育的重要性进行了有说服力的论证,其中一些研究还就其在发展学生思维和推理、增加他们对课程科目尤其是科学和数学的理解方面的益处提供了经验证据(Resnick et al.,2015)。 Vygotsky(1978)提出的社会文化理论在课堂对话研究中占据主导地位,因为它在思想、行动、交流和文化之间架起了桥梁(Mercer,2008)。 该理论强调对话对个体认知发展的重要性,以及个体通过交流和集体过程学习的方式(Howe&Abedin,2013)。 由Sinclair和Coulthard(1975)提出的Initionation-Responsion-Fedioning(IRF)被认为是课堂对话的典型模式,有助于区分对话贡献和大量口语(Howe&Abedin,2013)。

发起是由一个人,通常是教师,当他/她通过提出一个话题或一个问题来开始对话时进行的。 然后,通常由学生给出答复,在此基础上,下文将提供反馈。 反馈可以是简短的判断(例如“正确”、“做得好”)或详细的评估(Schwab,2011)。 尽管它们很容易被发现,但严格遵循这些模式既不符合集体对话过程,也不符合学习成就。 为了解决这些问题,Howe等人。 (2019)总结了富有成效的课堂对话的主要特征:引发发散思维的开放性问题(如Alexander,2008)、对先前贡献的扩展和吸收(如O’Connor et al.,2015)、批判性分析和论证(如Lefstein,2010)、建立联系和连接(如Michaels et al.,2008)以及反思和元认知(van der Veen et al.,2017)。 课堂对话被发现有助于学习成就、批判性思维、知识建构和理解(Resnick et al.,2015)。 例如,Muhonen等人。 (2018)提供了统计证据,表明高质量的对话预示着学生更好的学习成绩。 豪等人。 (2019)报道,阐述和质疑形式的对话式投稿有利于数学和阅读成绩。 由于潜在的好处,课堂对话的研究数量在过去20年中急剧增长,并将在未来几年继续增长(Song et al.,2019)。

为了说明对话过程并研究其与其他变量的关系,系统观察被广泛使用,因为它在将转录对话的数据(有时包括Song et al.499,包括非言语行为)减少到一组特定的特征方面具有优势(Mercer,2010)。 这是通过编码来实现的,编码是一个根据与研究问题的相关性开发一组类别(或一个综合编码方案),并根据这些类别对对话进行分类的过程。 训练有素的观察者/编码器通常坐在教室里或处理对话的抄本,将对话片段分配到适当的类别。 为了帮助人类编码,已经设计了许多基于计算机的文本分析软件应用程序,其中Nvivo可能是使用最频繁的(Hennessy et al.,2016)。 Nvivo可以通过观察课堂对话系统地组织和编码非结构化文本,并能够识别语言使用的模式。 此外,学者们可以通过使用诸如MonoConc和WordSmith这样的软件来采取定量的方法来统计特定单词的出现情况,并寻找一起出现的单词(Mercer,2010)。 然而,即使有应用程序的辅助,课堂对话的编码也严重依赖人工(Blanchard et al.,2015)。 培训合格的编码器通常需要大量时间,编码器之间的可靠性有时很难确保,因为他们理解剧集的能力存在差异(Webb et al.,2019)。 而且,编码本身是一项耗时的活动,参与者必须等待相当长的一段时间才能收到关于他们在对话式教学和学习中实际表现如何的反馈(Wang et al.,2014)。
有理由假设,及时提供的反馈比几周后提供的反馈更有效,因为对课堂表现的记忆已经被后来的经历所覆盖,变得不准确(Murphy et al.,2009)。 有证据表明,形成性反馈对对话教学的质量和学生的学习成绩起着重要作用(Juzwik et al.,2013)。 研究人员经常在决定是对少量课堂的对话过程进行详细描述,还是以更普遍的方式在大量课堂样本中调查对话的性质上苦苦挣扎。 例如,轩尼诗等人。 (2016)提出了一种使用一组相当明确的类别的课堂对话编码方案,然后将其浓缩为数量更少的类别,使其在大规模观察中更具可实施性(Howe et al.,2019)。 如何处理大量的对话式抄本,同时得到及时的反馈是一个重要的问题,一个能够自动快速地将课堂对话分类的模型将是一个可行的方法。
自动文本分类
自动分类是指一种允许机器独立操作的技术,将数据分类到相应的预定义类别(Dorofeyuk,1971)。 与手工分类相比,自动分类可以以更快、更经济的方式进行。 可以进行广泛的分类任务,包括文本分类,500教育计算研究杂志59(3)图像识别等。文本分类作为自然语言处理中的一个研究课题,近年来引起了越来越多的关注; 这是一个基于提取的特征和文本内容为每一段文本分配预定义类别的过程(Dalal&Zaveri,2011)。 人们已经开发了一系列方法来对文本进行分类,其中基于规则的方法是最早被提出并投入使用的方法之一(Sigaud&Wilson,2007)。 例如,Wu(2009)利用一种基于规则的方法,根据在邮件标题和系统日志中观察到的特征来识别和数字化垃圾邮件行为。 基于规则的方法在很大程度上依赖于一组手工制作的语言规则,但是生成这些规则是耗时的,而且通常是不完整的(Varadarajan Kasravi,&Feldman,2003)。 这种方法在基于包含已知类别文本的训练集来识别新文本所属类别方面效果较差。
在这种情况下,机器学习和语言表示方法被应用。 通过使用预先标记的文本作为训练数据集,机器能够学习文本的语义相关元素以及文本内容片段之间的不同关联,然后能够基于学习到的特征识别相关类别(Olsson,2009)。 比如席尔瓦等人。 (2014)提出了一种利用随机森林、Logistic回归、支持向量机和多项式朴素贝叶斯组成的分类器集成来自动检测推文情感的技术。 由于自然语言处理任务复杂性的增加,深度学习技术被开发并应用于文本分类(Pouyanfar,2018)。 与传统的机器学习方法相比,深度学习方法更善于利用神经网络学习文本更深层次的语义信息,是各种类型文本分类的有效技术,如意图检测、情感分析和新闻分类(Young et al.,2018)。 例如,Kim(2014)提出了一种卷积神经网络来处理句子区分; 刘等人。 (2016)提出了一种用于文本分类的递归神经网络,Yang等人提出了一种层次注意力网络。 (2016)用于文件分类。 这些基于深度学习的模型在各种文本分类任务中提供了巨大的改进(Kowsari et al.,2019)。 深度学习在教育相关研究中也有广泛应用。 例如,Xing和Du(2019)利用深度学习算法构建了辍学预测模型,并进一步产生了预测的个体学生辍学概率。
课堂对话自动分类的使用研究
现有的研究已经探索了通过自动编码课堂对话来使用机器辅助手工作业的可能性。 Ford等人设计了一个语言环境分析系统(LENA)。 (2008)记录和自动检测有关宋等人语言环境的信息。 501名幼儿。 Weisleder和Fernald(2013)在Lena的帮助下记录了儿童与父母之间的对话互动,得出了对话互动越多的儿童语言发展越快的结果。 王等人。 (2014)使用Lena将对话活动自动分类为教师讲课、全班对话和小组对话,使用随机森林技术进行机器训练,机器分类的可靠性被发现与人类编码器相当。 布兰查德等人。 (2015)将课堂对话中的问答(Q&A)的编码自动化。

他们开发了一个使用90s时间窗检测问答段的模型,并在对新类别的推广中获得了接收器操作特性曲线(AUC)下的面积值0.78。 这些研究是对课堂对话进行自动分类的重要的第一步,但它们是初步的,远远不足以说明对话的核心属性。 这些技术能够区分一般的对话形式,例如活动对话或问答对话,但很少有技术能够自动编码对话的语义内容或质量。 对这些课堂对话形式的检测不能典型地反映学习者的熟练程度,以及它们如何帮助知识构建和思维发展(Howe et al.,2019)。 与生产性课堂对话相关的类别,如分析和协调,没有涉及。 学者们已经确定了这些局限性,但似乎无法提供可行的解决方案(参见Blanchard et al,2015;Wang et al,2014)。 为了解决这些问题,目前的研究旨在将课堂对话的语义内容自动分类,并将其映射到一个定义良好的编码框架中。 预计将提出并验证一个协助人类确定对话质量的模式。

方法

数据集

我们研究了155节录制的课程(每节40分钟),其中74节在小学,81节在中学。 中国学校的班级规模一般在40人左右,这是教育部的要求。 选择了数学、科学(小学)或物理(中学)和识字科目,以便与其他研究进行比较,分别涉及55、55和45节课。 选择这三个学科是因为它们在世界范围内很受欢迎:Howe和Abedin(2013)的评论表明,课堂对话领域的研究最有可能在这三个学科的课程中进行。 录制的课件覆盖了广泛的年级(1至9年级)和地区,并从一个免费访问的平台–全国502教育计算研究杂志59(3)教育资源和公共服务云平台下载。 该平台存储和提供了全国各地中小学课程视频,从而方便了教育资源的共享。 在图1中可以看到一个采样记录的课程的截图。 教师通常在智能录播(IRB)系统的辅助下录制课程,然后在获得学生许可后将视频上传到平台。

IRB系统是提供高清音频和视频的强大手段。 鉴于教育信息化的快速发展,我国大多数学校都配备了至少一个IRB系统。 由于可访问的资源范围广泛,该平台上的课程是实现对话分类的最佳选择。 然而,尽管这些视频清楚地显示了全班的对话,但小组内部的对话很难捕捉和区分。 此外,许多研究声称或发现,小组对话通常是无效的(参见Howe&Abedin,2013;Mercer et al.,2017)。 根据这些工作,学生往往对小组讨论活动的目的和如何最有效地进行这种活动缺乏明确的理解。 人们发现,小组工作的结构很少有助于丰富的意见交流。 因此,全班对话是本研究的重点。
图1。 样课的截图。

编码框架

课堂对话的编码类别/框架多种多样,但缺乏共识,有时使用不同的术语来表达相同的意思(Hennessy et al.,2016)。 为了捕捉对话中的共享功能,Song等人。 (2020)系统回顾了1999-2018年间课堂对话考试提出的编码类别。 关于课堂对话的出版物是从最重要的文献计量数据库–科学网络(WOS)中检索的。 经过计算机检索和人工处理后,有51种出版物对编码框架/类别进行了明确的描述。 他们概述了代表框架之间共性的编码类别,包括先前已知的知识、个人信息、分析、概括、推测和吸收。 这些分类在很大程度上与剑桥教育对话研究小组提出的分类一致(见Hennessy et al.,2016;Howe et al.,2019)。 这个小组致力于开发一个编码方案,能够系统地代表生产性课堂对话的主要形式。

33个代码最初是由Hennessy等人提出的。 (2016),而这些随后被豪等人浓缩提炼。 (2019)基于代表富有成效对话的五个主题。 分类包括阐述、推理、协调、一致、查询、回引和广泛引用。 通过整合这两个摘要产品,开发了一个编码工具(见附录),其中包括已知知识、个人信息、分析、协调、推测、吸收、协议和查询等类别。 “先知知识”旨在评估表明对教科书或公众意识中的概念信息和知识的理解的对话。 “个人信息”是指关于个人观点、思想、感情和情绪的对话。 “分析”区别于邀请或给出有助于批判性思维和演绎推理的解释、理由和阐述的对话。 “协调”指的是总结、比较和连接信息的对话。 “思辨”包括探索可能性的贡献和新奇想法的发展。 “吸收”区别于在先前谈话的基础上进行建设性补充的对话。 “同意”指的是表示接受的对话,而“质疑”指的是对想法的怀疑、不同意和挑战。

课堂对话的人工编码是基于这八个类别进行的,而自动分类只使用了其中的七个,省略了个人信息。 这是因为包含个人信息的话语数量相当少。 在机器学习任务中,由于需要训练和优化分类模型,需要一定数量的数据。 根据我们对课堂对话数据集的统计,与其他类别的话语频率相比,包含个人信息的话语频率相对较低,504Journal of Education Computing Research 59(3)。 如果我们使用的数据包括个人信息的表达,模型可能学习不充分的语义信息。 为了保证分类模型的鲁棒性,我们没有考虑涉及个人信息的信息。

过程

这些视频是使用一款名为科大讯飞翻译机的语音识别软件进行转录的,该软件是一款支持语音转录、降噪和专业词汇识别的实时语音翻译机。 文本形式的抄本随后由研究人员手动检查和更正。 两名训练有素的研究人员处理了这些成绩单,并独立地对155节课进行了编码。 课堂对话的编码是在话语层面上进行的,即从话语功能的角度看,课堂对话的编码是一个单一的话语循环或其组成部分对交流的贡献。 每一轮对话可以使用多个代码,但一轮对话中单个代码的多个实例只能标记一次。 例如,一个学生可能提供了多个分析。 如果对一个问题给出了多个分析,则只标记一个“分析”实例。 两个编码器之间的评分者之间的信度很高(Kappa±0.94),不一致的情况在达成共识之前进行了充分的讨论。 混淆的一个来源是投机和个人信息之间的区别,因为个人信息的一个方面是个人想象,这两个类别都涉及未来可能发生的可能性。 因此,我们补充了对这些类别的描述,并澄清猜测应被视为一种基于理论或事实基础的对话,而个人信息不需要这一基础。
分歧的另一个来源是哪些类型的谈话应该被编码为吸收。 一个编码器认为这种只是重复以前的谈话的谈话是吸收,而另一个编码器不同意,因为这种类型的谈话的学生并没有建立或建构知识。 为了消除误解,对吸收的定义进行了细化,使之意味着谈话的延伸应该是建设性的补充。 经过一番讨论,他们对每个编码类别的语义达成一致,编码后的记录形成了很好的模板,用于机器学习。

为了获得对数据集的初步了解,我们对七类课堂对话的手段、标准差和频率进行了描述性分析。 然后利用一种基于深度学习的方法对数据集进行自动分类。 该方法包括数据预处理、词嵌入和模型训练三个步骤。 首先,与Song等人重复编码记录。 505相同的内容和类别/标签被过滤和排除。 然后将对话文本从句子转换为单词序列,同时删除所有标点符号。 其次,使用了一个叫做双向编码器表示的预训练语言模型。 这应该被看作是一个通用的“语言理解”模型,它是在一个大型文本语料库上训练的。 在嵌入层中使用Bert模型,可以有效地将课堂对话文本表示为连续向量,然后利用神经网络将其应用到下游的计算任务中。 在这两个步骤之后,对对话文本进行预处理,并将其嵌入到一系列符合深度学习模型输入格式的词序列向量中 。

在训练模型之前,我们将数据集随机分为训练集和测试集两个子集,分别用于模型训练和模型评估。 最后,我们建立了一个混合神经网络模型CNN-BILSTM,利用卷积神经网络和双向长短时记忆网络分别从训练数据集中捕捉局部特征和全局特征。 训练后,基于测试数据集对模型进行评估,以验证其有效性。 然后利用训练好的模型对新的对话文本进行语义分析,并自动预测其类别。

课堂对话分类模型
在分类任务中,神经网络被广泛应用于学习文本数据的深层信息。 卷积神经网络(CNNs)和递归神经网络(RNns)是神经网络的两种基本类型,前者侧重于提取局部特征信息,后者可以提取全局特征信息。 双向长短时记忆网络(BILSTM)是RNN的一种改进变体,它不仅可以获得过去的上下文信息,而且可以捕获未来的上下文信息(Young et al.,2018)。 为了结合这些不同类型网络的优点,我们提出了一种混合神经网络模型CNN-BILSTM。 这是一个文本分类模型,它在训练中利用CNN和BILSTM来自动分类对话内容。
该模型由四层组成:嵌入层、CNN层、BILSTM层和输出层。 嵌入层用于在稠密向量空间中学习从对话句子中提取的词与词之间的关系。 在对模型进行训练之前,需要将对话文本转换为模型所要求的形式。 具体来说,为了将课堂对话文本转换为数学格式,使用预训练语言模型BERT将对话文本中的句子每个词编码为固定向量,然后构造一个表示对话506教育计算研究杂志59(3)句子的矩阵。 转换后的数据被送入CNN层。 在CNN层,设计了一个卷积神经网络,用于对输入矩阵进行特征提取,并学习对话文本的局部语义信息。 具体来说,为了提取对话文本的不同短语级表示,首先使用不同大小的卷积滤波器从输入矩阵中提取特定的特征,并构造CNN特征矩阵。 然后,进行最大时间池操作,生成最终的特征向量来表示句子。 在BILSTM层,为了获取关于远程语义依赖的全局信息,利用双向长短期记忆网络学习对话文本的全局上下文信息。

它是一种特殊的递归神经网络,能够模仿人类的记忆系统来挖掘对话文本中隐藏的语义信息。 改进的LSTM除了捕获双向语义依赖关系外,还利用前向和后向LSTM网络捕获过去和未来的信息,最终生成表示全局语义信息的特征向量。 模型在CNN层和BILSTM层的训练包括一系列步骤:根据模型的当前状态进行预测,计算预测的误差程度,然后更新网络的权值或参数。 重复这个过程,直到模型收敛并停止学习。 最后,模型输出每个类别的概率分布,通过Softmax激活函数计算,选择置信度/概率最高的类别作为输出层的最终类别。 模型的体系结构如图2所示。 训练后的模型能够根据学习到的信息对新的课堂对话文本进行自动分类。

我们引入了三个度量来评价分类模型的有效性。 在文本分类领域,查准率、查全率和F1评分被广泛用于评价分类模型的性能(Sokolova&Lapalme,2009)。 对于由人工编码器标注类别的编码记录,真阳性(TP)是评估模型预测的类别是否与实际类别一致的次数,假阴性(FN)是模型预测到其他类别而不是实际类别的比率结果。 对于人类编码器注释的具有其他类别的编码记录,假阳性(FP)表示由模型预测的类别与编码记录的任何实际类别不一致的结果。 精确度是指正确预测的实例在相应类别中所占的比例,而查全率是指正确预测的实例在编码记录中所占的比例。 F1评分是一个综合精确度和查全率的整体衡量标准,是宋等人。 507图2。 CNN-BILSTM分类模型的体系结构。 508教育计算研究杂志59(3)两者的调和平均值(Olson&Delen,2008)。 评估指标的定义如下:TP精确度和查全率(TP&fp,TP&fn,F1)2?精确度?查全率精度和查全率

结论

数据集的描述性结果
课堂对话数据集包含15167条人工编码记录,其中12134条(80%)被随机抽取为训练数据集,另外3033条(20%)被随机抽取为测试数据集。 训练数据集用于训练分类模型,测试数据集用于评价模型的性能。 数据集的详细统计信息见表1。 每个类别平均包含2,167个编码记录。 在整个数据集中,已知知识是数量最多的类别,有7143条记录,其次是分析,有3661条记录,协调,有1587条记录。 最小的类别是查询,为160个。 编码记录数的标准差为2470.89,见表1。 课堂对话数据集的描述性统计。

提出的分类模型对不同类别的性能。 类别精度分析协调推测吸收协议查询先知知识总体0.6920.579 0.850 0.584 0.7920.438 0.798 0.688召回0.767 0.620 0.347 0.404 0.864 0.250 0.875 0.690 F1得分0.728 0.598 0.493 0.478 0.826 0.318 0.835 0.680,意味着每个类别中的记录数量不同,数据分布相对离散。

分类模型的性能

利用训练数据集对分类模型进行几个阶段的训练,然后用测试数据集对训练后的模型进行评价。 分类模型对不同类别的性能如表2所示。 推测、先验知识和一致性的精确度分别为0.8500、0.7982和0.7917,居前三位。 所有类别的总精确度为0.688。 在回忆方面,前三个类别分别是先前已知知识、协议和分析,分别为0.8750、0.8636和0.7668。 所有类别的总召回率为0.690。 在F1得分方面,先验知识、协议和分析得分居前三位,分别为0.8349、0.8261和0.7276。 所有类别的F1总得分为0.680。 先验知识和一致性在所有类别中的预测效果最好,结果表明编码记录的预测正确率分别为87.5%和86.36%。 结果表明,我们的分类模型能够识别已知知识类、协议类和分析类的大部分课堂对话文本,但在查询类和猜测类中识别能力较弱。 不同类别的分类模型表现不平衡,表现出较大的差异。

为了可视化每个类别的模型性能,我们绘制了分类模型的混淆矩阵(参见图3)。 混淆矩阵的x轴表示模型预测的类别,而yaxis表示由人类编码器注释的真实类别。 矩阵的对角线元素表示预测类别与人类编码器注释类别一致的项目比例,而510教育计算研究杂志59(3)图3。 分类模型的混淆矩阵。 非对角线元素代表了模型预测错误的项目比例。 在一致性类别中,人类编码器与模型的一致性比例最高(0.83),其次是先验知识(0.75)、协调(0.7)和分析(0.68)。 对猜测、询问和接受类别的一致性往往很低,这三类经常被误认为是分析或协调。 关于推测,26%的记录被错误地标记为分析,17%被错误地标记为协调。 总共有30%的记录被错误地归类为分析,23%被错误地分配为协调。 对于查询类别,分别有21%的记录被误判为分析和协调。

在模型训练后,新的对话文本被赋予它来预测它们的类别。 为了向读者阐明这个过程,图4显示了模型自动分类的示例。 Song等人将三个样本句子输入到训练好的分类模型中,该模型根据先前从训练数据集中学习到的信息分析对话的语义内容,然后自动输出预测结果。 511图4。 一个由模型自动分类的实例。 每个输入文本的类别和置信度。 例如,第一句“我不认为这是最好的方法,因为有些人可能……”的结果包括相关类别“分析”及其对应的概率0.816,这是该句所有预测结果中的最高值。

论述

本研究探讨了课堂对话语义内容自动分类的可能性。 155节记录的课程被用作数据集,首先由研究人员手工编码,然后用于自动分类模型的训练和测试。 检测和区分了七个类别(分析、协调、推测、吸收、一致、查询和先前已知的知识)。 我们提出了一个用于对话自动分类的CNN-BILSTM模型,并发现该模型的性能是可以接受的,可以与人类编码器的性能相媲美。 结果表明,该模型能够辅助人类进行自动对话编码。 本研究考察了课堂对话在中国的分布情况。 大量的对话与教科书、规则规定的答案或以前传授的知识有关,而很少对话与学生的个人经历有关512教育计算研究杂志59(3)。 强调目标和事实,缺乏个人思考似乎也是西方国家课堂对话的一个问题(Burns&Myhill,2004)。 一个积极的现象是教师和学生讨论以反思的方式分析和解决问题。 通过对话,学生很可能会分解复杂的概念,以批判性的方式评价不同的想法,并对他们的答案做出解释。 相比之下,这些课程显示出相对较低的知识概括水平,对可能性的考虑,以及通过课堂讨论建立以前的想法。 教师可能不鼓励猜测,因为当扩大的对话引起教师不知道的话题时,这可能涉及挑战教师的权威。 学生们倾向于谈论他们的想法,很少有人结合、扩展或建立在以前的想法上。

我们采用了基于深度学习的方法,构造了一个由CNN和BILSTM两种神经网络组成的分类模型。 该模型经过了几个时代的训练和测试。 我们的数据集中最初涉及80个课程,这给出了较低的索引; 我们又增加了20节课,指数有所提高,但仍然不能接受(低于。60)。 然后,我们将训练数据集中的课程数增加到124次,并再次训练模型,这给出了可接受的结果,F1总得分从0.596增加到0.680。 随着训练数据集规模的增加,分类模型的性能可能会继续提高。 人类编码器和机器之间的一致性率在不同的类别中有所不同,先前已知的知识、一致、分析和协调的一致性率很高(高达0.80),而查询、吸收和猜测的一致性率较低(低于0.50)。 这可能是由于记录的数量,因为表现良好的类别所包含的记录远远多于表现不理想的类别。 在有限的语料库中,机器有时很难学习文本之间的深层关系,也很难在大量上下文中搜索一个词的用法。 在自动分类的过程中,有些类别容易被机器识别和区分,而有些类别则很难识别和区分。 例如,“一致”这个类别对于机器来说是相当容易检测的,因为有许多可识别的词(例如,正确、正确、是); 每当这些词出现时,机器就会把这些话语归类为“一致”。

相比之下,“查询”、“吸收”和“推测”这些类别对机器来说不那么容易识别和明显,句子经常被错误地分配为“分析”或“协调”。 这首和蔼的歌等。 513的发音很难通过一个特定的词来区分,模型可能需要考虑几个句子甚至一整段话来理解它的意思。 语言的词汇成分和这些类别的语义表达往往是相似的,这有时甚至会让人类编码器感到困惑(参见Howe et al.,2019)。 解决这些问题可能需要专门研究语法和句法的语言学家的帮助。 目前,我们倾向于先发送课程记录进行自动分类,根据结果,高F1分数的话语被标记为模型推荐的类别,而低F1分数的话语则由人工编码器检查和重新评估。 自动编码和手工工作的结合产生了一个高效的嵌合体,可以快速评估对话的有效性。 该模型在汉语成绩单上进行了训练和测试,而在英语成绩单上也进行了初步的实验。 这是因为英语语言已经成为自然语言处理领域广泛研究的主题,并且广泛使用文本分类模型进行评估。 英语文本也可以转换为数学向量的形式来表示,然后应用于模型训练。 随着这些模型的不断发展,机器很可能会在帮助人类研究人员进行对话内容分类方面发挥越来越重要的作用。

本研究采用查准率、查全率和F1评分三个指标对分类模型进行评价,结果表明这些指标能够较全面地反映分类模型的性能。 Cohen的Kappa是一个被广泛用于估计两个或多个编码者在观察和将话语分配到相关类别时一致程度的指数(Hartas,2010)。 这两个编码器都不能完全确定他们自己编码的正确性和可靠性,但他们依赖于协议的级别。 在自动分类中,少数研究仍然使用Kappa度量来描述人工编码和机器自动编码之间的一致性。 例如,Wang等人。 (2014)表明,他们的自动分类模型是可靠的,该模型是为检测课堂活动而建立的,参考了科恩的Kappa。 在我们看来,这不适合我们的工作,因为它使用人类编码记录作为评估机器学习有效性的标准。 因此,我们使用了三个评价指标:查准率、查全率和F1得分,这三个指标在计算机科学领域中广泛应用于分类模型的评价。 精确度衡量分类模型的正确性,查全率衡量分类模型的完备性或敏感性,F1得分代表了精确度和查全率之间的平衡,从而反映了模型的整体性能。 因此,我们在评估模型时更适合应用这些度量标准。

在本研究中,训练后的模型只需不到5秒就能完成每小时课文的自动分类。 在如此短的时间内使用合理规模的手工编码获得结果是不可能的,但这可以在机器的帮助下完成。514教育计算研究杂志59(3)。 手工编码器所用的时间因其对抄本和类别的熟悉程度而异,但尽管如此,完成一小时课程的编码通常至少需要两三个小时(参见Blanchard et al.,2015)。 先前的研究报告了语篇活动和一般对话模式的自动识别。 例如,Wang等人自动检测到了三种常用的对话活动,即老师讲课、全班谈话和学生小组讨论。 (2014年)。 布兰查德等人。 (2015)自动区分问答段。 Jiang等人提出的一种混合方法。 (2018)能够将课堂环境中的活动分为教师话语、学生话语、安静和讨论。 Lugini和Litman(2019)使用卷积神经网络对课堂讨论的论点片段进行分类,他们的方法可以自动识别索赔、证据和保证。 本文在这一方向上取得了一些进展,开发并验证了课堂对话语义内容分类模型,有助于发现对话教学的产出形式。 通过综合利用这些研究成果,可以对一节课进行快速而全面的评价,不仅说明对话的活动,而且(更重要的是)评价其质量。

结论、限制、贡献和影响

本研究基于一种旨在衡量对话产出形式的编码方案,成功地对课堂对话的语义内容进行了自动分类。 我们开发了一个机器学习模型CNN-BILSTM来检测和区分对话文本的语义。 从查准率、查全率和F1评分等指标来看,该模型的性能与人类编码器相当。 在已知知识、分析、协议和协调等类别中,人类编码与模型分类具有高度的一致性,这证实了机器可以协助评估对话教学质量的手工工作。 该模型的训练和测试是基于课堂记录的155节课。 在未来的工作中,数据收集需要考虑在各种教育背景下(例如在线课程)和地区(例如美国和欧洲国家)进行的课程,以测试自动编码的性能。 此外,本研究中使用的编码类别也比较笼统(如分析),而没有考虑具体的子类别(如解释、辩解)。 此外,分类推测、查询和吸收的索引需要改进。 需要更大的数据样本来允许机器学习并在细粒度级别上自动区分类别。 有一些宋等。 515在学习课堂对话文本的语义信息方面,特别是在猜测类和查询类的语义信息方面,我们可以对该模型做进一步的改进。 考虑到本研究的局限性,本研究应被视为一个漫长而反复的研究过程中的阶段性成果。
尽管如此,本文还是对课堂对话领域做出了独创性的重要贡献。 它开创了课堂对话语义内容自动分类的先河。 本文提出的自动分类方法可以大大减少人工编码的工作量,并且可以大大提高识别产生式对话的效率。 自动编码比人工编码更便宜,也更容易获得。 理论上,只要提供足够的样本数据,机器就可以被训练成对对话内容进行非常详细的编码,或者使用各种语言。 这样就可以在处理范围广、规模大的数据时,对对话过程进行详细的表示。 到那时,将有可能对课堂和对话教学进行大规模的研究和国际比较。 此外,自动编码为教师和学生提供了快速和及时的反馈,这使他们能够理解他们在对话交互中的表现。
研究的启示主要集中在以下几个方面。 研究者应进一步测试和打磨自动化课堂对话分析技术; 要完成这项任务,既要熟悉课堂对话,又要熟悉人工智能技术。 鉴于技术的复杂性和这项工作的跨学科特点,教育界和计算机科学领域的研究人员之间的合作是必要的。 此外,自动化技术能够处理来自课堂教学的大量数据,使数据挖掘成为可能。 例如,这将允许探索课堂对话的顺序模式,以及不同类型课程对话的集群模式。 教师应该学会利用所开发的自动化技术,并考虑如何最好地将其纳入日常对话教学中。 教师可以利用快速和及时的反馈来进行自我反思,并评估对话教学的质量,例如一个问题是否被恰当地提出,以及他们的反馈是否引发了批判性思维。 及时的反馈可以用于专业教师培训,并可以提供知识,使教师能够提高他们在促进富有成效的对话和加强课堂管理技能方面的能力。 形成性反馈还可以帮助学生更好地理解对话如何促进他们的思考和学习,以及他们自己对对话过程的贡献。 这可能会增加他们的参与,从而使他们在富有成效的对话中取得学习成绩。
利益冲突声明
作者声明在这篇文章的研究、作者和/或出版方面没有潜在的利益冲突。

资金提供
作者透露,本文的研究、作者和/或出版获得了以下资助:本工作得到了国家社会科学基金(AGA200016)和国家自然科学基金(61907017)的资助。

Orcid ID
Yu Song https://orcid.org/0000-0001-5761-5477 Tianyong Hao https://orcid.org/0000-0002-9792-3949

参考
Song Y., Hao T., Liu Z., & Lan Z. (2020). A systematic review of frameworks for coding towards classroom dialogue. Emerging Technologies for Education, 11984, 226–236. doi:10.1007/978-3-030-38778-5_25 van der Veen, C., de Mey, J. R. P. B., van Kruistum, C. J., & van Oers, B. (2017). The effect of productive classroom talk and metacommunication on young children’s oral communicative competence and subject matter knowledge: An intervention study in early childhood education. Learning and Instruction, 48, 14–22. doi:10.1016/j. learninstruc.2016.06.001 Varadarajan, S., Kasravi, K., & Feldman, R. (2003). Text-mining: Application development challenges. In A. Macintosh, R. Ellis, & F. Coenen (Eds.), Applications and innovations in intelligent systems X (pp. 247–260). Springer. Vygotsky, L. S. (1978). Mind and society: The development of higher mental processes. Harvard University Press. Wang, Z., Pan, X., Miller, K. F., & Cortina, K. S. (2014). Automatic classification of activities in classroom discourse. Computers & Education, 78, 115–123.

作者传记

于松,现任华南师范大学教育学院副教授。 她的研究兴趣包括课堂对话和学习分析。

华南师范宋宇老师课堂对话论文翻译相关推荐

  1. 华南师范宋宇老师的课堂分析讲座

    真不愧是教育技术领头羊.... 这个系统的细节以及思路惊艳到我了. 第一次产生想跟着这个老师读博的想法. 2022年4月22日20:59:02 记录一下 有了邮箱希望以后可以联系. 自己做了一个思维导 ...

  2. 宋宇-课堂对话领域研究热点与 前沿趋势探究

    好家伙... 看这种论文容易自闭,,,怎么能写这么好呢... 下次看看博士的论文吧还是.. 定义 课堂对话( classroom dialogue /discourse) 是师生间或者生生间围绕教育教 ...

  3. 博士申请 | 香港科技大学(广州)骆昱宇老师招收数据科学全奖博士/硕士/RA/实习生...

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 香港科技大学(广州) 香港科技大学是亚洲以至全球领先的研究学府之一,并被认 ...

  4. 博士申请 | 香港中文大学岳翔宇老师招收人工智能全奖博士/博后/RA/实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 香港中文大学 香港中文大学(CUHK)是世界领先的研究型大学.中大拥有香港 ...

  5. 加州理工学院宋飏老师招收机器学习全奖博士生|2023秋季

    来源:机器之心 加州理工学院(California Institute of Technology),简称 Caltech,坐落于洛杉矶近郊风景优美的 Pasadena 市,是一所世界闻名的研究型大学 ...

  6. 计算机不能取代老师的英语作文,以电脑可否取代老师为题的论文

    以电脑可否取代老师为题的论文 1997年有媒体公布了一项"下一个世纪最受欢迎的职业"的调查,调查结论有点出乎意料--在数十个职业中,排在前列的是"护士"与&qu ...

  7. 香港中文大学岳翔宇老师招收人工智能全奖博士生/博士后/研究助理/实习生

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 香港中文大学岳翔宇老师招收人工智能全奖博士生.博士后.研究助理.实习生 岳翔宇博士(个人主页 http:// ...

  8. 2017 宋星大课堂福利赠票公布结果

    5月2日,我们为神策数据的粉丝争取了一份超大的福利,一张宋星老师公开课的门票. [福利赠票]宋星大课堂互联网营销与运营的数据分析和优化 短短几天时间,我们收到了来自大家的大量反馈. 我们秉承着公平公正 ...

  9. 杨校老师课堂之Java类与对象、封装、构造方法

    杨校老师课堂之Java类与对象.封装.构造方法 本篇文章内容如下: 面向对象 类与对象 三大特征--封装 构造方法 教学目标 能够理解面向对象的思想 能够明确类与对象关系 能够掌握类的定义格式 能够掌 ...

最新文章

  1. angularjs-ngModel 控制页面的宽度
  2. SAP PM 初级系列10 - 维护通知单相关的配置
  3. 重磅!2020年全球高被引科学家名单出炉!
  4. JVM字节码指令集大全及其介绍
  5. java操作mongodb_Java操作MongoDB
  6. xcode多工程联编 - 详细教程
  7. Leetcode算法题(C语言)13--反转字符串
  8. 并发编程之ReadWriteLock接口
  9. 电脑技巧:推荐几款装机必备的软件
  10. 携程网被黑,谁干的??
  11. 力扣 167. 两数之和 II - 输入有序数组
  12. 高一计算机课的总结,高中《信息技术》期末教学总结范文
  13. vue项目搭建和配置
  14. 数学柏拉图多面体---定积分(一)
  15. 嵌入式linux rootfs,【转】制作 嵌入式 linux 根文件系统 rootfs
  16. 0基础学挨踢-国产达梦数据库dmPython安装和避坑(Windows/Linux,离线状态)
  17. 锐速与BBR的原理简单解析
  18. 区块链软件开发公司谈分布式账本与区块链账本的区别
  19. 漫步者蓝牙自动断开_漫步者Lolli Pods:销量惊人的宝藏真无线耳机
  20. 高中计算机技能大赛试题,《最新竞赛试题选编及解析-高中计算机卷》.pdf

热门文章

  1. blibli APP项目 环境搭建以及部署
  2. 如何在ASP.Net Core中使用Nancy
  3. nutch1.3与solr3.4集成部署在eclipse上之——运行的输出日志
  4. ESP32蓝牙+EC11旋转编码器实现对电脑音量控制
  5. 物理地址、逻辑地址、虚拟内存
  6. CocosCreate/qqplay音频相关问题记录
  7. jmeter 聚合报告之jtl文件解析
  8. BSN唐斯斯:区块链是“新基建中的基建” | 非正式会谈
  9. mac装载移动硬盘失败
  10. 计算机二级公共基础知识重点+上机考试题库软件