【Gaze】A Survey on Using Gaze Behaviour for Natural Language Processing

A Survey on Using Gaze Behaviour for Natural Language Processing

1. Abstract

摘要中主要介绍本文的工作，整篇主要讨论了在NLP领域gaze behavior用来处理的不同task。gaze behavior属于认知领域，它的收集是一个很费时费钱的工作。因此本文专注于研究模型在运行时的注视行为，并且也描述了多语言任务中的不同的eye tracking语料库。最后通过讨论应用点以及gaze behavior如何能够帮助解决一些文字识别和自动论文评分的复杂问题来总结整篇文章。

2. Introduction

采集读者的心理语言信息对于NLP中多种任务均有帮助，比如NER，文本质量评级预测，讽刺的可理解性。gaze behavior通过眼睛-思维假说（即“在被注视的东西和被处理的东西之间没有明显的滞后”），已经被证明与文本的认知处理很好地相关。因此它能够很好的解决一些NLP任务，大部分的挑战将关注点放在了如何采集gaze behavior。在该文章中，作者主要描述了在运行时使用注视行为来解决不同的NLP任务的研究。

首先需要对gaze behavior的一些term进行了解：

Interest Area：屏幕中对分析感兴趣的部分。在NLP中，它主要是单词，但也可以是短语、句子和段落。
Fixation：指眼睛集中在屏幕上停留一段时间的事件。当眼睛处理文本时会发生固定。
Saccade：指眼睛从一个注视点到下一个注视点的运动。
- Progressions：当从当前兴趣区域的注视到后来兴趣区域的注视。
- Regressions：当一个从当前兴趣区域的注视发生到早期兴趣区域的注视。

3. Motivation for Learning Gaze Behavior

读者的凝视行为可以为系统提供有价值的心理语言学信息，以帮助他们解决需要智力的任务。例如，使用凝视行为，可以更好地量化句子翻译的难度，或者验证读者是否理解一篇文本中的讽刺，甚至评估单词嵌入的质量。

就在2018年，心理语言学领域的论文还描述那些将提供移动/便携式眼球追踪系统的工作。Mishra等人提到，在智能手机和平板电脑等手持设备上，很快就会有眼球追踪器出现。Mathias还提到，SR研究公司已经发布了一款便携式眼动仪。所有这些系统都需要读者阅读文本，以收集注视行为信息。我们在本文中的目标是向人工智能受众介绍我们减轻读者在运行时阅读文本以收集注视行为的需求的方法。

4. Eye Tracking Corpora

Dundee Corpus： [Kennedy et al., 2003]，英语和法语，英语版本有20篇来自《独立报》的文章被10名读者阅读，法语版有20篇来自《世界报》的文章由10名法语读者阅读。
英语语料库：
- 一些只是捕捉到读者在阅读从文章到小说的文本时的凝视行为
  - [Kennedy et al., 2003] Alan Kennedy, Robin Hill, and Joel Pynte. The dundee corpus. In Proc. of the 12th European conference on eye movement, 2003.
  - [Hollenstein et al., 2018] Nora Hollenstein, Jonathan Rot-sztejn, Marius Troendle, Andreas Pedroni, Ce Zhang, and Nicolas Langer. Zuco, a simultaneous eeg and eye-tracking resource for natural sentence reading.
  - [Cop et al., 2017] Uschi Cop, Nicolas Dirix, Denis Drieghe, and Wouter Duyck. Presenting geco: An eyetracking corpus of monolingual and bilingual sentence reading.
  - [Luke and Christianson, 2018] Steven G Luke and Kiel Christianson. The provo corpus: A large eye-tracking corpus with predictability norms.
  - [Yaneva, 2016] Victoria Yaneva. Assessing text and web accessibility for people with autism spectrum disorder. 2016.
  - [Mishra et al., 2017] Abhijit Mishra, Diptesh Kanojia, Seema Nagar, Kuntal Dey, and Pushpak Bhattacharyya. Scanpath complexity: Modeling reading effort using gaze information.
- 另一些则捕捉读者解决不同NLP任务时的注视运动。
  - [Mathias et al., 2018] Sandeep Mathias, Diptesh Kanojia, Kevin Patel, Samarth Agrawal, Abhijit Mishra, and Pushpak Bhattacharyya. Eyes are the windows to the soul: Predicting the rating of text quality using gaze behaviour
  - [Cheri et al., 2016] Joe Cheri, Abhijit Mishra, and Pushpak Bhattacharyya. Leveraging annotators’ gaze behaviour for coreference resolution.
  - [Mishra et al., 2016a] Abhijit Mishra, Diptesh Kanojia, and Pushpak Bhattacharyya. Predicting readers’ sarcasm understandability by modeling gaze behavior.
  - [Mishra et al., 2016b] Abhijit Mishra, Diptesh Kanojia, Seema Nagar, Kuntal Dey, and Pushpak Bhattacharyya. Harnessing cognitive features for sarcasm detection.
  - [Joshi et al., 2014] Aditya Joshi, Abhijit Mishra, Nivvedan Senthamilselvan, and Pushpak Bhattacharyya. Measuring sentiment annotation complexity of text.
其他语言语料库
- 中文
  - [Zang et al., 2018] Chuanli Zang, Ying Fu, Xuejun Bai, Guoli Yan, and Simon P Liversedge. Investigating word length effects in chinese reading.
  - [Li et al., 2018] Xiangsheng Li, Yiqun Liu, Jiaxin Mao, Zexue He, Min Zhang, and Shaoping Ma. Understanding reading attention distribution during relevance judgement.
- 荷兰
  - [Cop et al., 2017] Uschi Cop, Nicolas Dirix, Denis Drieghe, and Wouter Duyck. Presenting geco: An eyetracking corpus of monolingual and bilingual sentence reading.
  - [Mak and Willems, 2019] Marloes Mak and Roel M Willems. Mental simulation during literary reading: Individual differences revealed with eye-tracking.
- 德国
  - [Nicenboim et al., 2016] Bruno Nicenboim, Pavel Logacev, Carolina Gattei, and Shravan Vasishth. When high-capacity readers slow down and low-capacity readers speed up: Working memory and locality effects.
  - [Kliegl et al., 2004] Reinhold Kliegl, Ellen Grabner, Martin Rolfs, and Ralf Engbert. Length, frequency, and predictability effects of words on eye movements in reading.
- 波斯
  - [Safavi et al., 2016] Molood S Safavi, Samar Husain, and Shravan Vasishth. Dependency resolution diffificulty increases with distance in persian separable complex predicates: Evidence for expectation and memory-based accounts.
- 俄罗斯
  - [Laurinavichyute et al., 2017] AK Laurinavichyute, Irina A Sekerina, SV Alexeeva, and KA Bagdasaryan. Russian sentence corpus: Benchmark measures of eye movements in reading in cyrillic. 2017.
- 西班牙
  - [Nicenboim et al., 2016] Bruno Nicenboim, Pavel Logacev, Carolina Gattei, and Shravan Vasishth. When high-capacity readers slow down and low-capacity readers speed up: Working memory and locality effects.

5. Tasks Where Gaze Behaviour is Used

最早假设gaze behaviour效用的工作之一是由Just and Carpenter[1980]所做的关于阅读理解的研究。他们提出了眼-思维假说，即“在由眼睛注视的东西和由大脑处理的东西之间没有明显的滞后。”认知科学领域的许多研究发现，凝视行为的不同方面与文本的相应方面之间的关系，比如注视和单词长度之间的关系，单词可预测性等。

gaze behaviour也有助于NLP中的多个任务，其中读者的心理输入是至关重要的，而仅凭文本特征将是不够的。Mishra等[2013]讨论了与使用基于长度的统计数据（如单词长度、句子长度等）相比，使用gaze behaviour是一种更好的方法来判断翻译句子的复杂性。理解讽刺文本也可以通过凝视行为来解决，即文本中的不协调（讽刺的主要指标之一）会导致凝视行为，即注视时间较长、回归等。gaze behaviour也被用于识别读者的母语，以及用于检测压缩句子中的语法错误。Klerke等人[2015a]还表明，凝视行为可以比自动指标更好地用来评估机器翻译系统的输出。凝视行为也被用来评估读者如何评价一篇文本的质量。

读者的扫描路径（即读者阅读文本时眼睛走过的路径）被用来测试一篇文本对读者的难易程度。它还可以用来预测有阅读困难的儿童的误读情况.

注视行为也被用于情绪分析的多个领域，如讽刺检测、讽刺理解和情绪分析注释任务。Klerke和Plank等人[2019]解决了使用注视数据的POS（词性）标记的经典问题，并提供了两个独立层次的注视数据聚合对低级句法标记任务的影响的系统概述；即，一个简单的块边界标记和一个有监督的POS标记任务。

6. Learning Gaze Behaviour

如前一节所述，使用注视行为可以帮助系统解决许多NLP任务。然而，学习注视行为仍然是一个相对较新的挑战。在运行时学习注视行为的最大好处是，减轻了阅读为了获取注视行为信息的文本的要求。本节将介绍不同的任务和不同的系统，以减轻在运行时收集注视行为的需要。

6.1 NLP Tasks

Reading：[Nilsson和Nivre，2009]描述了一种使用基于过渡的方法来检测读者在阅读时关注哪些token的方法。[Matthies和Søgaard，2013]使用线性CRF模型对其方法进行了改进。虽然注视准确率和F1与[Nilsson和Nivre，2009]的方法相当，但该方法的方法为新读者更好地预测新读者的眼球运动，而不是当训练和测试数据来自同一读者时。
Text Simplification：[Klerke等人，2016]描述了一种简化文本的方法，通过使用在运行时学习到的注视行为来简化句子。他们使用了Ziff-Davis、, Broadcast和谷歌数据集。
Part-of-Speech (PoS) tagging ：[Barrett等人，2016a]描述了一种利用Dundee Treebank的凝视行为来解决词性标记任务的方法。[Barrett等人，2016b]使用跨语言方法（即英语训练，法语测试，反之亦然）进行了同样的研究。
Readability：[Gonz‘alez-Gardu˜no和Søgaard，2017]描述了一种使用多任务学习预测可读性的解决方案，以可读性预测为主要任务，以预测注视行为作为辅助任务。
Sentiment Analysis：[Mishra等人，2018]描述了一种将gaze behaviour用于电影影评情绪分析任务的方法。他们使用多任务框架，其中主要任务是预测情绪，而辅助任务是词性标记和学习注视行为。他们与使用IMDB25K数据集和PL2000数据集上的多任务系统报告的结果相比，显示了统计上的显著改进。
NER：[Hollenstein and Zhang, 2019]描述了一种在运行时学习注视行为的方法，并通过学习运行时的注视行为，显示了CoNLL2003数据集的改进。
Multiple NLP Tasks：[Barrettetal.，2018]描述了一种使用多任务学习的解决方案——情绪分析、语法错误检测和仇恨语音检测。对于每一个句子，他们在单词层面上学习注视特征，并在句子层次上解决NLP任务。

6.2 System Architectures

[Reichle等人，2003]描述了一个理论框架(EZReader)，用于理解单词识别、视觉处理、注意和动眼肌控制如何共同决定在阅读过程中眼睛何时和何处移动。
[Engbert等人，2005]提出了一个在阅读过程中控制眼球运动的数学模型，该模型在心理上和神经生理学上都是合理的，并解释了大多数已知的实验结果。该模型是他们之前提出的模型的扩展[Engbertetal.，2002]。
[Nilsson and Nivre, 2009]使用一个基于过渡的读者眼球运动模型来预测下一个被固定的单词。他们使用了诸如token长度、token频率类、下一个令牌长度、下一个令牌频率类等特性。[Matthies和Søgaard，2013]使用线性CRF来确定在阅读时关注哪些单词。他们使用的特征是单词长度（对于5个单词的窗口）和单词概率（对于3个单词的窗口）。
[Klerke等人，2016]描述了两种使用注视行为的多任务学习模型。第一种（多任务）使用多任务学习和一个单独的逻辑回归分类器来预测训练过程中的注视行为。第二种方法（级联）使用多任务学习，并在内层预测注视行为。
[Barrett等人，2016a]使用隐马尔可夫模型处理具有额外的类型聚集的注视特征，如第一次注视时间、相邻单词的注视概率等。他们使用了一系列特征，分为早期（第一次注视时间、之前的单词注视概率等），延迟（总回归到持续时间、重读概率等），基本时间（总固定时间、平均固定时间等）、回归（一个单词的回归，一个单词的长回归等），上下文（固定概率和附近单词的持续时间）、NoGaze特征(单词长度、BNC和Dundee语料库中的概率等)。
[Gonz‘alez-Gardu˜no和Søgaard，2017]使用了多任务多层感知器和多任务逻辑回归系统，他们的最佳结果来自于使用多任务多层感知器的所有特征。凝视行为是使用Dundee语料库来学习的[Kennedy等人，2003]。
[Mishra等人，2018]使用多任务学习方法来学习注视行为，并将PoS标记作为辅助任务，同时预测将评论的情绪作为主要任务。他们使用一对双向lstm，其中一个bi-LSTM学习第一个注视时间，而另一个执行PoS标记。
[Hollenstein and Zhang, 2019]从多个语料库学习凝视行为Dundee语料库，GECO语料库，和ZuCo语料库，并使用双向LSTM神经结构与条件随机领域执行NER。对于每个单词，它们的系统以字符嵌入、单词嵌入和几种注视行为特征作为输入，并输出相应的NER标签。

6.3 Normalizing Data

在收集注视行为数据时，最好让读者的注视行为归一化。注视行为以下方式进行标准化。

Min-Max Normalization：在[0,1]的尺度上对数据进行归一化，其中0对应最低值，1对应最高值。[Barrett等人，2016a]是一项使用最小-最大归一化的工作。
Binning：主要考虑每个任务的离散箱子。例如：如[Klerkeetal.，2016]所描述的6个箱子（编号为0到5）。与最小-最大归一化相比，Binning的优点之一是它减少了数据中异常值的影响。

6.4 Results

表2给出了每个不同的NLP任务的结果，其中本文没有记录在运行时的注视行为。由于空间限制，作者对每个NLP任务只报告1个结果和数据集的结果。我们报告了最佳的基线结果，相应的注视行为系统的结果，百分数的改善，以及表现的改善是否具有统计学意义。

7. Applications of Learning Gaze Behaviour

本节主要介绍一些可以从学习注视行为中获益很多的NLP应用。据我们所知，在这些系统学习注视行为的应用程序中，还没有任何工作。

7.1 Complex Word Identification

词汇简化是指通过用更简单的单词和短语代替复杂的单词和短语来简化文本的一个过程。例如，一个非英语母语的人会很难理解“谩骂”这个词的意思，也就是“纳粹的宣传诋毁犹太人”。然而，他们更有可能理解“纳粹宣传诋毁犹太人”这句话的含义。识别哪些单词是困难的（应该被一个适当的同义词取代）的过程对于使用眼球追踪是一个非常有用的应用，因为读者可能会更长时间关注更难的单词[Rayner，1998]。

[Paetzold and Specia, 2016]报告了2016年Sem-Eval举行的复杂单词识别共享任务的结果。2018年组织了另一项共享任务，用英语、西班牙语、德语和跨语言设置（目标语言是法语）来识别复杂的单词和短语[Yimametal.，2018]。

使用认知信息应该有助于解决这些任务。如前所述，有相当多的论文涉及文本复杂性/简化和可读性，它们使用凝视行为。然而，在提出共享任务的解决方案时，没有人使用认知信息。随着大量不同语言的眼球追踪语料库的可用性，一个有趣的研究途径将是探索如何使用注视行为来帮助识别复杂的单词，即使在运行时没有这样的信息。

7.2 Automatic Essay Grading

文章是一种文本，是对一个主题的回应，称为文章提示。对一篇文章进行评分是指根据文章的质量给文章评分，要么是文章的整体（整体评分），要么是文章的特定方面（特定特质评分）。论文自动评分(AEG)是指用机器对一篇论文进行评分的过程。最早的AEG系统是在50多年前由[Page，1966]描述的。从那时起，出现了许多商业的AEG系统，如E-Rater、Intelligent Essay Assessor、 LightSide等。

目前最先进的AEG系统使用神经网络，如CNNs，LSTMs，或两者。他们使用的数据集是2012年自动学生评估奖(ASAP)AEG数据集，由休利特基金会发布。

如前所述，[Mathias等人，2018]描述了一种预测读者根据其质量给文本的评分的方法。他们的工作表明，我们可以将凝视行为用于类似的应用程序，如AEG。然而，[Mathias等人，2018]的方法要求读者阅读文本，以使用读者的凝视行为。使用多任务学习建立的AEG系统，主要任务是在文档级对论文进行评分，而学习注视行为是单词级的辅助任务。[Barrettetal.，2018]已经表明，这种方法有利于多个NLP任务，如情绪分析、语法错误检测和仇恨语言检测。

8. Conclusion

凝视行为已被证明有助于多种自然语言处理任务。然而，在运行时收集注视行为是不可行的。因此，为了使用注视行为，很多研究使用了不同的方法，如多任务学习，使用类型聚合值等。

本文首先向人工智能受众介绍不同的NLP任务，这些任务通过注视行为来解决，如翻译复杂性、讽刺可理解性、文本质量评级预测等。然后作者讨论不同的任务，其中表明注视行为有助于他们的解决方案。

为了实现这些任务，需要注视行为数据来为训练做好准备。本文还报告了用多种语言创建的注视行为数据集。最后，描述了来自教育领域的一对应用程序——复杂的单词识别和自动论文评分——它们可以从使用基于注视行为的解决方案中获益很多。