潜在语义分析对认知科学的启示

潜在语义分析技术对认知科学以及虚拟现实系统的设计也具有启示：

首先，由于LSA可以用数学方法实现对文本的理解，所以可采用LSA分析人对文本的理解。

认知领域中，文本理解研究的主要目标是发现影响读者由文本材料提取信息和保留信息的能力的诸多因素。通常采用让被试者阅读材料，然后让他们回答问题或写一篇进行总结的方式，测试被试由文本中获取了什么样的信息。对文本理解理论的研究也可以说是读者表述文本理解的认知模式的研究(Kintshch，1988)。

在这样的模式下，用一套被称为命题的语义成分代表由文本和被试的总结中所得到的语义信息，同时，对一篇文本作命题分析也能提炼出一套文本中所包含信息的语义基础。同理对被试回答命题的分析，将得到一套被试对文本记忆表述的语义基础。通过对文本和被试总结中出现的信息，在语义水平上的比较则不仅仅局限于词的选择等表面的特征。

而LSA的基础恰是建立在词的语义与文本语义内容的匹配上的，并为此建立语义空间。因此LSA方法能很好地适合于对必须用文本材料来评估学习成绩的心理学和教育学等领域的研究与分析。即通过对被试阅读过的文本执行一种自动分析，推出一个语义空间，利用这个语义空间，按照以命题分析同样的方式来进行文本信息的匹配。

LSA方法还可用来研究文本的连贯性与对文本的理解力。LSA能够测量文本相连结的部分中语义重叠的数量，故能测量文本的连贯性。应用LSA对文本做连贯性测试，结果显示，随着文本连贯性的增加，LSA测试出的连贯性也随着增高。由于文本连贯性的命题重叠测量已经被建立成为一种有效的测量文本理解力的方法。对于文本命题重叠的计算既可以在局部也可以在整体水平上执行。因此，文本的命题分析能够显示什么地方文本的连贯性被打破，并且将影响阅读者的记忆力。对这些地方的破损加以修复，就能够改进人的整体的理解力。

从技术角度看，用LSA连贯性测试还可以进行文件分割。文件分割的目标是识别文本的不同部位是否覆盖不同的主题，并决定在一个文本中什么地方主题发生了变换。一般来说，在文本中连贯性很低的区域倾向于为主题切换的地方。

通过识别连贯性的破裂，人们可以把文本划分成不连续的部分。便可以把大块头文本分裂为更好管理的小单位而具有许多应用，尤其对互联网信息的处理将产生重大影响。

总之，当阅读者阅读多篇文本时，他们一定整合横跨文本的信息，并把它们与以前所具有的知识相结合。LSA能捕捉这些整合的信息，使得LSA统计近似产生的语义相关与读者学习产生的知识结构相合。因此，LSA能够作为一种工具评估阅读者的总结，表述其知识的来源和质量，以计算机技术模式来捕捉阅读者对文本理解的程度，修正他们的缺陷。

其次，LSA能够模拟学习获取知识，为人类认知问题的研究提供了一个新的途径。

认知的最深、最持久的秘密之一是人们在得到很少信息的基础上，如何获取大量的知识，即归纳问题。假设某些领域的知识含有广泛的、大量的微弱联系，如果适当地暴露它们则可以通过推测大大地加强学习效果。关键在于发现通过某种正确操作可以获得的归纳机制以及各种客体和事件之间的类似性。因而便可以在局部得到密集的信息与人们经过大量阅历之后得到的知识的差距之间架起一座桥梁。

Landauer和Dumais教授利用美国大百科全书的30473篇文章中出现的460万个词汇，创造了一个300维的语义空间。运用LSA方法测试托福(TOEFL)考试的同义词部分。这部分有4个选择题，回答每一个问题的正确概率为25%。

LSA选择的正确为64.4%，基本相当于非英语国家的大学生们考出的6.45%的平均成绩，达到了美国大学对非英语国家大学生入学英语水平的要求。LSA方法取得的成功显示了当给出了大量文本时，计算机能够像人类一样，获得词汇意义相类似的知识并达到相当深度。

LSA能够学习并获取知识主要依赖语义空间维数的选择。LSA语意空间的维数和答案选择的正确性之间存在着强有力的非单调相关。当LSA选择太多的维数时，获得的知识是相当贫乏的，当在300维左右操作时，结果相当好。而当选择大大低于100维时，获得的知识再次变得非常贫乏。由此可见，语义空间维数的选择与获取知识结果的匹配状态，似乎某种程度上反映了人类学习知识时，通过归纳的改进可以大大地改进知识的获取与描述。

应该说LSA由文本中学习到了大量的词汇意义。LSA没有利用任何先前语言和认知的类似知识，它独特地建立了一种一般的学习方法，对大量的文本通过选取正确的空间维数(例如300维)达到强有力的归纳效应，学习到了词义的类似性。对照人类，人们在学习语言过程中，语言中也存在着足够的信息，它们含有广泛的大量的微弱联系，当人们暴露在这些信息面前，获取了知识。因此可以说，LSA对人类知识归纳问题提供了一种解决途径。

以这种思路进行的研究有Landuaer和Dumais教授等，通过文本理解、托福测验、学校儿童对词汇的学习等等方面的试验，应用LSA与人类行为相对照，得出了LSA可以获取、归纳和表述知识的结论。以Graesesr教授为首的美国孟菲斯大学的智能系统研究所于1997年开始研制并开发AutoTutor系统，该系统可以对学生用自然语言做出的反馈给以响应(Graesesr，2001)。试验表明Aut0Tuotr在提高学生的计算机素养及抽象思维与动手操作能力方面有显著的优势(Graesser，2003)。

第三认知领域的诸多方面也可借助LSA进行研究，对某些现象提供新的解释、说明和设想。

科罗拉多大学认知科学研究所的Darrell Laham利用LSA方法进行概念分类研究。研究显示，分类可以自我组织，不依靠任何人为代码，仅依靠语言在语料库中的使用方式，通过动态归纳过程发生。概念的含义不是被包装在客体的表述中，而是以语义空间为背景，选择客体之间的相互关系出现的。实际实验显示，对自然分类，LSA的判断与人类判断具有高度的相关性。

LSA方法除了处理词汇意义的类似性之外还提示了理解许多语言属性的一些新途径。例如，词的意义具有流动性，即某个人使用某词与另一人使用该词在意义上稍有差别，或随着时间的流逝人们对某词的理解发生了变化，为了从语言功能或历史上测量个体或群体理解词汇意义上的变化，LSA提供了一种有潜力的技术。LSA对联想问题、场景和语义记忆类比、明示和暗示记忆类比、专家知识等提供了研究的可能性。总之LSA独特地建立了一种一般的学习方法，为理解、解释学习的动力学模式提供了一条吸引人的途径。

以信息加工观点研究人的认知活动是把人的认知活动看成一个信息传送系统，把人们对客观外界的知觉、记忆、思维等一系列认知过程看成信息的传播接受和加工的过程，并对人的思维活动作出定量分析，建立信息加工模式是认知科学的核心任务。LSA就是一个这样的信息加工模式。

LSA模式表面上是一种纯数学的分析技术，实际上却具有更广阔的认知意义。目前，还没有其它的知识获取和知识表达技术不依靠人类的输入知识，像人类一样凭着经验思维就能获取知识的计算模式存在，故LSA在文本理解、学习、思维和获取知识方面经验上的部分成功似乎预示了机器智能的又一个发展趋势。

人脑的认知过程是通过神经元的活动进行的，然而人类至今对神经元和大脑对信息处理的生理机制了解很少。因此LSA也为认知过程的研究提供一条可行的途经。如研究人脑的认知过程，可用心理学的概念解释LSA模式，并显示模式的某些特征。LSA的输入构成的矩阵，可认为行代表单一的事件，列代表事件发生的背景。最后的输出是一种描述，由描述中人们可以计算，测量事件之间、背景之间或事件与背景之间的类似程度，就如同词汇对词汇、段落对段落、词汇对段落之间的类似程度一样。利用LSA的计算过程实际上是把局部信息组合并浓缩成为一种普遍的描述，在这个过程中，LSA捕捉到了具有局部信息的所有事件之间多变的相关的偶然性。

还可以进一步把LSA视作神经网络，LSA是一种单一的，但却是相当大的三层神经网络。每一个事件(或词)构成了第一层神经元，每一个曾经发生过事件的场景构成了第三层神经元，几百个第二层的神经元承担完成连接第一层与第二层，第二层与第三层神经元的任务。每一种类型的事件，单一场景地描述起一种横跨两层神经节的活化作用。这种神经网络可以创造出人造的场景，反过来操作场景可以产生能适应变化强度的事件来表述他们本身。奇异分解可理解为把归纳问题的机理具体化，即它可以方便地变换维数，并应用于一个学习者多年的经历才能遇到的大量数据上，在某些方面与人类大脑存储、再处理信息方面具有大约相近的效应。

信息科学和信息处理技术的发展为用信息方法研究思维过程提供了理论基础。LSA恰恰为思维过程的研究提供一条可行的途经，这对于人类智能的开发，认知过程规律的揭示有巨大的意义。概率潜在语义分析具有优于潜在语义分析的诸多特点，是在潜在语义分析基础上的进一步改进。虚拟导师系统的设计主要采用概率潜在语义分析技术。

转自：http://summerbell.javaeye.com/blog/384326

潜在语义分析对认知科学的启示相关推荐

潜在语义分析(Latent Semantic Analysis）
潜在语义分析(Latent Semantic Analysis) 潜在语义分析(Latent Semantic Analysis, LSA)是自然语言处理中的一种方法或技术.潜在语义分析(LSA)的主 ...
概率潜在语义分析（Probabilistic Latent Semantic Analysis，PLSA）
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA) 目录概率潜在语义分析(Probabilistic Latent Semantic Anal ...
教你在Python中实现潜在语义分析（附代码）
作者:PRATEEK JOSHI 翻译:李润嘉校对:万文菁本文约3400字,建议阅读15分钟. 本文将通过拆解LSA的原理及代码实例来讲解如何运用LSA进行潜在语义分析. 介绍你有没有去过那种运 ...
pLSA概率潜在语义分析
概率潜在语义分析(PLSA) 李航<统计学习方法>:习题代码实现 pLSA用于主题模型:实例 PLSA introduction: http://blo ...
复现经典：《统计学习方法》第18章概率潜在语义分析
第18章概率潜在语义分析本文是李航老师的<统计学习方法>一书的代码复现.作者:黄海广备注:代码都可以在github中下载.我将陆续将代码发布在公众号"机器学习初学者&quo ...
复现经典：《统计学习方法》第17章潜在语义分析
第17章潜在语义分析本文是李航老师的<统计学习方法>一书的代码复现.作者:黄海广备注:代码都可以在github中下载.我将陆续将代码发布在公众号"机器学习初学者" ...
统计学习方法第十八章作业：PLSA 概率潜在语义分析算法代码实现
PLSA 概率潜在语义分析 import numpy as np import collections import jiebaclass PLSA:def __init__(self,text_li ...
统计学习方法第十七章作业：LSA潜在语义分析算法代码实现
LSA潜在语义分析算法 import numpy as np import jieba import collectionsclass LSA:def __init__(self,text_list) ...
概率潜在语义分析(pLSA) 相关知识
文章目录生成模型共现模型模型性质共现模型表示 PLSA算法概率潜在语义分析(PLSA)是一种利用概率生成模型对文本集合进行话题分析的无监督方法. PLSA 模型假设每个文本由一个话题分布决定 ...

潜在语义分析对认知科学的启示

潜在语义分析对认知科学的启示相关推荐

最新文章

热门文章