第一章 词法和句法分析研究进展、现状及趋势
1.自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。
第一层面的词法分析(lexical analysis)包括汉语分词和词性标注两部分。
第二个层面的句法分析(syntactic parsing)是对输入的文本句子进行分析以得到句子的句法结构的处理过程。
根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:
(1) 短语结构句法分析(phrase-structure syntactic parsing),该任务也被称作成分句法分析(constituent syntactic parsing),作用是识别出句子中的短语结构以及短语之间的层次
句法关系;
(2) 依存句法分析(dependency syntactic parsing),作用是识别句子中词汇与词汇之间的相互依存关系;
(3) 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(Lexicalized Tree Adjoining Grammar,LTAG)、词汇功能文法(Lexical FunctionalGrammar,LFG)、组合范畴文法(Combinatory Categorial Grammar,CCG)等,对句子进行深层的句法以及语义分析。
第三个层面是语义分析(semantic parsing)。语义分析的最终目的是理解句子表达的真实语义。(但是,语义应该采用什么表示形式一直困扰着研究者们,至今这个问题也没有一个统一的答案。)
2.词性标注主要方法:词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型,然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件
随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。
3.句法分析:
(1)依存句法分析
(2)短语结构句法分析
(3)深层文法句法分析
(4)基于深度学习的句法分析
深度学习则把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示。
4.技术展望和发展趋势
(1)深度学习和传统方法相结合的问题
(2)多粒度分词
(3)面向非规范文本的分词
(4)分词、新词发现(词语归一化)交互建模
(5)面向非规范文本的词性标注
(6)词性标注的数据标注问题
(7)互联网文本分析和领域自适应问题
第二章 语义分析研究进展、现状及趋势
1.任务简述、目标和研究意义:
语义分析(Semantic Analysis)指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。
简单地讲,语义分析的目标就是通过建立有效的模型和系统,实现在各个语言单位( 包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。
词汇级、句子级和篇章级三个层次。
目前,语义分析技术还不完美,特别是在句子级和篇章级。
2.研究内容和关键科学问题
2.1词汇级语义分析:
▲词义消歧
词义消歧主要面临如下两个关键问题:词典的构建和上下文的建模。
▲词义表示和学习:
(1)将某个词义表示为从该词义在同义词网络中出现的位置到 该网络根之点之间的路径信息。
(2)将其数字化:最直观、也是到目前为止最常用的词表示方法是one-hot 表示方法(任意两个词之间都是孤立的)。
(3)词嵌入(Word Embedding, 又称词向量):
基本想法是: 通过训练将某种语言中的每一个词映射成一个固定维数的向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。
2.2句子级语义分析(浅层语义分析和深层语义分析)
(1)浅层语义分析
语义角色标注(Semantic Role Labeling,简称 SRL)是一种浅层的语义分析。
(2)深层语义分析(有时直接称为语义分析,Semantic Parsing):将整个句子转化为某种形式化表示。
关键问题:
(1)普通文本到实体/关系谓词之间的映射
(2)面向开放领域的语义分析
2.3篇章级语义分析
篇章是指由一系列连续的子句、句子或语段构成的语言整体单位,在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关系,篇章结构分析旨在分析出其中的层次结构和语义关系。
3.技术方法和研究现状
目前主流的语义分析方法也是基于统计的方法,该方法以信息论和数理统计为理论基础,以大规模语料库为驱动,通过机器学习技术自动获取语义知识。
3.1词义消歧
语义词典: 英语的词义消歧研究中使用的词典主要是WordNet,而中文使用的词典有HowNet,以及北京大学的“现代汉语语义词典”等。
词义消歧语料库
三种词义消歧方法:
基于词典的词义消歧,有监督词义消歧(研究的重点在于特征的表示,基于深度学习方法的词义消歧成为这一领域的一大热点),无监督和半监督词义消歧。
3.2词嵌入学习
词嵌入的学习通常与语言模型是捆绑在一起的,即训练语言模型的同时也学习和优化了词嵌入。
3.3语义角色标注
语义角色标注的任务明确,即给定一个谓词及其所在的句子,找出句子中该谓词的相应语义角色成分。
角色识别和角色分类过程中,计算两个对象之间的相似度。
3.4句子级深层语义分析
基于知识库的语义分析,有监督语义分析,半监督或无监督语义分析
3.5篇章分析
相对于词汇级和句子级的语义分析,篇章级语义分析还处于初始阶段。目前的篇章语义分析主要还是围绕着判定子句与子句的篇章语义关系。
(1)基于Penn Discourse TreeBank 的篇章分析:论元识别,显式篇章关系识别,隐式篇章关系识别。
(2)基于RST 的篇章分析:EDU 识别,篇章结构生成。
(3)中文篇章分析
中文篇章分析起步较晚,目前的研究成果不多。主要是在语料资源建设方面,在借鉴和参考了英文篇章标注体系的基础上,标注了一批中文篇章分析资源,主要包括如下:基于RST 体系的标注,基于PDTB 体系的标注,基于连接依存树的标注。
4.技术展望与发展趋势(研究重点)
(1) 短语/句嵌入的学习:目前词嵌入已经在自然语言处理领域有了广泛的应用。如何为更大粒度的语言单位(如短语,甚至句子等)学习得到其相应的嵌入表示,已经成为目前研究的一个热点。
(2)基于句子级语义分析的篇章融合
(3)中文篇章分析
(4)非规范文本的语义分析:目前的语义分析技术几乎都是面向规范化的文本,直接应用于非规范文本上将不可避免地导致低性能问题。
第三章 语篇分析研究进展、现状及趋势
1.任务定义、目标和研究意义
语篇分析又称话语分析或篇章分析,是对“语篇”整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。语篇是由一个以上的句子(sentence)或语段(utterance)构成的。一篇文章、一段会话等都可以看成语篇。
大多数应用都是在语篇层面上的,很少针对单个词、短语或者句子,如机器翻译、文本摘要、自动会话、机器阅读理解等,这些应用都需要利用语篇信息。
2.研究内容和关键科学问题
2.1研究内容
语篇分析是指超越单个句子范围的各种可能分析,包括句子(语段)之间的关系以及关系类型的划分,段落之间的关系的判断,跨越单个句子的词与词之间的关系分析,话题的继承与变迁等。
2.2关键科学问题
(1)理论体系的研究: 其一,语篇的基本单元是什么,如何界定;
其二,语篇基本单元与内层的词汇或短语之间的关系如何刻划
其三,语篇的若干基本问题(如指代问题,话题的推演问题)如何体现在理论体系中。
(2)计算模型的构建:其一,语篇的基本单元之间的关系如何分析,其分析手段有哪些;其二,在语篇基本单元之间关系不明显(尤其是汉语)的情况下,如何有效分析它们是否存在关系以及关系类型是什么。其三,指称语(Reference Expression)识别。其四,同指消解(Coreference Resolution)。
3.技术方法和研究现状
3.1篇章性、连贯性与衔接性理论
通过相同词和相关词的多次出现,将语篇所强调的概念或话题呈现出来。
3.2语篇结构分析技术
两个有代表性的语篇关系库:PDTB,RST 树库
3.3指代消解技术
词汇衔接又表现为词汇重复、同义或近义、反义、上下位义、整体与部分以及搭配六种。具有衔接关系的词可以通过一个链表示,称为词汇链。
利用词汇链,可以获取文本的关键词集合;形成文本的摘要;在时序性报道中,还可以检测新话题,跟踪已出现的话题。
4.总结与展望
第四章 语言认知模型研究进展、现状及趋势
1.任务定义、目标和研究意义
认知语言学(cognitive linguistics)是认知科学(cognitive science)与语言学交叉的一个研究分支,是研究人脑的思维、心智、智能、推理和认识等认知机理及其对语言进行分析和理解过程的一门学问。
2.研究内容和关键科学问题
人脑处理语言的认知机理和类脑语言信息处理方法。
3.研究进展和现状
目前,在神经网络模型中融合记忆模块和注意力机制成为了研究的趋势。
4.总结与展望
从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理。
建立完整的语言认知计算的理论体系和复杂度可控的形式化数学模型。
建立有效的、鲁棒、可解释的语言计算模型。
第五章 语言表示与深度学习研究进展、现状及趋势
1.任务定义、目标和研究意义
语言表示是对人类语言的一种描述或约定,是认知科学、人工智能等多个领域共同存在的问题。
从人工智能的角度,语言表示的研究内容可以定义为:如何设计一种计算机内部的数据结构来表示语言,以及语言和此数据结构之间的相互转换机制。
早期的语言表示方法是符号化的离散表示。为了方便计算机进行计算,一般将符号或符号序列转换为高维的稀疏向量。
词:One-Hot 向量。
句子或篇章:词袋模型、TF-IDF 模型、N 元模型等方法进行转换。
缺点:词与词之间没有距离的概念。
离散的语言表示需要引入人工知识库:比如同义词词典、上下位词典等。
一种改进的方法:基于聚类的词表示,比如Brown 聚类算法,通过聚类得到词的类别簇来改进词的表示。
离散表示无法解决的“多词一义”问题:可以将语言单位表示为连续语义空间中的一个点,这样的表示方法称之为连续表示。基于连续表示,词与词之间
就可以通过欧式距离或余弦距离等方式来计算相似度。
常用的连续表示有两种:分布式表示(Distributional Representations),分散式表示( Distributed Representations)(近年来在深度学习中使用)。
Skip-Gram、CBOW 和glove等模型得到词向量,即是分散式表示,又是分布式表示。
2.关键科学问题和研究内容
2.1语言表示的认知机理
语言表示和知识表示应该是相辅相成的。
如何构建语言表示和知识表示的联系,从人工知识库或大规模未标记语料来自动学习语言的表示,是语言表示研究的一个关键科学问题。
2.2跨语种的统一语言表示
2.3不同粒度单位的语言表示
2.4基于少量观察样本的新词、低频词表示学习
3.技术方法和研究现状
3.1离散表示
3.2连续表示
词表示:词的分布式表示也叫词嵌入(Word embeddings)。
句子表示:神经词袋模型,递归神经网络,循环神经网络,卷积神经网络。双向循环神经网络,长短时记忆模型。
篇章表示:层次化的卷积神经网络,层次化的循环神经网络,混合模型。
4.技术展望与发展趋势
人工智能从早期的专家系统,到基于统计的方法,再到最近的深度学习方法,语言表示也从早期的离散表示,到分布式表示,再到最近的分散式表示。
第六章 知识图谱研究进展、现状及趋势
1. 任务定义、目标和研究意义
知识图谱(Knowledge Graph,KG)旨在描述客观世界的 概念、实体、事件及其之间的
关系。(谷歌知识图谱)
知识图谱技术是指在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、
信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等的交叉研究。
应用:知识融合,语义搜索,问答系统,大数据分析与决策。
2.研究内容和关键科学问题
知识图谱技术通常包括知识表示(符号主义和联结主义)、知识图谱构建(信息抽取和语义集成是知识图谱构建的核心技术问题)和知识图谱应用三个方面的研究内容。
3.技术方法和研究现状
研究方法主要可分为知识驱动和数据驱动两类。
3.1知识表示
基于符号逻辑的知识表示,万维网内容的知识表示, 表示学习
3.2知识图谱构建
概念层次学习,事实学习,语义集成
3.3知识图谱应用
语义搜索,基于知识图谱的问答技术,知识图谱平台技术
4.总结及展望
融合符号逻辑和表示学习的知识表示。
高精确度大规模知识图谱构建。
知识图谱平台技术。
基于知识图谱的应用研究。
第七章 文本分类与聚类研究进展、现状及趋势
1.任务定义和研究意义
文本挖掘是指从这些非结构或半结构化的文本数据中获取高质量的结构化信息的过程。
文本挖掘的目的是从未经处理的文本数据中获取有用知识或信息。
典型的文本挖掘任务包括文本分类、文本聚类、概念/实体抽取、情感分析、文档摘要等。
2.研究内容和关键科学问题
2.1构建文本特征向量
首先建立特征空间,典型代表是文本词袋(Bag of Words)模型。
2.2建立分类或聚类模型
分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果。
聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。
文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、逻辑回归(Logistic Regression)、支持向量机(SVM)等分类模型。
文本聚类,我们可以选用k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。
3.技术方法及研究现状
3.1 文本表示
在词袋模型假设的基础上,向量空间模型(Vector Space Model)成为文本的主要表示方法。
为了选取有效文本特征,降低特征空间维度:特征选择,特征转换,话题分析等降维方法。
3.2 文本分类模型
基于规则的分类模型,基于机器学习的分类模型, 基于神经网络的方法
RNN:近年来进行文本表示最流行的方案之一。为了提升RNN 对文本序列的语义表示能力,研究者提出很多扩展模型:LSTM提出记忆单元结构,另外一种重要方案是引入选择注意力机制。
3.3 文本聚类方法(典型的无监督学习)
基于距离的聚类算法,基于概率模型的聚类方法。
4.总结及展望
研究趋势如下:面向互联网文本的分类聚类,神经网络文本分类模型优化,基于神经网络的文本聚类模型。
第八章 信息抽取研究进展、现状及趋势
第九章 情感分析的研究进展、现状及趋势
1.任务定义、目标和研究意义
情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。
2.研究内容和关键科学问题
情感资源构建,情感信息的质量分析,情感分类,情感信息抽取,多模态情感分析。
3.技术方法和研究现状
规则为主的情感分析方法,传统机器学习的情感分析方法,基于深度学习的情感分析方法。
4.技术展望与发展趋势
面向社交媒体开放域文本的情感分析,基于上下文感知的情感分析,跨领域跨语言情感分析,基于深度学习的端到端情感分析,新的情感分析任务。
第十章 自动文摘研究进展、现状及趋势
1.任务定义、目标和研究意义
文摘的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。
2.研究内容和关键科学问题
要点筛选,文摘合成。
3.技术方法和研究现状
目前主流自动文摘研究工作大致遵循如下技术框架:
内容表示 → 权重计算 → 内容选择 → 内容组织。
端到端摘要
4.总结与展望
以下研究方向或问题值得业界关注:
多语言自动文摘资源建设,自动文摘评价方法的完善,基于自然语言生成的自动文摘,
篇章信息和语义信息的有效利用,综述自动生成,跨语言自动文摘,多模态摘要,
面向复杂问题回答的自动摘要。
第十一章 信息检索研究进展、现状及趋势
1.任务定义、目标和研究意义
信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过
信息查找满足用户的信息需求的过程和技术。
第十二章 信息推荐与过滤
第十三章 自动问答
第十四章 机器翻译
第十五章 社会媒体处理研究进展、现状及趋势
1.任务定义、目标和研究意义
社会媒体处理(Social Media Processing, SMP)是从社会媒体数据中挖掘、分析和表示有价值信息的过程。
2. 研究内容和关键科学问题
社会媒体客观信息的挖掘
社会媒体主观信息的挖掘
基于社会媒体的应用研究(推荐和预测)
3.技术方法和研究现状
用户画像,社会网络挖掘,社会媒体传播,社会媒体情感分析,消费意图挖掘,基于社会媒体的预测
4.总结与展望
消除噪声数据,避免数据采样有偏,因果分析对相关分析的补充,评价困境,与社会学跨学科合作难题,
第十六章 语音技术研究进展、现状及趋势
1.任务定义、目标和研究意义
语音合成 :语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS),它是将任意的输入文本转换成自然流畅的语音输出。
语音识别 :语音识别 (Automatic Speech Recognition, ASR)是指利用计算机实现从语音到文字自动转换的任务。
说话人识别 :说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition,VPR),是根据语音中所包含的说话人个性信息,利用计算机以及现在的信息识别技术,自动鉴别说话人身份的一种生物特征识别技术。
2.研究内容和关键问题
第十七章 文字识别研究进展、现状及趋势
1.任务定义、目标和研究意义
文字识别(Character Recognition),广义地称为文档分析(Document Analysis),是对文档图像中的文字进行分割、识别,将文档从图像转换为电子文本的技术。
第十八章 多模态信息处理研究进展、现状及趋势
第一章 词法和句法分析研究进展、现状及趋势
1.自然语言处理中的自然语言句子级分析技术,可以大致分为词法分析、句法分析、语义分析三个层面。
第一层面的词法分析(lexical analysis)包括汉语分词和词性标注两部分。
第二个层面的句法分析(syntactic parsing)是对输入的文本句子进行分析以得到句子的句法结构的处理过程。
根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:
(1) 短语结构句法分析(phrase-structure syntactic parsing),该任务也被称作成分句法分析(constituent syntactic parsing),作用是识别出句子中的短语结构以及短语之间的层次
句法关系;
(2) 依存句法分析(dependency syntactic parsing),作用是识别句子中词汇与词汇之间的相互依存关系;
(3) 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法(Lexicalized Tree Adjoining Grammar,LTAG)、词汇功能文法(Lexical FunctionalGrammar,LFG)、组合范畴文法(Combinatory Categorial Grammar,CCG)等,对句子进行深层的句法以及语义分析。
第三个层面是语义分析(semantic parsing)。语义分析的最终目的是理解句子表达的真实语义。(但是,语义应该采用什么表示形式一直困扰着研究者们,至今这个问题也没有一个统一的答案。)
2.词性标注主要方法:词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型,然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件
随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。
3.句法分析:
(1)依存句法分析
(2)短语结构句法分析
(3)深层文法句法分析
(4)基于深度学习的句法分析
深度学习则把原子特征进行向量化,在利用多层神经元网络提取特征。所谓向量化就是把词、词性等用低维、连续实数空间上的向量来表示。
4.技术展望和发展趋势
(1)深度学习和传统方法相结合的问题
(2)多粒度分词
(3)面向非规范文本的分词
(4)分词、新词发现(词语归一化)交互建模
(5)面向非规范文本的词性标注
(6)词性标注的数据标注问题
(7)互联网文本分析和领域自适应问题
第二章 语义分析研究进展、现状及趋势
1.任务简述、目标和研究意义:
语义分析(Semantic Analysis)指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。
简单地讲,语义分析的目标就是通过建立有效的模型和系统,实现在各个语言单位( 包括词汇、句子和篇章等)的自动语义分析,从而实现理解整个文本表达的真实语义。
词汇级、句子级和篇章级三个层次。
目前,语义分析技术还不完美,特别是在句子级和篇章级。
2.研究内容和关键科学问题
2.1词汇级语义分析:
▲词义消歧
词义消歧主要面临如下两个关键问题:词典的构建和上下文的建模。
▲词义表示和学习:
(1)将某个词义表示为从该词义在同义词网络中出现的位置到 该网络根之点之间的路径信息。
(2)将其数字化:最直观、也是到目前为止最常用的词表示方法是one-hot 表示方法(任意两个词之间都是孤立的)。
(3)词嵌入(Word Embedding, 又称词向量):
基本想法是: 通过训练将某种语言中的每一个词映射成一个固定维数的向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。
2.2句子级语义分析(浅层语义分析和深层语义分析)
(1)浅层语义分析
语义角色标注(Semantic Role Labeling,简称 SRL)是一种浅层的语义分析。
(2)深层语义分析(有时直接称为语义分析,Semantic Parsing):将整个句子转化为某种形式化表示。
关键问题:
(1)普通文本到实体/关系谓词之间的映射
(2)面向开放领域的语义分析
2.3篇章级语义分析
篇章是指由一系列连续的子句、句子或语段构成的语言整体单位,在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关系,篇章结构分析旨在分析出其中的层次结构和语义关系。
3.技术方法和研究现状
目前主流的语义分析方法也是基于统计的方法,该方法以信息论和数理统计为理论基础,以大规模语料库为驱动,通过机器学习技术自动获取语义知识。
3.1词义消歧
语义词典: 英语的词义消歧研究中使用的词典主要是WordNet,而中文使用的词典有HowNet,以及北京大学的“现代汉语语义词典”等。
词义消歧语料库
三种词义消歧方法:
基于词典的词义消歧,有监督词义消歧(研究的重点在于特征的表示,基于深度学习方法的词义消歧成为这一领域的一大热点),无监督和半监督词义消歧。
3.2词嵌入学习
词嵌入的学习通常与语言模型是捆绑在一起的,即训练语言模型的同时也学习和优化了词嵌入。
3.3语义角色标注
语义角色标注的任务明确,即给定一个谓词及其所在的句子,找出句子中该谓词的相应语义角色成分。
角色识别和角色分类过程中,计算两个对象之间的相似度。
3.4句子级深层语义分析
基于知识库的语义分析,有监督语义分析,半监督或无监督语义分析
3.5篇章分析
相对于词汇级和句子级的语义分析,篇章级语义分析还处于初始阶段。目前的篇章语义分析主要还是围绕着判定子句与子句的篇章语义关系。
(1)基于Penn Discourse TreeBank 的篇章分析:论元识别,显式篇章关系识别,隐式篇章关系识别。
(2)基于RST 的篇章分析:EDU 识别,篇章结构生成。
(3)中文篇章分析
中文篇章分析起步较晚,目前的研究成果不多。主要是在语料资源建设方面,在借鉴和参考了英文篇章标注体系的基础上,标注了一批中文篇章分析资源,主要包括如下:基于RST 体系的标注,基于PDTB 体系的标注,基于连接依存树的标注。
4.技术展望与发展趋势(研究重点)
(1) 短语/句嵌入的学习:目前词嵌入已经在自然语言处理领域有了广泛的应用。如何为更大粒度的语言单位(如短语,甚至句子等)学习得到其相应的嵌入表示,已经成为目前研究的一个热点。
(2)基于句子级语义分析的篇章融合
(3)中文篇章分析
(4)非规范文本的语义分析:目前的语义分析技术几乎都是面向规范化的文本,直接应用于非规范文本上将不可避免地导致低性能问题。
第三章 语篇分析研究进展、现状及趋势
1.任务定义、目标和研究意义
语篇分析又称话语分析或篇章分析,是对“语篇”整体进行的分析,包括语篇基本单元之间的关系,不同语篇单元的成份间关联以及语篇所含的信息等等。语篇是由一个以上的句子(sentence)或语段(utterance)构成的。一篇文章、一段会话等都可以看成语篇。
大多数应用都是在语篇层面上的,很少针对单个词、短语或者句子,如机器翻译、文本摘要、自动会话、机器阅读理解等,这些应用都需要利用语篇信息。
2.研究内容和关键科学问题
2.1研究内容
语篇分析是指超越单个句子范围的各种可能分析,包括句子(语段)之间的关系以及关系类型的划分,段落之间的关系的判断,跨越单个句子的词与词之间的关系分析,话题的继承与变迁等。
2.2关键科学问题
(1)理论体系的研究: 其一,语篇的基本单元是什么,如何界定;
其二,语篇基本单元与内层的词汇或短语之间的关系如何刻划
其三,语篇的若干基本问题(如指代问题,话题的推演问题)如何体现在理论体系中。
(2)计算模型的构建:其一,语篇的基本单元之间的关系如何分析,其分析手段有哪些;其二,在语篇基本单元之间关系不明显(尤其是汉语)的情况下,如何有效分析它们是否存在关系以及关系类型是什么。其三,指称语(Reference Expression)识别。其四,同指消解(Coreference Resolution)。
3.技术方法和研究现状
3.1篇章性、连贯性与衔接性理论
通过相同词和相关词的多次出现,将语篇所强调的概念或话题呈现出来。
3.2语篇结构分析技术
两个有代表性的语篇关系库:PDTB,RST 树库
3.3指代消解技术
词汇衔接又表现为词汇重复、同义或近义、反义、上下位义、整体与部分以及搭配六种。具有衔接关系的词可以通过一个链表示,称为词汇链。
利用词汇链,可以获取文本的关键词集合;形成文本的摘要;在时序性报道中,还可以检测新话题,跟踪已出现的话题。
4.总结与展望
第四章 语言认知模型研究进展、现状及趋势
1.任务定义、目标和研究意义
认知语言学(cognitive linguistics)是认知科学(cognitive science)与语言学交叉的一个研究分支,是研究人脑的思维、心智、智能、推理和认识等认知机理及其对语言进行分析和理解过程的一门学问。
2.研究内容和关键科学问题
人脑处理语言的认知机理和类脑语言信息处理方法。
3.研究进展和现状
目前,在神经网络模型中融合记忆模块和注意力机制成为了研究的趋势。
4.总结与展望
从微观层面进一步研究人脑的结构,发现和揭示人脑理解语言的机理。
建立完整的语言认知计算的理论体系和复杂度可控的形式化数学模型。
建立有效的、鲁棒、可解释的语言计算模型。
第五章 语言表示与深度学习研究进展、现状及趋势
1.任务定义、目标和研究意义
语言表示是对人类语言的一种描述或约定,是认知科学、人工智能等多个领域共同存在的问题。
从人工智能的角度,语言表示的研究内容可以定义为:如何设计一种计算机内部的数据结构来表示语言,以及语言和此数据结构之间的相互转换机制。
早期的语言表示方法是符号化的离散表示。为了方便计算机进行计算,一般将符号或符号序列转换为高维的稀疏向量。
词:One-Hot 向量。
句子或篇章:词袋模型、TF-IDF 模型、N 元模型等方法进行转换。
缺点:词与词之间没有距离的概念。
离散的语言表示需要引入人工知识库:比如同义词词典、上下位词典等。
一种改进的方法:基于聚类的词表示,比如Brown 聚类算法,通过聚类得到词的类别簇来改进词的表示。
离散表示无法解决的“多词一义”问题:可以将语言单位表示为连续语义空间中的一个点,这样的表示方法称之为连续表示。基于连续表示,词与词之间
就可以通过欧式距离或余弦距离等方式来计算相似度。
常用的连续表示有两种:分布式表示(Distributional Representations),分散式表示( Distributed Representations)(近年来在深度学习中使用)。
Skip-Gram、CBOW 和glove等模型得到词向量,即是分散式表示,又是分布式表示。
2.关键科学问题和研究内容
2.1语言表示的认知机理
语言表示和知识表示应该是相辅相成的。
如何构建语言表示和知识表示的联系,从人工知识库或大规模未标记语料来自动学习语言的表示,是语言表示研究的一个关键科学问题。
2.2跨语种的统一语言表示
2.3不同粒度单位的语言表示
2.4基于少量观察样本的新词、低频词表示学习
3.技术方法和研究现状
3.1离散表示
3.2连续表示
词表示:词的分布式表示也叫词嵌入(Word embeddings)。
句子表示:神经词袋模型,递归神经网络,循环神经网络,卷积神经网络。双向循环神经网络,长短时记忆模型。
篇章表示:层次化的卷积神经网络,层次化的循环神经网络,混合模型。
4.技术展望与发展趋势
人工智能从早期的专家系统,到基于统计的方法,再到最近的深度学习方法,语言表示也从早期的离散表示,到分布式表示,再到最近的分散式表示。
第六章 知识图谱研究进展、现状及趋势
1. 任务定义、目标和研究意义
知识图谱(Knowledge Graph,KG)旨在描述客观世界的 概念、实体、事件及其之间的
关系。(谷歌知识图谱)
知识图谱技术是指在建立知识图谱中使用的技术,是融合认知计算、知识表示与推理、
信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等的交叉研究。
应用:知识融合,语义搜索,问答系统,大数据分析与决策。
2.研究内容和关键科学问题
知识图谱技术通常包括知识表示(符号主义和联结主义)、知识图谱构建(信息抽取和语义集成是知识图谱构建的核心技术问题)和知识图谱应用三个方面的研究内容。
3.技术方法和研究现状
研究方法主要可分为知识驱动和数据驱动两类。
3.1知识表示
基于符号逻辑的知识表示,万维网内容的知识表示, 表示学习
3.2知识图谱构建
概念层次学习,事实学习,语义集成
3.3知识图谱应用
语义搜索,基于知识图谱的问答技术,知识图谱平台技术
4.总结及展望
融合符号逻辑和表示学习的知识表示。
高精确度大规模知识图谱构建。
知识图谱平台技术。
基于知识图谱的应用研究。
第七章 文本分类与聚类研究进展、现状及趋势
1.任务定义和研究意义
文本挖掘是指从这些非结构或半结构化的文本数据中获取高质量的结构化信息的过程。
文本挖掘的目的是从未经处理的文本数据中获取有用知识或信息。
典型的文本挖掘任务包括文本分类、文本聚类、概念/实体抽取、情感分析、文档摘要等。
2.研究内容和关键科学问题
2.1构建文本特征向量
首先建立特征空间,典型代表是文本词袋(Bag of Words)模型。
2.2建立分类或聚类模型
分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果。
聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。
文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、逻辑回归(Logistic Regression)、支持向量机(SVM)等分类模型。
文本聚类,我们可以选用k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。
3.技术方法及研究现状
3.1 文本表示
在词袋模型假设的基础上,向量空间模型(Vector Space Model)成为文本的主要表示方法。
为了选取有效文本特征,降低特征空间维度:特征选择,特征转换,话题分析等降维方法。
3.2 文本分类模型
基于规则的分类模型,基于机器学习的分类模型, 基于神经网络的方法
RNN:近年来进行文本表示最流行的方案之一。为了提升RNN 对文本序列的语义表示能力,研究者提出很多扩展模型:LSTM提出记忆单元结构,另外一种重要方案是引入选择注意力机制。
3.3 文本聚类方法(典型的无监督学习)
基于距离的聚类算法,基于概率模型的聚类方法。
4.总结及展望
研究趋势如下:面向互联网文本的分类聚类,神经网络文本分类模型优化,基于神经网络的文本聚类模型。
第八章 信息抽取研究进展、现状及趋势
第九章 情感分析的研究进展、现状及趋势
1.任务定义、目标和研究意义
情感分析研究的目标是建立一个有效的分析方法、模型和系统,对输入信息中某个对象分析其持有的情感信息,例如观点倾向、态度、主观观点或喜怒哀乐等情绪表达。
2.研究内容和关键科学问题
情感资源构建,情感信息的质量分析,情感分类,情感信息抽取,多模态情感分析。
3.技术方法和研究现状
规则为主的情感分析方法,传统机器学习的情感分析方法,基于深度学习的情感分析方法。
4.技术展望与发展趋势
面向社交媒体开放域文本的情感分析,基于上下文感知的情感分析,跨领域跨语言情感分析,基于深度学习的端到端情感分析,新的情感分析任务。
第十章 自动文摘研究进展、现状及趋势
1.任务定义、目标和研究意义
文摘的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。
2.研究内容和关键科学问题
要点筛选,文摘合成。
3.技术方法和研究现状
目前主流自动文摘研究工作大致遵循如下技术框架:
内容表示 → 权重计算 → 内容选择 → 内容组织。
端到端摘要
4.总结与展望
以下研究方向或问题值得业界关注:
多语言自动文摘资源建设,自动文摘评价方法的完善,基于自然语言生成的自动文摘,
篇章信息和语义信息的有效利用,综述自动生成,跨语言自动文摘,多模态摘要,
面向复杂问题回答的自动摘要。
第十一章 信息检索研究进展、现状及趋势
1.任务定义、目标和研究意义
信息检索(Information Retrieval, IR)是指将信息按一定的方式加以组织,并通过
信息查找满足用户的信息需求的过程和技术。
第十二章 信息推荐与过滤
第十三章 自动问答
第十四章 机器翻译
第十五章 社会媒体处理研究进展、现状及趋势
1.任务定义、目标和研究意义
社会媒体处理(Social Media Processing, SMP)是从社会媒体数据中挖掘、分析和表示有价值信息的过程。
2. 研究内容和关键科学问题
社会媒体客观信息的挖掘
社会媒体主观信息的挖掘
基于社会媒体的应用研究(推荐和预测)
3.技术方法和研究现状
用户画像,社会网络挖掘,社会媒体传播,社会媒体情感分析,消费意图挖掘,基于社会媒体的预测
4.总结与展望
消除噪声数据,避免数据采样有偏,因果分析对相关分析的补充,评价困境,与社会学跨学科合作难题,
第十六章 语音技术研究进展、现状及趋势
1.任务定义、目标和研究意义
语音合成 :语音合成(Speech Synthesis),也称为文语转换(Text-to-Speech, TTS),它是将任意的输入文本转换成自然流畅的语音输出。
语音识别 :语音识别 (Automatic Speech Recognition, ASR)是指利用计算机实现从语音到文字自动转换的任务。
说话人识别 :说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition,VPR),是根据语音中所包含的说话人个性信息,利用计算机以及现在的信息识别技术,自动鉴别说话人身份的一种生物特征识别技术。
2.研究内容和关键问题
第十七章 文字识别研究进展、现状及趋势
1.任务定义、目标和研究意义
文字识别(Character Recognition),广义地称为文档分析(Document Analysis),是对文档图像中的文字进行分割、识别,将文档从图像转换为电子文本的技术。
第十八章 多模态信息处理研究进展、现状及趋势

更多AI、ML、NLP干货资源请关注公众号:AI小白入门(ID: StudyForAI):

cips2016-中文信息处理发展阅读笔记相关推荐

  1. 中文信息处理发展报告(2016)

    最近在阅读<中文信息处理发展报告(2016)>,感觉写的不错.需要的同学,可以去中文信息学会网址下载. 地址:http://www.cipsc.org.cn/ 下载的地方如下图所示:

  2. PyramidBox 中文翻译及阅读笔记

    PyramidBox:一个环境辅助的单步人脸检测器 原文:Xu Tang 等. 2018. 文章目录 PyramidBox:一个环境辅助的单步人脸检测器 摘要 1 简介 2 相关工作 3 Pyrami ...

  3. 计算机信息处理技术的发展历程,中文信息处理技术发展简史.docx

    中文信息处理技术发展简史 张华平 (中国科学院计算技术研究所软件实验室北京100080) E-mail: zhanghp@sof[ware? Homepage: ; hMp://pipy_ 摘要:真正 ...

  4. 阅读笔记:骑驴找马 职业发展线路

    Note - career development plan 阅读笔记:骑驴找马 职业发展线路 20080115 学习的目的 个人发展的几个层次:就业竞争力,行业领导力,社会推动力 有时候,很多人会使 ...

  5. 计算机最新发展的动态,电子计算机近年发展动态简述—IEEE Spectrum阅读笔记

    Vo[.1f N0.1 零 霉手{,( 爱 缀 z 光 通 信 技 术 OPTICAL COMMUNICATION TECHN0L0GY , 电 子 计 算 机 近 年 发 展 动 态 简 述 一 I ...

  6. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  7. 论文阅读笔记——Vulnerability Dataset Construction Methods Applied To Vulnerability Detection A Survey

    本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--Vulnerability Dataset Construction Methods Applied To Vulnera ...

  8. 中文信息处理——纵览与建议

    中文信息处理--纵览与建议 (2007-04-11 22:25:49) 转载▼ 分类: 技术视野 2004年10月写的一个材料. ----------------------------------- ...

  9. 研究生如何做文献阅读笔记

    ** 研究生如何做文献阅读笔记 ** 研究生如何做文献阅读笔记? 说实在的,我自己也不是很会读书.读书的速度也不快,只是喜欢读书罢了.阅读文献,对于开题期间的研究生和写论文期间的研究生是很重要的功课, ...

最新文章

  1. 自动生成HTML的一段程序
  2. 【预告】腾讯移动分析 MTA 即刻登陆 2017 GMTC 全球移动技术大会
  3. printf()用法详解(转)
  4. 【HDU1582 HDU1452 HDU1098 HDU3524 HDU1005 HDU2623 HDU2674】
  5. laravel auth login 重定向自定义_Laravel学习之路(一):最简单的API 认证(Passport)实践...
  6. Java学习笔记(7)——Java基础之IO多线程网络思维导图
  7. error_reporting(“E_ALL”)和ini_set(“display_errors”, “on”)的区别?
  8. 验证码 -图形图像识别的算法。http://blog.csdn.net/xtalk2008/archive/2007/11/01/1861310.aspx...
  9. matlab 误差椭圆,求3倍标准差误差椭圆分析的程序
  10. 将 改为c语言表达式,基于c语言表达式求解课程设计修改.doc
  11. linux 查看所有端口号_linux系统:ss命令
  12. java datasource mysql_java – 添加新的Datasource(mysql)wildfly
  13. 老段工作室成立两周年
  14. 验证列数据是否重复方法归类贴
  15. 使用WebService的方式调用部署在服务器的Wcf服务
  16. 病历管理系统V 1.0源码分享
  17. 基于 Flink 构建全场景多维度实时计算数仓
  18. C语言基本的语法规定
  19. 晶振及其内部电路详解
  20. 面试:Zookeeper常见11个连环炮

热门文章

  1. 文献阅读——传统醮仪:中国社会和历史中的道教仪式
  2. Android航班往返,酒店入住,离店时间选择器
  3. idea添加背景图片
  4. 2022.02.22
  5. Topic 8. 克隆进化之 RobustClone
  6. mismatch 源码剖析
  7. 大数据数据仓库——hive学习权威指南
  8. 【智能零售】数据如何驱动新零售:线上单月 1.2 亿背后的数据化运营
  9. Mutex互斥体 学习
  10. 算法学习笔记——动态规划:高楼扔鸡蛋