1.讨论常见的文本数据有哪些来源。

可以从公开数据源下载,或者利用自有数据集,或者按照分析需求从网络抓取

2. 文本挖掘的过程由那几个环节组成?这些环节分别负责哪些工作?

一般经过分词、文本特征提取与表示、特征选择、知识或信息挖掘和具体应用等步骤。分词包括了对文本分词、去除停用词、词形归一化等;文本特征提取与表示包括了词性标注、句法分析、语义分析、特征提取与表示等;在特征选择后,通过知识提取和挖掘,具体应用到文本分类、情感分析、信息抽取和问答系统等方面。

3. 什么是文本的特征?

文本特征指文本中少量的、具有代表性语义的词语。一组文本特征的集合即可代表整个文本的语义。

4. 文本特征有哪些常用的方法?结合例子讨论这些方法的应用。

文本数据表示常用方法有布尔模型(boolean model)、向量空间模型(vector space model)、概率模型(probabilistic model)和图空间模型(graph space model)等。文本特征选择的方法一般有基于频率的、信息增益、互信息、CHI统计量、WLLR特征选择方法等。

5.TF-IDF适合提取什么样的文本特征?在使用过程中 TF-IDF有哪些问题?

TF-IDF适用范围广泛,其建立在在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取tf词频作为测度,就可以体现同类文本的特点。

TF-IDF算法缺点包括:单纯以“词频”衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多(TF不高);算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征;IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。

6.向量空间模型的作用以及常用计算是什么?

向量空间模型能把文本表示成由多维特征构成的向量空间中的点,从而通过计算向量之间的距离来判定文档和查询关键词之间的相似程度。常用的相似度计算方案有内积、Dice系数、Jaccard系数和夹角余弦值。

7.分析文本分词的基本思想,并举例说明。

中文分词主要包括词的歧义切分和未登录词识别。切分歧义处理包括两部分内容:切分歧义的检测、切分歧义的消解。未登录词大致包含两大类:新涌现的通用词或专业术语等、专有名词。

8.文本分词有哪些常用的算法?举例说明这些算法的应用。

中文文本分词主要分为基于词典的分词方法、基于统计的分词方法和基于规则的分词方法。在基于词典的方法中,对于给定的词,只有词典中存在的词语能够被识别,其中最受欢迎的方法是最大匹配法(MM),这种方法的效果取决于词典的覆盖度,因此随着新词不断出现,这种方法存在明显的缺点。基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。基于规则的分词要求计算机理解人类语言,较难还在试验阶段。

9. 讨论 IK Analyzer开源中文分词工具包所用的分词算法,并用这个文具对某文本进行分词。

IK分词使用了”正向迭代最细粒度切分算法“,简单说来就是: Segmenter会逐字识别词元,设输入”中华人民共和国“并且”中“单个字也是字典里的一个词,那么过程是这样的:”中“是词元也是前缀(因为有各种中开头的词),加入词元”中“;继续下一个词”华“,由于中是前缀,那么可以识别出”中华“,同时”中华“也是前缀因此加入”中华“词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。

10. 命名实体识别的基本算法有哪些?举例说明其应用。

命名实体识别目前主流还是基于统计的提取方式,例如最大熵、支持向量机、隐马尔可夫模型、条件随机场等,在实践中应用较广的是隐马尔可夫模型和条件随机场。最大熵模型关键是建立有效的特征模板,结合不同层次和粒度的特征建立中文实体语义知识库,所以模板设计是这一模型是否具有通用性的关键。支持向量机对于特征集的要求比较高,例如使用实体属性、词性、实体间关系等有助于提高识别的准确性,这一方法由于在细分类别上的识别效果不佳,目前应用较少。条件随机场是一种判别式概率模型,通过分析序列资料实现对目标序列建模,相较于最大熵模型,它引入了上下文信息实现对未知词汇的识别。隐马尔可夫模型依赖于训练语料的标签标记,它的速度要快一些,所以它更适用于信息检索等实时性要求较高的场景。

基于统计的方法对特征选取的要求较高,对语料库的依赖也比较大,需要从文本中选择对该项任务有影响的各种特征,而可用的大规模通用语料库又比较少,目前大部分细分领域的语料库是基于现有素材经过机器或人工的干预的方式构建的,这部分工作很难避免,也是自然语言处理的基础工作之一。

11. 什么是语义消歧?说明常用的语义消歧基本思想

语义消歧是自然语言理解中核心的问题,在词义、句义、篇章含义层次都会出现不同的上下文(Context) 下语义不同的现象。消歧就是根据上下文来确定对象的真实语义。词义消歧方法分为以三类:

基于词典的词义消歧方法主要基于覆盖度实现,即通过计算语义词典中各词与上下文之间合理搭配程度,选择与当前语境最合适的词语。但由于词典中词义的定义通常比较简洁,粒度较租,造成消歧性能不高。并且,如果词项缺失就会导致问题。

有监督的消歧方法使用已经标记好的语义资料集构建模型,通过建立相似词语的不同特征表示实现去除歧义的目的。

半监督或无监督方法仅需要少量人工或不需要人工标注语料,但依赖于大规模的未标注语料和语料上的句法分析结果。

12. 举例说明常用句法分析方法的思想与应用

依存句法(Dependency Parsing, DP) 认为句法结构本质上包含词和词之间的依存关系,依存关系是指词与词之间存在修饰关系。通过分析语言单位成分之间的依存关系揭示其句法结构,将输入的文本从序列形式转化为树状结构,从而刻画句子内部词语之间的句法关系。目前主要是数据驱动的依存句法分析,通过对大规模语料进行训练得到模型。这种方式生成的模型比较容易跨领域和语言环境。比较常见的是基于图(graph-based) 的分析方法和基于转移( transition- based) 的分析方法。

短语结构句法分析的研究基于上下文无关文法(CFG),CFG主要是对句子成分结构进行建模。一个CFG由一系列规则组成,每个规则给出了语言中的符号可被组织或排列的方法,以及符号和单词构成的字典。

13.语义分析的难点在何处?举例说明

语义分析分为词汇级、句子级和篇章级。其中词汇级的难点主要在于词义消歧和词向量的表示。句子级语义分析分别有浅层语义分析语义角色标注和深层语义分析,其中语义角色标注包括了角色剪枝、角色识别和角色分类,在角色识别和角色分类过程中, 无论是采用基于特征向量的方法,还是基于树核的方法,其目的都是尽可能准确地计算两个对象之间的相似度,这也是其难点;深度语义分析主要面临普通文本到实体/关系谓词之间的映射、面向开放领域的语义分析等两个问题。篇章级的难点在于判定子句与子句的篇章语义关系。

14. 文本分类常用在什么领域?举例说明。

文本分类技术在智能信息处理服务中有着广泛的应用。例如,大部分在线新闻门户网站(如新浪、搜狐、腾讯等)每天都会产生大量新闻文章,如果对这些新闻进行人工整理非常耗时耗力,而自动对这些新闻进行分类,将为新闻归类以及后续的个性化推荐等都提供巨大帮助。互联网还有大量网页、论文、专利和电子图书等文本数据,对其中文本内容进行分类,是实现对这些内容快速浏览与检索的重要基础。此外,许多自然语言分析任务如观点挖掘、垃圾邮件检测等,也都可以看作文本分类或聚类技术的具体应用。

15.讨论如何从一篇比较长的新闻中抽取摘要

结合自动摘要的方法进行讨论即可。可结合下列几种方法展开:抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。也可以利用拓展新将强的贝叶斯话题模型,对话题相关性概率进行建模。加权频数的定义可以有多种,如信息检索中常用的TF- IDF权重。还可以利用隐语义分析(LDA)得到低维隐含语义表示并加以利用。在多文档摘要任务中,重要的句子可能和更多其他句子较为相似,所以可以用相似度作为节点之间的边权,通过迭代求解基于图的排序算法来得到句子的重要性得分。

16. 问答系统的基本原理是什么?其中的核心问题如何解决?

问答系统在回答用户问题时,首先需要正确理解用户所提的自然语言问题,并抽取其中的关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答案并返回给用户。

问答系统的核心问题在于问句理解、文本信息抽取和知识推理。给定用户问题,自动问答首先需要理解用户所提问题。用户问句的语义理解包含词法分析、句法分析、语义分析等多项关键技术,需要从文本的多个维度理解其中包含的语义内容。给定问句语义分析结果,自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上,采用关键词匹配策略,往往只能处理限定类型的答案,系统的准确率和效率都难以满足实际应用需求。为保证信息匹配以及答案抽取的准确度,需要分析语义单元之间的语义关系,抽取文本中的结构化知识。基于分布式表示的知识表示学习方法能够将实体、概念以及它们之间的语义关系表示为低维空间中的对象(向量、矩阵等),并通过低维空间中的数值计算完成知识推理任务。虽然这类推理的效果离实用还有距离,但是我们认为这是值得探寻的方法,特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究融合符号逻辑和表示学习的知识推理技术,是知识推理任务中的关键科学问题。

17.举例说明如何分析电商评论、论坛帖子、微博用户帖子中用户的情感。

关键步骤包括数据的提取、数据预处理和情感分析。结合具体案例进行阐述即可。

18.讨论如何从事件报道中抽取相关的信息

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。常用的事件抽取的方法包括模式匹配方法和机器学习方法,其中模式匹配方法是指对于某种类型事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将带抽取的事件和已知的模式进行匹配。模式匹配方法由两个基本步骤组成:模式获取和事件抽取。机器学习方法其实就是一种分类方法,它是建立在统计模型的方法上,将事件类型与事件元的识别转换成分类问题。这种方法主要是选择合适的特征值与分类器来完成相关的分类。

《机器学习》赵卫东学习笔记 第5章文本分析(课后习题及答案)相关推荐

  1. 《机器学习》赵卫东学习笔记 第6章 神经网络(课后习题及答案)

    1 简述感知机的基本原理 一个感知器可以接收n个输入x=(x1,x2,-,xn),对应n个权值w=(w1,w2,-,wn),此外还有一个偏置项阈值,就是图中的b,神经元将所有输入参数与对应权值进行加权 ...

  2. 《机器学习》赵卫东学习笔记 第13章推荐系统(课后习题及答案)

    1 推荐系统的功能是什么? 推荐系统是一种帮助用户快速发现有用信息的工具.通过分析用户的历史行为,研究用户偏好,对用户兴趣建模,从而主动给用户推荐能够满足他们感兴趣的信息.本质上,推荐系统是解决用户额 ...

  3. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  4. 《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现

    一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化 软间隔允许 ...

  5. 《机器学习》 周志华学习笔记第五章 神经网络(课后习题) python实现

    1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差 标准BP算法:更新规则基于单个Ek推导而得 两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...

  6. 《机器学习》 周志华学习笔记第三章 线性模型(课后习题)python 实现

    线性模型 一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

  7. 《计算传播学导论》读书笔记:第二章 文本分析简介

    目录 第二章 文本分析简介 第一节 文本分析研究现状 第二节 文本分析与传播学研究 一.为什么文本挖掘技术逐渐受到传播学者的关注? 二.不同的文本分析研究对传播学的理论贡献 第三节 文本分析的基本步骤 ...

  8. css层叠样式表基础学习笔记--第五章 文本属性

    第五章 文本属性 5-01 字间距 5-02 行高 5-03 首行缩进 5-04 水平排列方式 5-05 垂直对齐方式 5-06 文本修饰 5-07 文本阴影 5-08 文本属性重置 5-01 字间距 ...

  9. 【深度学习:21 天实战 Caffe】课后习题参考答案

    百度网盘已弃用.随书资源已经放在码云和 github,方便国内外朋友下载. 码云:https://gitee.com/yongkezhao/PracticeCaffeIn21Days github:h ...

  10. 《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器

    朴素:特征条件独立:贝叶斯:基于贝叶斯定理. 朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型.朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤. ...

最新文章

  1. VS调试时提示此项目已经过期
  2. 学习笔记TF065:TensorFlowOnSpark
  3. Java8 Stream性能如何及评测工具推荐
  4. Linux:编译动态库时遇到的错误relocation R_X86_64_32 against `a local symbol'
  5. html text 默认选中,html - 如何在Shiny中默认选择verbatimTextOutput中的文本? - SO中文参考 - www.soinside.com...
  6. el-tree与el-transfer结合成树形穿梭框(tree-transfer)
  7. 0基础能学mysql数据库吗_mysql学习入门:零基础如何使用mysql创建数据库表?
  8. 从1行代码到20万行开源,我已经走过了三年
  9. 禁止chrome浏览器自动填充表单的解决方案
  10. Dubbo源码分析(一)Dubbo与Spring集成实例
  11. [渝粤教育] 中国地质大学 大学英语(4) 复习题
  12. 数据库—事务—并发控制技术
  13. 开源资产管理软件OCS Inventory 实践
  14. 读懂复利“魔力” 30年让你成为千万富翁
  15. 倍福TwinCAT3中使用久同伺服
  16. 手机页面下拉刷新效果
  17. matlab如何使输出结果更美观(symdisp函数——pretty函数升级版)
  18. C语言程序设计教程 北京邮电,C语言程序设计教程第3章_北京邮电大学出版社.ppt...
  19. django-q快速上手定时任务
  20. PHP入门难吗?怎么自学?

热门文章

  1. 淘宝/天猫API系列:图片搜索淘宝商品接口
  2. 用Python解决实际问题:给100首情诗增加换行
  3. 一键AI着色,黑白老照片画面瞬间鲜活
  4. python开源IP代理池--IPProxys
  5. Python学习[4]:urllib库-爬虫的第三步之代理IP
  6. 端口映射软件有什么用怎么用
  7. day8--socket回顾
  8. 在Sbo Add-on插件中实现通用的模态数据选择
  9. 如何使用CSS绘制奥运五环标志
  10. 怎么查看电脑配置详情