文本数据挖掘

文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系。文本挖掘在很多应用中都扮演重要角色,例如智能商务(例如客户关系管理)、信息检索(例如互联网搜索)等。
文本数据挖掘需要从三个层面进行理解。其一,底层技术,文本挖掘作为数据挖掘的一个分支学科,其底层技术包括机器学习、数理统计、自然语言处理等领域的的技术方法。其二,进阶技术,也即是文本挖掘的基本技术,面向不同的应用,分为五大类:信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理。其三,应用领域,文本挖掘最终的目的如其定义中所描述的,信息访问与知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

文本信息抽取

文本信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。

技术介绍

下面我们从机器学习的角度介绍一下文本信息抽取这种的文本挖掘技术。我们将文本信息抽取视为一个标注问题,即将其作为一个监督学习的具体应用。文本信息抽取可以分为两个阶段:学习阶段和抽取阶段。其过程如下图所示:

在学习阶段,首先有一些带标注的数据集,每一个样本包含文字单元序列和标注序列组成,如下所示,
(x1,1,x1,2,…,x1,ny1,1,y1,2,…,y1,n)

表示第i个样本,其中前面x部分表示第i个样本的文字单元序列,后面y部分表示第i个样本的标注序列。机器学子系统基于已有的标注构建一个学习模型,并用一个条件概率分布进行表示。信息抽取系统则是根据得到的条件概率分布模型,对新的样本进行标注,即找到一个标注序列最大化下面这个目标函数:
(ynew,1,ynew,2,…,ynew,n)=argminP(ynew,1,ynew,2,…,ynew,n|xnew,1,xnew,2,…,xnew,n)

文字单元在具体的实现中可以是一个文本、一个句子、一个词语,甚至还可以是中文的一个字,标注可能是表示信息抽取对象的开始、结束以及其他。抽取的信息将从开始到标注为结束的文字序列。例如,输入一段英文语句,要抽取这段语句的名词短语,则输入样本为英文句子,文字单元是单词,标注是名词短语的开始、结束或其他。

常用模型

文本信息抽取常用的模型有:隐马尔科夫模型、最大熵马尔科夫模型、条件随机场、表决感知机模型。这些模型是上述一般文本信息抽取的具体实现。
首先,将每一个标注看作是独立于序列以及序列的其它标注的,如下式所示,这样,对于每一个文字单元序列及其标注,可以得到这样一个条件概率分布:
P(ynew,1,ynew,2,…,ynew,n|xnew,1,xnew,2,…,xnew,n)=∏i=1nP(ynew,i|xnew,1,xnew,2,…,xnew,n)

由上式可以发现,这样的一个条件概率分布实际上是一个分类器模型,得到样本序列的各单元序列的最佳标注。
在上式的基础上,我们利用不同的模型作为分类器,可以得到不同的文本信息抽取方法。
例如,对于上面的式子,用最大熵模型作为分类器,并且我们假设不同的标注之间具有一阶马尔可夫性,即上式可以写为:
P(ynew,1,ynew,2,…,ynew,n|xnew,1,xnew,2,…,xnew,n)=∏i=1nP(ynew,i|ynew,i−1,xnew,1,xnew,2,…,xnew,n)

每一个条件概率分布又是一个新的分类器模型,但是这个分类器是基于前一个标注确定的条件下的分类器,此时模型就成为最大熵马尔科夫模型。
需要注意的是,最大熵马尔科夫模型是一个局部模型,因为标注之间具有一阶马尔可夫性,用局部数据进行训练,而在抽取全局信息时,效果可能不会很好,会产生标注偏差问题。因此可以用一些复杂的全局模型来解决标注偏差问题。其中, 最常用的全局模型就是条件随机场。条件概率分布式中的各个标注会依赖除自身之外的其他标注,条件随机场可以精确的描述全局的标注情况,在精度上由于最大熵马尔科夫模型,但是训练时间也更多。
以上就是以词性标注问题来理解文本信息抽取的一些简单介绍,对于一些复杂信息的抽取问题,还可以将其看做句法分析问题来理解。

文本数据挖掘之文本信息抽取相关推荐

  1. 无法将多信息文本转换为url_实体链接:信息抽取中的NLP的基础任务

    作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语言处理(NLP)任务,具有广泛的用例.本 ...

  2. 面向知识图谱的信息抽取

    面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 · 关注我们 来源:< 数据挖掘,> ,作者赵海霞等 关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域 摘要: 摘要: 随着大 ...

  3. 有关信息抽取的文章列表(1)

    转自:http://blog.csdn.net/ictextr9/article/details/3727257 这里总结了近几年来,一些知名会议上有关信息抽取的文章,不断更新中. [1]    Ru ...

  4. 网上信息抽取技术纵览

    网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey) Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003 ...

  5. 实体链接:信息抽取中的NLP的基础任务

    2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...

  6. 使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码

    信息抽取(IE)是从非结构化.半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务.信息抽取技术为文本挖掘.智能检索.智能对话.知识图谱.推荐系统等应用提供了基本的技术支持. 近日,英伟达x ...

  7. 公开课|智能文本信息抽取算法的进阶与应用

    一.什么是文本挖掘? 讨论文本挖掘之前,我们要先说一下数据挖掘的概念,因为文本挖掘是数据挖掘的一个分支.数据挖掘(Data Mining)指从大量的数据中通过算法搜索隐藏在其中信息的过程.而文本挖掘就 ...

  8. 第三届“达观杯”文本智能信息抽取挑战赛丰厚奖金,群英集结,等你来战!...

    近日,第三届"达观杯"文本智能信息抽取挑战赛正式上线启动(点击阅读原文,跳转报名页面),6月28日至8月31日,面向所有参赛选手开放竞赛结果提交.本届"达观杯" ...

  9. 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...

  10. 自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索、信息抽取、校对纠错

    自然语言处理NLP之文本摘要.机器翻译.OCR.信息检索.信息抽取.校对纠错 目录

最新文章

  1. mysql AB 的基本搭建
  2. Python 技术篇-python生成html源码功能实现演示,html代码自动生成技巧,列表生成式的灵活应用
  3. 创业公司其实根本不需要管理
  4. bgi::detail::is_valid用法的测试程序
  5. STL源码剖析 第八章 配接器
  6. html5 “拖放”
  7. java static 区别_Java中static和final的区别
  8. JAVA代码 httpclient 模拟NTLM域登录 GET、POST两种连接方式
  9. python中write的用法_python中write方法是如何使用?
  10. 开发一个软件需要哪些角色
  11. Gurobi软件求解线性规划问题(卜算学习记录)
  12. linux无损分区调整,linux如何无损调整分区大小
  13. 全链路监控Jaeger
  14. MPLS/BGP虚拟专用网络路由通告和数据转发
  15. Markdown 编辑器设置字体大小颜色
  16. MODIS下载、处理全流程记录
  17. 使用POI对excel文件进行读取
  18. 数据元素、数据项、组合项、数据结构
  19. 2021年年度总结(记录一下自己大学期间吧)
  20. SQLite学习笔记(七)-- 数据插入、更新和删除(C++实现)

热门文章

  1. C盘Administrator中 .m2/repository里面是什么
  2. 英语的句号在c语言中是什么意思,英语标点符号的用法
  3. 那个北大毕业去卖猪肉的已经50岁了,他现在在干嘛?又是人生的一个转折点?...
  4. 如何制作关于pos.txt序列的文件
  5. [《岛鼠》闲笔记事集]2012年8月28日
  6. 特斯拉为什么要降价?
  7. BZOJ4556:[Tjoi2016Heoi2016]字符串 (后缀自动机+树上倍增+二分答案+线段树合并)
  8. RecordCount 属性
  9. python 求复数的模
  10. php 输入经纬度查询位置,根据经纬度查询附近地点信息