文本数据挖掘(Text Mining)
文本数据挖掘是利用某些方法比如自然语言处理(Natural language processing (NLP))技术把一堆没有结构的数据而处理成有结构的数据的一种人工智能技术,而处理后的这些有结构的数据可以作为机器学习和深度学习模型的输入,也可以直接分析这些数据产生想要的结果。
文本挖掘的目的就是从一堆有结构的,和非结构的数据中寻找有价值的信息从而来解决实际问题。
人的自然语言中包含着大量的信息,是当今社会数据的一个重要和一个很大比例的组成部分。怎么从这些语言信息中获取有用的信息?从而可以训练机器为我们服务。
比如, 现在我们的手机可以自动的把语音电话翻译成文本文件,电脑可以帮我们自动的改正拼写错误的单词,等等。在这些处理技术中,自然语言处理(NLP)是数据挖掘中一种最经常使用的方法。
自然语言处理(NLP)本身不是一种机器学习的方法,而是利用NLP可以把文本信息处理成合适的数据,从而这些被处理的数据可以作为机器学习模型的输入。当我们面临一大堆没有结构,而且格式是各种各样的巨多文件时,而也许这些文件中还包含着各种各样的拼写错误,或者还有漏写的字等等,这时候我们可以使用NLP技术来处理。现在最流行的处理文本文件的包就是NLTK,大家可以自己搜一下,试一下。
怎么才能把杂乱的文本信息处理成有规律的,机器学习模型可以认识的信息呢? 一种很自然的想法就是把文本信息转化成数值型的。有的方法就是根据每个单词在文本中出现的频率来给每个单词赋予一个独特的数值,这样的话文本中的一句话或者一行就可以用一系列的数值表达出来。整个文本就会以数值矩阵的形式表达出来了。这种基于频率的矩阵表达形式称之为词频矩阵(Term Frequency Matrix (TFM))。
有了这个TFM矩阵之后,我们可以产生另外一个流行的数值矩阵表达形式,这个矩阵称之为词频逆文件(Term Frequency Inverse Document Frequency (TFIDF)),这个TFIDF矩阵可以反应每个单词的重要性。它也可以更好的服务于机器学习模型。
但是这种矩阵表达方式主要是建立在单词出现的频率上面,而没有考虑到词和词之间的作用,相似性等等。在下面的文章中,我们将会介绍另外一种新的方法,来克服这些矩阵中的缺点。
图片来自这里(https://www.flickr.com/photos/bury_irc/5981036346)
关注作者公众号,请扫码:
文本数据挖掘(Text Mining)相关推荐
- English Text Mining: Preprocessing 英文文本挖掘:文本预处理
English Text Mining: Preprocessing 文章主干来自下面Reference中的博客,我自己进行了增加整理,感谢所有分享知识的大佬们= = 1. Data Collecti ...
- 《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
这是一本关于文本挖掘的很厚的英文电子书,看英文大部头,很容易边看边忘记. 1.An Introduction to Text Mining 1.1 介绍 文本挖掘的三个问题: a. 主要的算法模型是什 ...
- 《Text Mining and Analytics》学习笔记——第一周
课程链接:https://www.coursera.org/learn/text-mining 主讲:伊利诺伊大学香槟分校 ChengXiang Zhai教授 NLP领域有哪些神一样的人物:知乎链接 ...
- 大数据分析笔记 (6) - 文本分析 (Text Analysis)
大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...
- 文本挖掘过程(Text Mining)
一.文本挖掘概念 在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档.研究论文.书籍.数字图书馆.电子邮件和Web页面.由于电子形式的文本信息飞 ...
- 2020年泰迪杯C题智慧政务中的文本数据挖掘应用--论文+全部源码分享
5.2问题二模型的建立与求解 本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题.也就是给每一条留言都量化一个热度指数.并且根据热度指数进行排序,从而获取热度较高的评价问题.对于问题热 ...
- 论文阅读笔记:A Text Mining Approach for Evaluating Event Credibility on Twitter
A Text Mining Approach for Evaluating Event Credibility on Twitter(一种在Twitter上评估事件可信度的文本挖掘方法) 期刊/会议: ...
- R语言在可视化图像中添加文本(Adding Text to plot)
R语言在可视化图像中添加文本(Adding Text to plot) 创建一个好的可视化包括引导读者,使用图形讲述一个直观的故事.在某些情况下,这个故事可以以完全直观生动的方式呈现,而不需要添加文本 ...
- eplan文本怎么换行_JDK 14的新特性:文本块Text Blocks
说起来,Text Blocks是在JDK13中以第一次预览版本引入的.现在在JDK14中是第二次预览版本 JEP 368: Text Blocks. 在我们日常的工作中,有时候需要用到一大段的字符串, ...
- What Is Text Mining?
What Is Text Mining? Marti Hearst What is text mining? What are its potential applications and limit ...
最新文章
- 【综述专栏】神经网络的可解释性综述
- dbutility mysql_c# 数据库通用类DbUtility
- SWFupload 在(FF)火狐下报404错误的解决方案
- .offset().top是什么意思?
- SAP中凭证类型的作用
- 学习javascript_使用5行JavaScript进行机器学习
- 《深入浅出DPDK》读书笔记(十):硬件加速与功能卸载(VLAN、IEEE1588、IP TCP/UDP/SCTP checksum、Tunnel)
- Laravel框架——增删改查
- 基于Velocity开发自己的模板引擎
- android之在java代码引用res资源
- crentso7.4+rpm方式安装MySQL5.7.22报错:安装冲突conflicts
- document.querySelector
- 苹果支付Java后台总结
- zt中俄两军炮兵的差距
- 鹿先森博客原先森博客(sey.ink)
- 51NOD 2370 奈芙莲的护符
- php 蛋糕一刀均分试题,5个小朋友分一个蛋糕,只准切三刀,该怎样才能平分
- 通过私有化部署自建一套视频流媒体服务器平台,如何解决视频播放延时卡顿问题?
- 华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter
- 笔记-最优控制理论1