1. 自然语言处理的研究范畴

自然语言处理的基本流程

文本数据——》分词/词根还原——》词性标注——》【同义词标定】——》【概念标定】——》角色标定——》句法分析——》文本数据

案例:

1.伊拉克连续第四天将原油倾入波斯湾

2.伊拉克|连续|第四天|将|原油|倾入|波斯湾

3.伊拉克nrt|连续a|第四天m|将|d原油|n倾入|v波斯湾ns(只保留名词,也就只留下n开头的数据)

4.欢畅和欢乐,厕所和茅房同义词

5.意大利面——》西式餐点,牛排——》西式餐点 (根据你要做的事进行合并)

6.人/事/时/地/物:伊拉克——》国家,波斯湾——》地名

主词/受词代名词分析。

案例如下

前两篇是社会新闻,第三篇是娱乐新闻,第四五是国际新闻

中文分词:

词性标注:保留一些你需要保留的词性

英文比较特别:

英文本身就已经分词了,但是它有词性变化,把英文的词还原会圆形。

PorterStemmer方法:

Says——》say annies——》anni political——》polit

它只能还原成词根,但是会不认识该单词含义。

WordNetlemmatizer方法:

Support——》support

比较接近还原为原型,而不是词根。它能让我们看得懂。比较合适。

英语会自动标注。有很多系统

  1. 自然语言处理的应用

文字云、文件分类、情感分析、文件聚类、文章摘要

文字云:

又称“词云”,概念由美国西北大学1血副教授,新媒体专业主任里奇戈登(Rich Gordon)提出

文字云就是对网络文本中频率较高的“关键词”予以视觉的突出,形成“关键词云层”或“关键词渲染”,一般字体大的说明出现频率大,字体小的说明出现频率小,特别少出现的甚至不予显示,从而过滤掉大量的文本信息,使浏览网页者一眼扫过文本就可以领略文本的主旨。

可以说“文字云”是“关键词”的一种可视化呈现方式。

案例

和形状没什么太大关系。

喋血案:

我们一眼看过去一眼就可以看出效果。字最大表示出现频率最高

之前的文章作文字云图的效果。

文件分类:

用计算机对文本集按照一定的分类体现或标准进行自动分类标记的过程

案例:现在有100篇新闻,20篇是关于娱乐活动,20篇是关于国家新闻,60篇是关于社会新闻。我们就让计算机对它进行分类

如果模型已经训练好,就可以直接进行慢慢的加以规律。

比较常见的就是做新闻的归类

有些人也会用这个进行垃圾邮件清理。

我们举例的都是新闻文本分类,但是其实也可以用到其他地方

出现文本集,要分训练文本集和测试文本集,然后进行文本预处理(分词,词根转化。词性定义,词语同义,一般化等等,就是上面说到的。)

训练文本集要进行特征选择:因为字段,词太多了。把重要的词筛选出来。建立词向量矩阵,(对非结构化的数据变为结构化。)然后进行分类器训练。得到分类器

测试文本集也要建立词向量矩阵,然后按之前训练的模型得到的分类器进行测试,看看效果如何。就可以对它进行一个评价

这边只是说明一下框架之后算法的时候会具体说明。

情感分析:

案例:有关三星炸机事件的评论。简单区分的话是可以只分为正面或者负面,但是也可以根据你的需求分的跟细致一些。

情感分类也是文本分析的一种

情感分析需要的输入内容:评价文本,sth

情感分析需要输出的结果:发布观点的人,评价的对象,观点的概括性。情感色彩和倾向性

完整的话是要把观点持有者和评价对象都做出来。但是正常情况做第三个评论观点就行,因为前两者难度也很高

情感分析的两种方法

情感词典(如果我们已经拥有这个词典就可以按照这个进行评分),

案例:

情感分类模型

加权投票,重复出现也得记入

然后显示概率。上面的就可以记入负面投票,概率3/4,也可以二者方法合并

文件聚类:

先根据文章的议题进行聚类。代表他们分别讨论的3个议题。根据每个议题,我们都可以对各个议题做文字云。可视化文字云。也可以对他们分别做情感分析。

比如公司今天收到100份投诉,投诉的是4个方向。就可以先聚类在进行

结合文字云,结合情感分析。

文章摘要

可能你文章内容非常多,我们就把文章的主题句(主要内容摘要)

例如:假新闻的分类模型,把文章直接拿进去判断,错误率相对比较高。

如果我们把文章进行一个摘要,在进行分析,对模型的提升还是很大的。

而且因为这种分类模型一般都要用到机器学习,但是一般机器学习是很耗费时间的,所以我们就可以对它进行一个摘要后在进行学习。

时间缩短,准确率提高。

摘要画文字云和直接画文字云前者。会更清晰。

文章再要步骤

句子和文章结构化表示:

模型1:Bag of Words(BoW)不带有语义

模型2:Word Embedding(语义模型)带有语义

模型1到模型2,效果会更好。

文章摘要方法:

方法1:简单的相似度计算:

方法2:利用图论计算:

方法一:

方法一是吧每句话进行结构化,然后把文章也结构化,筛选与文章相似度最高的句子,如果相似度最高那就是需要摘要的句子。

Cosine Similarity 是-1到1之间,越接近1相关性越大,负号代表负相关。

我们肯定要选正面相关。一般都不会有负数。根据句子相似度,进行排序,输出比较重要的几句

方法2:图论

图论是考虑句子和句子之间的相似程度,之间的w代表权重。这个例子会选择句子3和句子4.

我们会用语义模型Word Embedding而不用TFIDF

因为假设计算机和电脑这两个词同时出现,那么TFIDF是不会计算相似性得分,但是按照WE就可以体现这种虽然字面不匹配,但是语义匹配的情况。也就是语义级别的相似性。

谷歌有一个PageRank是用来优化搜索引擎的,但是我们也可以用来提取句子相似性。

  1. 自然语言处理的平台

BOSON的中文语意平台

Bosonnlp.com(是阿里巴巴的产品了)

可以免费使用它的功能了

它具有利用python和java作为接口,进行分词和标注。的功能

它有22个大类,71个标签

API就可以直接进行词性标注。

也可以进行角色标定。

它也可以进行情绪分析

它有写好的情绪分析套件,我们可以直接套用。

文章摘要:

摘要不错。它文本分类也有误判的可能。

它的不一定是百分百准确。

关键词提取也可以做到:

语义联想。

后面我们会说我们自己来做出来的方法,用别人的确实快捷,但是可能不好,我们就不能优化了。

SnowNlp的中文语意套件。

功能:

中文分词

词性标注

情感分析

文本分类

转化为拼音

繁体转简体

提取文本关键字

提取文本摘要

Tf,idf

Tokenization

文本相似性

这个是python的库。

分词效果,有些不太对,可能是因为它没有这个词,需要增加新词。

断句功能

情感分析:并返回正面情绪的概率

也可以直接使用它的结果,就可以少开发一个结果。

转拼音结果,有些繁体不支持

抽取文本的关键词。

年,米,外,宫,就不太好。

后面文章,我们会提到可以自己开发。

摘要结果。不太行。

出现次数,词的权重,文本相似性

善良出现太多,所以不重要。

文本相似性后面我们也会实际代码制作。

【自然语言处理与文本分析】自然语言处理概要相关推荐

  1. 自然语言处理文本分析_通过自然语言处理释放文本分析的力量

    自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...

  2. 调用百度自然语言接口实现文本分析

    目标: 1.掌握SDK文档的使用 2.强化tkinter图像界面的编辑 ttk.Treeview()创建列表,以及树状结构 3.递归函数的使用 百度参考文档:https://ai.baidu.com/ ...

  3. 【自然语言处理与文本分析】用两个项目案例介绍文本挖掘方法论。

    文本挖掘概要 文本挖掘的应用:(有实际案例) 运用文本挖掘进行公司治理(台湾证券交易所的案例) 证券交易所的功能就是监管上市公司的问题(财务不实,内部被掏空的问题).但是会出现一个盲点 比如一家公司宣 ...

  4. 【自然语言处理与文本分析】中文分词的基本原理,如何进行词性标注 使用HMM算法提高准确率

    分词(中文) 本次内容 分词: N-Gram vs.中文分词 分词的难点 法则式分词 统计式分词 词性标注: 词性标注简介 词性标注的难点 词性的种类及意义 保留某些词性的词 分词: N-Gram v ...

  5. 【自然语言处理与文本分析】文本特征提取方法总结。关键词提取方法。公认效果较好的IDF,RCF。

    关键词提取方法 关键词是文章想表达的主要画图,能反映文本语料主题的词语或者短语. 关键词具有的特定: 关键词在特点的语料里频繁出现,,在其他语料里出现较少:IDF 针对一些有结构的文本,比如新闻之类的 ...

  6. NLP之TEA:自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略

    NLP之TEA:自然语言处理之文本情感分析的简介.算法.应用.实现流程.实现方法之详细攻略 目录 TEA的简介 TEA的应用 TEA的实现流程 TEA的实现方法 T1.词袋模型 TEA的案例应用 TE ...

  7. 数据分析学习总结笔记16:NLP自然语言处理与文本探索性分析

    文章目录 1 引言 2 数据集 3 文本统计信息分析 4 Ngram模型探索 5 基于pyLDAvis的主题模型探索 6 绘制词云图 7 情感分析 7.1 TextBlob 7.2 Vader Sen ...

  8. 5.Python数据分析项目之文本分类-自然语言处理

    1.总结 预测类数据分析项目 流程 具体操作 基本查看 查看缺失值(可以用直接查看方式isnull.图像查看方式查看缺失值missingno).查看数值类型特征与非数值类型特征.一次性绘制所有特征的分 ...

  9. NLP自然语言处理之情感分析分析讲解、知识构建

    !!!!!!不要急着代码,搞清楚原理知识结构才下手,以后还指着它吃饭呢,又不是水一篇论文当混子!!!!!!! !!!!!!书越读越薄,本文源自:https://blog.csdn.net/linxid ...

最新文章

  1. 为什么远程桌面不能复制?解决方法
  2. oracle用户管理的完全恢复5:控制文件损坏(控制文件前后内容未改变)
  3. 解决svn图标不显示(绝对有用)
  4. 懂集合吗?对,是dart中的集合
  5. 深入浅出SQL(三)——表的规范化
  6. 网站logo放在服务器,自己建网站如何设计网站LOGO
  7. 计算机基础与应用教程计算机硬件,计算机基础系列一:计算机硬件
  8. linux里qt画直线_Qt与Web混合开发(一)简单使用
  9. Java DataOutputStream size()方法及示例
  10. scala 字符串函数_Scala中的字符串chomp(或chop)函数
  11. 360金融发布城市信用排行榜:上海、苏州位列前两位
  12. 【jQuery笔记Part1】01-jQuery简介集成
  13. bzoj 2431: [HAOI2009]逆序对数列
  14. 封装cuda/cudnn写卷积网络前向计算程序
  15. 如何得到当前程序执行的堆栈
  16. asp.net门诊收费管理系统案例
  17. Java 性能调优总结
  18. 重点| 系统集成项目管理工程师考前50个知识点
  19. 偏最小二乘法 Partial Least Squares
  20. android反编译去壳,安卓apk查壳工具,逆向反编译必备

热门文章

  1. matlab判断系统稳定性 -Nyquist图(极坐标图)判据(还没有搞完。。。。。。。)
  2. 黑麦4k可以安装Linux,全高清屏你就满足了?GTX1050Ti+4K屏麦本本黑麦5X颠覆你的视界...
  3. 30段超实用CSS代码
  4. 将Excel表格中的文本格式存储的数字批量转换为数字
  5. 手把手学习Vue3.0:CSS样式基础和HTML5基础收藏
  6. 太可怕啦!AI 一秒还原马赛克,有码变高清
  7. arm GIC介绍之一
  8. Linux GIC代码分析
  9. 系统类毕业设计思路以及各种遇到问题的解决办法
  10. DPDK Rx flexible descriptor 在Intel E810 网卡中的使用