文本情绪分析学习篇(一)

1. 最新研究算法

BERT(Bidirectional Encoder Representations from Transformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,目前网络最优突破性的一项技术了。

特点:BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习两个自监督任务组成,即MLM和NSP

Word2vec 是 Word Embedding 方式之一,属于 NLP 领域。他是将词转化为「可计算」「结构化」的向量的过程。就是构建了一个多层神经网络,然后在给定文本中获取对应的输入和输出,在训练过程中不断修正神经网络中的参数,最后得到词向量。CBOW模型和skip-gram模型

流程:1) 分词 / 词干提取和词形还原(2)构造词典,统计词频(3)构造树形结构4)生成节点所在的二进制码(5)初始化各非叶节点的中间向量和叶节点中的词向量(6)训练中间向量和词向量

Word2vec之前有one-hot

监督学习

(监督学习:训练集的每个样本都是有标签的;分为:回归,分类)

(无监督学习:指从不包含目标标签的训练样本中自动学习到一些有价值的东西;聚类,特征学习)

特征表示

文本特征   有一个词袋模型(bag-of-words,BoW)   有一个词表,所有分词都在里面,一个句子可以根据分词表示成向量,例如 我 喜欢 读书  我 讨厌 读书  可以表示为向量

V1=[1 1 0 1]T    V2=[1 0 1 1]T

这种分词的方法不能考虑语序,句子长,向量维度就会超级大

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构

BERT的输入的编码向量(长度是512)是3个嵌入特征的单位和:WordPiece 嵌入,位置嵌入、分割嵌入

预训练任务:BERT是一个多任务模型,它的任务是由两个自监督任务组成,即MLM和NSP

https://zhuanlan.zhihu.com/p/48612853

Ps:相对于之前的文本情感分析:之前基于词典和规则的情绪分类

基于机器学习的情绪分类方法

基于卷积神经网络的情绪分类架构(架构利用谷歌word2vec)

有五类

早期情感分类,大多数都是用的纯分类算法,如朴素贝叶斯、支持向量机等算法。并没有涉及自然语言处理,主要是基于有标签的数据进行分类的。目前情感分类国内外做得挺成熟了,但结合自然语言的情绪分析,和新开源的bert算法并没有)

文本情绪分析综述(李然.etc 2018)

2.师兄建议从基础的看起,因为直接看bert不太能看懂

线性回归:是一个线性分类器,主要用来处理数据集为more or less线性可分的情况

神经网络:神经网络,由多个神经元构造,可以有多个输入、多个输出。利用误差反向传播算法,可以得到还不错的效果,虽然可能得到的是个局部极小值(a local minima),但分类效果还是不错的

图神经网络:

图注意力网络(Graph Attention Networks)

注意力机制如今已经被广泛地应用到了基于序列的任务中,它的优点是能够放大数据中最重要的部分的影响。这个特性已经被证明对许多任务有用,例如机器翻译和自然语言理解。如今融入注意力机制的模型数量正在持续增加,图神经网络也受益于此,它在聚合过程中使用注意力,整合多个模型的输出,并生成面向重要目标的随机行走。在本节中,我们将讨论注意力机制如何在图结构数据中使用。语义分割

推荐了《神经网络与深度学习》邱希鹏

3.Attention注意力机制

Attention机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上,从而计算Attention Value,这个过程实际上是Attention机制缓解神经网络模型复杂度的体现:不需要将所有的N个输入信息都输入到神经网络进行计算,只需要从X中选择一些和任务相关的信息输入给神经网络

一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。

来源:https://zhuanlan.zhihu.com/p/53682800

4.Transformer

学习来源:https://zhuanlan.zhihu.com/p/82312421

Transformer是一个利用注意力机制来提高模型训练速度的模型

图片出处见图片水印,原文链接也放文中了

编码部分,每一个的小编码器的输入是前一个小编码器的输出,而每一个小解码器的输入不光是它的前一个解码器的输出,还包括了整个编码部分的输出。

5.损失函数

非负实数函数,用来量化模型预测和真实标签之间的差异

6.论文(对于论文的理解是个人看法,有讨论的可以在下方留言)

赵容梅,等:基于混合神经网络的中文隐式情感分析

目的:识别文本观点和分析情绪的倾向性,

数据集:全国社会媒体处理大会公开的数据集

模型:cnn的池化层用BiLSTM代替,加入了注意力机制

效果:提高了隐式分类效果

尹畅,等:基于词频-极性强度的抑郁症情感词挖掘方法

目的:构造中文抑郁症情感词典

数据集:爬虫的用户评论,6000条

模型:双向最大匹配,词频强度方法

效果:比 中文基础情感词典在抑郁症领域评论语料的情感分类的效果 好点(据说,好像并没有体现)

王娜娜,等:基于句法与语义特征分析的朋友关系挖掘

目的:得到朋友关系描述词库;语义分析挖掘文本信息

数据集:微博的文本数据

模型:基于句法与语义特征分析,词语相似度,设置阈值0.7判断两个人的朋友关系

效果:实验证明能有效的提高挖掘效率和准确性。(可能是水平有限,没看出怎么提高的)

刘茂福,等:编译原理与自然语言处理的实验对齐研究

目的:证明两者想通性

寒假看到论文好像不太吻合我研究方向

所以找师兄发了一些他觉得好的文章

文本情绪分析学习篇(一)相关推荐

  1. 文本情绪分析学习篇(四)

    文本情绪分析学习篇(四) 最近没有怎么看论文,看完了一个文档Chinese nlp,在GitHub上下载的.文档内容写得很清楚. 文档下载:link 下文的图片来源文档截图. 一.自然语言处理 1.分 ...

  2. CVPR 2019 论文大盘点—文本图像相关篇

    点击我爱计算机视觉标星,更快获取CVML新技术 CV君盘点了 CVPR 2019 文本图像相关论文,总计 17 篇. 其中研究文本检测的最多,共 7 篇,包括已经非常知名的PSENet,还有最近异常火 ...

  3. flutter应用开发中文本样式 TextStyle 篇

    题记 -- 执剑天涯,从你的点滴积累开始,所及之处,必精益求精,即是折腾每一天. 重要消息 精通点的可以查看这里 精述 Flutter 从入门实践到开发一个APP之UI基础篇 视频 flutter从入 ...

  4. 数据可视化之文本情绪(极性)分析

    本文转载:http://www.yuyidata.com/blog/y-414618ce-e328-4f8d-a98a-e5263a492ffb,有一定更改. 从文本入手--文本情感(极性/意见)分析 ...

  5. 《辩证行为疗法》摘录 -- 情绪调节篇

    <辩证行为疗法>摘录 – 情绪调节篇 <辩证行为疗法>摘录精华篇请见这<辩证行为疗法>精华部分 文章目录 <辩证行为疗法>摘录 -- 情绪调节篇 第零章 ...

  6. 用python做一个文本情绪分析程序

    好的,我可以为您提供一些帮助.在开始之前,需要注意以下几点: 文本情绪分析通常指的是对文本内容进行分析,以确定其中所表达的情感.这种情感可能是正面的(例如,高兴.愉快或满意),也可能是负面的(例如,悲 ...

  7. Python SVM分类器 XGBOOST分类器 文本情绪分析

    Python SVM分类器 XGBOOST分类器 文本情绪分析 微博网民情绪识别比赛 目录 Python SVM分类器 XGBOOST分类器 文本情绪分析 疫情期间网民情绪识别比赛 一:比赛相关事项 ...

  8. 21SpringMvc_异步发送表单数据到Bean,并响应JSON文本返回(这篇可能是最重要的一篇了)...

    这篇文章实现三个功能:1.在jsp页面点击一个按钮,然后跳转到Action,在Action中把Emp(int id ,String salary,Data data)这个实体变成JSON格式返回到页面 ...

  9. 文本生成 | 一篇带风格的标题生成的经典工作

    每天给你送来NLP技术干货! 来自:AI算法小喵 写在前面 在一文详解生成式文本摘要经典论文Pointer-Generator中我们介绍了生成式摘要的经典模型,今天我们来分享一篇带风格的标题生成的经典 ...

最新文章

  1. 学历对程序员重要么?
  2. 超郁闷的本地连接故障解决过程!!!
  3. Zabbix安装(十):监控windows进程
  4. Lintcode18 Subsets II solution 题解
  5. LeetCode-剑指 Offer 27. 二叉树的镜像
  6. ICallbackEventHandler 前后台无刷新交互
  7. 『原创』一个基于Win CE 5.0的Txt文件阅读器
  8. Linux蜂鸣器实验(使用上一节子系统思想,摈弃了自己配置寄存器的繁琐操作)
  9. java jigsaw_Java 9和Project Jigsaw如何破坏您的代码
  10. android onserviceconnected_2019最新Android面试题
  11. 2019 世界读书日,让程序员疯狂的 13 本豆瓣高分技术书!
  12. Dom对象与jQuery对象的转换
  13. JUnit单元测试常用方法知识整理
  14. 电脑录音软件哪个好?六款常见的录音软件介绍
  15. 浅析redis雪崩击穿和穿透
  16. eth1 does not seem to be present, delaying initialization
  17. 打印纸张尺寸换算_常用纸张的尺寸大小对照表-纸张规格对照表.doc
  18. Linux tc QOS 详解
  19. 《动手学深度学习》(PyTorch版)代码注释 - 48 【Multi-scale_target_detection】
  20. matlab中用simulink仿真六足机器人

热门文章

  1. 【Python】使用 Matplotlib 绘制“三角函数”图像 || plt.subplot(2, 2, 3) 将图像分区 || plt.plot(x, y, “r-v“) 中第三个参数说明
  2. 五款外文写作阅读工具推荐,赶紧收藏起来!
  3. 西安电子科技大学电磁场实验四仿真结果展示
  4. OpenBCI —— 开源脑电波设备可判断人类思维
  5. html5调用手机摄像头
  6. ijkplayer笔记
  7. 网络工程师实战系列视频课程【VLAN专题】-夏杰-专题视频课程
  8. 128G手机为何实际只有112G?预装App占用内存不合理
  9. 计算机视觉 | 哥大读博五年总结(一)
  10. 【转】各种图形格式说明和比较