情感计算 - 情感倾向性分析
目录
1 背景及意义
2 文本情感分析词典与数据库
3 文本情感特征
4 文本情感识别
5 舆情分析
6 总结
1 背景及意义
1. 概念: 情感倾向性分析:是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;识别用户对事物或人或一句话的看法、态度,即判别用户对评价对象所持有的情感倾向。
2. 文本情感分类:
情感分析粒度(篇章级、句子级、短语级、词语级);
情感信息抽取(观点持有者, 评价对象,评价词或短语,主观性关系),找到预料中情感的来源和受体;
情感信息分类(主客观分类,情感极性分类),最常见的褒贬二元分类,以及更细致的多元分类,按照极性分类:正向,负向,中性;
3. 文本情感分析应用
商品评论,电影评论,个性化观点挖掘,用户兴趣挖掘
2 文本情感分析词典与数据库
1. 情感词典包括: 情感词典(高兴、悲伤等)、程度词典(非常、稍微)、否定词典(没有、木有)、连词词典(然而、不过)
2. 现有情感词典
General Inquirer(GI)词典:1996年开发,英文文本情感词典
HowNet知网: 中、英文词语所代表的概念为描述对象
SentiWordNet:是WordNet中英文词典中用于情感分析的词典
主观词典:OpinionFinder系统
3. 情感词典获取:
手工方法: wordnet, hownet
词典方法:先从种子词典开始(人工标注的少量情感词典),通过语义相似度找到种子词典的同义词、反义词
基于语料库:从种子词典开始,通过共现度、关系词、Latent Semantic Analysis等方法扩展词典
4. 英文情感语料
MPQA: 535 news articles(subjective, objective; P, N, O)
Movie review data: IMDB, Document-level 2000, Sentence level 5000
Custom review data: Product reviews
Multi-product reviews: Book, Electronic, Kitchen, DVD; 2000 in each domain
TREC Blog corpus: Blog data, 3,000,000 Webpages
Multiple-aspect restaurant reviews: 4,488reviews, Each review labeled as 1-5 stars
5. 中文情感语料
ChnSentiCorp_htl_all数据集
7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
waimai_10k数据集
某外卖平台收集的用户评价,正向4000 条,负向约 8000 条
online_shopping_10_cats数据集
10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、
酒店),共 6 万多条评论数据,正、负向评论各约 3 万条
weibo_senti_100k数据集
10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。
simplifyweibo_4_moods数据集
36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒
、厌恶、低落各约 5 万条
下载地址:
https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/
3 文本情感特征
1. 常见的文本表示模型有:
向量空间模型(如one-hot,维度灾难,词汇鸿沟);
布尔模型(将向量空间模型中的权重限制为0或1,0表示特征不存在,1表示存在,不能反应特征词语对文档的贡献程度);
词向量模型(文本内容处理,简化为向量空间中的向量运算,Word2vec, Gensim, Glove);
2. 文本特征提取方法
文档频率法:TF-IDF(词频term frequency-逆文档频率法 inverse document frequency)
词频(TF) = 某个词在文章中出现的次数 / 文章的总词数
逆文档频率(IDF) = log(collection总文档数 / (包含该词的文档数 + 1))
TF-IDF = TF x IDF
也就是说如果一个词在某一文档中出现次数较多,在整体文档中出现次数较少,则其TF-IDF值就大;
信息增益法:依据某特征项为整体分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定该特征项的取舍;
信息增益是不考虑任何特征时文档的熵,与考虑该特征时文档的熵的差值。
熵:表示随机变量的不确定性;
条件熵: 在一个条件下,随机变量的不确定性
信息增益: 熵 - 条件熵,表示在一个条件下,信息不确定性减少的程度
卡方统计法:
卡方值可以衡量词与类别的相关程度
观察实际值与理论值的偏差来确定理论正确性;
假设理论值为E,实际值为x,xi 表示样本
如果差值很大,则认为与原假设(独立假设)不符合,认为词与类别很相关
4 文本情感识别
1. 分为四种
基于情感词典
基于统计的机器学习
基于深度学习
基于预训练模型
2. 基于情感词典的文本情感识别
主要以情感词典为基础,通过判断文本中是否出现该情感词,来判断文本情感;
需要考虑:不同领域下,相同情感词表达有差异;
不能有效处理带有否定词的情况;
隐含情感信息的文本效果较差;
情感词典的系统框架:
3. 基于统计的机器学习文本情感识别
用机器学习算法对已标记的语料进行训练,再将训练过的分类器用于未知文本的情感分类
朴素贝叶斯;
支持向量机;
最大熵模型;
不仅考虑情感关键词和其他词汇的倾向性,而且对文本中的标点以及多个词汇出现的频率特征自动学习
4. 基于深度学习的文本情感识别
FastText 模型
TextCNN模型
TextCNN模型
TextRNN + Attention模型
FastText模型: 句子中所有的词向量进行平均,然后接一个softmax层分类,完全没有考虑词序信息
TextCNN模型: 利用CNN来提取句子中类似n-gram的关键信息
TextRNN模型: 双向LSTM从某种意义上可以理解为可以捕获变长且双向的n-gram信息
对此结果的贡献。
5. 基于预训练的文本情感识别
基于Bert模型的文本情感识别
基于XLNet模型的文本情感识别(XLNet 是在Bert模型基础上的改进,提出的一种泛华自回归预训练方法)
5 舆情分析
1. 舆情分析,又称为社交媒体情感分析,基于新闻媒体的情感分析多用于舆论分析,服务于政府部门;
2. 舆情分析与情感分析区别:
用途不同:基于产品评论的情感分析多用于商业,舆情分析多用于政府部门;
复杂性不同: 舆情分析是个比较复杂的系统,涉及更多的技术;
舆情分析信息来源更广泛:新闻评论,BBS,聊天室,博客,RSS等;
舆情分析具有突发性、直接性、偏差性:
直接性:通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;
突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;
偏差性:由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民泄愤情绪的空间;
3. 舆情分析系统框架
数据采集层:负责从社交媒体中采集资源;
数据处理层:对采集的原始数据进行预处理
报告展示层:舆情分析的结果最终以报告、统计图表等形式展示给用户,为用户下一步决策提供指导依据。
4. 舆情具有突发性,通常会用到网络爬虫技术,在社交媒体网站上爬取开源数据
首先从社交媒体网页中抓取用户的链接地址并存放如网页链接地址队列中;
从网页链接地址队列中依次读取待抓取链接地址,访问并下载该页面;
通过解析下载页面,把需要的文本数据以及对应图片保存,同时检测是否有其他用户链接地址;
跳转步骤(2),直到网页链接地址队列为空。
5. 基于概率图模型的舆情分析
通过分析训练语料建立一种具有先验概率的图模型,来计算语料中词语的情感概率值,再利用信息熵将概率值归一化为情感特征值,最后用分类器来分类
6. 舆情分析应用: 热点敏感话题识别; 主题跟踪;突发事件分析;可视化统计分析;
6 总结
1. 文本倾向性分析,在商业和政府舆情上都有很好的应用前景;
2. 情感信息抽取需要充分考虑预警信息;
3. 进一步探索融合语义信息的情感分析;
4. 面向开源碎片化文本的情感倾向性分析仍具挑战。
情感计算 - 情感倾向性分析相关推荐
- 情感计算 - 情感模型
1 基本情感论模型--离散状态 1 Tomkins 面部表情 惩罚或奖励的反馈结果 八类: 基本情感 2 Izard 具有动机的特征 10中基本情感状态(言语内容 表情等) 神经系统 电化学 自主,遗 ...
- 【综述】情感计算的“前世今生”
作者:郭晴.刘伟 摘要:情感计算作为一个全世界范围内的学术热点,研究方向遍及心理学.生理学.神经科学.语言学.医学.社会学等学科.情感计算的研究使形式化的机器更加形象化,是实现自然人机交互的前提.本文 ...
- 机器人也能拥有人类情感:“情感计算”让机器人学会“读心术”
来源:<情感计算与情感机器人系统> 作者:吴敏,刘振焘,陈略峰著 随着机器人进入日常生活中的各个方面,人们对其提出了更高的要求,希望它们具有感知人类情感.意图的能力,这类机器人称为情感机器 ...
- 中文情感倾向性分析(IEEE2010)
Chinese Sentiment Orientation Analysis 中文情感倾向性分析(IEEE2010) 文章提出了一个新方法分析.划分商品评论的情感倾向性为3类:中立,积极和消极.目前的 ...
- Python_001_旅游评论情感倾向性分析_000_分析(基于深度学习的微博评论情感倾向性分析_胡西祥)论文
Python_001_旅游评论情感倾向性分析_000_分析论文-2020-8-21 知网链接:基于深度学习的微博评论情感倾向性分析 - 中国知网 (cnki.net) ps.只做分析概括 目录 一.论 ...
- Python_001_旅游评论情感倾向性分析
Python_001_旅游评论情感倾向性分析_000_分析(基于深度学习的微博评论情感倾向性分析_胡西祥)论文 Python_001_旅游评论情感倾向性分析_001_基于Word2Vec词向量训练 P ...
- 深度 | 一文读懂“情感计算”在零售中的应用发展
作者 | 黄程韦博士.刘刚.包飞博士.杨现博士.孙皓博士.沈艺博士 来源 | 苏宁零售技术研究院 零售商需要不断通过创新服务来提高顾客的购物体验,而情感计算在该领域具有独特优势.它在零售行业的应用,主 ...
- “情感计算”的蓬勃发展依赖于收集大量的行为和情感数据
Illustration: iStock/IEEE Spectrum 来源: IEEE电气电子工程师学会 这是一篇guest post.这里表达的观点只是作者的观点,并不代表IEEE Spectrum ...
- python行业中性_用python进行金融市场文本数据的情感计算
之前我依据一篇论文中的中文金融情感词典CFSD(chinese financial sentiment dictionary),中文金融领域情感词典构建, 整理成csv文件的情感词典.现在我们找点财经 ...
最新文章
- 【每日亿题#12】AtCoder Grand Contest 021 (A ~ F)全部题解
- sQLserver T-SQL 事务的用法
- 搭建MyBatis操作数据库
- python翻译成计算机是啥_基于Python的业英语翻译器实现
- 小程序:微信小程序开发
- 卷积神经网络第三周作业 Autonomous driving application - Car detection - v1
- 逻辑斯蒂回归 matlab实现
- ActivityMQ安装部署
- CRC循环校验码的计算
- Unity3D--学习太空射击游戏制作(一)
- 米发,免费域名转发 301重定向 URL跳转服务
- [Js] Js实现继承的5种方式
- 【JS】截取、分割、替换字符串
- sfc /scannow是什么意思,有什么作用?
- idea git rebase ---- 合并多个提交到某个分支(实用)
- java 发送Bearer token请求
- 哈希算法--暴雪的mpq技术
- Vcenter Server 7 分配许可证
- CSS3动画之二:Animations功能
- nuc7 android tv,7代Intel NUC 7I7BNHL 接近完美黑苹果评测
热门文章
- 计算机更新无法卸载,电脑上有无法卸载的软件怎么办?
- ESP8266学习——Flash
- 微软预告:下一代 Windows 将很快宣布
- BCryptPasswordEncoder加密和匹配的原理 和 springsecurity 的 rememberme原理
- 人机工程学产品设计案例_儿童产品设计的那些原则【北京新易设计坊】
- 计算机四级网络-网络技术-第五章 新型网络应用
- u盘不能从计算机辅助东西卷问题,U盘文件无法复制的原因分析及解决方法(图文详情)...
- IDEA连接MySQL数据库[42000][1049] Unknown database ‘logistics‘.
- 岁末寒冬,我的2019年终总结
- 停简单电子优惠系统_停简单app下载