目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视。微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用。微博的超大信息量和高速度的更新等,都是值得研究的话题。同时,微博处理自然语言已经成为当前最新型和热门的研究课题,而其中最值的探讨的热点课题就是中文微博情感分析。

【关键词】词典 机器学习 中文微博 情感分析

在当前众多社交网络平台中,微博以新型的信息发布手段具有重要的社会影响力。根据我国相关数据统计可以发现,我国微博用户使用量已经高达3.5亿,并处于逐年上升的趋势,占全国网络居民中的百分之五十。微博情感分析是按照主观倾向性将微博文本分为三类:第一是正向;第二是负向;第三是中性。

1 情感的分析方法

目前,主要通过两种技术来对情感进行分析。中文微博情感分析第一类是根据情感词典来进行,微博文本中所包含的正向情感词和负向情感词都通过情感词典来进行统计分析,而文本的情感极性则依靠所取得的差值来决定。第二类是机器学习的使用方法,对测试预料和训练词进行相关的标注,再使用分类器对情感进行分析,其中分类器包括有:

(1)KNN;

(2)最大熵;

(3)支持向量机等。

与英文微博相比,中文微博具有很大差异,其中主题较为发散是中文微博的主要特点,且内容十分繁杂丰富,并与英文微博的行文习惯也有很大区别。因此,部分研究人员通过多种计算方法对微博的情感分析进行了全方位的分析,其中所包括的算法有:

(1)三种特征选择方法;

(2)三种及其学习算法;

(3)三种特征权重计算方法,但该方法对微博文本的行文特点并没有考虑到位,导致在整条微博中,微博表情符号直接影响了文本的情感极性。

同时,其他研究人员提出了微博情感分析的层次结构分析方法,但由于表情符号的规则原因,其有了提高分类效果的作用,但却使微博文本中的极性信息被忽视。由于中文微博主题发散和内容简短,以及不规范的用语和未登录词较多等问题,使中文微博文本目前的情感分析效果未取得一定的进展。由于词典方法和及其学习方法都存在各自的问题,针对中文微博的文本内容简短、口语化国多和主题不集中等特点,提出了有关于结合词典和机器学习的方法,以对中文微博情感进行更为准确的研究。

2 基于词典与机器学习的中文微博情感分析

基于中文微博的特点研究,采用词典与机器学习相结合的方式,进一步分析研究中文微博文本的情感倾向性。中文微博情感分析

2.1 特征降维

经过分析微博文本可以看出,其中的形容词和动词是最主要的情感词语,也能够准确反映文本情感的倾向性,所以特征的选择应当主要以形容词和动词为主。微博文本中所包含的所有形容词和动词都被特征空间所集合包含,当产生较大训练文本集时,则具有非常高维数的特征空间。同时,中文微博中还较频繁出现表情符号,并还含有多个词或是十多个词,使绝大多数维上的值在特征向量中显示为0,导致数据稀疏性的问题出现在特征空间中,所以,必须使用降维来对特征空间进行缓解。

常用的特征降维方法有两种:

(1)特征选择;

(2)特征抽取。

但特征抽取具有大计算量和储存方面的问题,对于处理文本具有一定的局限。特征选择在性能方面十分良好,通过特征降维的统计法后,依然出现特征空间的严重数据稀疏性问题,则需进一步对特征空间进行降维操作。在聚类词语方面,层次聚类算法具有明显的作用。所以,可以采取统计法融合层次聚类算法的层次结构来实现降维。特征选择在进行统计法后,可以对特征空间进行初步的维数降低,并依靠层次聚类算法实现特征空间的有效降维,保证特征空间维数的进一步降低,最终实现特征降维的有效目的。

2.2 特征极性值

3 结束语

总之,本文对词典与机器学习的中文微博情感分析方法进行了探讨,并根据中文微博的相关特点,对层次结构的降维方法进行理论探讨。同时,随着网络信息的逐步发展,中文微博中还在不断产生一些新鲜的词汇,导致其无法被当前的分词系统进行有效识别,对分类中文微博情感造成了一定的阻碍,所以,未来还应不断尝试新的分类方法来对其进行识别匹配。

参考文献

[1]孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014(07):177-181.

[2]孙晓,叶嘉麒,龙润田,任福继.基于情感语义词典与PAD模型的中文微博情感分析[J].山西大学学报(自然科学版),2014(04):580-587.

[3]张庆庆,刘西林.基于机器学习的中文微博情感分类研究[J].未来与发展,2015(04):59-63.

本文来自电脑杂谈,转载请注明本文网址:

http://www.pc-fly.com/a/jisuanjixue/article-34910-1.html

java对微博评论进行分析_微博上分析情感的_中文情感分析java_中文微博情感分析...相关推荐

  1. python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?

    开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...

  2. Python_001_旅游评论情感倾向性分析_000_分析(基于深度学习的微博评论情感倾向性分析_胡西祥)论文

    Python_001_旅游评论情感倾向性分析_000_分析论文-2020-8-21 知网链接:基于深度学习的微博评论情感倾向性分析 - 中国知网 (cnki.net) ps.只做分析概括 目录 一.论 ...

  3. python爬取微博评论并做词频分析_爬取李子柒微博评论并分析

    爬取李子柒微博评论并分析 微博主要分为网页端.手机端和移动端.微博网页版反爬太厉害,因此选择爬取手机端. 1 需求 爬取李子柒微博中视频的评论信息,并做词频分析. 2 方法 2.1 运行环境 运行平台 ...

  4. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

  5. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  6. 微博评论情感分析(NLP,LSTM)

    一.一些说明 主要工作就是通过对120000条微博评论的数据集训练模型,预测评论的情绪倾向,将情绪结果简单的分为积极情绪和消极情绪. 虽然在训练集和测试集上表现的不错,但是经过自己的手动测试发现效果不 ...

  7. id 怎么获取jira 评论_一篇文章教会你使用Python定时抓取微博评论

    [Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评 ...

  8. python每隔半个小时执行一次_一篇文章教你用Python抓取微博评论

    [Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评 ...

  9. python 抓取微博评论破亿_一篇文章教会你使用Python定时抓取微博评论

    [Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找 抓取 ...

最新文章

  1. 使用instsrv.exe+srvany.exe将应用程序安装为windows服务
  2. 《一江春水向东流》——任正非
  3. hdu2609 How many
  4. Argument list too long 文件数过多
  5. MIT 算法导论 (二)Math Notation
  6. php编写一个投票程序,实例学习PHP之投票程序篇(一)
  7. Hibernate关联关系映射-----基于连接表的单向一对多映射配置
  8. 2287: 【POJ Challenge】消失之物
  9. 在webconfig中写好连接后,在程序中如何调用?
  10. 整合hibernate4到spring4mvc框架
  11. 使用 data URI scheme 在网页中内嵌图片[转]
  12. mysql btree面试_java面试题:你了解mysql的B+TREE索引吗?
  13. protobuf入门教程(四):repeated限定修饰符
  14. 华为社会招聘面试流程
  15. 2019江西(南昌)安博会 数字冰雹“警视”即将惊艳亮相
  16. 为什么苹果6没有录屏_苹果iPad为什么没有计算器应用程序
  17. 给大家分享几个强度很高又很好记的密码
  18. 涛涛打保龄球 【map】篝火晚会(两道题)
  19. linux atop日志查看,A - atop - 监控Linux系统资源与进程的工具 - 《Linux命令大全搜索工具(旧版)》 - 书栈网 · BookStack...
  20. 前端自动化测试(webdriverio+mocha+chai)

热门文章

  1. 多态 (多态的用处,意义,应用)
  2. linux看门狗脚本,linux 看门狗
  3. 360浏览器浏览记录本地路径
  4. 想做好一个程序猿 先建好身 瘦人同样可以练出肌肉
  5. unity如何接入puerts
  6. blockly自定义中文出问题_Blockly 中文文档(翻译)
  7. xunsearch php,xunsearch
  8. 南京Uber优步司机奖励政策(1月25日~1月31日)
  9. Geek新玩法:一滴水做出iPhone微距镜头
  10. 卢伟冰的“小目标”藏在Redmi Note里!