一、snownlp简介

snownlp是什么?

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

以上是官方对snownlp的描述,简单地说,snownlp是一个中文的自然语言处理的Python库,支持的中文自然语言操作包括:

  • 中文分词
  • 词性标注
  • 情感分析
  • 文本分类
  • 转换成拼音
  • 繁体转简体
  • 提取文本关键词
  • 提取文本摘要
  • tf,idf
  • Tokenization
  • 文本相似

在本文中,将重点介绍snownlp中的情感分析(Sentiment Analysis)。

二、snownlp情感分析模块的使用

2.1、snownlp库的安装

snownlp的安装方法如下:

pip install snownlp

2.2、使用snownlp情感分析

利用snownlp进行情感分析的代码如下所示:

#coding:UTF-8
import sys
from snownlp import SnowNLPdef read_and_analysis(input_file, output_file):f = open(input_file)fw = open(output_file, "w")while True:line = f.readline()if not line:breaklines = line.strip().split("\t")if len(lines) < 2:continues = SnowNLP(lines[1].decode('utf-8'))# s.words 查询分词结果seg_words = ""for x in s.words:seg_words += "_"seg_words += x# s.sentiments 查询最终的情感分析的得分fw.write(lines[0] + "\t" + lines[1] + "\t" + seg_words.encode('utf-8') + "\t" + str(s.sentiments) + "\n")fw.close()f.close()if __name__ == "__main__":input_file = sys.argv[1]output_file = sys.argv[2]read_and_analysis(input_file, output_file)

上述代码会从文件中读取每一行的文本,并对其进行情感分析并输出最终的结果。

注:库中已经训练好的模型是基于商品的评论数据,因此,在实际使用的过程中,需要根据自己的情况,重新训练模型。

2.3、利用新的数据训练情感分析模型

在实际的项目中,需要根据实际的数据重新训练情感分析的模型,大致分为如下的几个步骤:

  • 准备正负样本,并分别保存,如正样本保存到pos.txt,负样本保存到neg.txt
  • 利用snownlp训练新的模型
  • 保存好新的模型

重新训练情感分析的代码如下所示:

#coding:UTF-8from snownlp import sentimentif __name__ == "__main__":# 重新训练模型sentiment.train('./neg.txt', './pos.txt')# 保存好新训练的模型sentiment.save('sentiment.marshal')

注意:若是想要利用新训练的模型进行情感分析,需要修改代码中的调用模型的位置。

data_path = os.path.join(os.path.dirname(os.path.abspath(__file__)),'sentiment.marshal')

三、snownlp情感分析的源码解析

snownlp中支持情感分析的模块在sentiment文件夹中,其核心代码为__init__.py

如下是Sentiment类的代码:

class Sentiment(object):def __init__(self):self.classifier = Bayes() # 使用的是Bayes的模型def save(self, fname, iszip=True):self.classifier.save(fname, iszip) # 保存最终的模型def load(self, fname=data_path, iszip=True):self.classifier.load(fname, iszip) # 加载贝叶斯模型# 分词以及去停用词的操作    def handle(self, doc):words = seg.seg(doc) # 分词words = normal.filter_stop(words) # 去停用词return words # 返回分词后的结果def train(self, neg_docs, pos_docs):data = []# 读入负样本for sent in neg_docs:data.append([self.handle(sent), 'neg'])# 读入正样本for sent in pos_docs:data.append([self.handle(sent), 'pos'])# 调用的是Bayes模型的训练方法self.classifier.train(data)def classify(self, sent):# 1、调用sentiment类中的handle方法# 2、调用Bayes类中的classify方法ret, prob = self.classifier.classify(self.handle(sent)) # 调用贝叶斯中的classify方法if ret == 'pos':return probreturn 1-probclass Sentiment(object):def __init__(self):self.classifier = Bayes() # 使用的是Bayes的模型def save(self, fname, iszip=True):self.classifier.save(fname, iszip) # 保存最终的模型def load(self, fname=data_path, iszip=True):self.classifier.load(fname, iszip) # 加载贝叶斯模型# 分词以及去停用词的操作    def handle(self, doc):words = seg.seg(doc) # 分词words = normal.filter_stop(words) # 去停用词return words # 返回分词后的结果def train(self, neg_docs, pos_docs):data = []# 读入负样本for sent in neg_docs:data.append([self.handle(sent), 'neg'])# 读入正样本for sent in pos_docs:data.append([self.handle(sent), 'pos'])# 调用的是Bayes模型的训练方法self.classifier.train(data)def classify(self, sent):# 1、调用sentiment类中的handle方法# 2、调用Bayes类中的classify方法ret, prob = self.classifier.classify(self.handle(sent)) # 调用贝叶斯中的classify方法if ret == 'pos':return probreturn 1-prob

从上述的代码中,classify函数和train函数是两个核心的函数,其中,train函数用于训练一个情感分类器,classify函数用于预测。在这两个函数中,都同时使用到的handle函数,handle函数的主要工作为:

  1. 对输入文本分词
  2. 去停用词

情感分类的基本模型是贝叶斯模型Bayes,对于贝叶斯模型,可以参见文章简单易学的机器学习算法——朴素贝叶斯。对于有两个类别 c1 c 1 c_1和 c2 c 2 c_2的分类问题来说,其特征为 w1,⋯,wn w 1 , ⋯ , w n w_1,\cdots ,w_n,特征之间是相互独立的,属于类别 c1 c 1 c_1的贝叶斯模型的基本过程为:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn) P ( c 1 ∣ w 1 , ⋯ , w n ) = P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) P ( w 1 , ⋯ , w n )

P\left ( c_1\mid w_1,\cdots ,w_n \right )=\frac{P\left ( w_1,\cdots , w_n\mid c_1 \right )\cdot P(c_1)}{P\left ( w_1,\cdots ,w_n \right )}

其中:

P(w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2) P ( w 1 , ⋯ , w n ) = P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) + P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 )

P\left ( w_1,\cdots ,w_n \right )=P\left ( w_1,\cdots ,w_n\mid c_1 \right )\cdot P\left ( c_1 \right )+P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )

3.1、贝叶斯模型的训练

贝叶斯模型的训练过程实质上是在统计每一个特征出现的频次,其核心代码如下:

def train(self, data):# data 中既包含正样本,也包含负样本for d in data: # data中是list# d[0]:分词的结果,list# d[1]:正/负样本的标记c = d[1]if c not in self.d:self.d[c] = AddOneProb() # 类的初始化for word in d[0]: # 分词结果中的每一个词self.d[c].add(word, 1)# 返回的是正类和负类之和self.total = sum(map(lambda x: self.d[x].getsum(), self.d.keys())) # 取得所有的d中的sum之和

这使用到了AddOneProb类,AddOneProb类如下所示:

class AddOneProb(BaseProb):def __init__(self):self.d = {}self.total = 0.0self.none = 1 # 默认所有的none为1# 这里如果value也等于1,则当key不存在时,累加的是2def add(self, key, value):self.total += value# 不存在该key时,需新建keyif not self.exists(key):self.d[key] = 1self.total += 1self.d[key] += value

注意:

  1. none的默认值为1
  2. 当key不存在时,total和对应的d[key]累加的是1+value,这在后面预测时需要用到

AddOneProb类中的total表示的是正类或者负类中的所有值;train函数中的total表示的是正负类的total之和。

当统计好了训练样本中的total和每一个特征key的d[key]后,训练过程就构建完成了。

3.2、贝叶斯模型的预测

预测的过程使用到了上述的公式,即:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2) P ( c 1 ∣ w 1 , ⋯ , w n ) = P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) + P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 )

P\left ( c_1\mid w_1,\cdots ,w_n \right )=\frac{P\left ( w_1,\cdots , w_n\mid c_1 \right )\cdot P(c_1)}{P\left ( w_1,\cdots ,w_n\mid c_1 \right )\cdot P\left ( c_1 \right )+P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )}

对上述的公式简化:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2)=11+P(w1,⋯,wn∣c2)⋅P(c2)P(w1,⋯,wn∣c1)⋅P(c1)=11+exp[log(P(w1,⋯,wn∣c2)⋅P(c2)P(w1,⋯,wn∣c1)⋅P(c1))]=11+exp[log(P(w1,⋯,wn∣c2)⋅P(c2))−log(P(w1,⋯,wn∣c1)⋅P(c1))] P ( c 1 ∣ w 1 , ⋯ , w n ) = P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) + P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 ) = 1 1 + P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 ) P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) = 1 1 + e x p [ l o g ( P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 ) P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) ) ] = 1 1 + e x p [ l o g ( P ( w 1 , ⋯ , w n ∣ c 2 ) ⋅ P ( c 2 ) ) − l o g ( P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) ) ]

\begin{align*} P\left ( c_1\mid w_1,\cdots ,w_n \right ) &= \frac{P\left ( w_1,\cdots , w_n\mid c_1 \right )\cdot P(c_1)}{P\left ( w_1,\cdots ,w_n\mid c_1 \right )\cdot P\left ( c_1 \right )+P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )}\\ &= \frac{1}{1+\frac{P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )}{P\left ( w_1,\cdots ,w_n\mid c_1\right )\cdot P\left ( c_1\right )}}\\ &= \frac{1}{1+exp\left [ log\left ( \frac{P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )}{P\left ( w_1,\cdots ,w_n\mid c_1\right )\cdot P\left ( c_1\right )} \right ) \right ]}\\ &= \frac{1}{1+exp\left [ log\left ( P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right ) \right )-log\left ( P\left ( w_1,\cdots ,w_n\mid c_1\right )\cdot P\left ( c_1\right ) \right ) \right ]} \end{align*}

其中,分母中的1可以改写为:

1=exp[log(P(w1,⋯,wn∣c1)⋅P(c1))−log(P(w1,⋯,wn∣c1)⋅P(c1))] 1 = e x p [ l o g ( P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) ) − l o g ( P ( w 1 , ⋯ , w n ∣ c 1 ) ⋅ P ( c 1 ) ) ]

1=exp\left [ log\left ( P\left ( w_1,\cdots ,w_n\mid c_1\right )\cdot P\left ( c_1\right ) \right )-log\left ( P\left ( w_1,\cdots ,w_n\mid c_1\right )\cdot P\left ( c_1\right ) \right ) \right ]

上述过程对应的代码如下所示:

def classify(self, x):tmp = {}for k in self.d: # 正类和负类tmp[k] = log(self.d[k].getsum()) - log(self.total) # 正类/负类的和的log函数-所有之和的log函数for word in x:tmp[k] += log(self.d[k].freq(word)) # 词频,不存在就为0ret, prob = 0, 0for k in self.d:now = 0try:for otherk in self.d:now += exp(tmp[otherk]-tmp[k])now = 1/nowexcept OverflowError:now = 0if now > prob:ret, prob = k, nowreturn (ret, prob)

其中,第一个for循环中的tmp[k]对应了公式中的 log(P(ck)) l o g ( P ( c k ) ) log\left ( P\left ( c_k\right ) \right ),第二个for循环中的tmp[k]对应了公式中的 log(P(w1,⋯,wn∣ck)⋅P(ck)) l o g ( P ( w 1 , ⋯ , w n ∣ c k ) ⋅ P ( c k ) ) log\left ( P\left ( w_1,\cdots ,w_n\mid c_k\right )\cdot P\left ( c_k\right ) \right )。

参考文献

  1. snownlp github
  2. 自然语言处理库之snowNLP##

情感分析——深入snownlp原理和实践相关推荐

  1. Python分词、情感分析工具——SnowNLP

    本文内容主要参考GitHub:https://github.com/isnowfy/snownlp what's the SnowNLP SnowNLP是一个python写的类库,可以方便的处理中文文 ...

  2. bfc是什么_全面分析总结BFC原理及实践

    前言 经常在面试中被问到"如何清除浮动?"."为什么 overflow: hidden 可以清除浮动?"等等比较基础的问题.虽然这些题目案在各种写面试题的文章中 ...

  3. 情感分析算法从原理到PaddlePaddle实战全解

    在自然语言处理中,情感分析一般是指判断一段文本所表达的情绪状态.其中,一段文本可以是一个句子,一个段落或一个文档.情绪状态可以是两类,如(正面,负面),(高兴,悲伤):也可以是三类,如(积极,消极,中 ...

  4. 520礼包 | 情感分析算法从原理到PaddlePaddle实战全解

    允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在自然语言处理中,情感分析一般是指判断一段文本所表达的情绪状态.其中,一段文本可以是一个句子,一个段落或一个文档.情绪状态可以是两类,如(正 ...

  5. python文本情感分析:SnowNLP的应用---案例

    想法:一直以来,我曾今想过,我们的出来的商业评论如何确定和判断他的情感因素?如何根据文本来将某条记录打上对应的标签,仅仅靠一个分类?? 安装:https://pypi.org/project/snow ...

  6. 基于SnowNLP的购物评论文本情感分析及准确率验证

    因论文涉及到SnowNLP情感分析的内容,于是对该内容进行了学习,但发现网上的资源发布更新不及时,大多数文章均发布于18年及以前.由于python版本的迭代,使得以往的资源代码有所出入,因此我对于Sn ...

  7. 自然语言处理:wordcloud+snownlp《西虹市首富》影评情感分析

    前言 最近看了沈腾主演的电影<西虹市首富>,心想怎么没有十个亿砸我头上,我保证比王多鱼还败家,但是细细一想,要是真的砸脑袋上,估计就随给王多鱼他二爷去了. 闲话少说,言归正传,电影上映一段 ...

  8. 中文文本情感分析-python包SnowNLP入门

    目录 1.情感分析是什么? 2.情感分析有什么用? 3.情感分析实战-SnowNLP SnowNLP官方参考资料: SnowNLP两个坑: 自己用snownlp训练模型: 1.情感分析是什么? 极性: ...

  9. 百分点认知智能实验室出品:情感分析在舆情中的研发实践(上)

    大数据产业创新服务媒体 --聚焦数据 · 改变商业 编者按 文本情感分析是对带有主观感情色彩的文本进行分析.处理.归纳和推理的过程.互联网上每时每刻都会产生大量文本,这其中也包含大量的用户直接参与的. ...

最新文章

  1. C#方法参数传递-同时使用ref和out关键字
  2. 线性表—单向循环链表
  3. python基础语法第10关作业-关于一些Python的一些基础语法训练
  4. mysql数据库存储数据的过程_[数据库]MySql存储过程总结
  5. java委托事件与观察者模式_多播委托与观察者模式联合使用,以及委托与事件的区别...
  6. sql server 2005 T-SQL @@MAX_PRECISION (Transact-SQL)
  7. WPF开源项目:AIStudio.Wpf.AClient
  8. python中的运算符_Python中的运算符
  9. RaabitMQ:rabbitmqctl的几个命令
  10. 新建和删除文件夹js代码
  11. 释放链表内存C语言,最简单的链表删除第一个节点时释放内存的问题
  12. ​​​​​​​微信、Facebook牵手合作,抗击全球新冠肺炎疫情
  13. Spring MVC 接收POST表单请求,获取参数总结
  14. char flag[20]c语言,C语言试卷
  15. FFmpeg进行屏幕录像和录音
  16. tween.js的使用
  17. (CVPR2019)视频-图像语义分割(21) 联合传播数据增广+标签松弛提升边界精度=语义分割效果提升
  18. [POJ3020]Antenna Placement(二分图最大匹配,最小边覆盖)
  19. Embarcadero® Delphi 10.3源码安装fastreport6
  20. 计算机408学什么区别,考研计算机408考什么

热门文章

  1. C# 8新提案让泛型Attribute成为现实
  2. webpack 配置简单说几句 ?
  3. ScaleIO 1.32现在可以免费下载安装使用了(除生产环境之外)
  4. java上机练习01
  5. 5.数字拆分成4段,怎样使得4段的乘积最小【dp】
  6. jwebsocket
  7. PHP 批量生成静态html
  8. 转载:写给计算机专业的朋友们
  9. 运放使用中不稳定怎么办?
  10. 把脉Linux上USB数据流