SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己(不是本人)实现的,并且自带了一些训练好的字典。

1.简单的文本分析尝试
from snownlp import SnowNLPs = SnowNLP(u'这真的很好')
print(s.words)       # 词语
print(s.tags)        # 词性    解开zip使用print(list(s.tags))
print(s.sentences)   # 句子
print(s.sentiments)  # 情感偏向
print(s.pinyin)      # 转为拼音
print(s.han)         # 转为汉体
print(s.keywords)    # 提取关键词
print(s.summary)     # 提取主题
print(s.tf)          # 计算词频
  • 使用时,需要导入SnowNLP库,安装路径为pip install snownlp
  • 这其中出现了zip格式: zip()函数将可迭代对象作为参数,并打包成元组,返回的是一个个zip对象,可以使用list或dict转换返回结果,使用*zip可以将打包的对象分解成列表
  • 相应的输出结果为
['这', '真的', '很', '好']
<zip object at 0x00000217E1313CC8>
['这真的很好']
0.8333900543572382
['zhe', 'zhen', 'de', 'hen', 'hao']
这真的很好
<bound method SnowNLP.keywords of <snownlp.SnowNLP object at 0x00000217CA47F2E8>>
<bound method SnowNLP.summary of <snownlp.SnowNLP object at 0x00000217CA47F2E8>>
[{'这': 1}, {'真': 1}, {'的': 1}, {'很': 1}, {'好': 1}]Process finished with exit code 0

2.使用变量输入

使用变量输入会使内容输入变得更为简单,同时可以为读写文件或者数据库做铺垫,如下代码,使用txt作为整个文本的引入,在SnowNLP函数内部只需要使用txt这一变量名即可完成相关功能的实现

from snownlp import SnowNLP
txt = u'''秦始皇(前259年农历十二月初三—前210年),嬴姓,赵氏,名政,又名赵正(政)、秦政,或称祖龙,秦庄襄王之子。中国历史上著名的政治家、战略家、改革家,完成华夏大一统的铁腕政治人物,也是中国第一个称皇帝的君主。'''s = SnowNLP(txt)
print(s.words)       # 词语
print(list(s.tags))  # 词性
print(s.sentiments)  # 情感偏向
print(s.tf)          # 计算词频

虽然上面内容在一定程度上引入了变量,但我们还需改进,如果能够接收用户输入会使整个函数功能更加流畅,以input函数作为引入(后期会使用文件或者数据库功能进行输入)

from snownlp import SnowNLPtxt = input("Enter your message:")s = SnowNLP(txt)
print(s.words)
print(s.words)       # 词语
print(list(s.tags))  # 词性
print(s.sentiments)  # 情感偏向
print(s.tf)          # 计算词频

3.简易情感分析表

在开始使用文件个数据库之前,可以进行简答的情感分析的制作,我们使用列表来进行

from snownlp import SnowNLPtxt_in = []
sentiments_out = []for i in range(3):   # 做三次循环txt = input("Enter:")txt_in.append(txt)s = SnowNLP(txt)sentiments_out.append(s.sentiments)print(txt_in)
print(sentiments_out)

Python_文本分析入门_SnowNLP(1)相关推荐

  1. 数据分析学习总结笔记17:文本分析入门案例实战

    文章目录 1 数据准备 2 分词 3 统计词频 4 词云 5 提取特征 6 用sklearn进行训练 1 数据准备 数据样例如下, 数据总量为7.7万+: 本节通过一个实战的例子来展示文本分析的最简单 ...

  2. Python_文本分析_困惑度计算和一致性检验

    在做LDA的过程中比较比较难的问题就是主题数的确定,下面介绍困惑度.一致性这两种方法的实现. 其中的一些LDA的参数需要结合自己的实际进行设定 直接计算出的log_perplexity是负值,是困惑度 ...

  3. 在会计研究中使用Python进行文本分析

    最近在google搜Python在经管中的内容,意外发现 专著:在会计研究中使用Python进行文本分析 ,内容特别新,专著中含有Python代码,也有会计领域文本分析的应用成果. 财会专业的科研人员 ...

  4. 用R进行文本分析初探——以《红楼梦》为例

    原博地址:http://www.cnblogs.com/zzhzhao/p/5299876.html[侵删] 一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么, ...

  5. Python数据采集与文本分析(学术)

    综述:文本分析在市场营销研究中的应用 文本大数据分析在经济学和金融学中的应用:一个文献综述 倒计时4天|Python&Stata数据分析课寒假工作坊 大数据时代到来,网络数据正成为潜在宝藏,大 ...

  6. 体验家推出CEM报告 | 从入门到精通——文本分析应用指南

    文本反馈是企业与客户进行一对一真实对话的窗口.在开放式作答的文本题中,客户可以不受问题的束缚,随心所欲地回答,向企业反馈他们真正在意的事情,以及每一个好评.差评背后的具体原因. 文本分析--作为体验管 ...

  7. 文本分析:吉利不裁员不降薪背后的真相是什么

    ​​之前推荐了一些数据入门的资料,这里不妨以一个小小的案例讲解如何进行简单的文本分析.主要的步骤包括以下: 从知乎相关问题爬下所有回答 将答案分词.去掉停用词.维护语料库 查看分词结果,并制作词云 我 ...

  8. r语言上机文本分析与词云绘制_倚天屠龙记的文本分析

    <倚天屠龙记>作为金庸先生的经典作品,在无数人心目中留下了深刻的印象,基本上隔一段时间这部经典作品就会被重新拍成电影或者电视剧,可见观众的喜爱程度.虽然本人没有完完全全拜读过先生的这部作品 ...

  9. 文本分析软件_读书笔记:伍多库卡茨质性文本分析:方法、实践与软件使用指南...

    读书笔记:伍多·库卡茨<质性文本分析:方法.实践与软件使用指南> 一.这篇文章.这本书或这篇论文的中心思想.核心观点是什么?核心观点:质性数据如何系统化分析?三大主要方法:主题分析.评估分 ...

最新文章

  1. PHP爬取post网页数据,php curl发送post请求爬取webService接口数据简单实例
  2. client-go删除job同时删除job关联的pod
  3. 《Groovy语言规范》-语法(三)
  4. RHEL6.1 java显示乱码
  5. Android中activity的生命周期
  6. macOS Big Sur在APFS格式的驱动器上支持Time Machine有几个问题?
  7. iOS面试开发-这样的简历才是面试官想看的
  8. 四旋翼无人机的动力学模型
  9. 正负数据如何归一化_数据标准化period;归一化处理
  10. android压缩gif大小,使用手机制作GIF动图,免费无水印、大小可调,安卓、iphone都可以...
  11. du命令排序文件大小
  12. 新版edge找不到internet选项
  13. 小胖儿 闲聊 百度有啊
  14. 微服务实现网关统一鉴权-接口级别
  15. java pgm_用Java读取pgm文件
  16. 忍无可忍?英特尔执行副总裁撰文《高通的诡辩被戳穿了》指责高通
  17. 加州房价预测数据预处理
  18. 编程珠玑番外篇之番外篇-O 中间语言和虚拟机漫谈(ZZ)
  19. 证明:每个有n个顶点的连通图都至少有n-1条边 Show that every connected graph with n vertices has at least n − 1 edges.
  20. LQR控制器——简单实现与仿真

热门文章

  1. iOS 花式二维码生成和二维码识别
  2. Maven | filtering,filter和profile标签使用
  3. select option
  4. flask_restful中的输出域(Resource、fields、marshal、marshal_with)
  5. 操作系统文件管理习题
  6. 【源码】心电图APP分析仪
  7. 正太分布函数和反函数 标量值函数 (借鉴)
  8. c++和python哪个好_python和c++哪个好 有什么区别
  9. Codeforces - Bombs
  10. 从红队视角看AWD攻击