现如今各种APP、微信订阅号、微博、购物网站等网站都允许用户发表一些个人看法、意见、态度、评价、立场等信息。针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息。例如对商品评论的分析,可以了解用户对商品的满意度,进而改进产品;通过对一个人分布内容的分析,了解他的情绪变化,哪种情绪多,哪种情绪少,进而分析他的性格。怎样知道哪些评论是正面的,哪些评论是负面的呢?正面评价的概率是多少呢?

利用python的第三方模块SnowNLP可以实现对评论内容的情感分析预测,SnowNLP可以方便的处理中文文本内容,如中文分词、词性标注、情感分析、文本分类、提取文本关键词、文本相似度计算等。大概大于等于0.5,可以判断为正面评价——积极情感,小于0.5,可以判断为负面评价——消极情感。

下面分析一组京东上某产品的评论数据并生成折线图:

部分源数据:

实现过程:

#加载情感分析模块

from snownlp import SnowNLP

#from snownlp import sentiment

import pandas as pd

import matplotlib.pyplot as plt

#导入样例数据

aa ='F:\\python入门\\python编程锦囊\\Code(实例源码及使用说明)\\Code(实例源码及使用说明)\\Code(实例源码及使用说明)\\09\\data\\京东评论.xls'

#读取文本数据

df=pd.read_excel(aa)

#提取所有数据

df1=df.iloc[:,3]

print('将提取的数据打印出来:\n',df1)

#遍历每条评论进行预测

values=[SnowNLP(i).sentiments for i in df1]

#输出积极的概率,大于0.5积极的,小于0.5消极的

#myval保存预测值

myval=[]

good=0

bad=0

for i in values:

if (i>=0.5):

myval.append("正面")

good=good+1

else:

myval.append("负面")

bad=bad+1

df['预测值']=values

df['评价类别']=myval

#将结果输出到Excel

df.to_excel('F:\\python入门\\python编程锦囊\\Code(实例源码及使用说明)\\Code(实例源码及使用说明)\\Code(实例源码及使用说明)\\09\\data\\result2.xls')

rate=good/(good+bad)

print('好评率','%.f%%' % (rate * 100)) #格式化为百分比

#作图

y=values

plt.rc('font', family='SimHei', size=10)

plt.plot(y, marker='o', mec='r', mfc='w',label=u'评价分值')

plt.xlabel('用户')

plt.ylabel('评价分值')

# 让图例生效

plt.legend()

#添加标题

plt.title('京东评论情感分析',family='SimHei',size=14,color='blue')

plt.show()

Excel结果:

作图的结果:

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

本文标题: Python实现爬取并分析电商评论

本文地址: http://www.cppcns.com/jiaoben/python/321381.html

利用python分析电商_Python实现爬取并分析电商评论相关推荐

  1. python爬虫实例电商_Python实现爬取并分析电商评论

    现如今各种APP.微信订阅号.微博.购物网站等网站都允许用户发表一些个人看法.意见.态度.评价.立场等信息.针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息.例如对商品评论的 ...

  2. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  3. python广深地区房价数据的爬取与分析

    Python房产数据分析 1.数据爬取 2.明确需求与目的 数据预览 提出问题 3.数据预处理 数据清洗 缺失值 异常值(对连续性标签做处理) 异常值(对离散标签做处理) 4.数据分析 问题1.广东省 ...

  4. Python爬虫——aiohttp异步协程爬取同程旅行酒店评论

    大家好!我是霖hero Python并发编程有三种方式:多线程(Threading).多进程(Process).协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线 ...

  5. python数据可视化字段_python数据爬取及数据可视化分析

    电影网站数据分析及可视化研究 本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教. 数 ...

  6. python爬虫今日头条_python 简单爬取今日头条热点新闻(

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  7. 利用python进行电脑性能排行榜的爬取【个人学习】

    目录 效果展示 大致原理 具体流程和代码 效果展示 原理 使用requests模块进行get请求,对返回包的json数据进行信息提取 具体流程和代码 目标分析 1. 我们需要获取目标网页的排名 等级 ...

  8. python 头条 上传_python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

  9. python爬虫今日头条_python 简单爬取今日头条热点新闻(一)

    今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...

最新文章

  1. 探索 | 神经网络到底是如何思考的?MIT精英们做了这么一个实验室来搞清楚
  2. webug3.0下载环境搭建使用
  3. path hdu6705
  4. phpstrom+phpstudy+postman
  5. 《深入理解分布式事务》第五章 强一致性分布式解决方案
  6. 启动转换安装失败 拷贝windows安装文件时出错_在Ubuntu16.04下安装MATLAB2017b
  7. 针织布横条疵点解决方案
  8. PythonTips1
  9. 授人以渔:分享我的文本分类经验总结
  10. 收敛数列有界的通俗理解
  11. (三)【机器人路径规划】Astar算法
  12. 显示器尺寸对照表_电脑液晶屏尺寸如何计算,液晶屏尺寸对照表
  13. Mac刷新DNS,修改/etc/hosts立即生效
  14. 联想笔记本电脑整机拆解
  15. 自定义view绘制太极图案
  16. 水木周平戏说中国网络黑幽默!
  17. 10015---技术栈
  18. python locale.setlocale啥意思_Python locale 多语言模块及遇到问题解决
  19. TEST语言编译器--语法分析
  20. 马云接班人为什么是张勇?

热门文章

  1. CSS3 box-shadow实现纸张的曲线投影效果
  2. ArcGIS GP应用-GP模型服务发布
  3. AngularJS-compareDirective.js 验证指令
  4. Runner站立会议05
  5. Codeforces Educational Codeforces Round 3 D. Gadgets for dollars and pounds 二分,贪心
  6. 【LeetCode】15.Longest Common Prefix
  7. MFC UI库知多少
  8. windows的libcurl下zlib1.dll问题
  9. linux下安装 Sublime Text 3
  10. 大数据之-Hadoop3.x_MapReduce_HashPartitioner分区---大数据之hadoop3.x工作笔记0111