上一篇我们利用requests对京东商品的评论进行采集,今天我们对采集结果进行词频统计,并制作词云图片。

一、安装依赖

首先安装jiebawordcloud第三方库,并将其导入。

二、分词

利用jieba库对文本进行分词,jieba.lcut 直接生成的就是一个list,jieba支持三种分词模式:

  • 精确模式lcut(),试图将句子最精确地切开,适合文本分析,单词无冗余;
  • 全模式lcut(s, cut_all=True) ,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义,存在冗余;
  • 搜索引擎模式cut_for_search(s),在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
 file = open(file_path, 'r')txt = file.read()words = jieba.lcut(txt)

三、词频统计

对分词结果进行词频统计,这里对手机的特点进行分析,所以将一些与手机特点无关的词剔除掉,这里需要加入停用词,并遍历删除,得到精确结果,最后将词出现的频率由大到小排序。

 count = {}for word in words:if len(word) == 1:continueelse:count[word] = count.get(word, 0) + 1# 引入停用词exclude = ["手机", "其他", "非常", "使用", "一天"]  # 建立无关词语列表for key in list(count.keys()):  # 遍历字典的所有键,即所有wordif key in exclude:del count[key]lists = list(count.items())lists.sort(key=lambda x: x[1], reverse=True)

四、保存

将统计好的词频写入文件

 with open(word_path, 'w', encoding='gbk') as f:for i in range(15):word, number = lists[i]f.write('{}\t{}\n'.format(word, number))f.close()return word_path

五、制作词云

generate(text) 由text文本生成词云(词云的字体,图片大小,背景颜色,以及形状都可以自定义)

def get_cloud(word_path):with open(word_path, 'r', encoding='gbk') as f:text = f.read()wcloud = wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',background_color='white',width=1000,max_words=1000,height=860,margin=2).generate(text)wcloud.to_file('E:/python/resource/' + 'cloud.png')  # 指定词云文件路径f.close()print("词云图片已保存")

效果如下:

附源代码:

# coding=gbk
import jieba
import wordcloud# 对文本进行分词
def cut_word(file_path):file = open(file_path, 'r')txt = file.read()words = jieba.lcut(txt)# 对词频进行统计count = {}for word in words:if len(word) == 1:continueelse:count[word] = count.get(word, 0) + 1# 引入停用词exclude = ["手机", "其他", "非常", "使用", "一天"]  # 建立无关词语列表for key in list(count.keys()):  # 遍历字典的所有键,即所有wordif key in exclude:del count[key]lists = list(count.items())lists.sort(key=lambda x: x[1], reverse=True)#词频排序# 打印前15条词频for i in range(20):word, number = lists[i]print("关键字:{:-<5}频次:{}".format(word, number))# 词频写入with open(word_path, 'w', encoding='gbk') as f:for i in range(20):word, number = lists[i]f.write('{}\t{}\n'.format(word, number))f.close()return word_path# 制作词云
def get_cloud(word_path):with open(word_path, 'r', encoding='gbk') as f:text = f.read()wcloud = wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',background_color='white',width=500,max_words=1000,height=400,margin=2).generate(text)wcloud.to_file('E:/python/resource/' + 'cloud1.png')  # 指定词云文件路径f.close()print("词云图片已保存")file_path = 'E:/python/resource/comments.txt'
word_path = 'E:/python/resource/wordcloud.txt'if __name__ == '__main__':cut_word(file_path)get_cloud(word_path)

如有错误,欢迎私信纠正,谢谢支持!

对京东商品评论进行词频统计并制作词云相关推荐

  1. pythonallowpos_利用Python抓取并分析京东商品评论数据

    2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...

  2. python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  3. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  4. python制作爬虫爬取京东商品评论教程

    python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...

  5. python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理

    本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘结果也不尽人意.所以对于文本 ...

  6. Python爬取京东商品评论数据

    一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...

  7. Python动态爬虫爬取京东商品评论

    Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...

  8. Python爬取京东商品评论

    京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...

  9. 通过京东商品ID获取京东商品评论数据,京东商品评论API接口,接口说明接入方案

    一.京东商品详情评论接口数据接口参数说明: 1.通过京东商品ID获取京东商品评论数据,可以获取到获得JD商品评论,评论内容,评论日期,评论图片 ,买家昵称,评论商品属性,追评内容等页面上面的数据均可以 ...

最新文章

  1. 使用mysql内连接查询年龄_Mysql的连表查询
  2. 《Head First Java》的思考总结:第三篇
  3. 编写你的第一个 Django 应用,第 1 部分
  4. mysql语法题_mysql数据库题语法练习
  5. linux 统计命令执行后的行数或者统计目录下文件数目
  6. pandas.Series.rank用法详解
  7. zookeeper 单机配置
  8. mysql存储引擎 sql_MySQL——存储引擎与SQL数据类型
  9. 第三方物流(Third Party Logistics,3PL)
  10. 2018/03/01
  11. 清华EMBA课程系列思考之二 -- 清华探究及信息战略与管理
  12. 如何下载遥感软件ERDAS
  13. 第八届ACM程序设计大赛总结
  14. Pycharm 专业版与社区版的区别
  15. Android人脸识别活体检测开发入门--基于虹软免费SDK实现
  16. UI设计师求职中常被问到的13个面试题及答案总结
  17. 爬取msdn.itellyou.cn网站
  18. 【Git】git add
  19. 美国未来计算机人才需求,对话美国帕森斯前院长:“未来人才需求趋势”
  20. 虚幻动画 | 让角色动起来,实现一个简易的走、跑、跳状态机

热门文章

  1. VirtualProtect 3方法 -seh ret-ASLR-dep-Adrenalin Player 2.2.5.3
  2. lepus(天兔数据库监控系统)部署和使用
  3. 三极管、场效应管和MOS管三者的工作原理
  4. 推荐六款逆天好用的黑科技微信小程序,手机内存再小也可以任性耍
  5. 阿里巴巴400集python教程_摆摊吧,程序员!阿里巴巴力荐Python400集视频
  6. Nginx自建CDN加速节点 实现DNS智能解析网站项目
  7. 神经网络文本分类技术实践总结
  8. 手撸一个Switch开关组件
  9. 国产某偶像剧天才程序员爱心C语言作业用C++写的代码,结果是Py脚本文件
  10. 网站建设和网站运营,网站如何进行宣传推广