对京东商品评论进行词频统计并制作词云
上一篇我们利用requests对京东商品的评论进行采集,今天我们对采集结果进行词频统计,并制作词云图片。
一、安装依赖
首先安装jieba
,wordcloud
第三方库,并将其导入。
二、分词
利用jieba
库对文本进行分词,jieba.lcut 直接生成的就是一个list,jieba支持三种分词模式:
- 精确模式
lcut()
,试图将句子最精确地切开,适合文本分析,单词无冗余; - 全模式
lcut(s, cut_all=True)
,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义,存在冗余; - 搜索引擎模式
cut_for_search(s)
,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
file = open(file_path, 'r')txt = file.read()words = jieba.lcut(txt)
三、词频统计
对分词结果进行词频统计,这里对手机的特点进行分析,所以将一些与手机特点无关的词剔除掉,这里需要加入停用词,并遍历删除,得到精确结果,最后将词出现的频率由大到小排序。
count = {}for word in words:if len(word) == 1:continueelse:count[word] = count.get(word, 0) + 1# 引入停用词exclude = ["手机", "其他", "非常", "使用", "一天"] # 建立无关词语列表for key in list(count.keys()): # 遍历字典的所有键,即所有wordif key in exclude:del count[key]lists = list(count.items())lists.sort(key=lambda x: x[1], reverse=True)
四、保存
将统计好的词频写入文件
with open(word_path, 'w', encoding='gbk') as f:for i in range(15):word, number = lists[i]f.write('{}\t{}\n'.format(word, number))f.close()return word_path
五、制作词云
generate(text) 由text文本生成词云
(词云的字体,图片大小,背景颜色,以及形状都可以自定义)
def get_cloud(word_path):with open(word_path, 'r', encoding='gbk') as f:text = f.read()wcloud = wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',background_color='white',width=1000,max_words=1000,height=860,margin=2).generate(text)wcloud.to_file('E:/python/resource/' + 'cloud.png') # 指定词云文件路径f.close()print("词云图片已保存")
效果如下:
附源代码:
# coding=gbk
import jieba
import wordcloud# 对文本进行分词
def cut_word(file_path):file = open(file_path, 'r')txt = file.read()words = jieba.lcut(txt)# 对词频进行统计count = {}for word in words:if len(word) == 1:continueelse:count[word] = count.get(word, 0) + 1# 引入停用词exclude = ["手机", "其他", "非常", "使用", "一天"] # 建立无关词语列表for key in list(count.keys()): # 遍历字典的所有键,即所有wordif key in exclude:del count[key]lists = list(count.items())lists.sort(key=lambda x: x[1], reverse=True)#词频排序# 打印前15条词频for i in range(20):word, number = lists[i]print("关键字:{:-<5}频次:{}".format(word, number))# 词频写入with open(word_path, 'w', encoding='gbk') as f:for i in range(20):word, number = lists[i]f.write('{}\t{}\n'.format(word, number))f.close()return word_path# 制作词云
def get_cloud(word_path):with open(word_path, 'r', encoding='gbk') as f:text = f.read()wcloud = wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',background_color='white',width=500,max_words=1000,height=400,margin=2).generate(text)wcloud.to_file('E:/python/resource/' + 'cloud1.png') # 指定词云文件路径f.close()print("词云图片已保存")file_path = 'E:/python/resource/comments.txt'
word_path = 'E:/python/resource/wordcloud.txt'if __name__ == '__main__':cut_word(file_path)get_cloud(word_path)
如有错误,欢迎私信纠正,谢谢支持!
对京东商品评论进行词频统计并制作词云相关推荐
- pythonallowpos_利用Python抓取并分析京东商品评论数据
2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...
- python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- python新闻评论分析_使用 python 抓取并分析京东商品评论数据
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- python制作爬虫爬取京东商品评论教程
python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...
- python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理
本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘结果也不尽人意.所以对于文本 ...
- Python爬取京东商品评论数据
一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...
- Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...
- Python爬取京东商品评论
京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...
- 通过京东商品ID获取京东商品评论数据,京东商品评论API接口,接口说明接入方案
一.京东商品详情评论接口数据接口参数说明: 1.通过京东商品ID获取京东商品评论数据,可以获取到获得JD商品评论,评论内容,评论日期,评论图片 ,买家昵称,评论商品属性,追评内容等页面上面的数据均可以 ...
最新文章
- 使用mysql内连接查询年龄_Mysql的连表查询
- 《Head First Java》的思考总结:第三篇
- 编写你的第一个 Django 应用,第 1 部分
- mysql语法题_mysql数据库题语法练习
- linux 统计命令执行后的行数或者统计目录下文件数目
- pandas.Series.rank用法详解
- zookeeper 单机配置
- mysql存储引擎 sql_MySQL——存储引擎与SQL数据类型
- 第三方物流(Third Party Logistics,3PL)
- 2018/03/01
- 清华EMBA课程系列思考之二 -- 清华探究及信息战略与管理
- 如何下载遥感软件ERDAS
- 第八届ACM程序设计大赛总结
- Pycharm 专业版与社区版的区别
- Android人脸识别活体检测开发入门--基于虹软免费SDK实现
- UI设计师求职中常被问到的13个面试题及答案总结
- 爬取msdn.itellyou.cn网站
- 【Git】git add
- 美国未来计算机人才需求,对话美国帕森斯前院长:“未来人才需求趋势”
- 虚幻动画 | 让角色动起来,实现一个简易的走、跑、跳状态机
热门文章
- VirtualProtect 3方法 -seh ret-ASLR-dep-Adrenalin Player 2.2.5.3
- lepus(天兔数据库监控系统)部署和使用
- 三极管、场效应管和MOS管三者的工作原理
- 推荐六款逆天好用的黑科技微信小程序,手机内存再小也可以任性耍
- 阿里巴巴400集python教程_摆摊吧,程序员!阿里巴巴力荐Python400集视频
- Nginx自建CDN加速节点 实现DNS智能解析网站项目
- 神经网络文本分类技术实践总结
- 手撸一个Switch开关组件
- 国产某偶像剧天才程序员爱心C语言作业用C++写的代码,结果是Py脚本文件
- 网站建设和网站运营,网站如何进行宣传推广