京东网站爬取 华为手机的 评论 以词云的方式运行
相关的包
import pymysql
import pymysql
from wordcloud import WordCloud
import jieba
import pygal
1 从数据库把所有用户评论查出
def get_comments():
# 连接数据库
# 读表 连接的mysql 数据库,
mysql_con= pymysql.connect(host=‘127.0.0.1’,
port=3306,
user=‘root’,
password=‘密码’,
db=‘表名’,
charset=‘utf8mb4’,
cursorclass=pymysql.cursors.DictCursor
)
cursor = mysql_con.cursor()
sql=""“select content,product_color from jd.comment”""
cursor.execute(sql)
result = cursor.fetchall()
print(result)
# process_comments(result)
color_r(result)
# select content from
# return [{},{}]
def process_comments(result):
# 所有用户评论拼成一个长字符串
word_list=[]
for re in result:
res = re[‘content’]
# print(res)
word_list.append(res)
comment = ’ '.join(word_list)
# print(comment)
list = jieba.cut(comment, cut_all=False)
req = ‘/’.join(list)
# print(req)
word_cloud(req)
# return ‘’
def color_r(result):
list = [ ]
for color in result:
color_s = color[‘product_color’]
list.append(color_s)
list_color = ‘/’.join(list)
# print(list_color)
content(list_color)
def content(list_color):
s = list_color
golden = s.count(‘金色’)/2
gray = s.count(‘深空灰色’)/2
silver = s.count(‘银色’)/2
s = golden + gray + silver
print(s)
print(golden,gray,silver)
gen_pei(golden,gray,silver)
# print(golden)
def cut_word(string):
# 分词 ,返回wordcloud包使用的格式
# string
# ['手机', '好', '质量', '手机']# return '手机 好 质量 手机'
print('正在计算分词,可能需要秒数。。。。')
def word_cloud(rep):
# 生成词云,保存到本地
string=rep
font = ‘C:\Windows\Fonts\msyhbd.ttc’
wc = WordCloud(
font_path=font,
background_color=‘white’,
width=1920,
height=1080,
).generate(string)
wc.to_file(‘京东评价.png’)
# gen_pei()
# return None
def gen_pei(golden,gray,silver):
# 生成饼状图
# select count() group by
# 本地生成饼状图
pie_chart = pygal.Pie()
pie_chart.title = ‘京东华为手机销售颜色数量’
pie_chart.add(‘金色’, golden)
pie_chart.add(‘深空灰色’, gray)
pie_chart.add(‘银色’, silver)
pie_chart.render_to_file(‘1bar.svg’)
if name == ‘main’:
get_comments()
运行出来的词云。
京东网站爬取 华为手机的 评论 以词云的方式运行相关推荐
- 用Python爬取B站弹幕并做成词云
用Python爬取B站弹幕并做成词云 一.获取视频的cid号 1.进入想爬的视频,打开浏览器设置里的"开发者工具": 进入NetWork后等待requests刷出,数据够了后可随意 ...
- 爬取《政府工作报告》词云展示并做词频统计
爬取<政府工作报告>词云展示并做词频统计 爬取<政府工作报告内容代码: from requests import * from bs4 import BeautifulSoup r= ...
- Python爬取360手机助手评论——以百度地图为例
想做竞品分析,打算先从应用市场爬一些应用的用户用户评论作为素材:这次爬取的是360手机助手网站,结尾附爬取完的百度地图和高德地图的用户评论文件~ 网页链接:http://zhushou.360.cn/ ...
- 爬取华为手机数据(六)
所用软件 我发现这个工具对于爬取测试是不错的,相比于Pycharm而言,工具的选择也是很重要的,合作共赢. 参考的学习来源 参考B站上的 https://www.bilibili.com/video/ ...
- 网易云词云python_Python3爬取网易云音乐评论制作词云!网易云评论人才辈出啊!...
主要思路 利用Python爬取网易云音乐中相应歌曲的所有评论,并利用这些评论制作歌曲的专属词云. 具体过程见相关文件中的源代码. 开发工具 Python版本:3.5.4 相关模块: requests模 ...
- 豆瓣电视剧评论的爬取以及进行情感分析+生成词云
很多时候我们要了解一部电视剧或电影的好坏时都会去豆瓣上查看评分和评论,本文基于豆瓣上对某一部电视剧评论的爬取,然后进行SnowNLP情感分析,最后生成词云,给人一个直观的印象 1. 爬取评论 以前段时 ...
- 爬虫之js加密破解抓取网易云音乐评论生成词云
js破解历程 前言 技能点 界面概况 静态网页 动态网页 页面解析 step1: 找参数 step2:分析js函数 step3:分析参数 step4: 校验 step5:转为python代码 编写爬虫 ...
- Python爬虫之js加密破解,抓取网易云音乐评论生成词云
js破解历程 前言 技能点 界面概况 静态网页动态网页 页面解析 step1: 找参数step2:分析js函数step3:分析参数step4: 校验step5:转为python代码 编写爬虫 很多人学 ...
- 爬取豆瓣电影短评并使用词云简单分析top50
先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...
最新文章
- 十个 Linux 新手管理员易犯错误
- Quickhit快速击键
- python excel行数_使用python计算excel中的行数
- Dbgrid 中表字段所在的列序号
- PHP $_REQUEST获取表单提交的代码
- C# OpenGL 环境配置和入门程序
- 设计模式java装饰模式范例_Java设计模式之装饰模式详解
- java泛型程序设计——反射和泛型
- 五、扩展Orchard(五) Writing a Content Part
- IOTA基金会宣布推出终端用户钱包Firefly
- MySQL快速上手[学习笔记](三)
- 动态路由之RIP协议、Bellman-Ford算法
- 计算机作业个人简历word,计算机毕业生个人简历模板word模板
- Redis中的lua脚本
- 康威生命游戏-蓝桥杯java
- krpano使用gyro2.js自定义陀螺仪
- 嵌入式linux根文件系统制作--busybox
- 树莓派烧写OpenWrt系统后外接华为ME909或移远EC20 4G LTE模块实现4G软路由即MiFi
- 上海亚商投顾:两市震荡引分化 汽车产业链获青睐
- FlexRay™ 协议控制器 (E-Ray)-03
热门文章
- express安装及其简单应用
- 一文看懂拉格朗日乘子法、KKT条件和对偶问题
- python123手机版-123个Python黑客工具,再也不用问女朋友要手机密码了
- h5builder android,将已有H5项目用Hbuilder打包生成Android原生安装包
- 多图预警!带你走进颠覆互联网企业的(2B)崇才科技
- Python bytes 反斜杠转义问题解决方法
- Java数据按照时间排序
- java break flag_Java break [flag]; 与continue [flag]; 区别
- 学习笔记(22):第一章: 路由与模板-Web前端技术与框架 3
- java秒嘀短信登录验证实例_java web实现手机短信验证码登录实例