利用在京东上爬取的商品评论做分析

1.读入数据

Python中读入数据,查看数据

import pandas as pd
import re
import os
os.chdir("C:/Users/Administrator/Desktop")
base_data =  pd.read_excel('A.xls')
base_data.head()

2.对数据进行处理

base_data.drop_duplicates(inplace=True)#删除重复值
base_data.info()
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False#定义过后可以显示中文sns.heatmap(base_data.isnull(), yticklabels=False, cbar=False, cmap='viridis', )  # yticklabels=False 不显示纵轴   cmap 颜色组
plt.title('缺失值查看')
plt.show()

把评论时间的字段进行修改,方便后续使用

base_data['评论时间']= base_data['评论时间'].astype(str)
base_data['评论时间']= base_data['评论时间'].apply(lambda x :re.sub("\D", "", x) )
base_data['评论时间'] = pd.to_datetime(base_data['评论时间'])# 将20200301转换为2021-03-01
base_data['评论时间'] = base_data['评论时间'].map(lambda x: 100*x.year + x.month) #只要年月例如202103
base_data.to_excel('C:\\Users\\Administrator\\Desktop\\test.xlsx') #把数据另存为桌面的xlsx格式

处理评论长度

import math
import numpy as np
base_data =  pd.read_excel('test.xlsx')
%time base_data['评论长度'] = base_data['评论内容'] .str.len()#增加字段:计算评论内容的字符长度
base_data['评论长度'] = base_data['评论长度'].astype(int)
base_data["评论长度"] = np.log10(base_data["评论长度"]) # 评论长度求对数

3.数据探索

# 进行单变量探索,绘制直方图
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False#定义过后可以显示中文
fig,ax = plt.subplots(nrows=1,ncols=5,figsize=(20,4))
base_data["回复数"].hist(ax=ax[0])
ax[0].set_title("Hist plot of 回复数")base_data["点赞数"].hist(ax=ax[1])
ax[1].set_title("Hist plot of 点赞数")base_data["图片数量"].hist(ax=ax[2])
ax[2].set_title("Hist plot of 图片数量")base_data["时间跨度"].hist(ax=ax[3])
ax[3].set_title("Hist plot of 时间跨度")base_data["评论长度"].hist(ax=ax[4])
ax[4].set_title("Hist plot of 评论长度")


对评论内容进行处理

import pandas as pd
import re
#去噪
r1 = '[\s+\.!\/_,$%^*(+\"\')]+|[::+——()?【】“”!,。?、~@#¥%……&*()]+'
r2 = '[^\u4e00-\u9fa5]'
base_data['评论内容1'] = base_data['评论内容'].str.replace(r1,'') #删除标点符号
base_data['评论内容1'] = base_data['评论内容'].str.replace(r2,'') #删除英文和数字
base_data['评论内容1'].drop_duplicates(inplace=True)#去除重复值
base_data['评论内容1']= base_data['评论内容1'].dropna() #删除标题中存在缺失值的行
base_data.index = range(base_data.shape[0])#恢复索引
data = base_data[base_data['评论内容1'].apply(len)>=4]#短句去除
data.shape

利用在京东上爬取的商品评论做分析相关推荐

  1. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

  2. 用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0. 主要流程 0. 数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步 ...

  3. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  4. python商品评论分析_用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...

  5. 爬取JD商品评论并数据可视化

    本文参考了知乎文章 https://zhuanlan.zhihu.com/p/60444767 思路 阅读文章后发现原来还可以通过抓取json的方式爬评论,不需要再去一个个数据去找页面标签等等复杂的操 ...

  6. 利用Python爬虫技术爬取京东商品评论

    这是我第一次接触python时,我们学校做的项目实训,其实整个项目实训过程很简单,并没有什么难度,认真学学就会. 首先,我们要明确我们的目标:从京东上爬取产品的评论.一般评论都是进行情感分析,但我还没 ...

  7. 利用python requests库爬取淘宝商品评论_python

    文章目录 一.起因 二.项目实现 1. 分析实现方式 2. 编码实现 3. 完整代码 三.思考与改进 一.起因 看到一篇文章,感觉自己可以动手试试 Python 不用selenium 带你高效爬取京东 ...

  8. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  9. 利用python与requests爬取猫眼上的电影数据

    @利用requests与pycharm爬取猫眼上排名前100的电影数据 首先是requests导包 源代码 import csv import reimport requests from reque ...

最新文章

  1. 任正非:华为5G是瞎猫碰死老鼠
  2. 2020 年度最佳的23个机器学习项目!(附源代码)
  3. 利用反射光电管 ITR9909 制作节能信标光电感应开关
  4. oracle实时监控触发邮件,利用EasySQLMAIL实现数据库订单监控和邮件发送
  5. 查看Linux的磁盘使用情况
  6. fortran语言和python_如何在Fortran中调用Python
  7. java面试题大全答案版文库_java高级面试题带答案
  8. mysql 集群与主从_Mysql集群和主从
  9. android评论数据如何返回@用户_教你如何用JavaScript来驯服服务端返回的数据
  10. 衔接UI线程和管理后台工作线程的类(多线程、异步调用)[转]
  11. maven内置属性详细说明
  12. 密码库LibTomCrypt学习记录——目录
  13. 游牛音乐网源码/音乐网网站平台源码
  14. 传智播客-刘意-java深入浅出精华版学习笔记Day02
  15. 格雷码与二进制码之间的相互转换
  16. python怎样用填充颜色_python中如何给图形填充颜色
  17. 机动目标运动分析——IMM篇
  18. bzoj千题计划268:bzoj3131: [Sdoi2013]淘金
  19. 2018计算机考研时间表,2018年考研时间与考试各科目的日程安排
  20. windows xp的密钥

热门文章

  1. React + Ant Design Pro项目实现keep-alive页签
  2. [好文精选] Behance 2019 设计趋势
  3. 【读书笔记】《写给大家看的设计书》
  4. NLP-准确率、精确率、召回率和F1值
  5. 理县“有福童享”“牵手圆梦 陪伴成长”关爱折翼天使志愿服务活动
  6. Java String知识复习及补充和包装类
  7. 大数据的应用场景你知道哪些?
  8. 神州优车开源业界领先的增量数据同步中间件——DataLink
  9. 神州优车拟41亿元收购宝沃汽车67%股权 1
  10. rop检查_我科成功实施首例全麻下小儿眼底荧光造影检查!