python商品评论分析_亚马逊产品情感评论分析
import requests
from lxml import etree
import re
import xlwt
from openpyxl import workbook # 写入Excel表所用
from openpyxl import load_workbook # 读取excel
# import matplotlib.pylab as plt
from xlrd import book
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
'Cookie': 'x-wl-uid=1DVw4k4T/jAduWIfwW2jvf029Ha4Bgv/AJGjP/yRfJTdq26dr7oDdeEBdb6zOPUl0ByfsaKJ3GUY=; session-id-time=2082729601l; session-id=457-7649276-4174543; csm-hit=tb:DAHATSQRZZBWHWD4ZXYP+s-T61YJHRDEC6Y6S2VMTVZ|1573355007668&t:1573355007668&adb:adblk_no; ubid-acbcn=459-2457809-1906210; session-token="4sZGQQPKw9CJUOzJFLsTdS3FtlpqIyp0hyvhXL6RMOchbDf7p7YLDEL90YFps2Hl80fBT6uPmzQ00meCLYxsrjuoabX3+kz7OB+CLw8GaAYZB8J9oBBcJLBUsGs6LLm/EHQht5Tm0IpOKR0hz0GGtATgcpJXDfRoEdvNol+CUc3mXOMA5KmEfFWstdV+KwyzSGrGW+DdrAftisgZMl2stffIdhcOLh53B4tJwsR5awKqPrOqZF8uJg=="; lc-acbcn=zh_CN; i18n-prefs=CNY'
} #添加headers模拟浏览器防止被发现
hao = []
zhong = []
cha = [] #获取到的评论数存入里面
all_info_list = []
def parge_page(url):
response = requests.get(url=url,headers=headers)
#print(response) #测试一下看看也没有请求到网页
text = response.text
html = etree.HTML(text)
quan = html.xpath('//div[@id="cm_cr-review_list"]/div') #获取到每个人的评论
for i in quan:
pinfen1 = i.xpath('.//span[@class="a-icon-alt"]/text()') #获取到每个人的评分几颗星
pinlun = i.xpath('.//span[@data-hook="review-body"]/span/text()') #获取到每个人评论的字
time = i.xpath('.//span[@data-hook="review-date"]/text()')
color = i.xpath('.//a[@ data-hook="format-strip"]/text()')
# size = i.xpath('.//i[@ class="a-icon-text-separator"]/text()')
#print(pinlun)
for pinfen in pinfen1:
#print(pinlun)
a = re.sub('颗星','',pinfen) #使用正则把后面不用的字符串替换为空,显得好看
#print(a)
list = {'评论':pinlun,'颜色和尺寸':color,'评分': a,'日期':time}
print(list)
info_list = [pinlun, color, a,time]
all_info_list.append(info_list)
# if a < str(2.0): #判断,小于3颗星就存入差评
# cha.append(a)
# elif a < str(4.0): #小于4颗星就存入中评
# zhong.append(a)
# else:
# hao.append(a) #否则都是好评
def main():
# url = 'https://www.amazon.cn/product-reviews/B074MFRPWL'
# parge_page(url)
for x in range(10): #获取100条评论,一页10条
url = 'https://www.amazon.com/product-reviews/B07XGK5QXD/?pageNumber='+ str(x) #网站:
if __name__ == '__main__':
main() # 调用main方法
book = xlwt.Workbook(encoding='utf-8')
sheet = book.add_sheet('sheet1')
head = ['评论', '颜色和尺寸', '评分', '日期'] # 表头
for h in range(len(head)):
sheet.write(0, h, head[h]) # 写入表头
i = 1
for list in all_info_list:
j = 0
for data in list:
sheet.write(i, j, data)
j += 1
i += 1
book.save('评论信息.xlsx')
print('完成',book)
python商品评论分析_亚马逊产品情感评论分析相关推荐
- 亚马逊产品情感评论分析
爬取亚马逊网站评论信息并存入excel表 import requests from lxml import etree import re import xlwtfrom openpyxl impor ...
- springboot2 war页面放在那_亚马逊产品页面如何优化?这些技巧要知道
#跨境电商# #电商运营# #创业# 亚马逊是增长最快的在线销售平台之一.如果卖家想获得尽可能多的潜在客户,可以在亚马逊上优化你的listing. 下面将为卖家介绍亚马逊产品页面优化的7个技巧,希望可 ...
- [简单的python爬虫实战] ,查询亚马逊产品的关键词排名 [日本站]
今天回顾了一下定向爬虫的编写,想起以前的工作需求,有感而发写了一个简单的爬虫 爬虫功能: 这个爬虫脚本是根据之前在做亚马逊销售的时候的工作需要,从而编写的代码.用以检查产品的关键词排名,从而判断是否需 ...
- 亚马逊产品进行评论后没有显示是什么原因?
1.违反亚马逊服务条款. 亚马逊将根据其政策违规程度,采取阻止其在评论界面显示.删除该评论或限制评论数量等惩罚性措施. 2.审核时间较长. 有时评论审核需要1-3天的时间,甚至评论时间还可能长达两周, ...
- ul li前面的点怎么变大_亚马逊产品被投诉需要UL认证,该如何办理?
据了解,近期受到亚马逊刮起了严查 UL 认证的风而且是狂热节拍,有卖家反映自己的产品被亚马逊下架了,并且收到了一份邮件通知,由于产品缺少 UL 认证被 暂停销售. 现在亚马逊平台竞争也愈显激烈,不合规 ...
- 用EXCEL分析《亚马逊智能产品评论》
一.业务分析 数据分析的前提是,对业务流程.业务指标和业务分析方法的熟悉和精通.因此,为了探究<亚马逊智能产品评论>这一数据集能提供怎样有价值的信息,需要对电商领域的业务流程.业务指标和业 ...
- paperwhite3翻页_亚马逊Kindle Paperwhite第二代评论-以及新的Kindle软件更新
paperwhite3翻页 I'm a longtime Kindle fan. Love it. It's not a tablet, not a computer, my Paperwhite K ...
- Python实现通过ASIN爬取亚马逊产品评论
Python实现通过ASIN爬取亚马逊产品评论 一.最近一直在研究爬取亚马逊评论相关的信息,亚马逊的反爬机制还是比较严格的,时不时就封cookie啊封ip啊啥的.而且他们的网页排版相对没有那么规则,所 ...
- 618购物节,我用python逛淘宝、亚马逊,摸鱼被领导发现了
事情是这样的 下午两点,闷热的会议室 空调稳稳的坐在那里 好像睡着了 领导的嘴在幻灯片刺眼亮光的映照下 非常斗志昂扬的一张一合 我敏锐的察觉到领导突然扬起的声调 若有所思的对着他深深的点了点头 然后, ...
最新文章
- 讲解 Redis 的一篇深度好文!
- Java 注解用法详解——@SuppressWarnings
- 产业结盟 跨界共赢 | 新华三成为“中国联通物联网产业联盟” 首批成员
- AI:2020年6月23日北京智源大会顶级大佬邝子平、李开复 、陆奇、张亚勤、曹勖文进行云上圆桌论坛《探讨AI与创业》
- linux系统编译安装mysql_Linux下编译安装MySQL
- python找出一个数的所有因子_python – 找到最大素因子的正确算法
- P5024-保卫王国【动态dp,最小覆盖集】
- java trim all,[JAVA中各种去除空格][java string.trim()][str.replaceAll去空格]
- Linux之less命令
- 2.java运算符与逻辑控制
- 【优化算法】白头鹰搜索优化算法(BES)【含Matlab源码 1381期】
- canvas应用之各种游戏转盘
- 2020届秋招中兴笔试题
- GEE开发之Landsat8计算MNDWI和数据分析
- 正点原子 任天堂_任天堂20年前,任天堂用纸Mario改变了RPG风格
- 图片文字怎么合并转发_微信怎么转发别人的图片带文字
- flac转mp3的方法
- Nginx 入门指南
- iic的SDA引脚偶尔有毛刺(尖峰)是怎么回事。
- 【C语言学习】输入输出
热门文章
- MATLAB可视化实战系列(二十四)-三维可视化如何利用圆锥图显示向量场?
- Scrapy实战篇(一)之爬取链家网成交房源数据(上)
- mapreduce编程实例(3)-求平均值
- python运行一个项目_Django 项目创建到启动(最全最详细的第一个项目)
- 【Linux】8_存储管理逻辑卷LVM
- 内存学习――为什么需要虚拟内存
- Python编程基础:第四十八节 对象作为参数Objects as Argument
- Flink JAR包上传和运行逻辑
- 自底向上构建知识图谱全过程
- 重磅!GitHub发布开源负载均衡组件GLB