import requests

from lxml import etree

import re

import xlwt

from openpyxl import workbook # 写入Excel表所用

from openpyxl import load_workbook # 读取excel

# import matplotlib.pylab as plt

from xlrd import book

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',

'Cookie': 'x-wl-uid=1DVw4k4T/jAduWIfwW2jvf029Ha4Bgv/AJGjP/yRfJTdq26dr7oDdeEBdb6zOPUl0ByfsaKJ3GUY=; session-id-time=2082729601l; session-id=457-7649276-4174543; csm-hit=tb:DAHATSQRZZBWHWD4ZXYP+s-T61YJHRDEC6Y6S2VMTVZ|1573355007668&t:1573355007668&adb:adblk_no; ubid-acbcn=459-2457809-1906210; session-token="4sZGQQPKw9CJUOzJFLsTdS3FtlpqIyp0hyvhXL6RMOchbDf7p7YLDEL90YFps2Hl80fBT6uPmzQ00meCLYxsrjuoabX3+kz7OB+CLw8GaAYZB8J9oBBcJLBUsGs6LLm/EHQht5Tm0IpOKR0hz0GGtATgcpJXDfRoEdvNol+CUc3mXOMA5KmEfFWstdV+KwyzSGrGW+DdrAftisgZMl2stffIdhcOLh53B4tJwsR5awKqPrOqZF8uJg=="; lc-acbcn=zh_CN; i18n-prefs=CNY'

} #添加headers模拟浏览器防止被发现

hao = []

zhong = []

cha = [] #获取到的评论数存入里面

all_info_list = []

def parge_page(url):

response = requests.get(url=url,headers=headers)

#print(response) #测试一下看看也没有请求到网页

text = response.text

html = etree.HTML(text)

quan = html.xpath('//div[@id="cm_cr-review_list"]/div') #获取到每个人的评论

for i in quan:

pinfen1 = i.xpath('.//span[@class="a-icon-alt"]/text()') #获取到每个人的评分几颗星

pinlun = i.xpath('.//span[@data-hook="review-body"]/span/text()') #获取到每个人评论的字

time = i.xpath('.//span[@data-hook="review-date"]/text()')

color = i.xpath('.//a[@ data-hook="format-strip"]/text()')

# size = i.xpath('.//i[@ class="a-icon-text-separator"]/text()')

#print(pinlun)

for pinfen in pinfen1:

#print(pinlun)

a = re.sub('颗星','',pinfen) #使用正则把后面不用的字符串替换为空,显得好看

#print(a)

list = {'评论':pinlun,'颜色和尺寸':color,'评分': a,'日期':time}

print(list)

info_list = [pinlun, color, a,time]

all_info_list.append(info_list)

# if a < str(2.0): #判断,小于3颗星就存入差评

# cha.append(a)

# elif a < str(4.0): #小于4颗星就存入中评

# zhong.append(a)

# else:

# hao.append(a) #否则都是好评

def main():

# url = 'https://www.amazon.cn/product-reviews/B074MFRPWL'

# parge_page(url)

for x in range(10): #获取100条评论,一页10条

url = 'https://www.amazon.com/product-reviews/B07XGK5QXD/?pageNumber='+ str(x) #网站:

if __name__ == '__main__':

main() # 调用main方法

book = xlwt.Workbook(encoding='utf-8')

sheet = book.add_sheet('sheet1')

head = ['评论', '颜色和尺寸', '评分', '日期'] # 表头

for h in range(len(head)):

sheet.write(0, h, head[h]) # 写入表头

i = 1

for list in all_info_list:

j = 0

for data in list:

sheet.write(i, j, data)

j += 1

i += 1

book.save('评论信息.xlsx')

print('完成',book)

python商品评论分析_亚马逊产品情感评论分析相关推荐

  1. 亚马逊产品情感评论分析

    爬取亚马逊网站评论信息并存入excel表 import requests from lxml import etree import re import xlwtfrom openpyxl impor ...

  2. springboot2 war页面放在那_亚马逊产品页面如何优化?这些技巧要知道

    #跨境电商# #电商运营# #创业# 亚马逊是增长最快的在线销售平台之一.如果卖家想获得尽可能多的潜在客户,可以在亚马逊上优化你的listing. 下面将为卖家介绍亚马逊产品页面优化的7个技巧,希望可 ...

  3. [简单的python爬虫实战] ,查询亚马逊产品的关键词排名 [日本站]

    今天回顾了一下定向爬虫的编写,想起以前的工作需求,有感而发写了一个简单的爬虫 爬虫功能: 这个爬虫脚本是根据之前在做亚马逊销售的时候的工作需要,从而编写的代码.用以检查产品的关键词排名,从而判断是否需 ...

  4. 亚马逊产品进行评论后没有显示是什么原因?

    1.违反亚马逊服务条款. 亚马逊将根据其政策违规程度,采取阻止其在评论界面显示.删除该评论或限制评论数量等惩罚性措施. 2.审核时间较长. 有时评论审核需要1-3天的时间,甚至评论时间还可能长达两周, ...

  5. ul li前面的点怎么变大_亚马逊产品被投诉需要UL认证,该如何办理?

    据了解,近期受到亚马逊刮起了严查 UL 认证的风而且是狂热节拍,有卖家反映自己的产品被亚马逊下架了,并且收到了一份邮件通知,由于产品缺少 UL 认证被 暂停销售. 现在亚马逊平台竞争也愈显激烈,不合规 ...

  6. 用EXCEL分析《亚马逊智能产品评论》

    一.业务分析 数据分析的前提是,对业务流程.业务指标和业务分析方法的熟悉和精通.因此,为了探究<亚马逊智能产品评论>这一数据集能提供怎样有价值的信息,需要对电商领域的业务流程.业务指标和业 ...

  7. paperwhite3翻页_亚马逊Kindle Paperwhite第二代评论-以及新的Kindle软件更新

    paperwhite3翻页 I'm a longtime Kindle fan. Love it. It's not a tablet, not a computer, my Paperwhite K ...

  8. Python实现通过ASIN爬取亚马逊产品评论

    Python实现通过ASIN爬取亚马逊产品评论 一.最近一直在研究爬取亚马逊评论相关的信息,亚马逊的反爬机制还是比较严格的,时不时就封cookie啊封ip啊啥的.而且他们的网页排版相对没有那么规则,所 ...

  9. ​618购物节,我用python逛淘宝、亚马逊,摸鱼被领导发现了

    事情是这样的 下午两点,闷热的会议室 空调稳稳的坐在那里 好像睡着了 领导的嘴在幻灯片刺眼亮光的映照下 非常斗志昂扬的一张一合 我敏锐的察觉到领导突然扬起的声调 若有所思的对着他深深的点了点头 然后, ...

最新文章

  1. 讲解 Redis 的一篇深度好文!
  2. Java 注解用法详解——@SuppressWarnings
  3. 产业结盟 跨界共赢 | 新华三成为“中国联通物联网产业联盟” 首批成员
  4. AI:2020年6月23日北京智源大会顶级大佬邝子平、李开复 、陆奇、张亚勤、曹勖文进行云上圆桌论坛《探讨AI与创业》
  5. linux系统编译安装mysql_Linux下编译安装MySQL
  6. python找出一个数的所有因子_python – 找到最大素因子的正确算法
  7. P5024-保卫王国【动态dp,最小覆盖集】
  8. java trim all,[JAVA中各种去除空格][java string.trim()][str.replaceAll去空格]
  9. Linux之less命令
  10. 2.java运算符与逻辑控制
  11. 【优化算法】白头鹰搜索优化算法(BES)【含Matlab源码 1381期】
  12. canvas应用之各种游戏转盘
  13. 2020届秋招中兴笔试题
  14. GEE开发之Landsat8计算MNDWI和数据分析
  15. 正点原子 任天堂_任天堂20年前,任天堂用纸Mario改变了RPG风格
  16. 图片文字怎么合并转发_微信怎么转发别人的图片带文字
  17. flac转mp3的方法
  18. Nginx 入门指南
  19. iic的SDA引脚偶尔有毛刺(尖峰)是怎么回事。
  20. 【C语言学习】输入输出

热门文章

  1. MATLAB可视化实战系列(二十四)-三维可视化如何利用圆锥图显示向量场?
  2. Scrapy实战篇(一)之爬取链家网成交房源数据(上)
  3. mapreduce编程实例(3)-求平均值
  4. python运行一个项目_Django 项目创建到启动(最全最详细的第一个项目)
  5. 【Linux】8_存储管理逻辑卷LVM
  6. 内存学习――为什么需要虚拟内存
  7. Python编程基础:第四十八节 对象作为参数Objects as Argument
  8. Flink JAR包上传和运行逻辑
  9. 自底向上构建知识图谱全过程
  10. 重磅!GitHub发布开源负载均衡组件GLB