这次主要是进行京东具体某个店铺手机评论内容的爬取。

本来是跟上一起写的,只是没有时间一块做总结,现在写上来是有点生疏了。这里是暂时获取一个商品的评论内容


爬取的字段:评论内容,购买机型,评论人

上代码:

# -*- coding: utf-8 -*-
# @Time    : 2017/9/18 23:16
# @Author  : 蛇崽
# @Email   : 17193337679@163.com
# @File    : TaoBaoZUK1Detail.py zuk z1 详情页内容import time
from selenium import webdriver
from lxml import etreechromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
browser = webdriver.Chrome(chromedriver)# 获取第一页的数据
def gethtml():url = "https://detail.tmall.com/item.htm?id=531993957001&skuId=3609796167425&user_id=268451883&cat_id=2&is_b=1&rn=71b9b0aeb233411c4f59fe8c610bc34b"browser.get(url)time.sleep(5)browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)browser.execute_script('window.scrollBy(0,5000)')time.sleep(2)# 累计评价btnNext = browser.find_element_by_xpath('//*[@id="J_TabBar"]/li[3]/a')btnNext.click()html = browser.page_sourcereturn htmldef getcomments(html):source = etree.HTML(html)commens = source.xpath("//*[@id='J_TabBar']/li[3]/a/em/text()")print('评论数一:',commens)# 将评论转为int类型commens = (int(commens[0]) / 20) + 1# 获取到总评论print('评论数:',int(commens))return  int(commens)# print(html)
def parseHtml(html):html = etree.HTML(html)commentlist = html.xpath("//*[@class='rate-grid']/table/tbody")for comment in commentlist:# 评论vercomment = comment.xpath("./tr/td[@class='tm-col-master']/div[@class='tm-rate-content']/div[@class='tm-rate-fulltxt']/text()")# 机器类型verphone = comment.xpath("./tr/td[@class='col-meta']/div[@class='rate-sku']/p[@title]/text()")print(vercomment)print(verphone)# 用户(头尾各一个字,中间用****代替)veruser = comment.xpath("./tr/td[@class='col-author']/div[@class='rate-user-info']/text()")print(veruser)print(len(commentlist))# parseHtml(html)
# print('*'*20)def nextbuttonwork(num):if num != 0 :browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)# browser.find_element_by_css_selector('#J_Reviews > div > div.rate-page > div > a:nth-child(6)').click()try:browser.find_element_by_css_selector('#J_Reviews > div > div.rate-page > div > a:last-child').click()# browser.find_element_by_xpath('//*[@id="J_Reviews"]/div/div[7]/div/a[3][contains(text(), "下一页")]').click()except:pass# browser.find_element_by_xpath('//*[@id="J_Reviews"]/div/div[7]/div/a[3][contains(text(), "下一页")]').click()time.sleep(2)browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)browser.execute_script('window.scrollBy(0,5000)')time.sleep(2)html = browser.page_sourceparseHtml(html)print('nextclick finish  ')def selenuim_work(html):print('selenuim start ... ')parseHtml(html)nextbuttonwork(1)print('selenuim  end....')passdef gettotalpagecomments(comments):html = gethtml()for i in range(0,comments):selenuim_work(html)data = gethtml()
# 得到评论
commens = getcomments(data)
# 根据评论内容进行遍历
gettotalpagecomments(commens)

这里头还是好的

不足:

这里主要进行了单页的爬取, 下一页的按钮还是没有获取到,不知道为什么获取不到,可能是axaj的原因吧, 另外想说一下大公司确实tm牛, 当然了作为爬虫工程师,这在工作中是不可避免的。还麻烦写京东商品评论的帮忙指导一下小白。

python3[爬虫实战] 使用selenium,xpath爬取京东手机(下)相关推荐

  1. selenium/requess爬取京东手机商品的详细信息1~selenium练习版

    selenium/requess爬取京东手机商品的详细信息1~selenium!! 前言 因为我也是个学生,所以代码可能会有点繁琐,我们都是超能100,一点点积累进步,其实有很多的地方可以简化,因为我 ...

  2. 【爬虫】用Selenium+PyQuery爬取京东商城

    文章目录 前言 1. 项目预览 2. 库的引入 3. 爬取流程 4. 驱动浏览器搜索关键字 4. 1页面分析 4.2 驱动浏览器代码 5. 解析页面 5.1 页面分析 5.2 页面解析代码 6. 保存 ...

  3. 用Selenium+xpath爬取京东商城

    前言 这两天原本想在淘宝上爬点东西进行分析的,但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意.先是被数据的格式搞得焦头烂额,好不容易写好了测试一页的代码,准备美滋滋开始大显身手,爬取多页时,发现竟然 ...

  4. 爬虫实战:Requests+BeautifulSoup 爬取京东内衣信息并导入表格(python)

    准备工作 假如我们想把京东内衣类商品的信息全部保存到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用python爬虫实现. 第一步:分析网页地址 起始网页地址 起始网页地址 https:// ...

  5. python3爬虫实战(一)爬取创业邦创投库

    从创业邦网站拉取创业公司数据 入口链接:http://www.cyzone.cn/event/list-764-0-1-0-0-0-0/,要求抓取前30页. 抓取以下信息:公司名称,详情URL,当前融 ...

  6. python3爬虫系列16之多线程爬取汽车之家批量下载图片

    python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言 上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...

  7. python爬虫实战(一)--爬取知乎话题图片

    原文链接python爬虫实战(一)–爬取知乎话题图片 前言 在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...

  8. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  9. Python爬虫实战系列(一)-request爬取网站资源

    Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...

最新文章

  1. DevOps 工具链可推动你的创新计划!
  2. nGrinder性能测试框架安装步骤
  3. EF 5.0 帮助类 增删改查
  4. 从数据库中取出数据表,导入并生成excel
  5. (01)OpenGL es中只在指定区域渲染view
  6. 计算机的存储容量以什么为单位,计算机中用来表示内存储器容量大小的基本单位是什么?...
  7. Ubuntu桌面版QQ安装 Linux/UbuntuQQ安装/centos QQ安装教程 2019/10/24
  8. Java使用qq邮箱发送email
  9. 探索SpringCloud+ES实现高性能全文检索
  10. 乒乓球比赛赛程_乒乓球赛程_如何组织一场乒乓球赛
  11. matplotlib设置x轴和y轴 设置
  12. java中display中的属性_全面解析display属性
  13. 【UE4】给游戏制作一个简易的小地图
  14. maya 中的 cmds.scriptJob 命令
  15. 聚播微信多开客服系统二次开发SDK服务端接口
  16. SpringBoot基础学习之整合Swagger框架(上篇)
  17. java保留字详解_下列( )不是Java中的保留字?
  18. python输出为什么会有b_【已解决】为什么Python打印数据显示为b‘XXX’格式
  19. rtsp有没有好使_求几个可用的稍微清晰点的RTSP播放源,最好是上海的!
  20. vos3000及外呼系统编码所占带宽详细说明

热门文章

  1. SketchUp pro(草图大师) 2017中文版
  2. 构建AIDA-CoNLL数据集操作指南
  3. OpenSSL RSA加密模式
  4. APP推广的社会化营销渠道
  5. 用51单片机实现简单智能家居
  6. 直流稳压电源制作及管理方法详解
  7. SCMS_DOC_READ_FILES 下载成文件夹的处理方式
  8. 【经典原创】分享几个好用到爆的Python内置模块
  9. CA证书理解?CA证书的作用?
  10. android qq音乐锁屏,仿照网易云和QQ音乐的锁屏效果