python3[爬虫实战] 使用selenium，xpath爬取京东手机（下）

这次主要是进行京东具体某个店铺手机评论内容的爬取。

本来是跟上一起写的，只是没有时间一块做总结，现在写上来是有点生疏了。这里是暂时获取一个商品的评论内容

爬取的字段：评论内容，购买机型，评论人

上代码：

# -*- coding: utf-8 -*-
# @Time    : 2017/9/18 23:16
# @Author  : 蛇崽
# @Email   : 17193337679@163.com
# @File    : TaoBaoZUK1Detail.py zuk z1 详情页内容import time
from selenium import webdriver
from lxml import etreechromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
browser = webdriver.Chrome(chromedriver)# 获取第一页的数据
def gethtml():url = "https://detail.tmall.com/item.htm?id=531993957001&skuId=3609796167425&user_id=268451883&cat_id=2&is_b=1&rn=71b9b0aeb233411c4f59fe8c610bc34b"browser.get(url)time.sleep(5)browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)browser.execute_script('window.scrollBy(0,5000)')time.sleep(2)# 累计评价btnNext = browser.find_element_by_xpath('//*[@id="J_TabBar"]/li[3]/a')btnNext.click()html = browser.page_sourcereturn htmldef getcomments(html):source = etree.HTML(html)commens = source.xpath("//*[@id='J_TabBar']/li[3]/a/em/text()")print('评论数一：',commens)# 将评论转为int类型commens = (int(commens[0]) / 20) + 1# 获取到总评论print('评论数：',int(commens))return  int(commens)# print(html)
def parseHtml(html):html = etree.HTML(html)commentlist = html.xpath("//*[@class='rate-grid']/table/tbody")for comment in commentlist:# 评论vercomment = comment.xpath("./tr/td[@class='tm-col-master']/div[@class='tm-rate-content']/div[@class='tm-rate-fulltxt']/text()")# 机器类型verphone = comment.xpath("./tr/td[@class='col-meta']/div[@class='rate-sku']/p[@title]/text()")print(vercomment)print(verphone)# 用户(头尾各一个字，中间用****代替)veruser = comment.xpath("./tr/td[@class='col-author']/div[@class='rate-user-info']/text()")print(veruser)print(len(commentlist))# parseHtml(html)
# print('*'*20)def nextbuttonwork(num):if num != 0 :browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)# browser.find_element_by_css_selector('#J_Reviews > div > div.rate-page > div > a:nth-child(6)').click()try:browser.find_element_by_css_selector('#J_Reviews > div > div.rate-page > div > a:last-child').click()# browser.find_element_by_xpath('//*[@id="J_Reviews"]/div/div[7]/div/a[3][contains(text(), "下一页")]').click()except:pass# browser.find_element_by_xpath('//*[@id="J_Reviews"]/div/div[7]/div/a[3][contains(text(), "下一页")]').click()time.sleep(2)browser.execute_script('window.scrollBy(0,3000)')time.sleep(2)browser.execute_script('window.scrollBy(0,5000)')time.sleep(2)html = browser.page_sourceparseHtml(html)print('nextclick finish  ')def selenuim_work(html):print('selenuim start ... ')parseHtml(html)nextbuttonwork(1)print('selenuim  end....')passdef gettotalpagecomments(comments):html = gethtml()for i in range(0,comments):selenuim_work(html)data = gethtml()
# 得到评论
commens = getcomments(data)
# 根据评论内容进行遍历
gettotalpagecomments(commens)

这里头还是好的

不足：

这里主要进行了单页的爬取，下一页的按钮还是没有获取到，不知道为什么获取不到，可能是axaj的原因吧，另外想说一下大公司确实tm牛，当然了作为爬虫工程师，这在工作中是不可避免的。还麻烦写京东商品评论的帮忙指导一下小白。

python3[爬虫实战] 使用selenium，xpath爬取京东手机（下）相关推荐

selenium/requess爬取京东手机商品的详细信息1~selenium练习版
selenium/requess爬取京东手机商品的详细信息1~selenium!! 前言因为我也是个学生,所以代码可能会有点繁琐,我们都是超能100,一点点积累进步,其实有很多的地方可以简化,因为我 ...
【爬虫】用Selenium+PyQuery爬取京东商城
文章目录前言 1. 项目预览 2. 库的引入 3. 爬取流程 4. 驱动浏览器搜索关键字 4. 1页面分析 4.2 驱动浏览器代码 5. 解析页面 5.1 页面分析 5.2 页面解析代码 6. 保存 ...
用Selenium+xpath爬取京东商城
前言这两天原本想在淘宝上爬点东西进行分析的,但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意.先是被数据的格式搞得焦头烂额,好不容易写好了测试一页的代码,准备美滋滋开始大显身手,爬取多页时,发现竟然 ...
爬虫实战：Requests+BeautifulSoup 爬取京东内衣信息并导入表格（python）
准备工作假如我们想把京东内衣类商品的信息全部保存到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用python爬虫实现. 第一步:分析网页地址起始网页地址起始网页地址 https:// ...
python3爬虫实战（一）爬取创业邦创投库
从创业邦网站拉取创业公司数据入口链接:http://www.cyzone.cn/event/list-764-0-1-0-0-0-0/,要求抓取前30页. 抓取以下信息:公司名称,详情URL,当前融 ...
python3爬虫系列16之多线程爬取汽车之家批量下载图片
python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...
python爬虫实战（一）--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片前言在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
Python 爬虫实战，模拟登陆爬取数据
Python 爬虫实战,模拟登陆爬取数据从0记录爬取某网站上的资源连接: 模拟登陆爬取数据保存到本地结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装略安装r ...
Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期文章目录 Python爬虫实战系列(一)-request爬取网站资源前言一.request库是什么? 二 ...

python3[爬虫实战] 使用selenium，xpath爬取京东手机（下）

这次主要是进行京东具体某个店铺手机评论内容的爬取。

爬取的字段：评论内容，购买机型，评论人

这里头还是好的

不足：

python3[爬虫实战] 使用selenium，xpath爬取京东手机（下）相关推荐

最新文章

热门文章