【爬虫】用Selenium+PyQuery爬取京东商城

文章目录

前言
1. 项目预览
2. 库的引入
3. 爬取流程
4. 驱动浏览器搜索关键字
- 4. 1页面分析
- 4.2 驱动浏览器代码
5. 解析页面
- 5.1 页面分析
- 5.2 页面解析代码
6. 保存到数据库
7. 翻页
- 7.1 页面分析
- 7.2 翻页代码
8. 完整代码

前言

本篇文章是在学习崔庆才教学视频16课时后写的。教学视频中爬取的是淘宝，由于我发现淘宝需要登录，就换用了京东商城，但发现京东商城的难度一点也不必淘宝的低，最后搞了一下午才完成。淘宝的数据是一次性全部获取的，而京东商城的数据分两次获取：先加载一般的数据，当鼠标滚动框下滑到一定位置时再通过ajax加载余下的数据。
本次爬取京东商城的手机信息（商品名称，商品图片，商品价格，评价数，店名），并把它存入MongoDB中。本次爬取的都是索引界面的信息，没有深入去爬取详情界面的信息，

1. 项目预览

项目目录

数据库

2. 库的引入

创建spider_jd.py文件，并把下面的引用加入到文件中，要确保安装好
注：如果selenium驱动不了chrome浏览器，可能是没有下载chromedriver，百度下载一个就好

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from pyquery import PyQuery as pq
from urllib.parse import urlencode
import requests
from config_jd import *
import pymongo

3. 爬取流程

1.使用selenium驱动浏览器，打开京东，在搜索框中输入关键字，点击搜索按钮
2.获取并解析页面，获得自己想要的数据
3.将数据存入mongodb中
4.翻页，继续爬取下一页内容

4. 驱动浏览器搜索关键字

4. 1页面分析

我们首先要用webdriver，打开浏览器，进入到京东首页，然后获取到搜索栏和确定按钮，然后驱动浏览器输入关键字，并搜索

搜索栏：

确定按钮：

4.2 驱动浏览器代码

spider_jd.py

    KEYWORD = '手机'  #设置关键字，用于搜索browser = webdriver.Chrome()  #获取浏览器对象wait = WebDriverWait(browser, 10)  #显式等待#搜索函数，用于第一次搜索某个关键字def search():try:#驱动浏览器打开京东商城browser.get('https://www.jd.com')#显示等待，获取到文本框，#key为搜索框的idinput = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#key')))#显示等待，获取搜索按钮，#search > div > div.form > button 为搜索框的css选择器submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#search > div > div.form > button')))#向文本框中输入关键字input.send_keys(KEYWORD)#点击提交按钮submit.click()#将浏览器，滚动条向下滚动scroll()#获取数据，这里先获取第一页get_products(1)#获取总页数,显示等待total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')))return total.textexcept TimeoutError:#如果发生超时错误，递归调用return search()

#该方法用于驱动浏览器向下滚动，出发ajax请求，这里中间会让进程睡几秒中，给浏览器加载页面的时间def scroll():js = 'window.scrollTo(0,6000)'#向下滚动页面browser.execute_script(js)#让进城睡上几秒，给浏览器加载页面time.sleep(3)js = 'window.scrollTo(0,12000)'browser.execute_script(js)time.sleep(2)

5. 解析页面

5.1 页面分析

京东的数据是分两次返回的，首先返回30条数据

当你继续往下翻时，会通过ajax返回另外30条数据，下图是请求的参数。我们在获取第一部分的信息后，需要使用驱动浏览器滚动条向下滚，出发ajax请求，然后通过requests获取ajax请求的信息
注意这里page信息，我们正常上看的一页，对应着后台代码的两页。

5.2 页面解析代码

#获取页面商品信息
def get_products(page):#等待第一次数据加载完wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_goodsList > ul > li')))#获取页面信息html = browser.page_source#使用pyquery解析页面，页面中商品信息在li中doc = pq(html)items = doc('#J_goodsList > ul > li').items()#挨个解析商品，通过find()函数和css选择器，获取标题，图片，价格，评论数，店家信息#快捷获取选择器的方法：chrome浏览器，F12，右击想要获取的那个标签，右击->Copy->copy selector，即可直接获得选择器for item in items:product = {'title': item.find(' div > div.p-name.p-name-type-2 > a > em').text().replace('\n',''),'image': item.find(' div > div.p-img > a > img').attr('src'),'price': item.find(' div > div.p-price > strong').text(),'commit': item.find(' div > div.p-commit > strong > a').text()[:-2],'shop': item.find(' div > div.p-shop > span > a').text()}#打印并保存到mongodb中print(product)save_to_mongo(product)#下面开始对获取第二批的信息，data为请求的参数#这里是第二次加载页面，page应该称2data = {'keyword': KEYWORD,'enc': 'utf-8','qrst': '1','rt': '1','stop': '1','vt': '2','wq': KEYWORD,'stock': '1','page': page*2,'s': '133','scrolling': 'y','tpl': '1_M',}#记得传入请求头，用自己的浏览器信息headers = {'Referer': 'https://search.jd.com/Search?keyword=%E7%BE%8E%E9%A3%9F&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E7%BE%8E%E9%A3%9F&stock=1&page=3&s=55&click=0','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}#请求的链接url = 'https://search.jd.com/s_new.php?'+urlencode(data)#剩下的操作就和上面一模一样了response = requests.get(url, headers = headers)doc = pq(response.text)items = doc('#J_goodsList > ul > li').items()for item in items:product = {'title': item.find(' div > div.p-name.p-name-type-2 > a > em').text().replace('\n', ''),'image': item.find(' div > div.p-img > a > img').attr('src'),'price': item.find(' div > div.p-price > strong').text(),'commit': item.find(' div > div.p-commit > strong > a').text()[:-2],'shop': item.find(' div > div.p-shop > span > a').text()}print(product)save_to_mongo(product)

6. 保存到数据库

创建config_jd.py
输入如下内容

MONGO_URL='localhost'
MONGO_DB='jingdong'
MONGO_TABLE='jingdong'

打开spider_jd.py

#保存结果至MongoDB中
def save_to_mongo(result):if result and db[MONGO_TABLE].insert(result):print('存储到MongoDB成功', result)return Truereturn False

7. 翻页

7.1 页面分析

我们需要获取输入框和点击按钮，想输入框内容传入下页数字，然后点击按钮

7.2 翻页代码

spider_jd.py

def next_page(page_number):try:##先将页面向下滚，确保页面内容刷新出来scroll()#获取文本框input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > input')))#获取确定按钮submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > a')))#将文本框内容情况，然后传入页数，并点击按钮input.clear()input.send_keys(page_number)submit.click()#显式等待，判断页面是否跳转wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.curr'),str(page_number)))#开始获取数据get_products(page_number)except TimeoutError:return next_page(page_number)

#主函数
def main():#爬取第一页并返回页数总数total = int(search())#这里是爬取页数for i in range(2, total):next_page(i)
if __name__ == '__main__':main()

8. 完整代码

spider_jd.py

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from pyquery import PyQuery as pq
from urllib.parse import urlencode
import requests
from config_jd import *
import pymongo
#设置关键字，用于搜索
KEYWORD = '手机'
#获取浏览器对象
browser = webdriver.Chrome()
#显式等待
wait = WebDriverWait(browser, 10)client = pymongo.MongoClient(MONGO_URL, connect=False) #多进程时设置connect=False，使每个进程在执行时才启动链接，否则会出现警告，
db = client[MONGO_DB]def search():try:#驱动浏览器打开京东商城browser.get('https://www.jd.com')#显示等待，获取到文本框，#key为搜索框的idinput = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#key')))#显示等待，获取搜索按钮，#search > div > div.form > button 为搜索框的css选择器submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#search > div > div.form > button')))#向文本框中输入关键字input.send_keys(KEYWORD)#点击提交按钮submit.click()#将浏览器，滚动条向下滚动scroll()#获取数据get_products(1)#获取总页数,显示等待total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')))return total.textexcept TimeoutError:#如果发生超时错误，递归调用return search()def next_page(page_number):try:##先将页面向下滚，确保页面内容刷新出来scroll()#获取文本框input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > input')))#获取确定按钮submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > a')))#将文本框内容情况，然后传入页数，并点击按钮input.clear()input.send_keys(page_number)submit.click()#显式等待，判断页面是否跳转wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.curr'),str(page_number)))#开始获取数据get_products(page_number)except TimeoutError:return next_page(page_number)#该方法用于驱动浏览器向下滚动，出发ajax请求，这里中间会让进程睡几秒中，给浏览器加载页面的时间
def scroll():js = 'window.scrollTo(0,6000)'#向下滚动页面browser.execute_script(js)#让进城睡上几秒，给浏览器加载页面time.sleep(3)js = 'window.scrollTo(0,12000)'browser.execute_script(js)time.sleep(2)#获取页面商品信息
def get_products(page):#等待第一次数据加载完wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_goodsList > ul > li')))#获取页面信息html = browser.page_source#使用pyquery解析页面，页面中商品信息在li中doc = pq(html)items = doc('#J_goodsList > ul > li').items()#挨个解析商品，通过find()函数和css选择器，获取标题，图片，价格，评论数，店家信息for item in items:product = {'title': item.find(' div > div.p-name.p-name-type-2 > a > em').text().replace('\n',''),'image': item.find(' div > div.p-img > a > img').attr('src'),'price': item.find(' div > div.p-price > strong').text(),'commit': item.find(' div > div.p-commit > strong > a').text()[:-2],'shop': item.find(' div > div.p-shop > span > a').text()}#打印并保存到mongodb中print(product)save_to_mongo(product)#下面开始对获取第二批的信息，data为请求的参数#这里是第二次加载页面，page应该称2data = {'keyword': KEYWORD,'enc': 'utf-8','qrst': '1','rt': '1','stop': '1','vt': '2','wq': KEYWORD,'stock': '1','page': page*2,'s': '133','scrolling': 'y','tpl': '1_M',}#记得传入请求头，用自己的浏览器信息headers = {'Referer': 'https://search.jd.com/Search?keyword=%E7%BE%8E%E9%A3%9F&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E7%BE%8E%E9%A3%9F&stock=1&page=3&s=55&click=0','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}#请求的链接url = 'https://search.jd.com/s_new.php?'+urlencode(data)#剩下的操作就和上面一模一样了response = requests.get(url, headers = headers)doc = pq(response.text)items = doc('#J_goodsList > ul > li').items()for item in items:product = {'title': item.find(' div > div.p-name.p-name-type-2 > a > em').text().replace('\n', ''),'image': item.find(' div > div.p-img > a > img').attr('src'),'price': item.find(' div > div.p-price > strong').text(),'commit': item.find(' div > div.p-commit > strong > a').text()[:-2],'shop': item.find(' div > div.p-shop > span > a').text()}print(product)save_to_mongo(product)#保存结果至MongoDB中
def save_to_mongo(result):if result and db[MONGO_TABLE].insert(result):print('存储到MongoDB成功', result)return Truereturn Falsedef main():#爬取第一页并返回页数总数total = int(search())#这里是爬取页数for i in range(2, 5):next_page(i)if __name__ == '__main__':main()

config_jd.py

MONGO_URL='localhost'
MONGO_DB='jingdong'
MONGO_TABLE='jingdong'