selenium自动化爬取京东电脑商品信息用于数据分析

今天使用selenium给别人写的一个自动化爬虫程序

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from pyquery import PyQuery as pq
import json
import re
import time
import os
import csvbrowser=webdriver.Firefox()
browser.maximize_window()   #将窗口最大化
wait=WebDriverWait(browser, 10)def search():browser.get("https://www.jd.com/")input=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#key"))   #获取输入框)submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#search > div > div.form > button > i"))   #获取搜索按钮)input.send_keys("电脑")submit.click()# jiexi_page()def next_page(page_number):input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#J_bottomPage > span.p-skip > input"))   #找到输入页码按钮)submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_bottomPage > span.p-skip > a"))   #找到确认按钮)input.clear()input.send_keys(page_number)submit.click()jiexi_page()# wait.until(#      EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#J_bottomPage > span.p-num > a.curr"),str(page_number))# )# next_page(page_number)def write_to_file(content):# with open("京东.xls","a",encoding="utf-8") as f:#     f.write(json.dumps(content,ensure_ascii=False)+"\n")f = open('京东商品.csv', 'a', encoding='utf-8', newline='')writer = csv.writer(f)writer.writerow(content)def jiexi_page():wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#J_searchWrap .gl-item"))    #判断是否加载成功)html=browser.page_sourcedoc=pq(html)items=doc("#J_searchWrap .gl-item").items()   #遍历for item in items:product={'name':item.find(".p-name.p-name-type-2").text().replace("\n",""),'price':item.find(".p-price").text()[1:].replace("\n",""),'评价':item.find(".p-commit").text()[:-3],'shop':item.find(".p-shop").text()}product_list = list(product.values())print(product_list)write_to_file(product_list)def main():search()time.sleep(1)next_page(1)for i in range(2,101):next_page(i)time.sleep(2)  # 很关键，我调试了好几个小时，由于未找到该元素，页面未刷新，会报错if __name__=="__main__":main()

selenium自动化爬取京东电脑商品信息用于数据分析相关推荐

Selenium自动化爬取某东商品信息
文章目录前言一.selenium是什么? 1.什么是selenium 2.selenium的用途二.使用开发步骤 1.引入库 2.函数:管理浏览器操作open_brower() 3.函数:定位提 ...
selenium/requess爬取京东手机商品的详细信息1~selenium练习版
selenium/requess爬取京东手机商品的详细信息1~selenium!! 前言因为我也是个学生,所以代码可能会有点繁琐,我们都是超能100,一点点积累进步,其实有很多的地方可以简化,因为我 ...
【selenium爬虫】 selenium自动化爬取京东图书信息
一.题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中二.解题思路:1.需要下载一个chromedriver.exe.下载地址:ChromeDriver Mirror 注意: ...
Scrapy练习——爬取京东商城商品信息
刚刚接触爬虫,花了一段时间研究了一下如何使用scrapy,写了一个比较简单的小程序,主要用于爬取京东商城有关进口牛奶页面的商品信息,包括商品的名称,价格,店铺名称,链接,以及评价的一些信息等.简单记录 ...
Java爬虫技术(二)爬取京东iPhone商品信息并生成Json日志
准备配置maven环境下载浏览器驱动,并引入; 下载浏览器驱动前往华为云镜像站下载谷歌浏览器驱动 https://mirrors.huaweicloud.com/home 要下载与自己电脑上谷歌 ...
selenium登录爬取淘宝商品信息
淘宝网: 淘宝网是亚太地区较大的网络零售.商圈,由阿里巴巴集团在2003年5月创立.淘宝网是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已 ...
爬取京东图书商品信息
关键之处在于页面上的评论数的信息是动态加载的,是通过那个标签唯一的id号进行url拼接获得一个json文件然后显示的评论数. 抓包寻找了许久之后发现了一个奇特的文件. 然后再源代码里面搜索发现这个是商 ...
python爬取京东手机参数_python爬虫——分页爬取京东商城商品信息（手机为例）...
1.最近刚开始学习python 写了个爬虫练习,感觉主要是得会用F12查询网站结构代码.还涉及到反爬虫,每个网站都不一样,拿到的解析出的json数据格式也不同.得有些Web知识的基础才行. htt ...
Python爬虫+selenium——爬取淘宝商品信息和数据分析
浏览器驱动点击下载chromedrive .将下载的浏览器驱动文件chromedriver丢到Chrome浏览器目录中的Application文件夹下,配置Chrome浏览器位置到PATH环境. 需 ...

selenium自动化爬取京东电脑商品信息用于数据分析

今天使用selenium给别人写的一个自动化爬虫程序

selenium自动化爬取京东电脑商品信息用于数据分析相关推荐

最新文章

热门文章