进入淘宝网,分别按综合、销量排序抓取100页的所有商品的列表信息。

1、按综合

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from pyquery import PyQuery as pq #获取整个网页的源代码 from config import * #可引用congif的所有变量 import pymongo import pymysql # client=pymongo.MongoClient(MONGO_URL) # db = client[MONGO_DB] # 按综合排序 100页 # 打开淘宝链接,输入‘美食',搜索 # 自动翻页:先得到总页数,再转到 _ 页,确定 # # browser = webdriver.PhantomJS(service_args=SERVICE_ARGS) # browser =webdriver.Chrome() browser = webdriver.Firefox() wait = WebDriverWait(browser,10) def search(): print('正在搜索...') try: browser.get('https://www.taobao.com') #用这个网页'https://s.taobao.com',无法输入keywords input=wait.until( EC.presence_of_element_located((By.CSS_SELECTOR,'#q')) #打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 ) submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button'))) input.send_keys(KEYWORD) #模拟操作,输入内容 submit.click() #点击提交 total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total'))) #页数 return total.text except TimeoutException : return search() # 翻页 def next_page(page_number): print('正在翻页',page_number) try: input = wait.until( # 输入框 EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')) # 打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 ) # 搜索按钮 submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))) #未修改 input.clear() input.send_keys(page_number) # 模拟操作,输入页码 submit.click() #判断翻页是否成功,找到高亮页码数,由数子判断 wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR ,'#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))) get_products() except TimeoutException : next_page(page_number) # 解析,获取每页的商品并输出 def get_products(): wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 html=browser.page_source doc = pq(html) items = doc('#mainsrp-itemlist .items .item').items() for item in items: product = { # 'picture':item.find('.pic .img').attr('src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 'image': item.find('.pic .img').attr('data-src'), # 用find去获取内部元素,选择器是 pic,img,用attr获取属性 'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 'price':item.find('.price').text()[1:-3], # 用text获取内容 'deal':item.find('.deal-cnt').text()[:-3], 'title':item.find('.title').text().replace(' ',''), 'shop':item.find('.shop').text(), 'location':item.find('.location').text() } # print(product) # print(product['location']) save_to_mysql(product) ''''' def main(): try: # search() total=search() # 此时 total = ‘共 100 页,' total=int(re.compile('(\d+)').search(total).group(1)) # 用正则表达式提取数字100 # print(total) for i in range(2,total+1): next_page(i) except Exception: print('出错啦') finally: # 不管有没有异常,都要执行此操作 browser.close() # 关浏览器 ''' def main(): total=search() total=int(re.compile('(\d+)').search(total).group(1)) for i in range(2,total+1): next_page(i)#显示当前爬取网页的页数 print ('搞定%d'%i) def save_to_mysql(product): # print(product['location']) #,use_unicode = False try: conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset='utf8' ) cur = conn.cursor() # 创建一个游标对象 sql = """INSERT INTO women_clothes_zonghe VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)""" cur.execute(sql, (product['shop_id'],product['shop'], product['link'],product['data_id'], product['title'], product['price'], product['location'],product['deal'],product['image'])) # cur.execute(sql) print('- - - - - 数据保存成功 - - - - -') cur.close() conn.commit() conn.close() # 关闭数据 except pymysql.Error as e: print(e) if __name__=='__main__': # 连接数据库 conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset="utf8") cur = conn.cursor() # 创建一个游标对象 cur.execute("DROP TABLE IF EXISTS women_clothes_zonghe") # 如果表存在则删除 # 创建表sql语句 sqlc = """CREATE TABLE women_clothes_zonghe( shop_id VARCHAR(500), shop VARCHAR(500), link VARCHAR(1000), data_id varchar(100), title VARCHAR(1000), price VARCHAR(500), location VARCHAR(500), deal VARCHAR(500), image VARCHAR(1000) )""" cur.execute(sqlc) # 执行创建数据表操作 main() 

2、按销量

import re from bs4 import BeautifulSoup from pyquery import PyQuery as pq #获取整个网页的源代码 from config import * #可引用congif的所有变量 import pymongo import pymysql import urllib import requests import json import bs4 from selenium import webdriver from pyquery import PyQuery as pq #获取整个网页的源代码 # 完整爬取所有页面的商品信息 共100页 按销量排序 browser = webdriver.Firefox() wait = WebDriverWait(browser,10) def get_url(keyword): url_str = urllib.parse.quote(keyword) i = 0 for j in range(100): yield{ 'url':('https://s.taobao.com/search?q={}&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=' 'a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170808&sort=sale-desc&bcoffset=0&p4ppushleft=%2C44&s={}').format(url_str,i) } i+=44 # 可行 def get_products(url): browser.get(url) wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 html=browser.page_source doc = pq(html) # print(doc) items = doc('#mainsrp-itemlist .items .item').items() for item in items: product = { # 获取 image 时,用'src'总有部分图片获取不到,因为淘宝设有'data-src' 和'src',不同商品这两个属性的前后顺序不一样,直接用'data-src'可避免返回 None 'image':item.find('.pic .img').attr('data-src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 # 'image':item.find('.pic-box-inner').find('.pic').find('img').attr['src'], 'price':item.find('.price').text()[1:-3], # 用text获取内容 'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 'deal':item.find('.deal-cnt').text()[:-3], 'title':item.find('.title').text(), 'shop':item.find('.shop').text(), 'location':item.find('.location').text().replace(' ','') } # print(product) save_to_mysql(product) def save_to_mysql(product): try: conn = pymysql.connect(host='localhost',user='root',passwd=' ',port=3306,db='test1',charset='utf8') cur = conn.cursor() sql = "insert into women_clothes_sales2 values (%s,%s,%s,%s,%s,%s,%s,%s,%s)" cur.execute(sql,(product['shop_id'],product['shop'],product['link'],product['data_id'],product['title'],product['price'],product['location'],product['deal'],product['image'])) print('- - - 数据保存成功 - - - ') cur.close() conn.commit() conn.close() except pymysql.Error as e: print(e) def main(): keyword = '女装' links = get_url(keyword) # 字典 # 获取每页的 url for link in links: # print(link) url = link['url'] #解析页面 # soup = get_html(url) # print(soup) # get_detail(soup,url) get_products(url) if __name__=='__main__': conn = pymysql.connect(host='localhost',user = 'root',passwd=' ',db='test1',port = 3306,charset='utf8') cur = conn.cursor() cur.execute('Drop table if exists women_clothes_sales2') sqlc = "create table women_clothes_sales2(shop_id varchar(100),shop varchar(500),link varchar(1000),data_id varchar(100),title varchar(500),price varchar(200),location varchar(100),deal varchar(100),image varchar(1000))" cur.execute(sqlc) cur.close() conn.commit() conn.close() main()

更多内容请参考专题 《python爬取功能汇总》 进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python按综合、销量排序抓取100页的淘宝商品列表信息相关推荐

  1. Python + selenium 爬取淘宝商品列表及商品评论 2021-08-26

    Python + selenium 爬取淘宝商品列表及商品评论[2021-08-26] 主要内容 登录淘宝 获取商品列表 获取评论信息 存入数据库 需要提醒 主要内容 通过python3.8+ sel ...

  2. Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息

    Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息-Selenium 1. 本文目标 由于淘宝网站的不断更新,以前的爬取方法都无法重现,必须需要登录淘宝网站才可以进行搜索商品.所 ...

  3. 淘宝商品详情页API接口、淘宝商品销量API接口、淘宝商品列表API接口、淘宝APP详情API接口、淘宝详情API接口

    大家都知道,淘宝的反爬虫机制十分严,而很多时候,没办法高效的拿到数据内容响应终端需求,而依赖爬虫就会造成动不动就出现滑块验证,让人很无解,正好,公司有这样的需求,让我负责解决这个问题,刚开始各种尝试, ...

  4. 淘宝商品详情页接口,淘宝实时销量接口,淘宝商品列表接口,淘宝APP详情接口,H5商品详情接口

    采集淘宝商品列表和商品详情及淘宝实时销量遇到滑块验证码的解决方法(带SKU和商品描述,可高并发),主要是解决了高频情况下的阿里系滑块和必须要N多小号才能解决的反扒问题,以后都可以使用以下的方法: 大家 ...

  5. 淘宝商品详情页API接口、淘宝商品列表API接口,淘宝商品销量API接口,淘宝APP详情API接口,淘宝详情API接口

    淘宝商品列表和商品详情及淘宝实时销量采集遇到滑块验证码的解决方法(带SKU和商品描述,可高并发),主要是解决了高频情况下的阿里系滑块和必须要N多小号才能解决的反扒问题,以后都可以使用以下的方法,包括淘 ...

  6. 【实例】python 使用beautifulSoup 抓取网页正文 以淘宝商品价格为例

    参考文章: 利用BeautifulSoup抓取新浪网页新闻的内容 使用Requests库和BeautifulSoup库来爬取网页上需要的文字与图片 -------------------------- ...

  7. 使用java抓取京东,天猫和淘宝的商品主图

    最近做了一个项目需要抓取淘宝,天猫和京东商品的主图,虽然可以通过喵有券,阿里百川等都可以获取相应的信息,但是小编还是自己写了一下,不喜勿碰哈! 引入jsoup的依赖 <!--java HTML解 ...

  8. 3.使用Selenium模拟浏览器抓取淘宝商品美食信息

    # 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...

  9. Python3实例:爬取淘宝商品列表

    这个实例是从淘宝爬数据,原文是:http://www.cnblogs.com/nima/p/5324490.html 因为我比较关心的是网络这一块,所以对文章做了很多删改.侧重在理解request.c ...

  10. python爬取淘宝商品页面信息

    import timefrom selenium import webdriver from selenium.webdriver.common.keys import Keyskey_words = ...

最新文章

  1. MySQL show processlist说明
  2. Vue:echarts画图实战,异步获取数据在Vue上使用echarts进行画图
  3. mysql带IN关键字的查询
  4. hinkphp项目部署到Linux服务器上报错“模板不存在”如何解决
  5. java中的成员变量和局部变量的区别_java中成员变量与局部变量区别分析
  6. AngularJS资源整理收集
  7. py-R-FCN安装
  8. 在线批量身份证识别系统
  9. CAT1 4G+以太网开发板腾讯云手机微信小程序显示温度和下发控制
  10. lcd开机流程图_LCD1602程序代码及显示流程图.doc
  11. 常用计算机二级题库,2016最新计算机二级office题库
  12. 董明珠赞同取消住房公积金 格力员工每人一套房
  13. vue富文本使用详解
  14. JAVASE笔记回顾
  15. Google学术的使用指南
  16. 请让我像亲人一样爱你
  17. 数据的计算(大数据)
  18. Linux环境 网络流量统计/proc/net/dev和/proc/net/snmp
  19. yolov5原理到实现
  20. 正在连接192.168.56.101...无法打开到主机的连接。 在端口 1521: 连接失败

热门文章

  1. HTML初识——网页设计html基础
  2. java实现lda模型_lda模型 java
  3. CAD无吊顶画弱电点位图总结
  4. Unity导入免费的素材资源
  5. idea中maven项目,输出在控制台上的中文乱码问题
  6. p5.js之Q版人物绘制
  7. web版python软件授权注册机
  8. 率辉考研oj——1323: 算法2-1:集合union
  9. win10的计算机策略组,Win10家庭版如何添加组策略功能?
  10. 十八掌教育_徐培成_Hadoop3.0-01.简介