利用scrapy来爬取苏宁官网上任何商品的信息,主要的信息有商品标题、商品现价、商品原价、商铺名称,以及用scrapy的ImagesPipeline来下载商品图片。

部分主函数代码如下:

# -*- coding: utf-8 -*-
import scrapy
import time
import re
import json
import jsonpath
import urllib.parse
from Suning.items import SuningItemclass SuningSpider(scrapy.Spider):name = 'suning'allowed_domains = ['search.suning.com/']keyword = input("请输入商品:")temp_data = urllib.parse.quote(keyword)temp_url = "https://search.suning.com/{}/"val_url = temp_url.format(temp_data)start_urls = [val_url]def __init__(self, name=None, **kwargs):super().__init__(name=None, **kwargs)self.page_num = 0def parse(self, response):# content = response.body.decode("utf-8")# with open("./file/苏宁.html", "w", encoding="utf-8") as file:#     file.write(content)li_elements = response.xpath("//div[@id='product-list']/ul[@class='general clearfix']/li")# print(len(li_elements))for li_element in li_elements:title_elements = li_element.xpath(".//div[@class='res-info']/div[@class='title-selling-point']/a//text()").extract()title_list = []for temp_title in title_elements:temp_title = re.sub(r"\s", "", temp_title)if len(temp_title) > 0:temp_title = temp_title.replace(",", ",")title_list.append(temp_title)title = "-".join(title_list)store_name = li_element.xpath(".//div[@class='res-info']/div[@class='store-stock']/a/@title").extract_first()# print(store_name)# print(title)temp_image_url = li_element.xpath(".//div[@class='img-block']/a[@class='sellPoint']/img/@src").extract_first()image_url = "https:" + temp_image_url# print(image_url)temp_product_url = li_element.xpath(".//div[@class='img-block']/a[@class='sellPoint']/@href").extract_first()src_args = re.findall(r"com/(.*?).html", temp_product_url)[0]key0 = src_args.split("/")[0]key1 = src_args.split("/")[-1]price_src = "https://pas.suning.com/nspcsale_0_0000000" + key1 + "_0000000" + key1 + "_" + key0 + "_190_755_7550199_500353_1000051_9051_10346_Z001___R9006372_0.91_1___00031F072____0___750.0_2__500363_500519__.html?callback=pcData&_=1630468559926"# price_src = "https://pas.suning.com/nspcsale_0_0000000" + key1 + "_0000000" + key1 + "_" + key0 + "_250_029_0290199_20089_1000257_9254_12006_Z001___R1901001_0.5_0___000060864___.html?callback=pcData&_=1630466740130"# print(price_src)item = {"title": title, "store_name": store_name, "image_url": image_url}yield scrapy.Request(price_src, callback=self.get_price, dont_filter=True, meta=item)

爬取后用csv保存文件:

下载好的照片如下:

项目内包含的文件:

begin.py说明:
直接运行该文件既可以运行程序,也可以自己在终端运行scrapy crawl suningproxy.py说明:
运行该文件可以修改ip池内的ip代理;
url = "https://www.kuaidaili.com/free/inha/1/"
修改上面的数字可以获得其他页数的ip地址,1代表第一页。
运行的结果复制替换下面列表内容,可以多添加。
ip_list = ['http://129.226.182.125:80', 'http://106.45.104.214:3256']
requestheaderstool.py说明:
可以更换cookie值,倘若数据无法获取时。即复制自己浏览器的cookie,(最好是登录苏宁账号后的cookie值)

资源下载:

苏宁易购网址爬虫爬取商品信息及图片-Python文档类资源-CSDN下载运行程序,输入需要爬取的商品名称即可爬取到该商品的所有商品名称价格,商铺名称,以及商品图片等。更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/weixin_45179605/24366299

苏宁易购网址爬虫爬取商品信息及图片相关推荐

  1. 爬虫爬取二次元网站美女图片

    爬虫爬取二次元网站美女图片 前言 xpath解析 需求分析 代码编写 总代码 前言 本次需要爬取二次元网站cos板块下的图片 需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...

  2. 【selenium爬虫】用selenium自动化爬虫爬取海贼王动漫图片

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...

  3. 大众点评 爬虫 java_用JAVA制作一个爬取商品信息的爬虫(爬取大众点评)

    很多企业要求利用爬虫去爬取商品信息,一般的开发模型如下: for i=1;i<=最大页号;i++ 列表页面url=商品列表页面url+?page=i(页号) 列表页面=爬取(列表页面url) 商 ...

  4. Java爬虫 --- 爬取王者荣耀英雄图片

    Java爬虫 - 爬取王者荣耀英雄图片 import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Docu ...

  5. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  6. python爬虫图片实例-Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  7. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  8. 用python爬虫爬取微博信息

    用python爬虫爬取微博信息 话不多说,直接上代码! import requests from bs4 import BeautifulSoup from urllib import parse i ...

  9. Node.js 爬虫爬取电影信息

    Node.js 爬虫爬取电影信息 本文地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影网的信息 ...

最新文章

  1. ACE线程管理机制-并发控制(4)
  2. python详细安装教程linux-在Linux上安装Python3
  3. zanePerfor 一款完整,高性能,高可用的前端性能监控系统,不要错过
  4. vue 可视化布局工具_GitDataV一款Github的'大数据可视化平台'
  5. 行锁mysql怎么执行_Mysql调用什么情况会用到行锁与表锁
  6. mysql 中函数如何转存_MySQL函数转储存(当前月数据同步)
  7. 2013年5月7日---JS中的正则
  8. 关于 Taro 的 ScrollView 在Dom结构发生变化会自动回滚到顶部解决方案和原因
  9. 无法搜索到电脑模拟热点的可以尝试一下(adhoc补丁)
  10. linux下的网桥介绍
  11. [No000004]在WIN7/8任务栏创建快捷方式
  12. mapxtreme is still in evalutation!
  13. 【渝粤题库】陕西师范大学210024 学前儿童科学教育 作业 (专升本)
  14. 在Mac OS X中使用VIM开发STM32(2)
  15. 【ABAP系列】SAP ABAP的事件执行顺序
  16. Java互联网架构师视频课程 分布式系统架构 Dubbo ActiveMQ Netty
  17. 椭圆曲线上两种基本的运算:点集运算、P+Q详解
  18. 负数二进制转换十进制
  19. 考研政治——刷题看课流程
  20. Qt VTK软件开发问题学习记录

热门文章

  1. 微信支付: 普通商户 VS 服务商
  2. Telephony--彩信问题分析方法
  3. 关于苹果开发证书失效的解决方案(2016年2月14日Failed to locate or generate matching signing assets)
  4. [深度文]YoloX部署、优化、训练相关
  5. json和gson傻傻分不清楚
  6. 【观察】智能决策:从中国制造到中国智造的通关“金钥匙”
  7. php edd,吐槽解密吸尘器戴森v10motorhedd和fluffy区别有啥?哪个好点?使用良心点评解析...
  8. 强!Java实现MSN Messenger聊天
  9. 某车联网App 通讯协议加密分析(四) Trace Code
  10. Google全球IP地址库