有时候需要统计,图片参考等,用python爬虫。爬下来的图片再存储到本地,同时把文件的名称取出一下。同时,python真是个有趣的东西,欢迎一起交流学习。

代码如下:

我的只是提取第一页,同时把图片保存到D盘下边,把图片的原来的名称页提取出来存放到本地文件

#https://www.jd.com/
#https://search.jd.com/Search?keyword=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&enc=utf-8&wq=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&pvid=9585617222944822b7039b975c89c7f1
#https://search.jd.com/Search?keyword=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&page=3&s=53&click=0#https://search.jd.com/Search?keyword=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&enc=utf-8&wq=iphone%E5%90%88%E7%BA%A6%E6%9C%BA&page=1  3
"""
http://list.jd.com/list.html?cat=9987,653,655
http://list.jd.com/list.html?cat=9987,653,655&page=2
<div id = "plist"
class ="goods-list-v2 J-goods-list gl-type-3 " >
<div class ="page clearfix" >
"""
import re
import urllib.request
def craw(url,page):html1=urllib.request.urlopen(url).read()# fhandle = open('D:/爬虫/抓取文件/'+"jingdong1106"+str(page)+".html", "wb")# fhandle.write(html1)# fhandle.close()html1=str(html1)pat1='<div id="plist".+? <div class="page clearfix">'result1=re.compile(pat1).findall(html1)result1=str(result1)#result1=result1[0]pat2 = '<img width="220" height="220" data-img="1" src="//(.+?\.jpg)">'# pat3 = '<img width="220" height="220" data-img="1" data-lazy-img="done" src="//(.+?\.jpg)">'pat4 = '<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)">'imagelist=re.compile(pat2).findall(result1)# imagelist3 = re.compile(pat3).findall(result1)imagelist4 = re.compile(pat4).findall(result1)#  imagelist=imagelist+imagelist3+imagelist4  #pat2 和pat3是一样的,去掉其中一个数量还是不变imagelist = imagelist  + imagelist4  # pat2 和pat3是一样的,去掉其中一个数量还是不变x=1end = "/"for imageurl in imagelist:try:string2 = imageurl[imageurl.rfind(end):]  # 在imageurl中查找最后一个正斜杠/后面的字符,图片名称pat2 = '/(.+?\.jpg)'  # 提取最后一个斜杠到 .jpg后缀名称imagelist2 = re.compile(pat2).findall(string2)imagelist2 = str(imagelist2[0])  # 提取第一个名称 ,去掉正斜杠imagename = "D:/爬虫/抓取文件/imge2/" + imagelist2imageurl = "http://" + imageurlprint(imagename)urllib.request.urlretrieve(imageurl,filename=imagename)except urllib.request.URLError as e:if hasattr(e,"code"):x+=1if hasattr(e,"reason"):x+=1x+=1def catchnameAndPrice(url,page):html1 = urllib.request.urlopen(url).read()html1 = str(html1)pat1 = '<div id="plist".+? <div class="page clearfix">'result1 = re.compile(pat1).findall(html1)result1 = str(result1)# result1=result1[0]pat2 = '<em>.+? </em>'imagelist=re.compile(pat2).findall(result1)for imageurl in imagelist:print(imageurl)pat1 = '<em>\\n(.+?\.</em>)'result2 = re.compile(pat1).findall(imageurl)result1 = str(result2)print(result1)for i in range(1,2):url = 'https://list.jd.com/list.html?cat=9987,653,655&page='+str(i)craw(url,i)#catchnameAndPrice(url,i)

运行结果:

D:\工具\pythonTools\CatchTest1101\venv\Scripts\python.exe D:/工具/pythonTools/CatchTest1101/venv/test/jingdong.py
D:/爬虫/抓取文件/imge2/5b0fcb56N90ae22f0.jpg
D:/爬虫/抓取文件/imge2/5b0fbbf1N777371a5.jpg
D:/爬虫/抓取文件/imge2/5ad87390N086a3c91.jpg
D:/爬虫/抓取文件/imge2/59df2e7fN86c99a27.jpg
D:/爬虫/抓取文件/imge2/970adadd473ff485.jpg
D:/爬虫/抓取文件/imge2/59b85847N20776d8e.jpg
D:/爬虫/抓取文件/imge2/5b13cd6cN8e12d4aa.jpg
D:/爬虫/抓取文件/imge2/5a1d1e2dN6ba9aac4.jpg
D:/爬虫/抓取文件/imge2/e242e3e39ec95d66.jpg
D:/爬虫/抓取文件/imge2/5af13917Naca6cb3d.jpg
D:/爬虫/抓取文件/imge2/5b21ce25N131ce626.jpg
D:/爬虫/抓取文件/imge2/45ab3dd6c35d981b.jpg
D:/爬虫/抓取文件/imge2/5bbf1fc9N3ced3749.jpg
D:/爬虫/抓取文件/imge2/5b4edfdcN5a7d6faf.jpg
D:/爬虫/抓取文件/imge2/57e4a35bN230918c0.jpg
D:/爬虫/抓取文件/imge2/5b3c2d1eNc2695eed.jpg
D:/爬虫/抓取文件/imge2/5ac1f20cN7196beba.jpg
D:/爬虫/抓取文件/imge2/59dc6704N7c82222c.jpg
D:/爬虫/抓取文件/imge2/5a4339e9N0a682ca1.jpg
D:/爬虫/抓取文件/imge2/5b5705a1N6a12c28c.jpg
D:/爬虫/抓取文件/imge2/5adca3deN76bb61cb.jpg
D:/爬虫/抓取文件/imge2/59e5bdf4Nb6b9904a.jpg
D:/爬虫/抓取文件/imge2/5bbc6e6fN5216f959.jpg
D:/爬虫/抓取文件/imge2/5b4ee1a1Nb44ade36.jpg
D:/爬虫/抓取文件/imge2/5acc5248N6a5f81cd.jpg
D:/爬虫/抓取文件/imge2/5b582689N83c9c7c7.jpg
D:/爬虫/抓取文件/imge2/5abc8d2dNa4cc5eac.jpg
D:/爬虫/抓取文件/imge2/5bbac3c5N8b0bd22b.jpg
D:/爬虫/抓取文件/imge2/5b4ee328Ne725d6fc.jpg
D:/爬虫/抓取文件/imge2/5b17a2ceN24d043fc.jpg
D:/爬虫/抓取文件/imge2/a2c208410ae84d1f.jpg
D:/爬虫/抓取文件/imge2/5ac1eae4Nce7c8b00.jpg
D:/爬虫/抓取文件/imge2/5a28b64cN5583735a.jpg
D:/爬虫/抓取文件/imge2/5ab25955Ned1a1c02.jpg
D:/爬虫/抓取文件/imge2/5bc06426Nc4199ba0.jpg
D:/爬虫/抓取文件/imge2/5b478f4aNb1f2d6bd.jpg
D:/爬虫/抓取文件/imge2/5afc0ae1N4f34d0fc.jpg
D:/爬虫/抓取文件/imge2/5bbdaff1N91aa8a23.jpg
D:/爬虫/抓取文件/imge2/5a01503cN19d7f1a0.jpg
D:/爬虫/抓取文件/imge2/5ab8dca1Na927adf6.jpg
D:/爬虫/抓取文件/imge2/59ded53fNb2197f67.jpg
D:/爬虫/抓取文件/imge2/5bbf1d23N3a4d87c5.jpg
D:/爬虫/抓取文件/imge2/5b0517ccN295c6fdb.jpg
D:/爬虫/抓取文件/imge2/5b6018c5N6f80495e.jpg
D:/爬虫/抓取文件/imge2/578738d1N00bcde3e.jpg
D:/爬虫/抓取文件/imge2/5959ab7fN154e56b4.jpg
D:/爬虫/抓取文件/imge2/5ab9e7a8Nbc37a260.jpg
D:/爬虫/抓取文件/imge2/934ebb6f3f60e2e6.jpg
D:/爬虫/抓取文件/imge2/5bbc6efaNeb227f0b.jpg
D:/爬虫/抓取文件/imge2/5ab9b769Na77a8dac.jpg
D:/爬虫/抓取文件/imge2/5b503be1Nc9134fc8.jpg
D:/爬虫/抓取文件/imge2/f65e4f8f6c052a59.jpg
D:/爬虫/抓取文件/imge2/5bc87058N2f29bca6.jpg
D:/爬虫/抓取文件/imge2/584fcc3eNdb0ab94c.jpg
D:/爬虫/抓取文件/imge2/5b4aadd7N44c12d2d.jpg
D:/爬虫/抓取文件/imge2/5ad996c2N27e8816d.jpg
D:/爬虫/抓取文件/imge2/57d11b6cN1fd1194d.jpg
D:/爬虫/抓取文件/imge2/5b681275Nc5761208.jpg
D:/爬虫/抓取文件/imge2/5bc6e3aaNdec7f959.jpgProcess finished with exit code 0

抓取到的图片保存到本地截图

python爬虫爬取京东图片(python小白笔记七)相关推荐

  1. 超详细解析python爬虫爬取京东图片

    超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...

  2. python爬虫爬取百度图片,python爬虫篇2:爬取百度图片

    入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...

  3. python爬虫,爬取下载图片

    python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

  4. Python爬虫爬取相关图片

    简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...

  5. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

  6. python爬虫爬取京东、淘宝、苏宁上华为P20购买评论

    爬虫爬取京东.淘宝.苏宁上华为P20购买评论 1.使用软件 Anaconda3 2.代码截图 三个网站代码大同小异,因此只展示一个 3.结果(部分) 京东 淘宝 苏宁 4.分析 这三个网站上的评论数据 ...

  7. 利用python爬虫爬取京东商城商品图片

    笔者曾经用python第三方库requests来爬取京东商城的商品页内容,经过解析之后发现只爬到了商品页一半的图片.(这篇文章我们以爬取智能手机图片为例) 当鼠标没有向下滑时,此时查看源代码的话,就会 ...

  8. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  9. python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

    当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...

最新文章

  1. C语言自学《四》---- 循 环
  2. python和java哪个-Python和Java到底哪个更好?
  3. java void eat_java匿名内部类
  4. linux 端口tnpl,利用Python找出9个连续的空闲端口
  5. android 遍历sdcard,Android编程读取Assets所有文件(遍历每一个文件夹)并存入sdcard的方法...
  6. Linux下多功能编辑器,Linux下的编辑器——vi大全
  7. web服务器防止dos拒绝服务攻击
  8. C语言——输出*菱形
  9. 本周两场直播丨通过源码了解openGauss多线程架构;Oracle数据库索引分裂详解。...
  10. uFrame近况(2016年4月8日更新)
  11. python函数——形参中的:*args和**kwargs
  12. 如何在html中加入字体库,网页中添加特殊字体解决方案
  13. Photoshop快捷键总结
  14. 数字图像处理技术与应用练习题
  15. 前端实时可视化开发工具的使用
  16. 位置不可用——文件或目录损坏且无法读取
  17. 苹果蓝牙耳机使用说明_苹果蓝牙耳机怎么用
  18. 使用SpringBoot报错:Inferred type ‘S‘ for type parameter ‘S‘ is not within its bound。【解决办法】
  19. Linux信号量 sem_t简介
  20. 英伟达显卡【NVIDIA GeForece RTX3060 laptop GPU】装深度学习环境,学习框架为Pytorch

热门文章

  1. 奖牌来源多解放军算两次 全运会奖牌榜你看得懂吗
  2. [生存志] 第40节 管仲经济纵横
  3. 苹果官方网站SwiftUI教程笔记01:
  4. 编程语言的发展历史剧。(参考https://baijiahao.baidu.com/s?id=1588675986991787716wfr=spiderfor=pc)
  5. 使用ionic开发移动app的过程中经验总结
  6. QQ漫游消息、上传消息使用方法略记--希望能帮到有需要的人:测试版本为QQ2013(小版本没看)
  7. 【送书福利-第九期】Web安全攻防从入门到精通
  8. jsbox 导入_JSBox 与捷径在 iOS 13 的重要更新
  9. java版商城之社交种草种草管理Spring Cloud+SpringBoot+mybatis+uniapp b2b2c o2o 多商家入驻商城 直播带货商城 电子商务
  10. 前端求职系列:如何写一份好的简历(一)