python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

本例程使用urlib实现的，基于python2.7版本，采用beautifulsoup进行网页分析，没有第三方库的应该安装上之后才能运行，我用的IDE是pycharm，闲话少说，直接上代码！

# -*- coding: utf-8 -*

import re

import os

import urllib

import urllib2

from bs4 import BeautifulSoup

def craw(url,page):

html1=urllib2.urlopen(url).read()

html1=str(html1)

soup=BeautifulSoup(html1,'lxml')

imagelist=soup.select('#J_goodsList > ul > li > div > div.p-img > a > img')

namelist=soup.select('#J_goodsList > ul > li > div > div.p-name > a > em')

#pricelist=soup.select('#plist > ul > li > div > div.p-price > strong')

#print pricelist

path = "E:/{}/".format(str(goods))

if not os.path.exists(path):

os.mkdir(path)

for (imageurl,name) in zip(imagelist,namelist):

name=name.get_text()

imagename=path + name +".jpg"

imgurl="http:"+str(imageurl.get('data-lazy-img'))

if imgurl == 'http:None':

imgurl = "http:" + str(imageurl.get('src'))

try:

urllib.urlretrieve(imgurl,filename=imagename)

except:

continue

'''

#J_goodsList > ul > li:nth-child(1) > div > div.p-img > a > img

#plist > ul > li:nth-child(1) > div > div.p-name.p-name-type3 > a > em

#plist > ul > li:nth-child(1) > div > div.p-price > strong:nth-child(1) > i

'''

if __name__ == "__main__":

goods=raw_input('please input the goos you want:')

pages=input('please input the pages you want:')

count =0.0

for i in range(1,int(pages+1),2):

url="https://search.jd.com/Search?keyword={}&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.T06&wq=diann&page={}".format(str(goods),str(i))

craw(url,i)

count += 1

print 'work completed {:.2f}%'.format(count/int(pages)*100)

图片的命名为商品的名称，京东商品图片地址的属性很可能会有所变动，所以大家进行编写的时候应该举一反三，灵活运用！

这是我下载下来的手机类图片文件的截图：

我本地的爬取的速度很快，不到一分钟就能爬取100页上千个商品的图片！

以上这篇python利用urllib实现爬取京东网站商品图片的爬虫实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持易采站长站。

python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例相关推荐

python爬取百度地图数据_Python利用百度地图爬取商家信息
import requests import json import pandas as pd def request_hospital_data(): ak="换成自己的 AK" ...
Aurigma图片上传程序是为您的网站的图片上传解决方案
Aurigma图片上传程序是为您的网站的图片上传解决方案 Aurigma图片上传器是一个强大和灵活的图像,并且可以在许多不同类型的网站可以使用文件上传的解决方案.除了影像外,任何其他文件类型也可以上传 ...
python爬取豆瓣书籍_Python利用lxml模块爬取豆瓣读书排行榜的方法与分析
前言上次使用了BeautifulSoup库爬取电影排行榜,爬取相对来说有点麻烦,爬取的速度也较慢.本次使用的lxml库,我个人是最喜欢的,爬取的语法很简单,爬取速度也快. 本次爬取的豆瓣书籍排行榜的 ...
Cookie登录爬取实战：Python 利用urllib库的cookie实现网站登录并抓取
1 环境:Python 3 +urllib库实战网站:http://www.mjzcnd.com/ 梅江之春论坛网站 2 背景: 现在许多网站都需要登录后才能访问某个页面,在登陆之前,我们是没有权 ...
python requests下载图片_Python使用urllib库、requests库下载图片的方法比较
我们知道,使用Python制作一个爬虫程序,requests库是一个不错的选择,requests发送网络请求非常简单,比较使用urllib库,使用requests库可以大大减少代码量,它还可以定制请求 ...
python字典通讯录_Python利用字典将两个通讯录文本合并为一个文本实例
本文实例主要实现的是利用字典将两个通讯录文本合并为一个文本,具体代码如下: def main(): ftele1=open("d:\TeleAddressBook.txt",&qu ...
python删除图片_python小应用之删光你的珍藏图片
前几天打开手机相册发现自己相册里面居然有一万多张图片,一个一个选择删除真是删烦了, 所以自己做了一个小应用来帮我. 也许你会说为什么不导入到电脑上进行删除,没办法我就是想整点不一样的,学了python ...
解决水晶报表中动态加载的图片或利用水晶报表创建的图表不显示图片的方法
开发水晶报表时在利用其创建图表时在IIS服务器图片不显示,解决方法如下: 在解决方案资源管理器->web项目-->右键属性页,把多余的引用移除就可以了(注意版本),例如VS2005版 ...
商品sku算法php,笛卡尔乘积-电商网站商品sku组合算法应用
笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员. 利用笛卡尔乘积 ...

python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例相关推荐

最新文章

热门文章