python 爬取图片网站图片链接并下载收集

python进行图片网站图片收集，主要分成如下几个部分：

（1）进行网站html页面分析，分析你要找到的图片的链接，以及每个链接url是怎么构成的，如果通过爬取页面的html获取这些图片的链接

（2）通过python将这些已知链接的图片下载下来

注意这行代码

header = {"Referer":"http://", "User-agent":"Mozilla/5.0"}  #输入和imagepage类似的网址

这行代码定义了referer，就是告诉被爬网站服务器说，我的这个请求是从某某链接过来的，referer的参数写这个网站的首页，这样就不会触发反爬虫的机制了。

下面附上我爬某个图片网站的python爬虫源码，大家主要是python的爬站方式。具体的网站链接我已经省略了。大家可以学习完代码后，找个网站试下。我总共用这段代码爬了50000张照片。

#encoding:utf-8
import requests
import re
from bs4 import BeautifulSoup
header = {"Referer":"http://", "User-agent":"Mozilla/5.0"}  #输入和imagepage类似的网址#1-1000
def getImg(img_url, img_name):  jpg_url = img_urlr = requests.get(jpg_url, headers = header)if r.status_code == 200:print img_url + "   success"content = r.contentwith open(img_name, 'wb') as fp:fp.write(content)# 获得专辑照片数量
def picSetNum(picSet_url):r_set = requests.get(picSet_url, headers=header)html_set = r_set.contentsoup_set = BeautifulSoup(html_set, 'lxml')tag_pagename = soup_set.find_all(href=re.compile('^/mm/'))return tag_pagename[6].stringif __name__ == '__main__':homepage = ""                            #输入你要爬取的目标地址imgpage = ""                             #输入图片的存储位置for i in range(1,1000):temp_url = homepage + str(i)for j in range(1,int(picSetNum(temp_url))+1):t_url = imgpage + str(i) + '/' + str(j) +'.jpg't_name = 'mm_' + str(i) + '_' + str(j) +'.jpg'print t_url#print t_namegetImg(t_url, t_name)

python 爬取图片网站图片链接并下载收集相关推荐

python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例
先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面, ...
Python爬取网站图片数据
Python爬取网站图片数据找到需要爬取的网站地址模拟网站http请求根据调试模式获取的了解读取到真实的地址url,读取请求头数据和参数信息,模拟http请求调用 import requests ...
Python爬取网站图片并保存，超级简单
Python爬取网站图片并保存,超级简单先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...
爬取网页图片链接并下载保存
先把需要爬取的网页链接写到表格中读取表格信息 import xlrd excel_path = '/Users/yt/Desktop/chaye.xlsx'workbook: xlrd.book.B ...
Python爬取网站图片(爬虫入门demo)
代码功能: 爬取网站的教师图片,在用户主机上创建好PNG文件夹保存共110张图片,同时把每张图片的老师介绍内容写入H3.txt文件中. 实现思路: 打开该网页后用F12查看网页的html原代码,发现图 ...
python爬取网站图片（尽力在讲解）
1.首先,先导入两个库(一个就是常用的reques库,另一个就是BeautiSoup库) import requests from bs4 import BeautifulSoup 2.确定你要爬取的 ...
python爬虫怎么爬取图片_怎么用python爬取网站Jpg图片
用python爬取网站图片,通过引用requests库就可完成.下面,小编将以爬取百度图片为例工具/原料 python环境,网络安装requests库 1 cmd打开命令行界面,输入pip ins ...
python爬取网站源代码+图片
python爬取网站源代码+图片需求分析基础知识正则表达式 python网络请求文件读写实现基本思路具体实现结果总结需求分析大部分有志青年都想建立属于自己的个人网站,从零开始设计 ...
python爬虫实践（1）爬取图片网站的高清壁纸
python爬虫实践(1)爬取图片网站的高清壁纸 robots.txt协议: 爬取网站之前首先检查该站点根目录下是否存在robots.txt,如果存在,就会按照该文件中的内容来确定访问的范围:如果该文 ...
Python网络爬虫——爬取网站图片小工具
最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

python 爬取图片网站图片链接并下载收集

python 爬取图片网站图片链接并下载收集相关推荐

最新文章

热门文章