文章目录

  • 一、目标
    • 1、实现当前页面的图片爬取;
    • 2、实现二级网页下的图片爬取并分别存储
  • 二、实现截图
  • 二、代码
    • 1、美女图片
    • 2、王者荣耀皮肤
    • 指导博客(阿里嘎多!)

一、目标

1、实现当前页面的图片爬取;

2、实现二级网页下的图片爬取并分别存储

二、实现截图




二、代码

1、美女图片

# -*- coding: utf-8 -*-
# @Time    : 2021年1月11日09:49:47
# 爬取图片
import  requests
#查找参数类
from pyquery import PyQuery as pq
import time
#查看请求信息;爬虫发送的python爬取请求,一般不会被网站允许,通过更改User-Agent可以骗过该网站
"""
步骤:
打开你要爬虫的网页
按键盘的F12或手动去浏览器右上角的“更多工具”选项选择开发者工具
按键盘的F5刷新网页
点击Network,再点击Doc
点击Headers,查看Request Headers的User-Agent字段,直接复制
将刚才复制的User-Agent字段构造成字典形式
"""
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36''(KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
#使用代理IP
proxies={'https':'218.75.69.50:39590'
}
#请求网站,获取源代码
def code_request(url):#r获取为网页的二进制内容r=requests.get(url,headers=headers,proxies=proxies)#编码r.encoding='GBK'#返回文本html=r.textreturn html
def image_request(text):doc=pq(text)#锁定文本页面中的img标签images=doc('div.list ul li img').items()x=0for image in images:#获取每张图片的urlimg_url=image.attr('src')#获取网页的二进制内容img=requests.get(img_url,headers=headers,proxies=proxies).content #注意:获取内容#定义图片存放的路径path="!!!你要保存的图片路径!!!\\爬虫抓取的图片\\netbian.com\\"+str(x)+".jpg"#将文件写入指定目录,写入文件用:wb,即:Python文件使用“wb”方式打开with open(path,'wb') as f:f.write(img)time.sleep(1)print("正在下载第{}张图片".format(x)) #format 为格式化函数x+=1print("写入完成")
def main():url="http://www.netbian.com/"text=code_request(url)image_request(text)
if __name__=="__main__":main()

2、王者荣耀皮肤

# -*- coding: UTF-8 -*-
"""
@Author  :Wangdali
@Date    :2021年1月11日10:04:42
"""
import requests
import os
import time
import json
from lxml import etree
from fake_useragent import UserAgent
import logging
#日志的基本输出设置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
#从网站获取皮肤的各项信息#注意:获取的为该网页下的皮肤,所以url为json列表
url='https://pvp.qq.com/web201605/js/herolist.json'
#获取json文件内容
herolist=requests.get(url)
herolist_json=herolist.json()#转化为json格式
"""
lambda表达式:Python写一些执行脚本时,使用lambda就可以省下定义函数过程。
map()函数:第一个参数为一个函数,第二个参数为迭代器
"""
hero_number=list(map(lambda x:x['ename'],herolist_json)) #提取英雄的名字
hero_name=list(map(lambda x:x['cname'],herolist_json)) #提取英雄的编号
#使用python下载图片
def image_get():i=0for j in hero_number:os.mkdir("!!!你要保存的图片路径!!!\\爬虫抓取的图片\\王者荣耀皮肤\\"+hero_name[i])os.chdir("!!!你要保存的图片路径!!!\\爬虫抓取的图片\\王者荣耀皮肤\\"+hero_name[i])i+=1for k in range (10):#通过字符串的拼接来构造URL请求img_url = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str(j) + '-bigskin-' + str(k) + '.jpg'img = requests.get(img_url).content  # 请求url的内容#    if im.status_code == 200:#    open(str(k) + '.jpg', 'wb').write(im.content)  # 写入文件if requests.get(img_url).status_code == 200: #防止出现不符合要求的图片with open(str(k)+'.jpg','wb') as f:f.write(img)#time.sleep(0.1)print("正在下载当前英雄的第{}张图片".format(k))
def main():image_get()
if __name__=="__main__":main()

指导博客(阿里嘎多!)

1、博客A
2、博客B

Python爬虫--获取网页图片两步走:美女图片+王者荣耀皮肤相关推荐

  1. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

  2. Python爬虫获取网页编码格式

    Python爬虫获取网页编码格式 网页编码格式是每个网页规定的本页面文字的编码方式,其中比较流行的是ascii, gbk, utf-8, iso等.观察许多网页的编码格式都是在meta标签的conte ...

  3. python爬虫实践之爬取美女图片

    目录 概述 准备 所需模块 涉及知识点 运行效果 完成爬虫 1. 分析网页 2. 爬虫代码 概述 爬取妹子图网的美女图片. 准备 所需模块 time requests lxml 涉及知识点 pytho ...

  4. python爬虫 获取网页源代码

    import requests# 获取网页源代码 kv = {'user-agent':'Mozilla/5.0'} # 请求头信息,相当于一个浏览器面具 html = requests.get('h ...

  5. Python爬虫获取网页源代码出现乱码

    发现用python用requests在百度中获得的代码有乱码 import requests # 0.通过如下代码,会发现获取的网页源代码出现乱码 url = 'https://www.baidu.c ...

  6. Python爬虫 - 获取网页编码

    前言:在我们做爬虫的时候会发现不同的网页会有不同的编码方式,但我们需要根据编码方式来获取数据,所以我们要先获取编码方式,为此我使用requests库解析当前页的编码方式. requests库是常用的网 ...

  7. python爬虫获取网页的外链和内链(巨详细)

    在开始之前,我们需要了解内链和外链到底是什么~ 内链:同一网站域名下的内容页面之间的互相链接(自己网站的内容链接到自己网站的内部页面,也称之为站内链接) 外链:在自己的网站导入别人的网站(比如有些网站 ...

  8. python爬虫获取url_Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接?在Python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

  9. python爬虫获取下一页url_Python爬虫获取页面所有URL链接过程详解

    如何获取一个页面内所有URL链接?在python中可以使用urllib对网页进行爬取,然后利用Beautiful Soup对爬取的页面进行解析,提取出所有的URL. 什么是Beautiful Soup ...

最新文章

  1. Photometric Stereo 初體驗
  2. linux pycharm 数字键盘失效
  3. “直播第一股”映客,讲得好社交新故事吗?
  4. kubernetes1.8.4安装指南 -- 3. 安装docker ce
  5. 还看不懂同事的代码?Lambda 表达式、函数接口了解一下
  6. 微信分享踩坑:config:invalid signature错误的解决方法
  7. 程序员的求生欲有所强?用Python花式哄女友
  8. c#截取两个指定字符串中间的字符串
  9. linux 如何查看进程端口号,在linux中查看进程占用的端口号
  10. 7-79 约分最简分式
  11. 京东方尚未成为苹果的最大供应商,但已经享受到果链的好处
  12. 1425 加工生产调度
  13. 使用python scrapy爬取全国小区信息(包括小区价格,经纬度,面积,户数等),并保存到mysql和excel
  14. An internal error occurred during: compute variable details. java.lang.NullPointerException
  15. 电脑耳机插入外放解决办法
  16. linux服务器下mysql完全卸载
  17. 电子密码锁——数电课设
  18. Blender 烘焙贴图 导入Unity
  19. ElasticSearch | 01 使用场景和概要介绍
  20. 怎么修整证件照上传的计算机考试,网上报名上传电子照片时,要求大于30K小于200K,该怎么修改?...

热门文章

  1. adb shell screencap 报错:usage: screencap [-hp] [-d display-id] [FILENAME]
  2. 股票最大收益 Best Time to Buy and Sell Stock I
  3. php使用smtp.sina.com邮箱发送邮件
  4. 应聘需要掌握的技能(C++方向)
  5. 如何用C++实现动态放烟花(附源码)
  6. 数据库事务ACID特性
  7. 一个实用的工具,查找网站快照含历史版本
  8. Java 代码如何获取CPU核心数
  9. kafka学习一-kafka消费模式
  10. 巧用搜索引擎之百度Google