Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

下面开始上代码

需要用到的库

import request #页面请求
import time #用于时间延迟
import re #正则表达式内容提取

构造请求头，这个要说明一下，有的网站不需要这个，但是虎牙需要，要不然就会给你返回错误码，大家可以试试，这是最基本的防反爬虫手段
至于怎么搞来的，按下f12然后去复制就可以了，详细可以问度娘请求头怎么做

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}

定义一个变量response 来接收请求到的网页，注意用request是返回的状态码所以要定义html变量。
然后用变量 html接收网页源代码

response = requests.get(headers=headers, url="https://www.huya.com/g/1663")
html = response.text

下面要用正则表达式了

urls = re.findall('<img class="pic" data-original="(.*?)" src=".*?" data-default-img="338x190" alt=".*?" title=".*?',html) #正则表达式提取图片链接
names = re.findall('<img class="pic" data-original=".*?" src=".*?" data-default-img="338x190" alt="(.*?)" title=".*?',html)#正则表达式提取文件名称，用于最后保存图片用的名称

下面用一个for循环实现多张图片下载，对了要提前在你这个保存代码的文件夹下新建一个girls的文件夹用来保存图片 ./的意思就是当前目录，要不然会报错找不到目录，当然你也可以用os库加if语句判断一下，如果找不到就新建一个，自行百度吧，哈哈哈

i =1   #定义一个变量，后面提示用的
for url,names in zip(urls,names):time.sleep(0.1)   #防止被限制设置时间间隔0.5sif url[0] !='h'  #这个是用来补全连接，有些图片链接会掉了http//，我也不知道为什么url = 'http//' + urlresponse = requests.get(url = url,headers = headers)print("正在下载第%d张"%i)with open('./girls/%s.jpg'%name,'wb') as jpg:#文件处理jpg.write(response.content)print("下载完毕")

下面是效果

附上源代码如果各位要运行的话请复制这个，这个是我从我IDE复制过来的，运行没问题，由于现在我是在自学，上面的是我又重新把代码敲了一遍作为复习了，没有运行，可能出现错误，所以说要运行就复制这个总的

import time
import os
import requests
import reheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}response = requests.get(headers=headers, url="https://www.huya.com/g/1663")
html = response.texturls = re.findall('<img class="pic" data-original="(.*?)" src=".*?" data-default-img="338x190" alt=".*?" title=".*?',html)
names = re.findall('<img class="pic" data-original=".*?" src=".*?" data-default-img="338x190" alt="(.*?)" title=".*?',html)
dir_name = "girls"# <img class="pic" data-original="https://anchorpost.msstatic.com/cdnimage/anchorpost/1023/96/1ddd3fb62e2d7574e87116b721a376_1663_1609669994.jpg?imageview/4/0/w/338/h/190/blur/1" src="https://anchorpost.msstatic.com/cdnimage/anchorpost/1023/96/1ddd3fb62e2d7574e87116b721a376_1663_1609669994.jpg?imageview/4/0/w/338/h/190/blur/1/format/webp" data-default-img="338x190" alt="是宝宝吖【瑶池】的直播" title="是宝宝吖【瑶池】的直播">
# <img class="pic" data-original="https://anchorpost.msstatic.com/cdnimage/anchorpost/1063/7f/d9ccf2a545e17161f875084da4001c_1663_1613471343.jpg?imageview/4/0/w/338/h/190/blur/1" src="https://anchorpost.msstatic.com/cdnimage/anchorpost/1063/7f/d9ccf2a545e17161f875084da4001c_1663_1613471343.jpg?imageview/4/0/w/338/h/190/blur/1/format/webp" data-default-img="338x190" alt="奇领小苹果的直播" title="奇领小苹果的直播">
i = 1
for url,name in zip(urls,names):time.sleep(0.5)if url[0] != 'h':url = 'https:' + urlurl = url.split('?')[0]response = requests.get(url=url, headers=headers)print('正在下载第 %d 张'%i)i = i + 1with open('./girls/%s.jpg' % name, 'wb') as jpg:jpg.write(response.content)print('<%s>下载完成！' % name)

可能写的很复杂，多线程什么的我现在还不懂，大佬勿喷，欢迎点评

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片相关推荐

python：利用20行代码爬取网络小说
文章目录前言一.爬虫是什么? 二.实现过程总结提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档前言今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...
[ Python ] 爬虫类库学习之 xpath，爬取彼岸图网的小姐姐图片
安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...
python爬取贴吧所有帖子-Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...
python爬虫代码1000行-Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...
Python爬虫教程(16行代码爬百度)
最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...
【Python】多线程爬取某站高颜值小姐姐照片（共1.62GB）
文章目录写在前面目标网站依赖模块爬虫思路完整代码爬虫结果单图预览多图预览引用参考写在前面本文使用Python编写爬虫脚本,实现多线程爬取唯美女生网站高颜值小姐姐的所有照片. 目标 ...
教你用python实现34行代码爬取东方财富网信息，爬虫之路，永无止境！！
教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...
python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程（二），50行代码爬取穷游网...
爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网前言上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析开始之前,按照之前的套路一步 ...
python爬上市公司信息_实战项目 1：5 行代码爬取国内所有上市公司信息
实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片相关推荐

最新文章

热门文章