Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

下面开始上代码

需要用到的库

import request #页面请求
import time #用于时间延迟
import re #正则表达式内容提取

构造请求头,这个要说明一下,有的网站不需要这个,但是虎牙需要,要不然就会给你返回错误码,大家可以试试,这是最基本的防反爬虫手段
至于怎么搞来的,按下f12然后去复制就可以了,详细可以问度娘请求头怎么做

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}

定义一个变量response 来接收请求到的网页,注意用request是返回的状态码所以要定义html变量。
然后用变量 html接收网页源代码

response = requests.get(headers=headers, url="https://www.huya.com/g/1663")
html = response.text

下面要用正则表达式了

urls = re.findall('<img class="pic" data-original="(.*?)" src=".*?" data-default-img="338x190" alt=".*?" title=".*?',html) #正则表达式提取图片链接
names = re.findall('<img class="pic" data-original=".*?" src=".*?" data-default-img="338x190" alt="(.*?)" title=".*?',html)#正则表达式提取文件名称,用于最后保存图片用的名称

下面用一个for循环实现多张图片下载,对了要提前在你这个保存代码的文件夹下新建一个girls的文件夹用来保存图片 ./的意思就是当前目录,要不然会报错找不到目录,当然你也可以用os库加if语句判断一下,如果找不到就新建一个,自行百度吧,哈哈哈

i =1   #定义一个变量,后面提示用的
for url,names in zip(urls,names):time.sleep(0.1)   #防止被限制设置时间间隔0.5sif url[0] !='h'  #这个是用来补全连接,有些图片链接会掉了http//,我也不知道为什么url = 'http//' + urlresponse = requests.get(url = url,headers = headers)print("正在下载第%d张"%i)with open('./girls/%s.jpg'%name,'wb') as jpg:#文件处理jpg.write(response.content)print("下载完毕")

下面是效果

附上源代码 如果各位要运行的话请复制这个,这个是我从我IDE复制过来的,运行没问题,由于现在我是在自学,上面的是我又重新把代码敲了一遍作为复习了,没有运行,可能出现错误,所以说要运行就复制这个总的

import time
import os
import requests
import reheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}response = requests.get(headers=headers, url="https://www.huya.com/g/1663")
html = response.texturls = re.findall('<img class="pic" data-original="(.*?)" src=".*?" data-default-img="338x190" alt=".*?" title=".*?',html)
names = re.findall('<img class="pic" data-original=".*?" src=".*?" data-default-img="338x190" alt="(.*?)" title=".*?',html)
dir_name = "girls"# <img class="pic" data-original="https://anchorpost.msstatic.com/cdnimage/anchorpost/1023/96/1ddd3fb62e2d7574e87116b721a376_1663_1609669994.jpg?imageview/4/0/w/338/h/190/blur/1" src="https://anchorpost.msstatic.com/cdnimage/anchorpost/1023/96/1ddd3fb62e2d7574e87116b721a376_1663_1609669994.jpg?imageview/4/0/w/338/h/190/blur/1/format/webp" data-default-img="338x190" alt="是宝宝吖【瑶池】的直播" title="是宝宝吖【瑶池】的直播">
# <img class="pic" data-original="https://anchorpost.msstatic.com/cdnimage/anchorpost/1063/7f/d9ccf2a545e17161f875084da4001c_1663_1613471343.jpg?imageview/4/0/w/338/h/190/blur/1" src="https://anchorpost.msstatic.com/cdnimage/anchorpost/1063/7f/d9ccf2a545e17161f875084da4001c_1663_1613471343.jpg?imageview/4/0/w/338/h/190/blur/1/format/webp" data-default-img="338x190" alt="奇领小苹果的直播" title="奇领小苹果的直播">
i = 1
for url,name in zip(urls,names):time.sleep(0.5)if url[0] != 'h':url = 'https:' + urlurl = url.split('?')[0]response = requests.get(url=url, headers=headers)print('正在下载第 %d 张'%i)i = i + 1with open('./girls/%s.jpg' % name, 'wb') as jpg:jpg.write(response.content)print('<%s>下载完成!' % name)

可能写的很复杂,多线程什么的我现在还不懂,大佬勿喷,欢迎点评

Python爬虫利用18行代码爬取虎牙上百张小姐姐图片相关推荐

  1. python:利用20行代码爬取网络小说

    文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...

  2. [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片

    安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...

  3. python爬取贴吧所有帖子-Python爬虫实例(一)爬取百度贴吧帖子中的图片

    程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 ?后面为查询字 ...

  4. python爬虫代码1000行-Python爬虫教程(16行代码爬百度)

    最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...

  5. Python爬虫教程(16行代码爬百度)

    最近在学习python,不过有一个正则表达式一直搞不懂,自己直接使用最笨的方法写出了一个百度爬虫,只有短短16行代码. 首先安装必背包: pip3 install bs4 pip3 install r ...

  6. 【Python】多线程爬取某站高颜值小姐姐照片(共1.62GB)

    文章目录 写在前面 目标网站 依赖模块 爬虫思路 完整代码 爬虫结果 单图预览 多图预览 引用参考 写在前面 本文使用Python编写爬虫脚本,实现多线程爬取唯美女生网站高颜值小姐姐的所有照片. 目标 ...

  7. 教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!

    教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!! 代码展示: 开发环境: windows10 python3.6 开发工具: pycharm weddriver 库: sel ...

  8. python pyquery不规则数据的抓取_爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网...

    爬虫神器之PyQuery实用教程(二),50行代码爬取穷游网 前言 上篇文章 PyQuery (一) 回顾.今天来介绍具体 PyQuery 的使用方法. 穷游网目标与分析 开始之前,按照之前的套路一步 ...

  9. python爬上市公司信息_实战项目 1:5 行代码爬取国内所有上市公司信息

    实战项目 1:5 行代码爬取国内所有上市公司信息 Python入门爬虫与数据分析 在正式开始这门专栏课的学习之前,我们先来看一个简单的爬虫案例.兴趣是最好的老师,当你对爬虫产生兴趣的时候,才会更有动力 ...

最新文章

  1. RzPageControl 关闭按钮
  2. MySQL普通用户修改密码
  3. 反序列化 jackson_使用Jackson和Super类型令牌的Json反序列化
  4. for 循环 和 Array 数组对象
  5. scp和sftp常用操作
  6. python3中map的用法_python3中map()函数用法
  7. Redis介绍及实践分享
  8. FlashFXP列表参数错误解决方法
  9. CheckstyleException: cannot initialize module TreeWalker - TreeWalker is not allowed as a
  10. matplotlib——在 Jupyter Notebook中绘制图像时只显示变量信息不显示图片
  11. python3.3psutil模块安装_详解Python3.6安装psutil模块和功能简介
  12. linux虚拟机读取本地磁盘文件,kvm虚拟化学习笔记(十三)之kvm虚拟机磁盘文件读取小结...
  13. MIL图像处理那些事:MIL的安装和MIL工具箱
  14. 兽药销售终端如何摆脱客情困局
  15. 加密聊天软件(技术文档)
  16. 图文介绍--光纤接口类型
  17. Vue app.js文件过大,带宽占用过大,优化方案(持续优化)
  18. inline-bock间隙问题
  19. SpringCloud从入门到精通教程/SpringCloud Alibaba从入门到精通教程
  20. 佘其炯:关于97工程的思考

热门文章

  1. 华为终端云服务HMS赋能智能汽车,AITO问界M5 36城同启交付
  2. 笔记本电脑外接显示器无信号 其实是主板静电积压 完全可以不拆机放电
  3. Keras学习之:tensorboard 异常报错及处理方法
  4. 一个用户只能登录一次
  5. UEStudio中进行文件编码转换
  6. ucharts 柱状图圆角_圆角柱状图
  7. 不懂年轻人,还怎么带团队
  8. UOS系统中安装x11vnc远程桌面
  9. HDU 5804/BC 86A Price List
  10. Python ❀ 插入排序