Python爬虫 | Python爬虫获取女友图片

  • 前言
  • 程序说明
  • 二次元女友获取程序
    • 观察网页结构
  • 页面解析
    • 创建图片保存路径
    • 图片下载
    • 格式转换
    • 爬取结果展示
  • 完整程序

前言

(又到了常见的无中生友环节了)我有一个朋友,最近沉迷二次元,想要与喜欢的二次元角色度过一生,就像11区与初音未来结婚的阿宅那样。于是作为为朋友两肋插刀的正义的化身,决定为其充满魔幻现实的人生再添加一抹亮色,让他深陷其中无法自拔,于是在二次元的宇宙里,帮他用Python获取了二次元女友(们)。


尽管二次元知识人类幻想出来的唯美世界,但其本质上还是我们心中模糊的对梦想生活的憧憬和对美好未来的期望,这卡哇伊的颜,爱了爱了,我给你讲。

程序说明

通过爬取知名二次元网站——触站,获取高清动漫图片,并将获取的webp格式的图片转化为更为常见的png格式图片。

二次元女友获取程序

使用requests库请求网页内容,使用BeautifulSoup4解析网页,最后使用PIL库将webp格式的图片转化为更为常见的png格式图片。

观察网页结构

首先选择想要获取的图片类型,这里已女孩子为例,当然大家也可以选择生活或者脚掌,甚至是男孩子
进入女孩子标签页面,观察页面链接,爬取多个页面,查看第2页链接为:

https://www.huashi6.com/tags/161?p=2

第3页链接为:

https://www.huashi6.com/tags/161?p=3

可以看出,不同页面网址仅改变了页面数字,因此可以构造如下模式,并使用循环,爬取所有页面:

url_pattern = "https://www.huashi6.com/tags/161?p={}"
for i in range(1, 20):url = url_pattern.format(i)

接下来,在爬取网页前,使用浏览器“开发者工具”,观察网页结构。首先尝试定位图片元素:


于是自然想到使用find_all语法获取所有class=‘v-lazy-img v-lazy-image-loaded’的标签:

img_url = soup.find_all('img', attr={'class': 'v-lazy-img v-lazy-image-loaded'})

但是发现并未成功获取,于是经过进一步探索发现,其图片信息是在script元素中动态加载的:


需要注意的是,在请求页面时,可以在构造请求头时,添加'Cookie'键值,但是没有此键值也能够运行。

headers = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',# 根据自己的情况修改Cookie值#'Cookie':''
}
url_pattern = "https://www.huashi6.com/tags/161"
response = requests.get(url=url, headers=headers)

页面解析

使用beautifulsoup解析页面,获取JS中所需数据:

results = soup.find_all('script')[1]

为了能够使用re解析获取内容,需要将内容转换为字符串:

image_dirty = str(results)

接下来构造正则表达式获取图片地址:

pattern = re.compile(item, re.I|re.M)

然后查找所有的图片地址:

result_list = pattern.findall(image_dirty)

为了方便获取所需字段,构造解析函数

def analysis(item,results):pattern = re.compile(item, re.I|re.M)result_list = pattern.findall(results)return result_list

打印获取的图片地址:

urls  = analysis(r'"path":"(.*?)"', image_dirty)
urls[0:1]

发现一堆奇怪的字符:

'images\\u002Fresource\\u002F2021\\u002F06\\u002F20\\u002F906h89635p0.jpg',

这是由于网页编码的原因造成的,由于一开始使用utf-8方式解码网页,并不能解码Unicode

response.encoding = 'utf-8'
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')

因此虽然可以通过以下方式获取原始地址:

url = 'images\u002Fresource\u002F2021\u002F05\u002F22\u002F90h013034p0.jpg'
decodeunichars = url.encode('utf-8').decode('unicode-escape')

但是我们可以通过response.encoding = 'unicode-escape'进行更简单的解码,缺点是网页的许多中文字符会变成乱码,但是字不重要不是么?看图!

创建图片保存路径

为了下载图片,首先创建图片保存路径:

# 创建图片保存路径
if not os.path.exists(webp_file):os.makedirs(webp_file, exist_ok=True)
if not os.path.exists(png_file):os.makedirs(png_file, exist_ok=True)

图片下载

当我们使用另存为选项时,发现格式为webp,但是上述获取的图片地址为jpgpng,如果直接存储为jpgpng格式,会导致格式错误。
因此需要重新构建webp格式的文件名:

name = img.split('/')[-1]
name = name.split('.')[0]
name_webp = name + '.webp'

由于获取的图片地址并不完整,需要添加网站主页来构建图片地址:

from urllib.request import urljoin
domain = 'https://img2.huashi6.com'
img_url = urljoin(domain,img)

接下来就是下载图片了:

r = requests.get(img_url,headers=headers)
if r.status_code == 200:with open(name_webp, 'wb') as f:f.write(r.content)

格式转换

最后,由于得到的图片是webp格式的,如果希望得到更加常见的png格式,需要使用PIL库进行转换:

image_wepb = Image.open(name_webp)
image_wepb.save(name_png)

爬取结果展示

完整程序

import time
import requests
from bs4 import BeautifulSoup
import os
import re
from urllib.request import urljoin
from PIL import Imagewebp_file = 'girlfriends_webp'
png_file = 'girlfriends_png'print(os.getcwd())# 创建图片保存路径
if not os.path.exists(webp_file):os.makedirs(webp_file, exist_ok=True)
if not os.path.exists(png_file):os.makedirs(png_file, exist_ok=True)headers = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:86.0) Gecko/20100101 Firefox/86.0',#'Cookie':'''Connection': 'keep-alive'
}
url_pattern = "https://www.huashi6.com/tags/161?p={}"domain = 'https://img2.huashi6.com'# 图片地址获取函数
def analysis(item,results):pattern = re.compile(item, re.I|re.M)result_list = pattern.findall(results)return result_list# 图片格式转换函数
def change_webp2png(name_webp, name_png, img_url):try:image_wepb = Image.open(name_webp)image_wepb.save(name_png)except:download_image(name_webp, name_png, img_url)# 图片下载函数
def download_image(name_webp, name_png, img_url):if not os.path.exists(name_png):if os.path.exists(name_webp):os.remove(name_webp)print(img_url)r = requests.get(img_url,headers=headers)# print(r.content)time.sleep(5)if r.status_code == 200:with open(name_webp, 'wb') as f:f.write(r.content)change_webp2png(name_webp, name_png, img_url)for i in range(1, 20):time.sleep(5)url = url_pattern.format(i)response = requests.get(url=url, headers=headers)# 解码# response.encoding = 'utf-8'response.encoding = 'unicode-escape'response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')results = soup.find_all('script')image_dirty = str(results[1])urls  = analysis(r'"path":"(.*?)"', image_dirty)[:20]for img in urls:img_url = urljoin(domain,img)# 获取文件名name = img.split('/')[-1]name = name.split('.')[0]name_webp = name + '.webp'name_webp = os.path.join(webp_file, name_webp)name_png = name + '.png'name_png = os.path.join(png_file, name_png)download_image(name_webp, name_png, img_url)

转:https://blog.csdn.net/LOVEmy134611/article/details/118540051

Python爬虫 | Python爬虫获取女友图片相关推荐

  1. python打开摄像头获取图片_Python基于opencv调用摄像头获取个人图片的实现方法

    接触图像领域的应该对于opencv都不会感到陌生,这个应该算是功能十分强劲的一个算法库了,当然了,使用起来也是很方便的,之前使用Windows7的时候出现多该库难以安装成功的情况,现在这个问题就不存在 ...

  2. python照片过人脸_python openCV实现摄像头获取人脸图片

    本文实例为大家分享了python openCV实现摄像头获取人脸图片的具体代码,供大家参考,具体内容如下 在机器学习中,训练模型需要大量图片,通过openCV中的库可以快捷的调用摄像头,截取图片,可以 ...

  3. 如何用python搜索要用的素材_一篇文章教会你利用Python网络爬虫获取素材图片

    [一.项目背景] 在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片. [二.项目目标] 1.根据给定的网址获取网页源代码. 2.利用正则 ...

  4. Python爬虫教你获取4K超清壁纸图片,手把手教你跟我一起爬!

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

  5. Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频、图片、获取网页源码等)整理

    Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频.图片.获取网页源码等)整理 目录

  6. python爬取素材图片代码_一篇文章教会你利用Python网络爬虫获取素材图片

    [一.项目背景] 在素材网想找到合适图片需要一页一页往下翻,现在学会python就可以用程序把所有图片保存下来,慢慢挑选合适的图片. [二.项目目标] 1.根据给定的网址获取网页源代码. 2.利用正则 ...

  7. 手把手教你用Python网络爬虫获取壁纸图片

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 桃之夭夭,灼灼其华. /1 前言/ ...

  8. Python爬虫--获取网页图片两步走:美女图片+王者荣耀皮肤

    文章目录 一.目标 1.实现当前页面的图片爬取: 2.实现二级网页下的图片爬取并分别存储 二.实现截图 二.代码 1.美女图片 2.王者荣耀皮肤 指导博客(阿里嘎多!) 一.目标 1.实现当前页面的图 ...

  9. 一篇文章教会你利用Python网络爬虫获取素材图片

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 在素材网想找到合适图片需要一页一页往下翻,现在学会python就可 ...

最新文章

  1. [Android Traffic] 调整定时更新的频率(C2DM与退避算法)
  2. 如何注册iClap账号?
  3. JavaScript常用数组方法
  4. 1012 The Best Rank (25 分)【难度: 中 / 知识点: 排序 前缀和】
  5. 点击弹出窗口外任意地方关闭弹出窗口
  6. GridView+ZedGraph【转】
  7. python+OpenCV图像处理(十二)车牌定位中对图像的形态学组合操作处理
  8. Java:Spring的IOC原理(大白话解释)
  9. OPNET网络仿真分析-1.1.3、OPNET Modeler
  10. matlab 中函数regionprops 求解区域面积的原理
  11. 服务器配置ssh 登录,取消账号密码登录
  12. linux debain下vim高亮显示
  13. Android——ViewHolder的作用与用法
  14. 基于python的异方差检验_异方差检验及解决方法
  15. ecu的c语言编程,ecu中的程序是如何编写的
  16. 数据结构与算法(java):线性表(链表-双向链表)
  17. 第二集 第一魂环 第十三章
  18. 操作系统-进程互斥的软件实现方法
  19. AMD EPYC架构
  20. 用.bat文件多开微信及打开固定浏览器浏览固定页面 开机自启

热门文章

  1. 计算机网络协议ppt,计算机网络基础——TCP-IP协议.ppt
  2. 用这个方法1分钟能批量下载上百张图片,亲测有效速度快
  3. ECM 手机MIC电路简单设计描述
  4. 技嘉Gigabyte主板Z370HD3安装1080ti+ubuntu17.10+Cuda9.1+cudnn7+tensorflow
  5. sql按不同纬度拆分时间以及相关时间函数整理
  6. Linux中ImageIO生成词云图片中文乱码
  7. EDM数据营销之HTML模板相关问题
  8. 一个人运营公众号,像是一场马拉松
  9. 天耀18期 – 03.Java基本语法【作业】.
  10. TDA2XEVM从EMMC启动