原标题:知乎大神用Python爬取高颜值美女(爬虫+人脸检测+颜值检测)

1 数据源

知乎话题『美女』下所有问题中回答所出现的图片

2 抓取工具

Python 3,并使用第三方库 Requests、lxml、AipFace,代码共 100 + 行

3 必要环境

Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则过滤)

无需登录知乎(即无需提供知乎帐号密码)

人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)

4 人脸检测库

AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问,免费使用。

5 检测过滤条件

过滤所有未出现人脸图片(比如风景图、未露脸身材照等)

过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)

过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)

6 实现逻辑

通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表

通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性

通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)

通过 AipFace 请求对图片进行人脸检测

判断是否检测到人脸,并使用 『4 检测过滤条件』过滤

将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号

返回第一步,继续

7 抓取结果

直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,老婆竟然不是最高分

代码

9 运行准备

安装 Python 3,Download Python

安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令

记得点击「在看」,然后转给你身边的朋友们。返回搜狐,查看更多

责任编辑:

python 知乎美女_知乎大神用Python爬取高颜值美女(爬虫+人脸检测+颜值检测)相关推荐

  1. 2021-7-30 Python-爬虫练手:爬取高质量美女图片

    爬取高质量美女图片 目标网站 思路分析 封面页 用bs4确定封面页图片链接 拿到图片链接和名称 保存封面 子页面(套图) 确定子页面位置 获取子页面里图片位置和图片名称 保存组图 完整代码 运行结果 ...

  2. python获取虎牙弹幕_教你用20行代码爬取直播平台弹幕(附源码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  3. Python爬虫-带你爬取高清美女图片

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:明天依旧可好 ( 想要学习Python?Python学 ...

  4. python 翻译库_有没有大神用Python Requests库翻译一下呢?

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 import org.apache.http.HttpResponse; import org.apache.http.NameValuePair;imp ...

  5. python 单词拆音节_新手求大神carry!关于单词音节问题!求救!

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 def check_syllables(poem_lines, pattern, word_to_phonemes): r""&quo ...

  6. 爬虫入门,带你用30行代码爬取高清美女写真,附安装包+源码

    1.准备工作 1 高清壁纸:https://www.36992.com/girls/list-1.html 2 Python环境 Python3.9新特性: 字典"并集"运算符 类 ...

  7. python爬虫爬取高清图片——爬虫入门

    自动抓取某图片网站高清壁纸并下载保存 使用requests请求网页,bs4解析数据 话不多说直接看代码,刚学不久欢迎指点 #-*- codeing = utf-8 -*- #@Time : 2022/ ...

  8. python 知乎美女_知乎大神教你用Python爬取网站美女图,附代码!

    都知道Python的抓取功能强大,可以帮我们从海量的数据中爬取所需要的进行分析.下面,就给大家分享知乎大神怎么用Python爬取高颜值美女! 1.数据源 知乎话题『美女』下所有问题中回答所出现的图片 ...

  9. 学python重点是什么_如果只有1小时学Python,看这篇就够了

    大家好,我是大鹏,城市数据团联合发起人,致力于Python数据分析.数据可视化的应用与教学. 和很多同学接触过程中,我发现自学Python数据分析的一个难点是资料繁多,过于复杂.大部分网上的资料总是从 ...

最新文章

  1. PyTorch 图像分类
  2. mysql补丁如何安装_神技_如何快捷下载Oracle补丁的方法?!
  3. springmvc基础入门,你确定你真的理解_双亲委派_了吗?
  4. c语言 char operator,C语言取模运算符(modulus operator)“%”的作用是什么
  5. HihoCode1721删除一个字符之后是回文字符串
  6. bzoj1222: [HNOI2001]产品加工
  7. 计算机手二进制,求教高手:计算机二进制运算法则?
  8. 三、操作系统——生产者-消费者问题(两个同步一个互斥)
  9. 那些年,乘风破浪的科学家们
  10. android 获取加速度传感器值,Android开发获取传感器数据的方法示例【加速度传感器,磁场传感器,光线传感器,方向传感器】...
  11. 什么工作经常出差_商旅人群洞察:什么样的人经常坐飞机出差?
  12. 解决Mac无法编辑 .bash_profile文件与使用sudo时permission denied报错
  13. Docker学习总结(36)——利用Google开源Java容器化工具Jib构建镜像
  14. Khronos关于WebGL最新进展
  15. FISCO BCOS(九)——— WeBase的节点前置服务
  16. 游戏开发经验谈(二):对战类全球服游戏的设计与实现
  17. android 类似按键精灵脚本_脚本编辑器 -- 按键精灵 #Android
  18. 信号处理中的预加重、去加重和均衡
  19. 126邮箱stmp服务器,免费邮箱
  20. 润迈德医疗上市首日跌15%:年亏6.3亿 平安资本是股东

热门文章

  1. 虚拟机centos7执行ip addr命令看不到ip地址
  2. 前段切图之ps使用技巧
  3. jmeter-1-apache ant-集成测试
  4. 亚马逊测评:亚马逊掉评,删评是怎么回事
  5. php语言特点优点,PHP语言的五大优点
  6. mysql 操作封装
  7. opera linux 64 42.0,Opera 浏览器 beta
  8. 大数据战略:从数据大国到数据强国
  9. 面试无忧:源码+实践,讲到MySQL调优的底层算法实现
  10. DolphinDB 机器学习在物联网行业的应用:实时数据异常率预警