都知道Python的抓取功能强大,可以帮我们从海量的数据中爬取所需要的进行分析。下面,就给大家分享知乎大神怎么用Python爬取高颜值美女!

1、数据源

知乎话题『美女』下所有问题中回答所出现的图片

2、抓取工具

Python3,并使用第三方库Requests、lxml、AipFace,代码共100 +行

3、必要环境

●Mac / Linux / Windows(Linux 没测过,理论上可以)。

●Windows之前较多反应出现异常,后查是windows对本地文件名中的字符做了限制,已使用正则过滤

●无需登录知乎(即无需提供知乎帐号密码)

人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)

4、人脸检测库

AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过HTTP访问,免费使用。

5、检测过滤条件

●过滤所有未出现人脸图片(比如风景图、未露脸身材照等)

●过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况)

●过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)

●过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)

6、实现逻辑

●通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表

●通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性

●通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)

●通过 AipFace 请求对图片进行人脸检测

●判断是否检测到人脸,并使用 『4 检测过滤条件』过滤

●将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号

●返回第一步,继续

7、抓取结果

直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,女神竟然不是最高分!

8、代码

9、运行准备

●安装 Python 3,Download Python

●安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令

●申请百度云检测服务,免费。人脸识别-百度AI

当然爬虫只是Python强大功能的一部分。如果你想紧追潮流学习这门最具前景的语言可以去好好学习一下。

python 知乎美女_知乎大神教你用Python爬取网站美女图,附代码!相关推荐

  1. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  2. 【python--爬虫】爬取网站美女照片

    爬取网站美女照片 # -*- coding: utf-8 -*-import requests from bs4 import BeautifulSoup import os import rando ...

  3. python爬虫登录有验证码_大神教你用Python爬虫模拟登录带验证码网站

    爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法.python提供了强大的url库,想做到这个并不难.这里以登录学校教务系统为例,做一个简单的例子. 首先得明白cookie的作用, ...

  4. Python脚本爬取网站美女照片

    上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时 先附上所 ...

  5. python爬取网站美女图片

    今天周五,项目刚刚上线完,有些时间,闲着无聊,继续复习爬虫,这次打算爬取网站的美女图片.得先找到目标,然后目标网站还不会反爬虫,因为自己只是小白,好了开始. 寻找目标,发现了目标,哈哈 http:// ...

  6. python爬取网站美女图(附代码及教程)爬虫爬取海量手机壁纸,电脑壁纸,美女图片,风景图片等

    想要练习爬虫的兄弟们,可以看看这个 如果大神们看到有哪里可以改进的地方,请告诉小弟,我是个纯纯新手,练习了几次爬虫 以前一直用的BeautifulSoup,一直没有接触过正则表达式 正则表达式是一个非 ...

  7. python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...

  8. 文章如何做伪原创 SEO大神教你几招做原创网站文章的心得

    想要创作出好的文章并被百度所喜欢,就非常需要SEO的优化能力,以及要对文章进行塬创或伪塬创,那么,如何做伪塬创文章?以及如何做好塬创网站文章呢?对此,本文小编就为大家带来了几招做"塬创&qu ...

  9. python 相关性检验怎么计算p值_收藏 | 大神教你用Python预测未来:一文看懂时间序列...

    (由Python大本营付费下载自视觉中国) 作者 |  Leandro Rabelo 译者 | 李洁 整理 | Lemonbit 出品 | Python数据之道 本文内容较长,较为详细的阐述了进行时间 ...

最新文章

  1. 直方图均衡化opencv(彩色、灰度图)
  2. java 随机生成常用汉字_Java随机生成中文汉字
  3. spring mvc使用html页面,使用Spring MVC的纯HTML页面应用程序
  4. java集合——遗留的集合
  5. redis入门——安装篇
  6. Team Foundation Server 源代码控制权限问题
  7. 3010基于二叉链表的二叉树高度的计算(附思路,WA的一种可能情况及代码)
  8. 实习学习:项目用的DDD,什么是DDD开发?
  9. Canvas 通过改变渐变色渐变百分比位置做飞线效果
  10. python的wget用法介绍_Python使用wget实现下载网络文件功能示例
  11. 在tomcat文件夹下启动war项目
  12. 在服务器应用虚拟化中发现价值
  13. logisim软件使用学习
  14. 哔哩哔哩---WPF入门基础教程(合集)
  15. android屏幕适配无效_AndroidAutoLayout
  16. [UEFI启动教程]移动硬盘安装U盘装机助理(双模式启动)
  17. java pdf转图片base64,itextpdf 实现html转pdf中中文及图片base64的解决方法
  18. 最新!SPDK宣布在NVMe-oF Fabrics中支持TCP transport
  19. PDF文档免费转成Word文档,不限页数。
  20. 群晖虚拟机安装centos7.9

热门文章

  1. 联想微型计算机m4500s,超级Q 让1L机箱更有意义_联想ThinkCentre M4500s-N000_台式电脑新闻-中关村在线...
  2. 舍瓦处子球难破河畔宿命 切尔西惨遭逆转1-2米堡
  3. 【Service】bindService:绑定本地服务和远程服务示例
  4. 冰河公开了其总结的一项重要的编程技能!
  5. cf819C Jatayu‘s Balanced Bracket Sequence
  6. pycharm 一键折叠(或展开)所有代码片段
  7. 绝美梦幻荧光水母图片你也可以拥有
  8. 励志人生:只要路是对的,就不怕远
  9. Android 地图导航调用百度地图、高德地图、腾讯地图,android面试题2018
  10. JAVA 生成树结构