python 知乎美女_知乎大神教你用Python爬取网站美女图,附代码!
都知道Python的抓取功能强大,可以帮我们从海量的数据中爬取所需要的进行分析。下面,就给大家分享知乎大神怎么用Python爬取高颜值美女!
1、数据源
知乎话题『美女』下所有问题中回答所出现的图片
2、抓取工具
Python3,并使用第三方库Requests、lxml、AipFace,代码共100 +行
3、必要环境
●Mac / Linux / Windows(Linux 没测过,理论上可以)。
●Windows之前较多反应出现异常,后查是windows对本地文件名中的字符做了限制,已使用正则过滤
●无需登录知乎(即无需提供知乎帐号密码)
人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)
4、人脸检测库
AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过HTTP访问,免费使用。
5、检测过滤条件
●过滤所有未出现人脸图片(比如风景图、未露脸身材照等)
●过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况)
●过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)
●过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)
6、实现逻辑
●通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表
●通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性
●通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)
●通过 AipFace 请求对图片进行人脸检测
●判断是否检测到人脸,并使用 『4 检测过滤条件』过滤
●将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号
●返回第一步,继续
7、抓取结果
直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,女神竟然不是最高分!
8、代码
9、运行准备
●安装 Python 3,Download Python
●安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令
●申请百度云检测服务,免费。人脸识别-百度AI
当然爬虫只是Python强大功能的一部分。如果你想紧追潮流学习这门最具前景的语言可以去好好学习一下。
python 知乎美女_知乎大神教你用Python爬取网站美女图,附代码!相关推荐
- Python爬虫:Xpath爬取网页信息(附代码)
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
- 【python--爬虫】爬取网站美女照片
爬取网站美女照片 # -*- coding: utf-8 -*-import requests from bs4 import BeautifulSoup import os import rando ...
- python爬虫登录有验证码_大神教你用Python爬虫模拟登录带验证码网站
爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法.python提供了强大的url库,想做到这个并不难.这里以登录学校教务系统为例,做一个简单的例子. 首先得明白cookie的作用, ...
- Python脚本爬取网站美女照片
上次无意之中看到一个网站,里面全是美女的照片,我就心想,哪天有时间了得把这网站的所有美女照片都得爬下来.今天有时间,写了点代码,爬去了网站的所有照片.附上战果!图片实在是太多了,爬半个多小时 先附上所 ...
- python爬取网站美女图片
今天周五,项目刚刚上线完,有些时间,闲着无聊,继续复习爬虫,这次打算爬取网站的美女图片.得先找到目标,然后目标网站还不会反爬虫,因为自己只是小白,好了开始. 寻找目标,发现了目标,哈哈 http:// ...
- python爬取网站美女图(附代码及教程)爬虫爬取海量手机壁纸,电脑壁纸,美女图片,风景图片等
想要练习爬虫的兄弟们,可以看看这个 如果大神们看到有哪里可以改进的地方,请告诉小弟,我是个纯纯新手,练习了几次爬虫 以前一直用的BeautifulSoup,一直没有接触过正则表达式 正则表达式是一个非 ...
- python 图片文件_初学Python-只需4步,爬取网站图片(附py文件)
很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...
- 文章如何做伪原创 SEO大神教你几招做原创网站文章的心得
想要创作出好的文章并被百度所喜欢,就非常需要SEO的优化能力,以及要对文章进行塬创或伪塬创,那么,如何做伪塬创文章?以及如何做好塬创网站文章呢?对此,本文小编就为大家带来了几招做"塬创&qu ...
- python 相关性检验怎么计算p值_收藏 | 大神教你用Python预测未来:一文看懂时间序列...
(由Python大本营付费下载自视觉中国) 作者 | Leandro Rabelo 译者 | 李洁 整理 | Lemonbit 出品 | Python数据之道 本文内容较长,较为详细的阐述了进行时间 ...
最新文章
- 直方图均衡化opencv(彩色、灰度图)
- java 随机生成常用汉字_Java随机生成中文汉字
- spring mvc使用html页面,使用Spring MVC的纯HTML页面应用程序
- java集合——遗留的集合
- redis入门——安装篇
- Team Foundation Server 源代码控制权限问题
- 3010基于二叉链表的二叉树高度的计算(附思路,WA的一种可能情况及代码)
- 实习学习:项目用的DDD,什么是DDD开发?
- Canvas 通过改变渐变色渐变百分比位置做飞线效果
- python的wget用法介绍_Python使用wget实现下载网络文件功能示例
- 在tomcat文件夹下启动war项目
- 在服务器应用虚拟化中发现价值
- logisim软件使用学习
- 哔哩哔哩---WPF入门基础教程(合集)
- android屏幕适配无效_AndroidAutoLayout
- [UEFI启动教程]移动硬盘安装U盘装机助理(双模式启动)
- java pdf转图片base64,itextpdf 实现html转pdf中中文及图片base64的解决方法
- 最新!SPDK宣布在NVMe-oF Fabrics中支持TCP transport
- PDF文档免费转成Word文档,不限页数。
- 群晖虚拟机安装centos7.9
热门文章
- 联想微型计算机m4500s,超级Q 让1L机箱更有意义_联想ThinkCentre M4500s-N000_台式电脑新闻-中关村在线...
- 舍瓦处子球难破河畔宿命 切尔西惨遭逆转1-2米堡
- 【Service】bindService:绑定本地服务和远程服务示例
- 冰河公开了其总结的一项重要的编程技能!
- cf819C Jatayu‘s Balanced Bracket Sequence
- pycharm 一键折叠(或展开)所有代码片段
- 绝美梦幻荧光水母图片你也可以拥有
- 励志人生:只要路是对的,就不怕远
- Android 地图导航调用百度地图、高德地图、腾讯地图,android面试题2018
- JAVA 生成树结构