python爬取美女_Python爬取高颜值美女(爬虫+人脸检测+颜值检测)附学习教程
1 数据源
知乎话题『美女』下所有问题中回答所出现的图片
2 抓取工具
Python 3,并使用第三方库 Requests、lxml、AipFace,代码共 100 + 行
3 必要环境Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则过滤)
无需登录知乎(即无需提供知乎帐号密码)
人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)
4 人脸检测库
AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问,免费使用。
5 检测过滤条件过滤所有未出现人脸图片(比如风景图、未露脸身材照等)
过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况)
过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)
过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)
6 实现逻辑通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表
通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性
通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)
通过 AipFace 请求对图片进行人脸检测
判断是否检测到人脸,并使用 『4 检测过滤条件』过滤
将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号
返回第一步,继续
7 抓取结果
直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,老婆竟然不是最高分
代码
9 运行准备安装 Python 3,Download Python
安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令
申请百度云检测服务,免费。人脸识别-百度AI
小编这里有一套Python自学从入门到精通的全套视频学习资料,现在免费分享给大家
获取方式:转发此文+关注 并 私信小编 “ 学习”,即可免费获取哦!
2019年最新python教程
如果你处于想学python或者正在学习python,python的教程不少了吧,但是是最新的吗?
说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2019最新的python全套教程最后小编为大家准备了6月份新出的python自学视频教程,共计约200G,免费分享给大家!
2019Python自学教程全新升级为《Python+数据分析+机器学习》,七大阶段能力逐级提升,打造技能更全面的全栈工程师。
阶段一:Python基础知识和高级特性Python语法基础Python字符串解析Python时间和日历Python文件操作Python面向对象并发编程函数式编程正则表达式设计模式排序算法异常模块
阶段二:Linux基础shell操作系统管理常见Linux系统HDFS搭建
阶段三:数据库原理和sql优化Linux下MySQL数据库数据库设计和SQL标准Python数据库操作的库Linux下MongoDB非关系型数据库SQL优化和数据库优化ORM对象关系映射基本思想
阶段四:前端web开发HtmlCSSPC端页面开发实战流程Bootstraphtml5和css3JavaScriptJQuery
阶段五:Python Web后端开发Django 框架开发Nginx配置和uWSGI部署RESTful接口开发Flask框架开发电商平台项目BBS论坛系统
阶段六:爬虫和数据分析第一个Python网络爬虫专业HTTP分析工具Fiddler的使用实际爬虫Python编码问题urllib2 的使用TesseractOCR语言模型爬取使用带验证码登录的网站Beautiful SoupXPath & CSS选择器PhantomJSSelenium WebdriverScrapy大型框架使用代理服务器爬取Scrapy分布式集群多代理爬虫Redis分布式集群Redis MongoDB在爬虫里的应用数据分析工具与模块
阶段七:Python人工智能机器学习深度学习
python爬取美女_Python爬取高颜值美女(爬虫+人脸检测+颜值检测)附学习教程相关推荐
- python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞,超给力!
原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...
- python电商数据挖掘_Python 爬取淘宝商品数据挖掘分析实战
作者 孙方辉 本文为CDA志愿者投稿作品,转载需授权 项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目 ...
- python获取天气分析_Python爬取南京市往年天气预报,使用pyecharts进行分析
上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...
- python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密
现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...
- python制作手机壁纸_Python爬取手机壁纸图片
使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...
- python动态爬取实时_python爬取动态数据实战---猫眼专业版-实时票房(二)
学习python进行简单的数据爬取(基于python 3.x).再进行数据页面解析之后,使用scrapy框架进行爬取数据.没有实现自己预想的效果,着实是自己能力有限,无法灵活使用该框架.就使用自己的办 ...
- 做一个python的旅游系统_Python爬取13个旅游城市,告诉你新年大家最爱去哪玩?...
2020年马上就要到了,放一天假,很多人只是选择周边游,因为时间不是很充裕,各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通过分析去哪儿网部分城 ...
- python可以爬什么山_Python爬取13个旅游城市,告诉你五一大家最爱去哪玩?
今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕,选择了稍微远一点的景区,甚至出国游.各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了. 今天,通 ...
- python爬取景点信息_python 爬取马蜂窝景点翻页文字评论的实现
使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html). 首先,我们复制 ...
- python爬取流浪地球_python爬取《流浪地球》16w评论
今年春节档电影<流浪地球>火的不要不要,截止到今天 2 月 17 日,上映 13 天,目前票房已达 36 亿,可喜可贺. 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难 ...
最新文章
- 鸡啄米vc++2010系列32(标签控件Tab Control 下)
- TCP连接过程:三次握手与四次握手—Vecloud微云
- 一次诡异的数据库死锁问题排查过程
- 验证E-mail是否正确
- 虚拟社会建设需要“网络社工”助力
- opencv用java完成的例子_SpringBoot整合OpenCV的实现示例
- MongoDB API实现增删改查
- arm linux gcc fpic,【待整理】Gcc中编译和链接选项 -fpic -fPIC -fpie -fPIE -pie的含义
- 分布式文件系统研究-搭建图片服务虚拟主机
- java 数据排序需求分析_java 实现数组全排序
- mysql distinct 条件,多行条件下的mysql distinct列
- java学习(146):file常用方法3
- 【Windows】关于shift和空格同时按无反应的解决方案
- matlab2c使用c++实现matlab函数系列教程-unifstat函数
- mybatis与hibernate区别
- Matlab里c2d命令,matlab中c2d如何将连续函数离散化
- linux定时器时间轮算法详解
- 手机上最好用的五笔输入法_【收藏】如果在电脑和手机上使用日语输入法
- windows 清理助手 3.1
- 【文末有惊喜!】iOS日历攻略:提醒调休并过滤法定节假日