这只爬虫做了些什么事儿呢?

  1. 通过 ADB 控制你的手机,帮你自动刷抖音
  2. 调用百度人脸识别的接口,给视频画面中出现的小姐姐打分
  3. 自动给颜值 70 以上的小姐姐的视频点赞

有趣的是,根据抖音的推荐算法,连着刷几天之后,抖音里给你推荐的全是漂亮小姐姐了。

0. 成果展示

先演示一下效果。

连接手机(手机要允许ADB调试),运行爬虫程序,程序会自动打开抖音APP,自动寻找漂亮的小姐姐啦。

有趣的是,根据抖音的推荐算法,连着刷几天之后,抖音里给你推荐的全是漂亮小姐姐了。

刚开始刷的时候,可能几十条里都没有一个漂亮小姐姐,而刷几天之后,基本上刷到的每条视频里都是漂亮小姐姐。

看,这是我刷了三天的 “成果”, 断断续续刷了三天时间,已经 “点赞” 了两百多条漂亮小姐姐的视频。

咱有一说一啊,先不管是不是因为抖音的美颜滤镜功能强大,单纯从爬虫爬到的视频来看,这些小姐姐是真的好看,结果还是令人满意的。

下面这个是抖音里检测到漂亮小姐姐的截图画面,本来这是作为临时文件,人脸检测完即删除的,我看着好看,就给留了下来。

这个爬虫程序大概就是这样,下面详细讲解一下,这个爬虫是怎么做出来的。

1. 基础准备

这个爬虫需要用到三个东西。

  • Python 环境,爬虫程序是用 Python 写的,肯定要先配置好 Python 的环境啊。没有配好的自行去安装一下 Anaconda。此外,还需要安装一些必要的库,如 requests,urllib,PIL等。
  • ADB 环境,我们的爬虫需要通过 ADB 命令对手机进行操作,实现自动刷抖音,自动点赞的功能。安装方法自行百度。
  • 人脸识别API,我这里用的是百度AI的人脸识别接口,大家需要自行注册一个百度AI 开放平台的账号,然后创建一个人脸识别的应用,然后将 appid,api_key,secret_key 三个参数填到爬虫代码这儿即可。

这里简单对 ADB 介绍一下。

ADB 的全称为 Android Debug Bridge,就是起到了调试桥的作用,用这个可以很方便的对安卓应用进行调试。

简单点说,就是你可以用这个工具来操作你的手机,它可以完成你在手机上能做的任何操作。

比如说安装/卸载/打开/关闭手机APP,滑动屏幕,点击,长按等等。更复杂的操作也能做,我们这里就不讲了,因为我们的这个抖音爬虫用到的 ADB 指令基本也就这些了。

a. ADB 启动应用

只需要知道应用的 package_name 和 activity_name,然后调用下面的 adb 指令,即可打开相应的应用

adb shell am start -n [package_name] [activity_name]

以抖音 APP 为例,它的 package_name 和 activity_name 如下。

# 抖音App的应用包名和初始Activity
package_name = 'com.ss.android.ugc.aweme'
activity_name = 'com.ss.android.ugc.aweme.splash.SplashActivity'

所以在命令行中运行下面的指令,即可打开手机中的抖音APP。

adb shell am start -n com.ss.android.ugc.aweme com.ss.android.ugc.aweme.splash.SplashActivity

b. ADB 点击屏幕

在命令行中运行下面指令,即可实现手机屏幕的点击。其中 1330 1750 是点击的 x y坐标。

adb shell input tap 1330 1750

以此爬虫里的抖音点赞为例,我只需要记录下抖音app中,点赞按钮对应的屏幕坐标,然后调用这句指令,即可完成自动点赞。

c. ADB 滑动屏幕

在命令行中运行下面指令,实现的是手机屏幕的滑动操作。 其中有 5 个参数。这五个数字分别表示的是,滑动起始点的 x y 坐标,滑动终止点的 x y 坐标,滑动时长。

adb shell input swipe 900 1400 400 1400 100

比如上面这句指令表示的就是,从坐标(900,1400)的点,滑动到坐标 (400,1400)的点,滑动过程 100 毫秒。

其实,这句指令稍微改一改,把起始坐标和终止坐标设为一致,滑动时长设长一些,滑动操作就变成了 “长按屏幕” 操作了。


基本准备工作也差不多就这些了,下面讲一下爬虫程序的整体思路吧。

2. 爬虫整体思路

如图所示,爬虫的整个爬取思路如下。

首先启动抖音 APP,等第一个视频加载出来播放之后,截取屏幕画面,调用百度 AI 的人脸识别接口进行人脸检测和评分。

如果画面中检测到颜值评分70分以上,且性别为女的人脸,则点击屏幕中的”点赞“按钮,然后上滑播放下一条视频。

如果画面中中没有出现人脸,或者性别为男,或者颜值不足70,则继续截图检测,直到视频播放结束,或者找到满足条件的人脸为止,然后上滑播放下一条视频。

为了尽可能地不错过有漂亮小姐姐的抖音,每条视频中会截取 4 - 5 张图片进行检测,只要有一张截图中有高颜值的小姐姐,那么我们就对这个视频进行点赞。如果这样都检测不出来,只能说小姐姐藏得太深,或者漂亮的不够明显了。

大概思路就是这样,下面我们就来动手完成爬虫吧。

3. 动手撸码写爬虫

由于爬虫还是稍微有点大,所以我拆成三个部分来写。人脸识别部分,ADB 控制部分,和爬虫主逻辑部分。

(1)人脸识别部分

这部分用了调用了 百度AI 的人脸识别接口,需要将你自己申请的 appid,api_key,secret_key 三个参数填到代码里。

import base64
import urllib
import json
import requests
import sysappid = '填写你申请的 appid'
api_key = '填写你申请的 api_key'
secret_key = '填写你申请的 secret_key'

这部分的代码主要包括四个函数,包括

  • get_access_token 函数,用来获取人脸识别接口必须的参数 access_token。
  • identify_faces 函数 和 parse_face_pic 函数,这两个函数主要是用来将图片上传,调用人脸识别接口进行人脸识别,然后返回识别出来的人脸列表。
  • analysis_face 函数,主要作用是解析前面两个函数返回的人脸列表,从而判断图片中是否有漂亮小姐姐。
def get_access_token():"""获取 access_token 有效期一般有一个月"""client_id = api_key  client_secret = secret_key  auth_url = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secretheader_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko',"Content-Type": "application/json"}# 请求获取到token的接口response_at = requests.get(auth_url, headers=header_dict)json_result = json.loads(response_at.text)access_token = json_result['access_token']return access_tokendef identify_faces(pic_url, pic_type, url_fi):"""调用人脸识别的接口,返回识别到的人脸列表"""headers = {'Content-Type': 'application/json; charset=UTF-8'}if pic_type == TYPE_IMAGE_NETWORK:image = pic_urlimage_type = 'URL'else:with open(pic_url, 'rb') as file:image = base64.b64encode(file.read())image_type = 'BASE64'post_data = {'image': image,'image_type': image_type,'face_field': 'facetype,gender,age,beauty',  # expression,faceshape,landmark,race,quality,glasses'max_face_num': 2}response_fi = requests.post(url_fi, headers=headers, data=post_data)json_fi_result = json.loads(response_fi.text)# 如果人脸识别成功,返回人脸列表,否则返回Noneif not json_fi_result or json_fi_result['error_msg'] != 'SUCCESS':return Noneelse:return json_fi_result['result']['face_list']def parse_face_pic(pic_url, pic_type, access_token):"""人脸识别,返回人脸列表"""url_fi = 'https://aip.baidubce.com/rest/2.0/face/v3/detect?access_token=' + access_token# 调用identify_faces,获取人脸列表json_faces = identify_faces(pic_url, pic_type, url_fi)if not json_faces:return Noneelse:return json_facesdef analysis_face(face_list):"""解析人脸识别结果,判断颜值是否达标条件:性别女,颜值大于等于 70"""# 是否能找到漂亮小姐姐find_plxjj = Falseif face_list:for face in face_list:# 判断是男、女if face['gender']['type'] == 'female':age = face['age']beauty = face['beauty']if beauty >= 70:print('发现一个 ' + str(age) + ' 岁的美女,颜值为:%d,满足条件!' % beauty)find_plxjj= Truebreakelse:print('发现一个 ' + str(age) + ' 岁的女生,颜值为:%d,不及格,继续~' % beauty)continuereturn find_plxjj

(2)ADB 控制部分

ADB 控制部分,大概思路就是通过python中的 os 库执行 adb 指令,来对手机进行操作。

主要包括四个函数:

  • start_my_app 函数,用来启动 抖音 APP。
  • save_video_met 函数,点击 ”点赞“ 按钮。在检测到漂亮小姐姐之后调用。
  • play_next_video 函数,向上滑动屏幕,播放下一个视频。
  • get_screen_shot_part_img 函数,用来截取屏幕图像,保存到电脑中,以遍后续人脸识别。
import os
from PIL import Image# 抖音App的应用包名和初始Activity
package_name = 'com.ss.android.ugc.aweme'
activity_name = 'com.ss.android.ugc.aweme.splash.SplashActivity'def start_my_app(package_name, activity_name):# 打开 Android 应用os.popen('adb shell am start -n %s/%s' % (package_name, activity_name))def save_video_met(screen_name, find_girl_num):# 保存截图img = Image.open(screen_name).convert('RGB')img.save("漂亮的小姐姐/DYGirl_%d.jpg" % find_girl_num)# 给视频点赞os.system("adb shell input tap 1330 1750")def play_next_video():# 向上划屏幕,播放下一段视频os.system("adb shell input swipe 540 1300 540 500 100")def get_screen_shot_part_img(image_name):# 截图os.system("adb shell /system/bin/screencap -p /sdcard/screenshot.jpg")os.system("adb pull /sdcard/screenshot.jpg %s" % image_name)# 打开图片img = Image.open(image_name).convert('RGB')# 图片的原宽、高w, h = img.size# 截取部分,去掉其头像、其他内容杂乱元素img = img.crop((0, 400, 1200, 2750))img.thumbnail((int(w / 1.5), int(h / 1.5)))# 保存到本地img.save(image_name)return image_name

这些函数中的坐标是根据我手机的屏幕坐标写的(华为 Mate 20 Pro),其他型号手机的同学,可以根据自己手机屏幕的分辨率,对这些参数进行调整。

修改坐标的方法我也大概说一下,在你手机的设置中,找到开发人员选项,然后将指针位置这个打开,然后你就可以看到你点击到屏幕的位置了,顶部也会显示你点击的位置坐标。

打开抖音,手指放到点赞按钮上,记录下此时屏幕顶部显示的坐标,然后把这个坐标替换到代码中就好了。

(3)程序主逻辑部分

根据前面分析的流程图,编写爬虫程序的主逻辑。

import datetime
import time
import shutilif __name__ == '__main__':access_token = get_access_token()# 设置一条视频最长的识别时间,要是墨迹 10 秒还不露脸,也不管她了,下一个RECOGNITE_TOTAL_TIME = 10 # 识别次数recognite_count = 0# 图片类型【网络和本地】TYPE_IMAGE_NETWORK = 0TYPE_IMAGE_LOCAL = 1print("打开抖音~")start_my_app(package_name, activity_name)time.sleep(5)print("开始播放视频~")find_girl_num = 0# 对当前视频截图去人脸识别while True:# 开始识别的时间recognite_time_start = datetime.datetime.now()# 识别次数recognite_count = 1# 循环地去刷抖音while True:# 获取截图screen_name = get_screen_shot_part_img('images/temp%d.jpg' % recognite_count)# 人脸识别recognite_result = analysis_face(parse_face_pic(screen_name, TYPE_IMAGE_LOCAL, access_token))recognite_count += 1# 第n次识别结束后的时间recognite_time_end = datetime.datetime.now()# 这是一个美女if recognite_result:find_girl_num += 1save_video_met(screen_name, find_girl_num)print("已经发现 %d 个漂亮小姐姐" % find_girl_num)breakelse:if (recognite_time_end - recognite_time_start).seconds < RECOGNITE_TOTAL_TIME:continueelse:print('超时!!!这是一条没有吸引力的视频!')# 跳出里层循环break# 删除临时文件shutil.rmtree('./images')time.sleep(0.05)os.mkdir('./images')# 播放下一条视频print('==' * 30)time.sleep(2)print('准备播放下一个视频~')play_next_video()time.sleep(2)

有时候网络可能卡一些,视频加载需要一些时间,所以每次划到下一条视频时,先停两秒,等视频差不多加载好了再开始检测。


后记

这个爬虫其实之前就写好了,自娱自乐。这次正好是 1024 程序员节,分享出来造福一下咱们秃头的程序员小哥哥们。

这爬虫我断断续续玩了一段时间了,反正没事儿的时候手机放一边,把爬虫开了后台跑着,让它自己刷着玩。然后晚上拿起手机一看,哇手机里全是漂亮的小姐姐。哈哈哈哈

如果文章中有哪里没有讲明白,或者讲解有误的地方,欢迎在评论区批评指正,或者扫描下面的二维码,加我微信,大家一起学习交流,共同进步。

Python网络爬虫实战:利用 Python ADB 人脸识别实现自动给抖音漂亮小姐姐视频点赞相关推荐

  1. 骚操作!用Python自动下载抖音美丽小姐姐(有对象的同学小心尝试!)

    阅读文本大概需要 15 分钟. 1 目 标 场 景 相信大家平时刷抖音短视频的时候,看到颜值高的小姐姐,都有随手点赞关注的习惯. 如果一条条去刷确实很耗时间,如果 Python 能帮忙筛选出颜值高的小 ...

  2. python网络爬虫实战——利用逆向工程爬取动态网页

    前言 之前写过介绍过网络爬虫的文章,都是一些基础知识,所以在接下来我们完成一个小任务--利用逆向工程爬取一个动态网页,360壁纸网站(https://image.so.com/z?ch=wallpap ...

  3. python人脸识别源码_Python 抖音机器人,让你找到漂亮小姐姐

    本项目作者沉迷于抖音无法自拔,常常花好几个小时在抖音漂亮小姐姐身上. 本着高效.直接地找到漂亮小姐姐的核心思想,我用 Python + ADB 做了一个 Python 抖音机器人 Douyin-Bot ...

  4. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  5. Python网络爬虫实战:根据天猫胸罩销售数据分析中国女性胸部大小分布

    Python网络爬虫实战:根据天猫胸罩销售数据分析中国女性胸部大小分布 本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.是网络爬虫和数据分析的综合应用项目.本项目会从天猫抓取胸罩销售数据 ...

  6. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  7. python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

  8. python常用代码大全-Python 网络爬虫实战项目代码大全

    原标题:Python 网络爬虫实战项目代码大全 DouBanSpider 豆瓣读书的爬虫.你可以爬豆瓣读书下面标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价 ...

  9. python基础代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

最新文章

  1. python的断点调试
  2. Android Note - 内存优化
  3. JVM:如何分析线程转储
  4. 前端学习(1776):前端调试之indexDB原理和查看
  5. 分享一个关于生鲜电商的竞品分析报告
  6. 封装 java 1614782839
  7. python读取xml编码gb2312_【转】python XML 操作总结(创建、保存和删除,支持utf-8和gb2312)...
  8. Safari 最新技术预览版来啦,为开发者带来了哪些新功能?
  9. 开课吧课堂:什么是HashSet类
  10. linux系统教程vi命令详解,Linux操作系统vi命令详解及其使用技巧
  11. 黑马程序员Java零基础视频教程(2022最新Java)B站视频学习笔记-Day6-方法
  12. python fread_fwrite 和 fread函数的用法小结
  13. PPT,我的视频制作利器
  14. python爬虫之如何建立一个自己的代理IP池
  15. 无限滚动新一代老虎机
  16. Win11磁盘碎片整理在哪?Win11机械硬盘磁盘碎片整理方法
  17. 概率论——连续性随机变量及分布函数的定义
  18. vray渲染出图尺寸_3DMax渲染出图尺寸怎么设置?
  19. ubuntu18安装详细教程
  20. 如果有一天不写代码了,还能干点啥?

热门文章

  1. 如何在 R 中使用三角分布(附示例)
  2. Ping丢包故障案例
  3. LIN报文帧——类型与格式
  4. 关于“IndentationError: unindent does not match any outer indentation level”的解决方法
  5. Word简便的使用方法
  6. word批量修改技巧:如何快捷修改大量编号的文本格式
  7. PHP中private什么意思,PHP中的private和public还有protected的区别
  8. 计算机新学期学习计划,新学期计算机学习计划
  9. Java随机数生成及文件写入实验案例
  10. Word 中设置图、表、公式、代码要与正文之间行间距