这里写自定义目录标题

  • 一、反爬
    • 1. 反爬原因
    • 2. 服务器常反爬虫
    • 3. 一些概念
    • 4. 反爬方向
      • 4.1 基于身份识别进行反爬
        • headers
        • 请求参数
      • 4.2 基于爬虫行为进行反爬
        • 请求频率
        • 爬取步骤
      • 4.3 基于数据加密进行反爬
        • 对响应中含有的数据进行特殊化处理
  • 二、验证码
    • 1. 图片验证码
    • 2. 图片识别引擎
    • 3. 打码平台
  • 三、js解析
    • 1.定位
    • 2. 加密步骤、py模拟
      • 法一:第三方js加载模块
        • 人人网登录抓包
      • 法二:python重现
        • 有道翻译
          • salt
          • sign
          • lts

一、反爬

1. 反爬原因

  • 爬虫占PV比例高,费钱(三月爬虫
  • 资源被批量抓走
  • GREY

2. 服务器常反爬虫

  • 低级的-不管服务器压力
  • 失控的小爬虫
  • 成型的商业对手
  • 抽风搜索引擎

3. 一些概念

  • 爬虫:获取数据的任何技术手段 ,批量
  • 反爬虫:阻止获取数据的任何技术手段 ,批量
  • 误伤:错将普通用户为爬虫
  • 拦截
  • 资源:机器 人力

4. 反爬方向

  • 基于身份识别进行反爬
  • 基于爬虫行为进行反爬
  • 基于数据加密进行反爬

4.1 基于身份识别进行反爬

headers

  • User-Agent
  • referer
  • cookies

请求参数

  • html静态文件中获取
  • 发送请求获取数据
  • js生成
  • 验证码

4.2 基于爬虫行为进行反爬

请求频率

  • 请求ip单位时间请求数量——购买多个账号
  • 请求间隔——随机休眠
  • 请求次数阈值

爬取步骤

  • 通过js实现跳转反爬——抓包分析
  • 通过蜜罐获取爬虫ip——找缺陷
  • 通过假数据反爬
  • 阻塞任务队列
  • 阻塞网络IO——多线程

4.3 基于数据加密进行反爬

对响应中含有的数据进行特殊化处理

  • 特殊字体
  • css位移
  • 图片
  • 编码格式

二、验证码

1. 图片验证码

  • 验证码 CAPTCHA
  • 区分人工、工具

2. 图片识别引擎

  • 安装tesseract.exe
  • 安装python模块pillow

3. 打码平台

会使用接口

三、js解析

1.定位

  • 定位 发送请去的包
  • search关键字定位
  • 元素绑定的事件监听函数定位

2. 加密步骤、py模拟

法一:第三方js加载模块

模块js2py、pyv8 execjs一个翻译工具

人人网登录抓包

包:login 向服务器发送请求 post ,做验证
查看post中的数据,密码做过处理
搜索,无果
切换到手机端(login以上的包 都没显示了
xhr属于ajax请求(rkey、clog
如何获取加密后的密码——get(rkey的url)就可了
定位加密文件
通过clog的initiator celllog.js
查找rkey
检查登录没触登录后,才触发函数
登录按钮绑定了事件——Event Listeners——绑定回调函数
找到加密函数,遇到的函数直接ctrl F定位

# 分析需要的:
# t这个对象
# 导入函数
t.password = t.password.split("").reverse().join(""),
setMaxDigits(130);
var 0 =nes RSAKeyPair(n.e,"",n.n),
r = encryptedString(o, t.password);
t.password = r ,
t.rkey = n.rkey

法二:python重现

有道翻译

蚌埠住了,那天(周二网技)解决不了的反爬要在这里解决了


把这个数据拿出来

i: 坚定选择你
from: AUTO
to: AUTO
smartresult: dict
client: fanyideskweb
salt: 16368251416712
sign: 4ee9d8a60f9a753238307381d8360729
lts: 1636825141671
bv: 2c5a61877bd32cbd1c3db560d35de93d
doctype: json
version: 2.1
keyfrom: fanyi.web
action: FY_BY_REALTlME

其实只要找这三个值由来

salt: 16368251416712
sign: 4ee9d8a60f9a753238307381d8360729
lts: 1636825141671

定位:

  • 找initiate
  • 查找所有文件
salt






sign

lts



改了一段时间的成功,面向对象学的像屎一样

import requests
import hashlib
import time
import random
import jsonclass Youdao(object):def __init__(self, word):self.url = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44","Cookie": "OUTFOX_SEARCH_USER_ID=1431318095@10.169.0.83; JSESSIONID=aaacVY1-8tYZ-bbE6OuMx; JSESSIONID=abcTpnzjEZLepfAy6OuMx; OUTFOX_SEARCH_USER_ID_NCOO=850288843.93545; UM_distinctid=179cabdde7ab32-0a0062b4a9d564-51361244-144000-179cabdde7b4ed; DICT_UGC=be3af0da19b5c5e6aa4e17bd8d90b28a|; _ntes_nnid=c8abec4478ea4f7ceb5d9fceb62cbf81,1622604145716; _ga=GA1.2.1317045666.1630461915; SESSION_FROM_COOKIE=unknown; ___rl__test__cookies=1636904424584","Referer": "https://fanyi.youdao.com/"}self.DATA = Noneself.word = worddef generate(self):# ts: r = "" + (new Date).getTime()# salt: =ts + parseInt(10 * Math.random(), 10);# sign: n.md5("fanyideskweb" + e + i + "Y2FYu%TNSbMCxc3t2u^XT")   salt是ilts = str(int(time.time() * 1000))salt = lts + str(random.randint(0, 9))aaa = "fanyideskweb" + self.word + salt + "Y2FYu%TNSbMCxc3t2u^XT"md5 = hashlib.md5()md5.update(aaa.encode())sign = md5.hexdigest()self.DATA = {"i": self.word,"from": "AUTO","to": "AUTO","smartresult": "dict","client": "fanyideskweb","salt": salt,"sign": sign,"lts": lts,"bv": "350570558960e08a67e4e9303822810a","doctype": "json","version": "2.1","keyfrom": "fanyi.web","action": "FY_BY_CLICKBUTTION"}def get_data(self):# print(self.DATA)response = requests.post(self.url, headers=self.headers, data=self.DATA)return response.contentdef parse_data(self, data):dict_data = json.loads(data)# try:# print(dict_data)# except:print(dict_data['translateResult'])def run(self):self.generate()# print(self.DATA)data = self.get_data()# print(data)self.parse_data(data)if __name__ == "__main__":youdao = Youdao("平安")youdao.run()

【python】——爬虫05 初级反爬笔记相关推荐

  1. Python爬虫:字体反爬处理(猫眼+汽车之家)-2018.10

    环境:Windows7 +Python3.6+Pycharm2017 目标:猫眼电影票房.汽车之家字体反爬的处理 -全部文章: 京东爬虫 .链家爬虫.美团爬虫.微信公众号爬虫.字体反爬.Django笔 ...

  2. Python爬虫---猫眼字体反爬

    在做过汽车之家论坛的字体反爬过后,信心稍微增长点,那么索性找点字体文件反爬的网址,猫眼便是一个不错的网址,那么便开始搞起来. 目标网址 https://piaofang.maoyan.com/?ver ...

  3. Python爬虫脚本,初级入门爬取英雄联盟所有皮肤(源码)

    import requests import os# 创建lol文件夹 os.mkdir("lol")# 2.读取js文件,获取英雄id(hero_id) url = 'https ...

  4. python爬图片_网络爬虫经验:反爬和反反爬

    我想很多人入门python是图片爬虫,就是HTTP请求,保存一下图片,用python实现非常快.网上很多爬虫的教程就讲到这里,实际上很单一,看了跟没看没什么区别,都是找一下网页的规律,然后Beauti ...

  5. python爬虫常见反爬措施_爬虫常见的反爬措施有哪些

    爬虫常见的反爬措施有三种: 1.header头部信息 解决方法: 加User-Agent值: 如果不加header头,部分网站服务器判断不到用户的访问来源,所以会返回一个404错误来告知你是一个爬虫, ...

  6. python爬虫从入门到实战笔记——第四章Scrapy框架

    推荐阅读: python爬虫从入门到实战笔记--第一章爬虫原理和数据爬取 python爬虫从入门到实战笔记--第二章非结构化数据和结构化数据的提取 python爬虫从入门到实战笔记--第三章动态HTM ...

  7. 有道翻译 爬虫,分析反爬 附代码

    有道翻译 爬虫,破解反爬加密 0引言 1准备工作 开始第一部分 开始第二部分 准备工作,下载并安装requests模块 确定反爬用的变量 确定变量的值 requests模块的使用 0引言 我在这里会很 ...

  8. 7 爬虫学习之反爬与反反爬

    一.常见的反爬手段和解决思路 1.服务器反爬的原因 a.爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个PV)比例较高,这样浪费钱(尤其是三月份爬虫[爬虫高峰期]). b.公司可 ...

  9. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

最新文章

  1. HDU 2561 第二小整数
  2. geohash 附近搜索
  3. python窗口程序-Python GUI 编程(Tkinter)
  4. SqlServer项目经验:介质集有2个介质簇,但只提供了1个。必须提供所有成员
  5. Qt Creator设置CMake
  6. 递归算法(三)- 回溯法Backtracking
  7. 对mysql的总结与反思_深入了解MySQL,一篇简短的总结
  8. 论文浅尝 - AAAI2020 | 多轮对话系统中的历史自适应知识融合机制
  9. UI标签库专题十一:JEECG智能开发平台 DictSelect (数据字典下拉选择框)
  10. 计算机网络资料篇(一)——HTTP
  11. Enum,Int,String的互相转换 枚举转换
  12. 轮播图高度自适应_【2020顶会NIPS】用于交通预测的自适应图卷积循环网络
  13. Atitit。监听键盘上下左右方向键事件java js jquery c#.net
  14. 语音验证码api 手机接听验证码
  15. VK1640脚位定义图
  16. 项目实战系列——使用python实现AHP层次分析法
  17. mybatis整合Redis和ehcache实现二级缓存
  18. 企业如何规避劳务派遣中的法律风险?
  19. ArcGIS中拓扑规则英文对照说明
  20. 什么是CHIP LAN片式网络变压器?片式网络变压器分哪几种?目前应用较多的是哪种片式结构?

热门文章

  1. Echats关系图les-miserables的图表详细解析(和弦图)(二)
  2. 笔记本有时候能开机 有时候开不了
  3. 超级计算机 弦理论,关于灵魂的六大猜想
  4. Python基础1——导入文件数据
  5. 大疆机甲大师Python开发: 两只老虎
  6. 端口映射/dmz主机_在DMZ中使用Notes / Domino SMTP
  7. 破解加密文档以及宏口令
  8. 【软工Work1】四则加减乘除混合运算(带括号、真分数)
  9. Android Hawk数据库的源码解析,Github开源项目,基于SharedPreferences的的存储框架
  10. macOS 与 iOS 中的 Tagged Pointer