背景

爬虫形势

Web安全形势一直不容乐观, 根据Globaldots的2018年机器人报告, 爬虫占据Web流量的42%左右.

为什么要反爬

防资源过度消耗

大量的机器人访问网站, 设想你的网站有42%的流量都不是真的人访问的. 相当一部分还会大量占用后台的网络带宽, 服务器计算, 存储资源.

防黄牛党

航空公司占座: 黄牛党利用恶意爬虫遍历航空公司的低价票,同时批量发起机器请求进行占座,导致航班座位资源被持续占用产生浪费,最终引发航班空座率高对航空公司造成业务损失,并且损害正常用户的利益。

防薅羊毛党

黄牛党在电商活动时针对有限的高价值商品的限时秒杀、优惠活动等可牟利场景,批量发起机器请求来模拟正常的交易,再将商品、资源进行倒卖从中赚取差价,导致电商企业的营销资源无法触达正常用户,而被黄牛牟取暴利。

防黑客

核心接口被刷: 登录、注册、短信等业务环节作为业务中的关键节点,相关接口往往会被黑客利用,为后续的欺诈行为作准备。

为什么需要日志分析

找出隐藏更深的机器人

爬虫与反爬虫是一个攻与防的过程, 根据前述报告, 高级机器人占据了74%的比例(剩余是比较简单的机器人), 而根据FileEye M-Trends 2018报告,企业组织的攻击从发生到被发现,一般经过了多达101天,其中亚太地区问题更为严重,一般网络攻击被发现是在近498(超过16个月)之后。有了日志才能更好的找出隐藏很深的坏机器人.

了解机器人并区分对待

爬虫也分好与坏, 搜索引擎来查询, 才可以达到SEO效果并带来更多有价值的访问. 通过日志可以帮助管理员更好的区分哪些是好的机器人, 并依据做出更加适合自己的反爬配置.

保留报案证据

发现非法攻击的机器人, 可以保留攻击者信息与路径, 作为报警的重要证据.

增强运维效率

基于日志可以发现异常, 并能快速报警并采取行动.

更多附加功能

依托日志服务的其他功能, 可以发挥日志的更大价值.

阿里云爬虫风险管理 - 实时日志分析概述

阿里云爬虫风险管理

云盾爬虫风险管理是一款网络应用安全防护产品,专业检测高级爬虫,降低爬虫、自动化工具对网站的业务影响。 产品提供从Web、App到API接口的一整套全面的恶意Bot防护解决方案,避免某一环节防护薄弱导致的安全短板。

阿里云日志服务

阿里云的日志服务(log service)是针对日志类数据的一站式服务,无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能,提升运维、运营效率。日志服务主要包括 实时采集与消费、数据投递、查询与实时分析 等功能,适用于从实时监控到数据仓库的各种开发、运维、运营与安全场景:

目前,云盾爬虫风险管理与日志服务打通,对外开发Web访问与攻击日志。提供近实时的网站具体的日志自动采集存储、并提供基于日志服务的查询分析、报表报警、下游计算对接与投递的能力。

发布地域

  • 国内
  • 国际

适用客户

  • 拥有大量优质与知识产权的视频、图片、文字载体的内容、教育、媒体、咨询类网站。
  • 面向大量优质客户,并频繁更新Web上金融、电商、服务信息的互联网企业,如航空、政府、电商、金融网站。
  • 拥有自己的安全运营中心(SOC),需要收集安全告警等日志进行中央运营管理的企业,如大型地产、电商、金融公司、政府类机构等。
  • 拥有较强技术能力,需要基于云上资产的日志进行深度分析、对告警进行自动化处理的企业,如IT、游戏、金融公司等。

功能优势

爬虫风险管理日志实时查询分析服务具有以下功能优势:

  • 配置简单:轻松配置即可实现反爬访问与攻击日志的实时采集。
  • 实时分析:依托日志服务产品,提供实时日志分析能力、开箱即用的报表中心与自带交互挖掘支持,从0到1, 让您对网站业务的各种爬虫攻击状况以及客户访问细节了如指掌。
  • 实时告警:支持基于特定指标定制准实时的监测与告警,确保在关键业务发生异常时能第一时间响应。
  • 生态体系:支持对接其他生态如实时计算、云存储、可视化等方案,进一步挖掘数据价值。
  • 费用:免费提供14天实时访问与攻击日志的存储。

开通前提

  • 开通日志服务

限制说明

爬虫风险管理所存储的日志库属于专属的日志库,有如下限制:

  1. 用户无法通过API/SDK等方式写入数据,或者修改日志库的属性(例如存储周期等)
  2. 其他日志库的功能,例如查询、统计、报警、流式消费等均支持与一般日志库无差别
  3. 日志服务对专属日志库不进行任何收费,但日志服务本身需处于可用状态(不超期欠费)
  4. 后期会升级并发布内置的报表.

使用场景

1.追踪机器人爬取与封禁日志,溯源安全威胁:

查看Top 100的爬取机器人列表:

__topic__: antibot_access_log AND (block_action:* AND NOT block_action: "") | SELECT if(real_client_ip='-', remote_addr, real_client_ip) as IP, (CASE WHEN ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip))='香港' THEN '中国香港' WHEN ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip))='' THEN '未知IP' WHEN ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))='内网IP' THEN '内网IP' ELSE concat(ip_to_country(if(real_client_ip='-', remote_addr, real_client_ip)), '/', ip_to_province(if(real_client_ip='-', remote_addr, real_client_ip)), '/', if(ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))='-1', '未知城市', ip_to_city(if(real_client_ip='-', remote_addr, real_client_ip))), ' ',ip_to_provider(if(real_client_ip='-', remote_addr, real_client_ip))) END) AS "地理网络", concat(cast(count(1) AS varchar), ' / ', cast(sum(if(block_action='antibot', 1, 0)) AS varchar)) AS "攻击次数 / 爬虫封禁", round(sum(request_length)/1024.0/1024, 2) AS "攻击流量 (MB)" GROUP BY IP, "地理网络" ORDER BY count(1) DESC LIMIT 100

2. 实时正常可信Web请求活动,洞察状态与趋势:

查看PV/UV访问趋势的SQL:

__topic__: antibot_access_log  | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt, count(1) as PV,  approx_distinct(if(real_client_ip='-', remote_addr, real_client_ip)) as UV  group by __time__ - __time__% 3600 order by dt limit 1000

3. 快速了解安全运营效率,即时反馈处理:

查看有效请求与拦截率趋势的SQL:

__topic__: antibot_access_log | select date_format(from_unixtime(__time__ - __time__% 3600), '%H:%i') as dt,  count(1) as "请求次数", round(sum(if(status < 400 and if((block_action <> ''), false, true), 1, 0))*100.0/sum(if(status < 500, 1, 0)), 1) AS "有效请求率(%)" group by __time__ - __time__% 3600 order by dt limit 10000

4. 输出安全网络日志到自建数据与计算中心

进一步参考

我们会陆续发布爬虫风险管理日志分析的最佳实践, 这里可以进一步参考相关用户手册:

  • 阿里云爬虫风险管理日志分析 - 配置实时日志
  • 阿里云爬虫风险管理日志分析 - 日志字段
  • 扫码加入官方钉钉群 (11775223):

新功能: 阿里云爬虫风险管理利器 - 实时日志分析 (一)相关推荐

  1. 阿里云爬虫风险管理产品商业化,为云端流量保驾护航

    2019独角兽企业重金招聘Python工程师标准>>> 爬虫风险管理产品是阿里云云盾推出的新安全产品,1月底正式宣布商业化上线,提供可以覆盖Web/H5/API/APP多种业务形态的 ...

  2. 态势感知大数据安全重要一环,实时日志分析上线!

    背景 网络信息安全形势 信息时代越来越发达,黑客或者恶意员工攻击系统.盗取数据的利益也越来越大.然而单点单面的防护已经无法有效的降低系统安全.数据泄露的风险了. 2018年,网络信息安全形势愈加严峻, ...

  3. 速报|StarRocks亮相云栖大会,携手阿里云EMR 打造极速数据湖分析新体验

    11 月 3-5 日,2022 云栖大会将在杭州云栖小镇开幕.届时 StarRocks 将有工作人员在D2开发者展位恭候各位,欢迎各位开发者们前去交流. 云栖大会见证了中国计算产业的萌发与革新,是业内 ...

  4. 云原生新边界——阿里云边缘计算云原生落地实践

    简介: 日前,在由全球分布式云联盟主办的"Distributed Cloud | 2021 全球分布式云大会·云原生论坛"上,阿里云高级技术专家黄玉奇发表了题为<云原生新边界 ...

  5. API信息全掌控,方便你的日志管理——阿里云推出API网关打通日志服务

    摘要: 近日,阿里云API网关对接了日志服务,可以输出用户在API网关产生的API调用日志,目前支持将 API 接入 API 网关的用户查看日志明细.概况.报表分析.在线查询等. 访问日志(Accce ...

  6. 技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

    作者:阿里云智能技术专家 周康,StarRocks Active Contributor 郑志铨(本文为作者在 StarRocks Summit Asia 2022 上的分享) 为了能够满足更多用户对 ...

  7. asp.net core结合NLog搭建ELK实时日志分析平台

    0.整体架构 整体架构目录:ASP.NET Core分布式项目实战-目录 一.介绍ELK 1.说明(此篇ELK采用rpm的方式安装在服务器上)-牛刀小试 承接上一篇文章的内容准备部署ELK来展示asp ...

  8. 通过实时日志分析_进行访问日志的快速统计

    原文链接 简介 很多个人站长在搭建网站时使用nginx作为服务器,为了了解网站的访问情况,一般有两种手段: 使用CNZZ之类的方式,在前端页面插入js,用户访问的时候触发js,记录访问请求. 利用流计 ...

  9. 大数据主题分享第三期 | 基于ELK的亿级实时日志分析平台实践

    猫友会希望建立更多高质量垂直细分社群,本次是"大数据学习交流付费群"的第三期分享. "大数据学习交流付费群"由猫友会联合,斗鱼数据平台总监吴瑞诚,卷皮BI技术总 ...

最新文章

  1. 全球首个开源图像识别系统上线了!人脸、商品、车辆识别一网打尽!
  2. php 数组导出csv_php导出CSV抽象类实例
  3. boost::fusion::traits用法的测试程序
  4. SpringCloud Hoxton版微服务- OpenFeign实现服务调用
  5. 我自己关于C语言,编译器,标准库,GUN glibc,CRT ,API之类的理解。
  6. 吴恩达机器学习课程资源(笔记、中英文字幕视频、课后作业,提供百度云镜像!)
  7. DisplayTag用法
  8. JQuery插件:JQuery.Slidebox.JS
  9. 使用Selenium爬取淘宝商品
  10. 利用计算机指令清理垃圾,Win7电脑清理垃圾的运行命令代码是什么?
  11. hdu4889Scary Path Finding Algorithm【构造】搞坏spfa-slf 2014多校联合
  12. 2022年山东省安全员C证考试资料及山东省安全员C证考试试题
  13. 当金融科技遇上云原生,蚂蚁金服是怎么做安全架构的?
  14. 安徽大学计算机科学与技术学院张磊,吕钊(安徽大学计算机科学与技术学院副教授)_百度百科...
  15. Unraid使用记录:系统安装与基础设置
  16. python 颜色与字体
  17. 三项黑科技,给港珠澳大桥装上“超强大脑”
  18. Android和iOS接入Appsflyer SDK
  19. 【从0开始自学C/C++并在2023年10月之前找到一份工作之C++基础】
  20. 全网最全最细的CSDN【top1】接口测试工具Fiddler抓包工具总结

热门文章

  1. 冬季必备五条养生小知识
  2. 撩妹c语言编程,C语言编程之撩妹法则
  3. C语言fgets()与fputs()详解
  4. solidworks绘制空间曲线的几种常见方法
  5. 【K8s】安全认证与DashBoard
  6. 我市智慧城市建设迈入快车道
  7. 蛮力法与分治法解决最近点对问题-详细分析与C++代码实现
  8. NB-IoT应用开发笔记
  9. Ubuntu 复制文件,修改文件名
  10. 创业不跟风,教你掌握几个创业必备的因素