近日,针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。作者表示,在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。

其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等也是被恶意爬取的重灾区。

今年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新成立的视频网站上,就是非法网络爬虫的盗取;而航空公司的官网上的机票、订座等信息,长期被代理公司将机票信息爬取、占座,然后在其他网站上加价销售。

网络爬虫:数据造假背后的“恶人”

网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。

网络爬虫分为两类:一类是搜索引擎爬虫,一类是其他爬虫。前者是为搜索引擎从广域网下载网页,便于搜索检索,后者则是在指定目标下载信息,用于存储或其他用途。

网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。在知识产权日益受到重视的今天,数据是互联网平台的重要资产。网络爬虫的非法操作不仅窃取了平台的数据资产,更消耗了平台的服务和带宽资源。

被网络爬虫窃取的信息不仅可以用于同类型平台制作,还可能被转售或者可能用于钓鱼网站制作等其他违法行为。这不但会给平台带来重大损失,更可能导致平台上的用户敏感信息泄露,进而使用户遭遇各类网络和电信诈骗。

如何识别搜索引擎爬虫和恶意爬虫?

针对网络爬虫的识别一般是通过用户HTTP请求中的UA(UserAgent)、IP地址字段以及以及浏览器Cookie。

首先,很多的恶意爬虫程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串,很容易被系统辨别出来;其次,爬虫经常使用某些固定IP,当某一个IP访问量特别特别大、某一段时间内访问了多次的网页等,也可以被快速识别。

常规防御是拒绝访问,或直接封杀IP。但是,UA可以伪造装成搜索爬虫或者其他浏览器,而IP地址可以通过频繁变更代理IP绕过。此外,通过模拟登录或者手动登录Cookie 也能绕过系统监测。所以,这三类方式均不完善。

验证码是比较有效的一种方式,当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。而验证码不仅可以检测访问者行为,还集合设备指纹和风控等多种因素综合判断。

顶象数据反爬解决方案就是基于验证码和风控。该方案在登录端部署顶象的智能无感验证,直接拦截爬虫对重点数据的爬取。同时,结合顶象设备指纹和实时风险决策系统,实现对于爬虫的总体拦截。再基于对抗过程中的数据积累,利用智能分析平台对数据进行分析,建立基于符合业务场景和需求的风控策略,实时优化风控效果,良好防范数据遭恶意爬取的风险。

验证码后面的技术

在用户访问方面,无感验证通过人机交互行为进行防护。如鼠标在页面内的滑动轨迹、键盘的敲击速率、滑动验证码的滑动轨迹、速率、按钮点击等行为轨迹模型检测来进行防护。

基于顶象机器学习模型平台创建优化相关模型,用于验证码机器模拟轨迹防护。这里面包含轨迹耗时检测、异常轨迹检测(包括直线、匀速、聚合曲线等常规信号发生器生成的轨迹和通过异常检测算法发现的离群行为)。

在异常检测方面,顶象技术使用的其中一种异常检测算法为孤立森林(Isolation Forest),Isolation Forest 中提出Isolation概念,即将异常数据从既有数据分布中孤立,用以实现异常检测的目的,这种算法较基于正常数据点创建profile进行异常检测的算法,如Replicator Neural Network、one-class SVM有更高的异常识别能力和准确度。

除此外,二分类器还可以根据既有的验证码数据进行训练,对采集到的人机交互行为数据进行预测区分,进一步提升识别恶意行为的精确度。

此为了防止网络爬虫对验证码的防暴力破解,无感验证通过图片乱序切条、图片更新定时加工、图片变异等技术,结合关联性检测进行防护,通过内置规则和策略,判断相关关联性,如同一设备关联性、同一IP关联性、滑动失败关联性、验证次数关联性等,有效识别短时间内异常关联性。

验证码背后的机器学习

顶象技术将深度学习技术应用于验证码的轨迹分析,通过LSTM等深度学习技术,对滑动验证码的滑动轨迹进行特征提取,然后基于LargeVis,对提取的特征进行可视化分析,如下图所示,通过历史数据的可视化对比分析,可以发现一些异常的轨迹数据。

LSTM是一种递归神经网络,适合于处理和预测时序及行为数据。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别、图像识别等任务,由于验证码的轨迹是连续的行为数据,因此非常适合使用LSTM来进行特征提取。

除此之外,顶象将深度学习技术应用于点选验证码中,对点选验证码进行“风格迁移”,可大大增加验证码被破解的难度。

风格迁移是深度学习领域很有创意的研究成果,通过神经网络,将一张图片的艺术风格应用在另外一张图片上,例如上图中是将梵高的名作“星空”的艺术风格应用于点选验证码图片上。通过风格迁移,可以将点选图片中的内容进行变换,例如文字变得扭曲及模糊,使得机器破解的难度增加。但是又不会完全改变图片的内容,使用户又可以很容易的识别图片中的文字。

马蜂窝事件背后暴露出的数据风险相关推荐

  1. 马蜂窝事件背后暴露出的数据风险 1

    近日,针对马蜂窝"数据造假"的文章刷屏网络.文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评.携程等其他平台抄袭而来.作者表示,在马蜂窝上发现了7454个抄 ...

  2. 从“马蜂窝事件”看,投资人如何避免数据尽职调查背后的交易风险?

    来源:Career In 投行PEVC 本文约4400字,建议阅读10分钟. 本文列举三个互联网行业典型场景,帮助投资人对相关问题有一个更为感性的理解. 10月21日,一篇名为<估值175亿的旅 ...

  3. jquery绑定的事件对ajax刷新出的数据不生效,on可能受jquery版本影响

    问题:jquery绑定的事件对ajax刷新出的数据不生效 方法:可以用 jquery 里面的 on 和  delegate 预绑定父元素就可以触发的. 注意:某些限制下,个人用的是jquery 1.4 ...

  4. 计算机安全事件现象级解决方案,现象级营销事件背后是一场科技博弈

    原标题:现象级营销事件背后是一场科技博弈 2018年过半,营销领域有多个"走心"的传播事件,成功占领了大众的心智. 首先是世界杯期间被玩坏和炮轰的电视广告案例:梅西代言蒙牛的开始画 ...

  5. 泄密门事件背后的真相

    据新华网报道,国信办发言人昨天表示,近期一些媒体报道或在网上流传的数家网站用户信息被泄露的事件,引起互联网管理部门的高度重视.截至目前,公安机关此次已查处入侵.窃取.倒卖数据案件9起,编造并炒作信息泄 ...

  6. 微博热点事件背后数据库运维的“功守道”

    作者 | 张冬洪 责编 | 仲培艺 [导语] 微博拥有超过3.76亿月活用户,是当前社会热点事件传播的主要平台.而热点事件往往具有不可预测性和突发性,较短时间内可能带来流量的翻倍增长,甚至更大.如何快 ...

  7. 华为官宣进军ERP的背后透露出哪些信息,华为会成功么

    这几天行业内最大的新闻就是华为官宣进军ERP,这背后透露出哪些信息,华为会成功么,这对ERP(SAP)顾问意味着什么.下文谈谈我的理解 官宣:华为由任正非首次正式官宣进军ERP市场 华为要进军ERP市 ...

  8. 智能引擎 :攻击失效与数据风险

    智能安全运营的挑战 数字时代的背景下,数据和智能驱动的安全对抗,技术平台的自动化.智能化水平,愈发成为网络 空间中攻防双方角力的重点.回归到攻防的战场上,我们希望能够得到的是一个能处理海量异构多源数 ...

  9. 全知科技CEO方兴:数据流动时代大数据风险是大数据安全的核心

    " 滴滴出行合理的利用了大数据,为公众的出行提供便捷的服务.而利用大数据为公众和司机等提供安全预警服务,需要积累大量流动的数据积累,需要建立安全预警算法模型,需要长期的技术积累,更重要的是要 ...

最新文章

  1. 偶尔,当拍摄从相册或图片相机拍摄照片黑色解决问题的方法,解决问题和头部转动的方法...
  2. 一种 Web 应用程序级别的 Cluster 实现技术
  3. CF24D Broken robot | DP 高斯消元
  4. Tomcat 之 Session的活化和钝化 源码分析
  5. eclipse查看git地址_使用Git进行版本控制
  6. 图像处理技术(二)滤波去噪
  7. 【Java】自编时间相关常用函数
  8. (王道408考研操作系统)第四章文件管理-第二节4:磁盘的管理
  9. can connect mysql not server_MySQL -- 配置文件my.cnf 的详细说明
  10. rose服务器系统,Rose HA for windows
  11. matlab三角函数拟合程序,三角函数拟合
  12. ansi 软件测试,VB中的Unicode和Ansi格式
  13. 支付宝 ACQ.TRADE_NOT_EXIST 解决方案
  14. java打印星型_初识java java入门知识 基础知识 打印各种星型图形 源代码
  15. 转载蓝叠模拟器与android studio连接步骤
  16. atan 和 atan2
  17. 多元线性回归matlab代码例题_matlab多元线性回归
  18. easyconnect mac版下载地址
  19. Angular JS (一)
  20. 戴尔笔记本win10 linux,戴尔 win10操作系统下安装ubuntu 亲身经历有效

热门文章

  1. 福建省计算机一级应用技术基础知识,求福建省计算机一级考试的基础题
  2. linux客户端设置eth0为dhcp,如何设置Linux客户端以使用通过dhcp提供的ntp信息?
  3. eclipese web前端开发教学_Web前端零基础好学吗?新手该怎么学?
  4. Centos-移动文件或目录-mv
  5. 北京赛区总结,以及。。。
  6. 腾讯云CMQ消息队列在Windows环境下的使用
  7. java求最大公约数(分解质因数)
  8. (转)Fur Shader
  9. 分享一个轻型ORM--Dapper选用理由
  10. 浅谈ASP.NET 缓存技术