近日,腾讯云发布2018上半年安全专题系列研究报告,该系列报告围绕云上用户最常遭遇的安全威胁展开,用数据统计揭露攻击现状,通过溯源还原攻击者手法,让企业用户与其他用户在应对攻击时有迹可循,并为其提供可靠的安全指南。本篇报告中,云鼎实验室通过部署的威胁感知系统,捕获到大量爬虫请求流量以及真实来源IP,且基于2018年上半年捕获的数亿次爬虫请求,对互联网爬虫行为进行分析。

基本概念

爬虫是什么?

爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了Robots君子协议,让互联网上的搜索与被搜索和谐相处。

原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君 子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意 爬虫」开始充斥互联网。

爬虫的分类

按爬虫功能,可以分为网页爬虫和接口爬虫。

网页爬虫:以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。

接口爬虫:通过精准构造特定API接口的请求数据,而获得大量数据信息。

按授权情况,可以分为合法爬虫和恶意爬虫。

合法爬虫:以符合Robots协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬取,均为合法爬虫,该类爬虫通常不用考虑反爬虫等对抗性工作。

恶意爬虫:通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大 量获取的数据,并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交 锋。

数据从哪来?

爬虫不生产数据,它们只是数据的搬运工。要研究爬虫,就得先研究数据的来源。尤其是对小型公司来说,往往需要更多外部数据辅助商业决策。如何在广袤的互联网中获取对自己有价值的数据,是许多公司一直考虑的问题。通常来说,存在以下几大数据来源:

企业产生的用户数据

如 BAT 等公司,拥有大量用户,每天用户都会产生海量的原始数据。 另外还包括 PGC(专业生产内容)和 UGC(用户生产内容)数据,如新闻、自媒体、微博、短视频等等。

政府、机构的公开数据

如统计局、工商行政、知识产权、银行证券等公开信息和数据。

第三方数据库购买

市场上有很多产品化的数据库,包括商业类和学术类,比如 Bloomberg、 CSMAR、 Wind、知网等等,一般以公司的名义购买数据查询权限,比如咨询公司、高等院校、研究机构都会购买。

爬虫获取网络数据

使用爬虫技术,进行网页爬取,或通过公开和非公开的接口调用,获得数据。

公司间进行数据交换

不同公司间进行数据交换,彼此进行数据补全。

商业间谍或黑客窃取数据

通过商业间谍获取其他公司用户数据,或者利用黑客等非常规手段,通过定制入侵获取数据或地下黑市购买其他公司数据。此处商业间谍泄漏远多于黑客窃取。

2018爬虫行业分析报告相关推荐

  1. 报告 | 2018中国区块链行业分析报告

    前言 日前,鲸准研究院重磅发布<2018中国区块链行业白皮书>,这份报告是目前为止最详细的区块链行业分析报告之一. 你可能还存在以下困扰? 1. 区块链到底是什么? 2. 区块链项目如何融 ...

  2. 区块链技术与应用行业分析报告

    1  区块链前言 1.1  区块链市场 (1)百度指数搜索热度一度与人工智能持平: (2)全球区块链相关公司融资近20亿美元: (3)区块链+日益深入,场景化技术成为新趋势: (4)中国区块链技术专利 ...

  3. 智能车载行业分析报告-缩减版

    智能车载行业分析报告 缩减版     2017年6月   By陈雨萌           认清自己平凡的本质,放手追求世界级梦想 目录 1.1      市场概述... 3 1.1.1     行业及 ...

  4. 抖音2018年度数据报告

    来源:字节跳动算数中心 抖音真正的做到了让用户爽. 最近,看到了抖音发布了<2018年度数据报告>,觉得有一定的参考价值,在此,分享给大家. 扫描下方二维码,及时获取更多互联网求职面经.j ...

  5. 干货 | 清华大学刘知远 CCL 2018学生研讨会报告(附完整PPT下载)

    来源:TsinghuaNLP 本文多图,建议阅读10分钟. 本文为你分享刘知远博士 CCL 2018学生研讨会报告内容,干货满满. 报告题目:文献综述与研究选题  报  告  人:刘知远 报告人简介: ...

  6. 2020年中国知识图谱行业分析报告(附全文下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要5分钟 Follow小博主,每天更新前沿干货 [导读]最近知识图谱在自然语言处理领域中算比较热门的一个研究方向,本文为大家整合了由艾瑞咨询研究 ...

  7. 2018智能音频报告:智能音箱带来的智能音频和广播媒体的机遇

    来源:199IT互联网数据中心 摘要:前中国智能音箱正热,阿里巴巴.京东.百度纷纷发布自己的智能音箱产品,大打价格战,希望以绝对底价抢占市场. 前中国智能音箱正热,阿里巴巴.京东.百度纷纷发布自己的智 ...

  8. 脑洞大开,如何生成 2018 年度代码报告

    昨天网易云音乐.B站等 APP 都放出了用户的 2018 年度使用报告,在朋友圈掀起了一股年度报告的热潮,我昨天在刷微博时看到"精分君"分享的<年度骂人报告>后,在被笑 ...

  9. 解析《中国互联网软件测试行业2018年度调研报告》

    之前收到了一份TesterHome的调查问卷邀请:2018年度中国测试行业问卷调研.最近问卷的汇总结果出来了,有2000+的测试童鞋参与了问卷调查. 从幸存者偏差角度来说,无论是覆盖率还是准确性,结果 ...

最新文章

  1. ubuntu 配置dns访问外网
  2. linux中文输入法的实现
  3. IEWebBrowser组件的execWB方法
  4. 大数据学习(5)-- NoSQL数据库
  5. python爬取10个网站_十个Python爬虫武器库示例,十个爬虫框架,十种实现爬虫的方法!...
  6. 数据不动模型动-联邦学习的通俗理解与概述
  7. js从数组中删除指定值(不是指定位置)的元素
  8. requestmapping中path与value区别_1、Spring注解之@RequestMapping
  9. 华为全款买了块支付牌照
  10. 裘慧明:跟世界上最聪明的人博弈
  11. 樽海鞘算法(Salp Swarm Algorithm: SSA)
  12. bigemap如何添加第三方地图
  13. java unicodeblock_Character.UnicodeBlock中cjk的说明详解
  14. java两周考核期被辞退_试用期被辞退,会影响一整年,或整个职场生涯
  15. 计算机id dns知识,DNS 事件 ID 4013 疑难解答 - Windows Server | Microsoft Docs
  16. RCNN系列发展历程
  17. java算法:逻辑回归和线性回归
  18. TencentOS-tiny 时间管理(十 六)- 时间片轮转机制
  19. JAVA连接FTP报530,FTP 登陆提示 530 Please login with USER and PASS
  20. mpdf导出pdf文件实例

热门文章

  1. RDP协议,remote desktop protocol,远程桌面协议
  2. iOS 苹果审核被下架的部分原因
  3. 网易视频云:浅谈视频通信技术的发展
  4. 我的武林秘籍设计模式之命令模式
  5. 计算机程序设计员技能试题,计算机程序设计员理论试题库
  6. 祝愿所有兄弟姐妹们新春身体健康,阖家欢乐
  7. CoppeliaSim添加ROS自定义消息类型
  8. 购买服务器虚拟主机,购买服务器与虚拟主机
  9. 如何判断img加载完成?
  10. 计算机技术对社会的消极影响,【信息技术引发的社会问题】_请举一个例子说说信息技术对社会带来哪些消极的影响,你能分析一下......