第一步,百度工程师制作一个保存在服务器个人文件夹下的简单网页,没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的,不可能被搜索引擎抓取到。

第二步,百度工程师用360浏览器打开了这个网页。并通过各种搜索引擎不间断试验,显示网页均未被抓取。

但约2小时之后,却发生了令人大跌眼镜的事情。百度工程师试着在360搜索中输入以上关键词,结果这个网页赫然出现在搜索结果第一行,并可以直接点击进入浏览网页内容。再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容,却仍然无法返回相应网页。

为什么一个完全封闭的网页竟然能被360搜索引擎抓取到,并呈现在搜索结果之中?百度工程师解释道,核心原因就在于他曾用360浏览器打开过这个网页。

在360浏览器的隐私策略中,注明了360安全浏览器会在用户的计算机上记录有关浏览历史记录的实用信息。这些信息包括:浏览历史记录、用户访问过的大部分网页的的屏幕截图、Cookie或网络存储数据、访问网站时留下的临时文件、地址栏下拉列表、最近关闭的标签列表、关闭窗口时的未关闭标签列表、使用内置安全下载器的下载记录、浏览器插件中保存的内容等。

360搜索的爬虫正是根据360浏览器抓取的数据信息,再去相应的网页爬取内容快照。由此,360搜索就能成功抓取一个完全封闭的网页。

360搜索结果页html代码,360搜索抓取完全封闭网页揭秘相关推荐

  1. 用HyperSnap实现滚屏抓取多屏网页

    用HyperSnap实现滚屏抓取多屏网页 你完全不必耐心的看完所有内容,这里想说明的无非是以下2点: 1. 滚屏内容抓取:在HyperSnap的Active Window(ctrl+shift+w)抓 ...

  2. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

  3. php抓取多个网页合并,PHP 使用 CURL 同步抓取多个网页

    一般CURL 抓网页的方法, 是一页一页抓, 假设要抓 4页, 所费时间各别是 5,10,7,5 秒, 那全部总合所花的时间就是 5 + 10 + 7 + 5 = 27 秒. 若能同时间去抓取多个网页 ...

  4. 浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

    在大部分情况下,网站开发完成后,在运营期间,都希望搜索引擎收录网站的内容越多越好,但是有的时候为了安全期间不希望搜索引擎收录网页内容,比如在外网部署的监控系统等:  以下列举了屏蔽主流搜索引擎爬虫(蜘 ...

  5. php生成超链接完整代码_PHP 超链接 抓取实现代码

    因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接.大家帮忙测试一下子,下面的代码是否可以针对所有的标准超链接. 通用HTML标准超链接参数取得正则表达式测试 因为最近要做一个类似专业搜 ...

  6. php生成超链接完整代码_PHP 超链接抓取的实现代码

    因为最近要做一个类似专业搜索引擎的东西,需要抓取网页的所有超链接. 下面的代码是否可以针对所有的标准超链接.通用HTML标准超链接参数取得正则表达式测试. 因为最近要做一个类似专业搜索引擎的东西,需要 ...

  7. 爬虫实践-微博关键词搜索抓取

    关键词: 1.终于离婚了 2.提离职 3.相亲对象 4.给我的教训 ----- 下载地址: 微博关键词抓取 终于离婚了 微博关键词抓取 提离职 微博关键词抓取 相亲对象 微博关键词抓取 给我的教训 转 ...

  8. 头条搜索抓取频次说明

    功能说明 抓取频次是搜索引擎在单位时间内(天级)对一个网站服务器访问的频率和总次数,Bytespider会根据网站内容更新频率和服务器压力自动调整抓取频次.站长可以通过抓取频次监控工具查看头条爬虫对站 ...

  9. java抓取页面数据_通过java抓取任何指定网页的数据

    假设你需要获取51job人才网上java人才的需求数量,首先你需要分析51job网站的搜索这一块是怎么运作的,通过解析网页的源代码,我们发现了以下一些信息: 1. 搜索时页面请求的URL是 http: ...

最新文章

  1. mysql node null_node-mysql中防止SQL注入的方法总结
  2. java 拷贝替换文件夹_比较两个不同文件夹中的两个文件,并将其替换为较新的文件夹...
  3. 肥水不流外人田!Model X被选为SpaceX首次载人发射任务专用车
  4. appium 处理滑动的方法
  5. (转载)C++:STL标准入门汇总
  6. linux 中hadoop相关命令学习
  7. win10磁盘100%占用
  8. iOS 微信支付开发(最新版)
  9. 【python】腾讯云+python SDK免费发送短信
  10. 多台linux服务器ssh相互无密码访问
  11. Servlet 原理
  12. 人脸识别中的活体检测算法
  13. 基于依存句法分析的实体关系提取
  14. 做了 8 个月的技术经理,我信了……
  15. ECC-椭圆曲线密码
  16. 语音模块开发——YS-LDV7 语音识别模块
  17. 人工智能,离我们还远么?
  18. 服务器操作系统有哪些都怎么读,谁说服务器linux主流?这款操作系统独霸天下...
  19. python教材答案程序设计导论论文_计算机基础及Python程序设计导论(高等学校通识教育系列教材)...
  20. yolov5学习笔记

热门文章

  1. 【大数据技术应用实战】【基础课程一 Linux操作系统】Linux概述
  2. Spring 分组验证
  3. ES ILM 生命周期管理
  4. 哪些网站让你觉得发现了新大陆?分享几个神奇的黑科技网站
  5. 框架设计之菜鸟漫漫江湖路系列 三:初入江湖
  6. java工具类 PDF转图片
  7. android免root读写u盘最新方法,支持安卓Q+
  8. 课设复习之信息论自适应算术编码与译码
  9. golang web 服务器 request 与 response 处理
  10. 新兴网站神秘虎嗅,获得数百万元投资