0x00 前言

一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力。常规手段如验证码、封IP等等相信很多人都见识过……

当然确实有需要的话可以通过新浪开放平台提供的API进行数据采集,但是普通开发者的权限比较低,限制也比较多。所以如果只是做一些简单的功能还是爬虫比较方便~

应该是今年的早些时候,新浪引入了一个Sina Visitor System(新浪访客系统),也不知道是为了提高用户体验还是为了反爬虫,或许是兼而有之。实际结果就是,爬虫取回来的页面全部变成Sina Visitor System了

怎么办呢,我们先来看看这个Sina Visitor System是怎么回事

0x01 分析

也许有人没有见过这个页面,那说明你的浏览器里存有新浪微博的 cookie ,你可以打开浏览器的隐身模式,然后进入新浪微博首页,就可以看到下面这个样子

大概过上几秒钟才能进入正常的页面,访问其他 weibo.com 下的页面如某个用户的主页也是同样的情况

我们可以通过Sina Visitor System的网页源码来看看它到底做了什么

代码不是很多,而且还有中文注释,新浪还真是照顾我们……

根据中文注释就可以知道,它先是判断用户请求中是否携带 cookie ,如果有就直接进入正常页面,否则就要走访客流程了。

对用户来讲,除非你是第一次进入 weibo.com ,否则一定会有 cookie ,自然不会卡在这个页面。而一般的爬虫是不携带 cookie 的,除非进行了模拟登录或者把已有的 cookie 放入爬虫的请求中去,否则取回的结果就是Sina Visitor System了

0x02 换个思路

如果从正常角度来想这个问题,肯定是顺着它的代码逻辑来,既然它要检测 cookie ,那么我们就用爬虫模拟登陆一下或者在 HTTP 请求中带上已有的 cookie 不就得了?没错,这样是可行的,但是要注意,模拟登录可能会遇到验证码,而 cookie 也有一定的有效期,更重要的是这两种方法都需要一个账号,因此这些方法都不是长久之计。

说来也巧,刚好在知乎上看到这样的页面

知乎会自动把用户发的链接转换成对应页面的标题,可以看到这里显示的也是Sina Visitor System,说明知乎的爬虫似乎也遇到问题了

但是如果你有注意搜索引擎中新浪微博的结果,就会发现完全不是这样

这说明了什么?说明新浪微博为了让自己的结果呈现在搜索引擎中,对来自搜索引擎的爬虫是“来者不拒”

那么,我们就来试验一下。我用 Python 写了一个小程序,从一个微博用户的主页中取出该用户的昵称

设置一下User-Agent,把自己伪装成搜索引擎爬虫,具体用什么随意啦~谷歌、必应都可以,或者仅仅用 spider 也行!

sina vistor system相关推荐

  1. 小技巧绕过Sina Visitor System(新浪访客系统)

    0x00 前言 一直以来,爬虫与反爬虫技术都时刻进行着博弈,而新浪微博作为一个数据大户更是在反爬虫上不遗余力.常规手段如验证码.封IP等等相信很多人都见识过-- 当然确实有需要的话可以通过新浪开放平台 ...

  2. java(一个简单邮箱的判断)用户从命令行输入一个字符串,要求判断是否为合法的email地址,如果合法,请判断是否为sina的邮箱地址

    package com.tjetc.daomain; import java.util.Scanner; public class Work05 {public static void main(St ...

  3. 【集合类】 4 System:System.arraycopy方法解析

    文章目录 引言 1.System.arraycopy 1.1 深复制还是浅复制 1.2 一维数组和多维数组的复制的区别 1.2.1 一维数组 1.2.2 多维数组 1.3 线程安全,还是不安全 1.4 ...

  4. filter执行先后问题_Thinkphp5框架变量覆盖导致远程代码执行

    Thinkphp5.0.x框架对输入数据过滤不严,导致Request类成员存在变量覆盖问题,在一定情况下能导致远程代码执行漏洞. 介绍 Thinkphp框架官方提供核心版和完整版两种: 核心版因默认缺 ...

  5. umi3 如何管理model_django admin 管理工具

    Django 提供了基于web的管理工具:Django admin 自动管理工具 是 django.contrib 的一部分,我们可以在项目的 settings.py 中的 INSTALLED_APP ...

  6. 作为怀孕的亲历者,你觉得最值得分享的经验或者技巧是什么?

    亲爱的各位知友,祝福我吧,快要当爸爸了,所以想请教各位这个问题,请注意: 1.无论爸爸.妈妈,还是长辈,都请谈谈 2.各种经验和技巧均可,例如特别需要准备什么东西:特别好用但不常见的备孕物品:值得推荐 ...

  7. mysql 迭代更新_MySQL、MongoDB、Redis 数据库之间的区别与使用(本章迭代更新)

    MySQL.MongoDB.Redis 数据库之间的区别与使用 MySQL.MongoDB.Redis 数据库之间的区别与使用(本章迭代更新) update:2019年2月20日 15:21:19(本 ...

  8. Gson 使用总结 高级用法

    Gson基本用法 参考:http://www.jianshu.com/p/e740196225a4 Gson提供了fromJson() 和toJson() 两个直接用于解析和生成的方法,前者实现反序列 ...

  9. 如何构建一个分布式爬虫:实战篇

    本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟**从实战角度**来介绍如何构建一个*稳健的分布式微博爬虫*.这里我*没敢谈高效*,抓过微博数据的同学应该都知道微博的反爬虫能力,也知道微博 ...

最新文章

  1. Understanding PWA
  2. MD5加密解密帮助类
  3. js中的true,false盲点
  4. 一目了然“之IT运维可视化,让运维不再说难!
  5. 看完Andoird9.0 Pie的隐藏特性,我买了SSL证书
  6. linux 系统显示很大,在Linux中可视化显示内存占用情况的方法
  7. android手机误删通讯录恢复
  8. Java之图片添加文字
  9. #AI 绘图 #GitHub GitHub上这几个项目教你怎么用,让你成为神笔马良
  10. Linux 服务器安装、配置和维护,一文看全~
  11. Linux下只允许用户远程scp
  12. flowchart流程图编程语言下载_流程图(flowchart)
  13. 在Linux下测试SD卡的读写速度
  14. Java入门教程:最全面最简单的Java基础教程
  15. ubuntu设置共享文件夹
  16. 两数之和Ⅳ - 输入 BST
  17. 省选专练CF1027F Session in BSU
  18. RFID定位技术在智能仓库中的应用--新导智能
  19. 叠加态wingner函数计算
  20. 在PS2主机上使用OPL通过网络加载PC上的ISO玩游戏

热门文章

  1. Linux操作系统基础知识命令参数详解
  2. Android Studio首次连接不上网易mumu模拟器解决办法
  3. c语言 菜单选择,设计一通过 c语言 个简单实用的菜单,通过菜单选择不同的菜单项并实现相应的功能。...
  4. 【Cesium】【vue】空间查询——量距(测量距离)、量面(测量面积)
  5. 计算机课word反思,教学反思Word文档
  6. 怎么在笔记本电脑上弄html,笔记本电脑怎么设置wifi,小编教你笔记本电脑如何设置WIFI热点...
  7. Python学习之路5☞文件处理
  8. 霹雳吧啦Wz语义分割学习笔记P3
  9. CVPR2022 | 重新审视池化:你的感受野不是最理想的
  10. C++ 16进制日志输出 每行右侧ASII输出