应用背景

在抓取某些网站的数据时,需要登陆才能得到含有数据的HTML文档,此时直接获取Document会什么都得不到。解决办法就是,先自己打开浏览器,登录目标网站,然后获取浏览器的cookie字符,把它复制粘贴到Jsoup参数中即可解决此问题,拿到浏览器的cookie进行获取数据,目标网站就会把Jsoup当作刚刚登陆网站的浏览器对待。

获取浏览器的cookie

打开浏览器(自测谷歌浏览器和火狐浏览器都可以),按下F12打开开发者模式,点击Console打开控制台,键入命令:javascript:alert(document.cookie),回车即可看到浏览器在当前网站的缓存

使用下面函数即可将获取到的cookie转化为键值对形式,以用在jsoup中

 public HashMap<String, String> convertCookie(String cookie) {HashMap<String, String> cookiesMap = new HashMap<String, String>();String[] items = cookie.trim().split(";");for (String item:items) cookiesMap.put(item.split("=")[0], item.split("=")[1]);return cookiesMap;}

在Jsoup中,以如下方式即可利用Cookie

Document document = Jsoup.connect("https://www.google.com").cookies(cookiesMap).get();

Jsoup Cookie登录处理相关推荐

  1. JSoup模拟登录新版正方教务系统(内网-教务系统)获取信息过程详解

    新版正方教务系统登录界面: 目录 一.需求分析 二.模拟登录内网 三.模拟登录教务系统 四.爬取成绩和课表信息 参考文章 一.需求分析   需要访问教务系统,爬取出课表成绩等信息,并在自己所写的APP ...

  2. 用cookie登录KinhDown教程

    1.登录百度网盘网页版 2.在浏览量中,按F12(Fn+F12) 出现如下界面 3.选择Application->Cookies 复制STOKEN和BDUSS对应的值value,按照此格式复制到 ...

  3. python获取登录后的cookie_python爬虫使用cookie登录详解

    前言: 什么是cookie? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密). 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想 ...

  4. 使用urllib.request库获取cookie登录

    使用urllib.request库获取cookie登录 一 .使用手动添加cookie的方式来获取页面 二.使用 cookiejar 自动获取登录后获得的cookie 一 .使用手动添加cookie的 ...

  5. cookie登录知乎

    用cookie登录个人知乎主页 步骤: 1.用自己账号登录知乎,然后复制下来自己的cookie信息.2.用request.get(url,headers=headers)把cookie传入get请求中 ...

  6. python爬虫qq好友信息,GitHub - equationl/QQzone_crawler: QQ 空间动态爬虫,利用cookie登录获取所有可访问好友空间的动态保存到本地...

    关于 Edit by equationl 优先在 码云 上更新 该项目修改自 xjr7670 的 QQzone_crawler 原作者说明: QQ空间动态爬虫 修改了什么? 爬取完整的评论列表 爬取点 ...

  7. python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题

    python爬虫--Cookie登录爬取豆瓣短评和影评 常见问题(本文已解决) 具体步骤 一.获取网页源码 短评.影评 二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...

  8. selenium cookie 登录

    前言 爬虫方向的小伙伴们都知道网页爬虫经常遇到的问题就是登录账户,有些简单的网站我们可以简单的send key来输入账户密码就可以登录,但是有很多网站需要验证码之类的就不太好用了,这时候就体现到了co ...

  9. 怎样使用cookie登录自己的账号

    在这之前,不管是做测试还是挖漏洞总会遇到这种问题 做测试的时候测试项里面有一个会话标识未更新,这种漏洞说白了就是在退出个人账户的时候没有及时的清除cookie,从而让别人利用你的cookie再次登录你 ...

最新文章

  1. php使用NuSoap产生webservice结合WSDL让asp.net调用
  2. SpringBoot中使用Thymeleaf常用功能(一):表达式访问数据
  3. 【IDEA】干掉注释自动在行首
  4. 车用TVS管 SM8S系列 国产替代
  5. Android 极广推送接入
  6. mac 删除 Windows 或 EFI Boot 启动盘的方法
  7. vuex状态持久化_Vuex数据状态持久化-vuex-persistedstate
  8. 自然语言处理(NLP)资源
  9. 计算机软件吸附效应,流体混合物吸附分离的分子模拟研究
  10. 【Java代码之美】 -- Java11新特性解读
  11. 手机端 19FPS 的实时目标检测算法:YOLObile
  12. C#学员管理系统(源代码)
  13. coffeescript java 执行_独立于事件运行的coffeescript函数
  14. css3 和html5实例,HTML5和CSS3实例教程
  15. 记一次 nginx的rewrite和proxy_pass操作
  16. 2019CVPR单目深度估计综述
  17. 淘淘商城——展示购物车商品列表
  18. 协同级联网络和对抗网络的目标检测
  19. 算法细节系列(3):梯度下降法,牛顿法,拟牛顿法
  20. 温度传感器LM35实验

热门文章

  1. Android 文件打开方法
  2. Python项目的目录设置 VSCode Pycharm
  3. NIO.2中Path、 Paths、Files类的使用
  4. HTTPS、SPDY和HTTP/2的性能比较
  5. Python编程练习-石头剪刀布
  6. 哈夫曼编码算法的实现(c语言版本数据与结构)
  7. supermap S3M 三维模型图层自定义加载
  8. snap软件中哨兵2A数据预处理及六种常用植被指数的计算
  9. 成都扬帆际海教育咨询有限公司—Tiktok电商入驻条件有哪些?
  10. 收发和记录回放CAN报文的来可CAN卡通用测试软件功能介绍