因为工作的原因,近段时间开始接触jsoup。大概也弄清了用java来爬网页是怎样一个过程。特此,写篇日志以便他日方便查看。

  Jsoup是一个java平台的能够对xml文档结构的文档进行解析。有点类似于dom4j吧。但是dom4j是利用流进行内容解析,遇到“《》”的标记进行节点与否的区分。而jsoup之前看了篇文章介绍,存储的方式更接近于java对象的方式。(我个人的看法吧,也不清楚是否准确,望指点!)。

  模拟登录的过程也是很简单的。只需要通过网页工具查看目标网站需要提交到的登录地址,再捕获下提交的数据。就大概知道是需要提交什么东西了。需要注意的点是,有的网站是进行redirect重定向的,网页工具在network查看提交数据时为避免跳转导致提交的那条数据过快而被刷掉。可以打开debug中network中的Preserve log。

之后因为java进行测试如果觉得麻烦的话,可以下载个http请求模拟器。推荐骄阳的模拟器。

地址:http://www.crsky.com/soft/34385.html

使用这个模拟器需要注意的点:

提交数据:可以用&进行提交  例如这样子  username=admin&password=123456&

cookie 用;来分隔    cookie1=1;cookie=2;

后台jsoup中connection的几个方法。

con.validateTLSCertificates(false);   是否进行tls证书验证

con.ignoreContentType(true);是否忽略contentType

con.followRedirects(false);是否进行自动处理redirect

con.cookies(cookies); 带上cookie

con.data(data);带上data

转载于:https://www.cnblogs.com/cztisthebest/p/5718491.html

利用jsoup进行模拟登录相关推荐

  1. 【Android+OkHttp3+Jsoup】 模拟登录教务系统 抓取课表和成绩

    原文链接:https://blog.csdn.net/u013347241/article/details/52711018 今天这篇文章为大家带来的是模拟登录教务系统并抓取课表和成绩的详细实现过程. ...

  2. 利用cookie进行模拟登录并且抓取失败

    首先是朋友发现每次对撞md5都要上网站登录然后进行对撞,感觉好麻烦,想写一个脚本,输入md5值直接输出 然后就上车了 1 模拟登录 老规矩,先要提交表单,进行抓包(我用的fiddler)进行抓包,看见 ...

  3. Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息

    Python 利用 cookie 模拟登录,爬取指定关键词的淘宝商品信息-Selenium 1. 本文目标 由于淘宝网站的不断更新,以前的爬取方法都无法重现,必须需要登录淘宝网站才可以进行搜索商品.所 ...

  4. python爬虫登录微博_【新手学Python爬虫】微博网页PC端抓包分析和模拟登录

    本帖最后由 杀猪用牛刀 于 2020-4-2 23:59 编辑 首先我是一个python爬虫的新手,模拟登录也是我看b站模拟登录教学加自己琢磨完成的,其中很多分析很粗糙,还希望大家多多包涵:lol 话 ...

  5. python模拟登录详细教程_Python模拟登录requests.Session应用详解

    最近由于某些原因,需要用到Python模拟登录网站,但是以前对这块并不了解,而且目标网站的登录方法较为复杂, 所以一下卡在这里了,于是我决定从简单的模拟开始,逐渐深入地研究下这块. 注:本文仅为交流学 ...

  6. 爬虫实战篇(模拟登录)

    爬虫实战篇(模拟登录) 阅读目录 (1).登录实质 (2).什么是模拟登陆 (3).实现方式 (4).实例讲解(模拟登录去哪儿网)–这里我们用第二种实现方式 (1).登录实质 互联网上的部分网站需要登 ...

  7. python之模拟登录与表单交互

    无论是简单网页还是采用异步加载技术的网页,都是通过GET方法请求网址来获取网页信息的.但如何通过获取登录表单后的信息的?本节将讲解Reqquests库的Post方法,通过观测表单代码和逆向工程来填写表 ...

  8. [Python]网络爬虫(三):使用cookiejar管理cookie 以及 模拟登录知乎

    大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用. 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在 ...

  9. JSoup模拟登录新版正方教务系统(内网-教务系统)获取信息过程详解

    新版正方教务系统登录界面: 目录 一.需求分析 二.模拟登录内网 三.模拟登录教务系统 四.爬取成绩和课表信息 参考文章 一.需求分析   需要访问教务系统,爬取出课表成绩等信息,并在自己所写的APP ...

  10. python利用cookie模拟登录

    转载:http://cuiqingcai.com/968.html 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 importurllib ...

最新文章

  1. tts代表_Text-to-Speech (TTS) Synthesis语音合成----控制语言合成
  2. March 2007 CTP Linq 的一些改变
  3. Python 字典初始化dict()和{}
  4. webview 修改html,使用自定义CSS在WebView中呈现HTML
  5. linux命令中的cp,Linux高级技术:关于cp命令中拷贝所有的写法
  6. springboot整合使用rocketMq
  7. 如何用高德地图定位生成二维码_OSM地图本地发布如何生成各省市矢量地图
  8. union[c++] in gamedev
  9. mysql运算中max计算_MySQL 聚合函数、运算符操作、约束
  10. Java毕业设计——员工管理系统
  11. 在Delphi程序中访问报表对象
  12. [轻音乐] - 理查德·克莱德曼专辑[8CD]
  13. k8s-kubeadm安装(五 网络插件calico)
  14. cad画直角命令_在cad中怎么画角度?cad画角度三种方法介绍
  15. 软件测试 - 软件测试流程(完整版)避免当背锅侠,测试人的生存......
  16. 为什么使用kbhit后按下键盘无反应?
  17. 推荐一个学习SQL的好网站
  18. wordpress插件_最好的WordPress购物车插件
  19. ubuntu 16.04 安装 eclipse教程和总结
  20. ict是什么_ICT的完整形式是什么?

热门文章

  1. EventBus HandlerPoster简单分析
  2. 千万别把有本事挣钱的人,当成臭奸商
  3. 几种主流热修复方案分析
  4. 程序员,如何在工作之外,增加自己的收入?
  5. c# define 类似_c#跟c++的相似之处
  6. c++开发软件_Windows下学习C语言有哪些集成开发软件?
  7. wps分析工具库如何加载_怎么在wps表格里面加入“数据分析”工具啊?
  8. java--小示例:-1:输入判断信息
  9. c语言怎么添加搜索功能,C语言实现二叉搜索树的创建、插入、删除和查找
  10. 我国低轨宽带通信卫星系统建设迈出了实质性的一步