微医网爬虫(二) java实现
博主在之前的博客(传送门)中写过使用爬虫来采集微医网的一些信息,但是在采集医生的历史问诊信息时,网站却使用了一些简单的反爬机制阻碍我们采集这些信息,这篇博客主要来介绍一下如何爬取到微医网医生患者问诊的信息。
爬虫在采集每一页的信息时,一般都会在url中设置pages以及每页展示的数量,如图所示,如果想完整地采集微医网患者问诊信息时,必须要遍历所有的页数:
在一般情况下,我们只需要改变url中的与页数有关的参数即可,如下图所示:
但是在改变这个pageNo参数之后,发现系统根本就不认账,并显示没有需要查询的信息。经过观察发现后面的参数如sign何timestamp并不是不变的。每次请求的时候,这两个参数都会发生变化。如果这两个参数是js文件生成的,那就比较麻烦了。不过,这两个参数并不是实时生成的,而是在请求当前页面时,就把下次请求的这两个参数发过来了。如图:
也就是说,在解析第n页的时候,就可以把第n+1页的这两个参数给解析出来。
在实际编程实现的时候,带上这些参数后,并没有想要的结果。因此,应该还缺少一些其他的东西。一般情况下,大多数网站要求在请求时要带上cookies信息来确认一下身份。
Connection.Response res=null;try {res = Jsoup.connect("https://www.guahao.com/consultlist/89aa5e32-5609-426e-96bf-7e90d982bcca000/all").execute();}catch (IOException e){e.printStackTrace();}cookies=res.cookies();
然后在请求时带上cookies就可以得到正确的返回信息了。
doc=Jsoup.connect(url).cookies(cookies).get();
微医网爬虫(二) java实现相关推荐
- 微医网爬虫(一) java实现
爬取微医网医生的基本数据,获取每个医生的URL之后,可以使用以下方法解析: 想要采集医生历史问诊详细信息的同学可以移步我们另一篇博客:传送门 public Doctor getDoctorInfor( ...
- python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...
- Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
- Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
- python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
- python爬虫专家_Python爬虫入门教程:微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
- python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider-阿里云开发者社区...
1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...
- Python爬虫新手教程:微医挂号网医生数据抓取
1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
- Python爬虫教程:微医挂号网医生数据抓取
1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
最新文章
- 你想要的宏基因组-微生物组知识全在这(190101)
- Excel为整列设置函数
- createTextRange 创建文本对象
- 【深度学习】基于深度学习的数据增广技术一览
- Storm Bolt接口
- 飞书上点链接怎么指定跳转浏览器_东半球最接地气的短链接系统设计
- win8卸载mysql数据库,彻底卸载win8自带的metro应用的方法
- 生物界“AlphaGo”来了!蛋白结构预测AlphaFold大胜传统人类模型
- 1)session总结
- uniapp uView u-picker组件三级联动Demo
- 新版Android使用微桌面,微桌面是什么?微信正开发安卓“微桌面”
- 狮子鱼社区团购商城系统小程序v17.7.0独立版+前端 安装使用教程
- 汽车控制器软件开发模式调研
- PyTorch基础:Tensor的组合与分块
- mybatis表不存在的解决办法
- C语言贪吃蛇游戏代码,贪吃蛇C语言代码实现大全
- 多因子选股之tushare数据获取
- 用 C# picturebox 控件画图
- 去角质剂和磨砂膏行业调研报告 - 市场现状分析与发展前景预测
- 主分区、扩展分区和逻辑分区的区别