博主在之前的博客(传送门)中写过使用爬虫来采集微医网的一些信息,但是在采集医生的历史问诊信息时,网站却使用了一些简单的反爬机制阻碍我们采集这些信息,这篇博客主要来介绍一下如何爬取到微医网医生患者问诊的信息。

爬虫在采集每一页的信息时,一般都会在url中设置pages以及每页展示的数量,如图所示,如果想完整地采集微医网患者问诊信息时,必须要遍历所有的页数:

在一般情况下,我们只需要改变url中的与页数有关的参数即可,如下图所示:

但是在改变这个pageNo参数之后,发现系统根本就不认账,并显示没有需要查询的信息。经过观察发现后面的参数如sign何timestamp并不是不变的。每次请求的时候,这两个参数都会发生变化。如果这两个参数是js文件生成的,那就比较麻烦了。不过,这两个参数并不是实时生成的,而是在请求当前页面时,就把下次请求的这两个参数发过来了。如图:

也就是说,在解析第n页的时候,就可以把第n+1页的这两个参数给解析出来。

在实际编程实现的时候,带上这些参数后,并没有想要的结果。因此,应该还缺少一些其他的东西。一般情况下,大多数网站要求在请求时要带上cookies信息来确认一下身份。

Connection.Response res=null;try {res = Jsoup.connect("https://www.guahao.com/consultlist/89aa5e32-5609-426e-96bf-7e90d982bcca000/all").execute();}catch (IOException e){e.printStackTrace();}cookies=res.cookies();

然后在请求时带上cookies就可以得到正确的返回信息了。

doc=Jsoup.connect(url).cookies(cookies).get();

微医网爬虫(二) java实现相关推荐

  1. 微医网爬虫(一) java实现

    爬取微医网医生的基本数据,获取每个医生的URL之后,可以使用以下方法解析: 想要采集医生历史问诊详细信息的同学可以移步我们另一篇博客:传送门 public Doctor getDoctorInfor( ...

  2. python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...

  3. Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...

  4. Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

  5. python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

  6. python爬虫专家_Python爬虫入门教程:微医挂号网专家团队数据抓取pyspider

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...

  7. python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider-阿里云开发者社区...

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...

  8. Python爬虫新手教程:微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

  9. Python爬虫教程:微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

最新文章

  1. 你想要的宏基因组-微生物组知识全在这(190101)
  2. Excel为整列设置函数
  3. createTextRange 创建文本对象
  4. 【深度学习】基于深度学习的数据增广技术一览
  5. Storm Bolt接口
  6. 飞书上点链接怎么指定跳转浏览器_东半球最接地气的短链接系统设计
  7. win8卸载mysql数据库,彻底卸载win8自带的metro应用的方法
  8. 生物界“AlphaGo”来了!蛋白结构预测AlphaFold大胜传统人类模型
  9. 1)session总结
  10. uniapp uView u-picker组件三级联动Demo
  11. 新版Android使用微桌面,微桌面是什么?微信正开发安卓“微桌面”
  12. 狮子鱼社区团购商城系统小程序v17.7.0独立版+前端 安装使用教程
  13. 汽车控制器软件开发模式调研
  14. PyTorch基础:Tensor的组合与分块
  15. mybatis表不存在的解决办法
  16. C语言贪吃蛇游戏代码,贪吃蛇C语言代码实现大全
  17. 多因子选股之tushare数据获取
  18. 用 C# picturebox 控件画图
  19. 去角质剂和磨砂膏行业调研报告 - 市场现状分析与发展前景预测
  20. 主分区、扩展分区和逻辑分区的区别

热门文章

  1. html ol 序号不出来,html中ol标签不显示序号的解决办法
  2. 使用filebeat和logstash解析java的log4j日志
  3. php如何留后门,ThinkPHP留后门技巧
  4. php日期转微秒,使用PHP生成独特的微秒级
  5. 试衣网的商业模式很脆弱
  6. flppy bri_BRI的完整形式是什么?
  7. 如何简单理解贝叶斯决策理论(Bayes Decision Theory)
  8. 变态msn名字大集合(zt)
  9. S32K144(18)LPI2C
  10. 仅用 CSS 实现赛博朋克 2077 风格视觉效果