微医网爬虫（二） java实现

博主在之前的博客（传送门）中写过使用爬虫来采集微医网的一些信息，但是在采集医生的历史问诊信息时，网站却使用了一些简单的反爬机制阻碍我们采集这些信息，这篇博客主要来介绍一下如何爬取到微医网医生患者问诊的信息。

爬虫在采集每一页的信息时，一般都会在url中设置pages以及每页展示的数量，如图所示，如果想完整地采集微医网患者问诊信息时，必须要遍历所有的页数：

在一般情况下，我们只需要改变url中的与页数有关的参数即可，如下图所示：

但是在改变这个pageNo参数之后，发现系统根本就不认账，并显示没有需要查询的信息。经过观察发现后面的参数如sign何timestamp并不是不变的。每次请求的时候，这两个参数都会发生变化。如果这两个参数是js文件生成的，那就比较麻烦了。不过，这两个参数并不是实时生成的，而是在请求当前页面时，就把下次请求的这两个参数发过来了。如图：

也就是说，在解析第n页的时候，就可以把第n+1页的这两个参数给解析出来。

在实际编程实现的时候，带上这些参数后，并没有想要的结果。因此，应该还缺少一些其他的东西。一般情况下，大多数网站要求在请求时要带上cookies信息来确认一下身份。

Connection.Response res=null;try {res = Jsoup.connect("https://www.guahao.com/consultlist/89aa5e32-5609-426e-96bf-7e90d982bcca000/all").execute();}catch (IOException e){e.printStackTrace();}cookies=res.cookies();

然后在请求时带上cookies就可以得到正确的返回信息了。

doc=Jsoup.connect(url).cookies(cookies).get();

微医网爬虫（二） java实现相关推荐

微医网爬虫（一） java实现
爬取微医网医生的基本数据,获取每个医生的URL之后,可以使用以下方法解析: 想要采集医生历史问诊详细信息的同学可以移步我们另一篇博客:传送门 public Doctor getDoctorInfor( ...
python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...
Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
python爬虫和医学数据_Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...
python爬虫专家_Python爬虫入门教程：微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
python爬虫专家_Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider-阿里云开发者社区...
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. 安装起来是非常简单的 pip install pyspi ...
Python爬虫新手教程：微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫教程：微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

微医网爬虫（二） java实现

微医网爬虫（二） java实现相关推荐

最新文章

热门文章