使用jsoup爬虫超时分析与处理

1.请求头信息得一致

当你捕获到一个采用JSOUP 去请求超时的链接，我是通过catch 去发现。

try{
doc = Jsoup.connect(url)
.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0")
.header("Connection", "close")//如果是这种方式，这里务必带上
.timeout(8000)//超时时间
.get();
} catch (Exception e) {//可以精确处理timeoutException
//超时处理
}

通过try···catch 去发现超时，然后结合自己的处理，这里要说几个问题。

请求头信息，在你尝试去爬取对方的内容的时候，需要尽可能的和你在http浏览器请求的请求头一致，注意是请求头，不是相应头。
在请求头里务必加上Connection：close ，有同学可能会问，这个不是相应头里的吗？是的，有的时候你看到在请求头里，有的时候看到在相应头里，而且一般是 Connection：keep-alive ，你加上就可以了。下面会讲到。
当发现对方拒绝请求的时候，把浏览器里看到的请求头全部加上，甚至 Cookie 也加上，注意换行和空格，需要自己处理下。尽量一行。
如果对方网站过弱，请采用单线程爬取，要不然会大量超时，甚至把对方Kill 了。
如果对方有 IP 限制，采用 IP 代理，或者频率放缓慢一点。

下面看两张图对比下。

使用jsoup爬虫超时分析与处理相关推荐

python3 爬虫 requests安装_BOSS直聘招聘信息获取之爬虫工具分析
点击蓝色"不太灵光的程序员"关注我哟加个"星标",每天上午 09:30,干货推送! 文中使用的组件库仅限于Python语言,由于最近收到一些同学的留言说,按照 ...
jsoup爬虫教程技巧_Jsoup V的幕后秘密：优化的技巧和窍门
jsoup爬虫教程技巧我们已经把事情做好了,现在是时候加快工作速度了. 我们会牢记Donald Knuth的警告:"大约97%的时间我们应该忘记效率低下:过早的优化是万恶之源". ...
jsoup爬虫,爬取全站代码
最近使用jsoup扒了几个网站,感觉bug改的差不多了,于是写出来与大家分享. 首先我会把爬虫基础的爬取思路与部分重要方法展示出来,最后我会把全部代码贴出来.并且我会写一个Main类,里面就是爬虫的模 ...
jsoup爬虫简书首页数据做个小Demo
代码地址如下: http://www.demodashi.com/demo/11643.html 昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固 ...
Java+Jsoup爬虫小红书
源码链接:https://pan.baidu.com/s/1oOAxJqSMCyVJPNv-iAYW7A 提取码:1co9 Java+Jsoup爬虫小红书,微博,B站爬取地址:https://www ...
Jsoup爬虫使用记录
背景学习 Android 到一段时间,想自己做一些项目练练手,需要数据怎么办呢? - 自己造数据 - 少量的假数据利用数组或者集合来存储少量数据. - 大量的后台数据这里的数据是指,自己获取数据 ...
【Java】Jsoup爬虫,一个简单获取京东商品信息的小Demo
简单记录 - Jsoup爬虫入门实战数据问题?数据库获取,消息队列中获取中,都可以成为数据源,爬虫! 爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 我们经常需要分析HTML网 ...
Java+Jsoup爬虫微博
源码链接:https://pan.baidu.com/s/1oOAxJqSMCyVJPNv-iAYW7A 提取码:1co9 Java+Jsoup爬虫小红书,微博,B站爬取地址:https://wei ...
jsoup爬虫技术精通_精通业务的同时保持技术的3种方法
jsoup爬虫技术精通上周,我很幸运地参加了2017年红帽峰会 . 我们与客户,分析师和记者举行了无数次会议和情况介绍会. 在会议之间走动时,我开始思考一个挑战,这对许多技术人员来说是一个挑战,因为 ...
Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）
文章目录一.selenium爬取动态网页二.爬虫案例分析三.哈希hash算法与RSA加密一.selenium爬取动态网页 1.动态网页认知爬虫其实就是在模仿浏览器的行为应对要多次数据的交互 ...

使用jsoup爬虫超时分析与处理

1.请求头信息得一致

使用jsoup爬虫超时分析与处理相关推荐

最新文章

热门文章