船舶爬虫出现过的问题
2、使用htmlparser爬取时,有的网页爬取过慢,无法设置超时连接。可使用java.net下的url,用流的方式获取网页信息,里面有设置超时的方法。可设置守护线程方式判断连接是否超时(未验证)。可使用future方式提交任务给excuteservice(未验证)
3、网页编码不同,无法爬取网页(待解决)
4、界面问题。不要把功能的实现放入界面中,在其下层可写一个控制类,专门实现和界面以及爬取的交互。
5、多线程之间的队列同步问题。可以自己写方法,在对队列进行入队和出队的时候加锁。可以用jdk提供的同步队列。
6、对入队和出队进行计数。使用jdk提供的同步队列无法实现此功能,可实现自己的同步队列,在里面设置全局变量进行计数。
7、配置文件问题。分为工程级配置文件和单个爬取网站的配置文件。可使用xml和properties两种方式。xml一般需要写一个对应的bean,也可以使用反射动态生成临时bean。使用properties可直接读取和修改配置文件的值。
8、实现最快爬取和存储至少需要多少个队列。列表队列,新闻队列,已处理列表队列,已处理新闻队列(就是已经放入线程中的)
转载于:https://www.cnblogs.com/yan456jie/p/5369549.html
船舶爬虫出现过的问题相关推荐
- 编写python爬虫 获取中华英才网全网工资数据
做数据分析 数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况. 我们选择较为权威的'中华英才网',编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资 ...
- 教程分享 | 如何获取港口网(全球船舶点和路径)的数据
关于全球船舶方面的数据,网络上已经有很多人分享了,但大都是分享个网页地址,至于网站上的数据如何获取,这方面的教程较少,因此,这期给大家分享一下不借助Python.R等爬虫工具,如何获取全球船舶数据. ...
- python在煤矿的用途-仁寿高校邦数据科学通识课【Python爬虫】答案
仁寿高校邦数据科学通识课[Python爬虫]答案it8p 仁寿高校邦数据科学通识课[Python爬虫]答案 关注公众号{帅搜}即可查询答案 支持:大学网课,智慧树,知到,超星,尔雅,学习通,选修课,公 ...
- AIS数据爬虫---以船讯网为例
[01] 船舶自动识别系统(Automatic Identification Systems, AIS)是一种应用于船和岸.船和船之间的海事安全与通信的助航系统,在减少船舶碰撞事故等海事服务中发挥重要 ...
- html,xml_网页开发_爬虫_笔记
20220402 笔记本走手机热点,重连之后又是另一个ip 20220331 https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ 爬虫相关知识快速复习 ...
- Python 爬虫框架Scrapy安装汇总
传统方式安装Scrapy(慎用) 练习了基本的操作之后,当然就要找框架来进行爬虫实验啊.于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个 ...
- Python:爬虫框架Scrapy的安装与基本使用
一.简单实例,了解基本. 1.安装Scrapy框架 这里如果直接pip3 install scrapy可能会出错. 所以你可以先安装lxml:pip3 install lxml(已安装请忽略). 安装 ...
- Python:从零搭建Redis-Scrapy分布式爬虫
Scrapy-Redis分布式策略: 假设有四台电脑:Windows 10.Mac OS X.Ubuntu 16.04.CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端 ...
- Python案例:使用XPath的爬虫
案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py#!/usr/b ...
最新文章
- 织梦CMS调用指定顶级栏目名称的方法
- 《Linux命令行与shell脚本编程大全 第3版》Linux命令行---55
- 计算机编程pdf百度云,计算机编程基础.pdf
- java gc机制新区域旧屋_Java 内存回收机制——GC机制-Go语言中文社区
- 仿九天音乐图片切换技术[二],兼容ie,ff
- 《项目百态:软件项目管理面面观》三模式总结
- 带你学 Redis:Redis安装(二)
- Windows核心编程:第7章 线程调度、优先级和关联性
- iscsi:IO操作流程(三)
- 关于socket的简单的客户服务端编程
- Team Fundation Server 2010 三
- 毁灭程序员效率的 15 个障碍
- iOS开发调试技巧之模拟定位国外位置
- 侠众道武功最佳练级方案_千年练级经验总结
- 《投射技术》与科学研究汉字笔迹心理学的希望
- maven配置本地仓库
- 车载监控4大趋势,TSINGSEE助力车载视频监控高清、智能化发展
- Spring源码深入阅读AnnotationConfigApplicationContext
- Windows 远程桌面登录蓝屏、不显示桌面问题解决方法
- oracle截取clob类型
热门文章
- 元宇宙发展研究报告2.0版本(清华大学)
- 我是一只IT小小鸟里面牛人的博客
- osTicket中文,osTicket汉化
- centos 安装 pcre
- 【MySQL】MySQL官网上安装包的区别
- 强制弹窗被判刑,内因是“不知”还是“不愿”守法?
- CLSID {10020200-E260-11CF-AE68-00AA004A34D5} failed due to the following error: 80040154. 错误的解决办法
- vb.net 如何文件指定打印机打印文件_大规模使用FDM 3D打印机的三大挑战
- 达内python培训靠谱吗
- Junit、Json和kv结构的相互转化