1、最初版本,使用多线程爬取,如果网断了就得重新爬。解决方法:另建多线程存储,并做好记录文件。
2、使用htmlparser爬取时,有的网页爬取过慢,无法设置超时连接。可使用java.net下的url,用流的方式获取网页信息,里面有设置超时的方法。可设置守护线程方式判断连接是否超时(未验证)。可使用future方式提交任务给excuteservice(未验证)
3、网页编码不同,无法爬取网页(待解决)
4、界面问题。不要把功能的实现放入界面中,在其下层可写一个控制类,专门实现和界面以及爬取的交互。
5、多线程之间的队列同步问题。可以自己写方法,在对队列进行入队和出队的时候加锁。可以用jdk提供的同步队列。
6、对入队和出队进行计数。使用jdk提供的同步队列无法实现此功能,可实现自己的同步队列,在里面设置全局变量进行计数。
7、配置文件问题。分为工程级配置文件和单个爬取网站的配置文件。可使用xml和properties两种方式。xml一般需要写一个对应的bean,也可以使用反射动态生成临时bean。使用properties可直接读取和修改配置文件的值。
8、实现最快爬取和存储至少需要多少个队列。列表队列,新闻队列,已处理列表队列,已处理新闻队列(就是已经放入线程中的)

转载于:https://www.cnblogs.com/yan456jie/p/5369549.html

船舶爬虫出现过的问题相关推荐

  1. 编写python爬虫 获取中华英才网全网工资数据

    做数据分析 数据挖掘,第一步是获取数据,在这里,我们要分析现今全国各地各个职业的工资情况. 我们选择较为权威的'中华英才网',编写python爬虫获取该网站上的各个招聘信息说给出的工资,再取其行业工资 ...

  2. 教程分享 | 如何获取港口网(全球船舶点和路径)的数据

    关于全球船舶方面的数据,网络上已经有很多人分享了,但大都是分享个网页地址,至于网站上的数据如何获取,这方面的教程较少,因此,这期给大家分享一下不借助Python.R等爬虫工具,如何获取全球船舶数据. ...

  3. python在煤矿的用途-仁寿高校邦数据科学通识课【Python爬虫】答案

    仁寿高校邦数据科学通识课[Python爬虫]答案it8p 仁寿高校邦数据科学通识课[Python爬虫]答案 关注公众号{帅搜}即可查询答案 支持:大学网课,智慧树,知到,超星,尔雅,学习通,选修课,公 ...

  4. AIS数据爬虫---以船讯网为例

    [01] 船舶自动识别系统(Automatic Identification Systems, AIS)是一种应用于船和岸.船和船之间的海事安全与通信的助航系统,在减少船舶碰撞事故等海事服务中发挥重要 ...

  5. html,xml_网页开发_爬虫_笔记

    20220402 笔记本走手机热点,重连之后又是另一个ip 20220331 https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ 爬虫相关知识快速复习 ...

  6. Python 爬虫框架Scrapy安装汇总

    传统方式安装Scrapy(慎用) 练习了基本的操作之后,当然就要找框架来进行爬虫实验啊.于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个 ...

  7. Python:爬虫框架Scrapy的安装与基本使用

    一.简单实例,了解基本. 1.安装Scrapy框架 这里如果直接pip3 install scrapy可能会出错. 所以你可以先安装lxml:pip3 install lxml(已安装请忽略). 安装 ...

  8. Python:从零搭建Redis-Scrapy分布式爬虫

    Scrapy-Redis分布式策略: 假设有四台电脑:Windows 10.Mac OS X.Ubuntu 16.04.CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端 ...

  9. Python案例:使用XPath的爬虫

    案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py#!/usr/b ...

最新文章

  1. 织梦CMS调用指定顶级栏目名称的方法
  2. 《Linux命令行与shell脚本编程大全 第3版》Linux命令行---55
  3. 计算机编程pdf百度云,计算机编程基础.pdf
  4. java gc机制新区域旧屋_Java 内存回收机制——GC机制-Go语言中文社区
  5. 仿九天音乐图片切换技术[二],兼容ie,ff
  6. 《项目百态:软件项目管理面面观》三模式总结
  7. 带你学 Redis:Redis安装(二)
  8. Windows核心编程:第7章 线程调度、优先级和关联性
  9. iscsi:IO操作流程(三)
  10. 关于socket的简单的客户服务端编程
  11. Team Fundation Server 2010 三
  12. 毁灭程序员效率的 15 个障碍
  13. iOS开发调试技巧之模拟定位国外位置
  14. 侠众道武功最佳练级方案_千年练级经验总结
  15. 《投射技术》与科学研究汉字笔迹心理学的希望
  16. maven配置本地仓库
  17. 车载监控4大趋势,TSINGSEE助力车载视频监控高清、智能化发展
  18. Spring源码深入阅读AnnotationConfigApplicationContext
  19. Windows 远程桌面登录蓝屏、不显示桌面问题解决方法
  20. oracle截取clob类型

热门文章

  1. 元宇宙发展研究报告2.0版本(清华大学)
  2. 我是一只IT小小鸟里面牛人的博客
  3. osTicket中文,osTicket汉化
  4. centos 安装 pcre
  5. 【MySQL】MySQL官网上安装包的区别
  6. 强制弹窗被判刑,内因是“不知”还是“不愿”守法?
  7. CLSID {10020200-E260-11CF-AE68-00AA004A34D5} failed due to the following error: 80040154. 错误的解决办法
  8. vb.net 如何文件指定打印机打印文件_大规模使用FDM 3D打印机的三大挑战
  9. 达内python培训靠谱吗
  10. Junit、Json和kv结构的相互转化