翻译了下..没有元宵的淫文啊....所以用PinYing吧...

这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫.

该考虑的部分考虑了..不该考虑的没考虑

这里是个程序运行的大概UML不怎么会画凑合看吧

[img]http://dl.iteye.com/upload/attachment/0062/9439/c9c5f8e6-6a16-3833-bd62-d92b7a52542d.png[/img]

支持正则过滤网址 支持抽取模板

这个项目比起nutch不具有可比性...如果你非要当个demo来看我也不喊冤呵呵...

里面的url抽取..正文抽取...都是自己写的

用到了一些java(据说高级)的东西..可惜仅仅是用到...比如curren nio

周六日费了两天电..目前采集没出大问题(中途断网一次).

如果非要说特点.那就是作者造轮子吧..基于原生java api 写的..不用导包..连log4j 都没要..当然我也没做log...

不是我喜欢造轮子..是不太会用轮子..比如htmlpaser 我怎么看它抽取的正文都不是我想要的东西...js css 都属于正文...而且还得导入个巨大的jar ...这不是我想要的...

数据有了.下一步把cq分词完善下..然后自己写个垃圾索引...一告慰我四年的无为java生涯

使用方法如下

1.首先将项目导入到eclipse
2.在D:/data/url.txt 存放你的种子网页
3.主类在 ansj.sun.spider.thread.Scheduler在这里运行就可以了

配置文件:regexFilter.txt 这个是对需要采集网址的正则过滤
d:/data/wrapper 里面存放用户的自定义抽取模板

抽取模板的例子如下
命名规则必须是news-*.xml

<?xml version="1.0" encoding="UTF-8"?><configure>  <listUrlRegex>      http://roll.mil.news.sina.com.cn/col/zgjq/index_\d+.shtml    </listUrlRegex> <urlBlock>      <![CDATA[          <div class="fixList">ANSJTEXT</div>        ]]>    </urlBlock> <nextPage>      <![CDATA[          <a title="下一页"ANSJTEXT下一页       ]]>    </nextPage> <urlRegex>http://mil.news.sina.com.cn/(p/)?+\d{4}-\d{2}-\d{2}/\d+(_?+)\d+.html</urlRegex> <title>     <![CDATA[          <h1 id="artibodyTitle">ANSJTEXT</h1>       ]]>    </title>    <content>       <![CDATA[          <!-- publish_helper name='原始正文' p_id='\d+' t_id='\d+' d_id='\d+' f_id='\d+' -->ANSJTEXT<style type="text/css">      ]]>    </content>  <publishTime>       <![CDATA[          <span id="pub_date">ANSJTEXT</span>        ]]>    </publishTime>  <author>        <![CDATA[          <span id="media_name">ANSJTEXT</span>      ]]>    </author></configure>

元宵爬虫-YuanXiaoSpider相关推荐

  1. Python爬虫的智能化解析——Diffbot

    爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事. 比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览 ...

  2. 小散量化炒股记|基于多任务爬虫技术, 实现A股实时行情Level1采样

    前言 股票行情数据对量化交易者来说非常重要,无论是短线交易者还是中长线交易着. 对于短线交易者来说,获取实时行情数据的方案涉及到盘中分析和买卖点监测的时效性. 对于中长线交易中来说,盘后更新全市场数据 ...

  3. 多线程爬虫获取A股历史行情数据!股票量化分析工具QTYX-V2.2.3

    前言 股票数据的获取是从事股票分析的第一步. 数据获取的途径有很多,对大家来说除了数据的质量以外,获取的效率是第二敏感的点. 市面上有一些股票数据服务平台提供了Python接口来获取数据. 总的来说, ...

  4. 元宵福利 | 不废话,直接送 20 本书

    摘要:你抽奖,我送书. 今天是元宵佳节,也是新年的最后一天,记得吃元宵. 每到过节,就想给关注我的粉丝送点福利,今天也不例外,又来给你送书了.之前几次送书都是我一个人送,数量有限,很多朋友没有送到,心 ...

  5. 知识星球《玩转股票量化交易》之 爬虫爬取股票数据

    量化交易是一个多技术综合的项目,学习完书籍<Python股票量化交易从入门到实践>我们再次升级学习的内容--知识星球<玩转股票量化交易> 在星球中我们会深入分享包括Python ...

  6. 还在一个个写规则?来了解下爬虫的智能化解析吧!

    爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事. 比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览 ...

  7. 搭建系统|量化小工具升级!爬虫收集上市公司的公告,这样查阅才高效!

    前言 "搭建系统"专栏系列前期一直以"选股"."回测"."行情"这三个主线展开的进程再不断地迭代开发工具. 我一直强调要 ...

  8. python爬虫智能解析库详解

    文章很长 请耐心阅读 什么是爬虫 爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事.比如一篇新闻吧,链接是这个: https://news.ifeng.com/c ...

  9. 星球年度汇总-爬虫获取基金持仓明细(附GUI可拿来就用}

    量化交易是一个多技术综合的项目,学习完书籍<Python股票量化交易从入门到实践>我们提供了升级的学习内容--知识星球<玩转股票量化交易> 在星球中我们深入分享包括Python ...

最新文章

  1. mysql %type_mysql 存储过程 %type
  2. mysql search yum_centos7通过yum安装mysql的方法
  3. golang中的pprof支持
  4. 三星的typec可以充MacBook
  5. CentOS设置程序开机自启动的方法
  6. jmeter --- 基于InfluxDBGrafana的JMeter实时性能测试数据的监控和展示
  7. EL表达式取 Map、 List和数组的值
  8. CMOS图像传感器——工作原理
  9. DirectXInput
  10. 用 theano 求解 Logistic Regression (SGD 优化算法)
  11. Keil/MDK(0):使用过程中的一些设置
  12. Python深度学习(3):波士顿房价预测
  13. 利用 MAC 自带的 mount_ntfs 工具加载ntfs移动硬盘进行数据读写
  14. 租房网开发时es使用8.x版本时相关知识点相对于视频教程用的es6.x的不同点(参考,可能不太完善)
  15. 【高数复盘】2.1导数概念
  16. H5+CSS+JavaScript入门学习
  17. 中秋节后如何有面子的带女票回家?
  18. Silverlight 教程第五部分:用 ListBox 和 DataBinding 显示列表数据 (木野狐译)
  19. 2018_AAAI_Social Recommendation with an Essential Preference Space—(AAAI, 2018)
  20. android 开发社区

热门文章

  1. GIS数据模型的说明 (骆老师专用)
  2. 大数据企业战略规划高级培训课程
  3. 计算机f g 盘找不到了,电脑E/F盘符突然不见了怎么办
  4. 推荐一个加载动图的网站loading.io
  5. 广义表与二叉树之间的相互转换
  6. b 标签和 strong 标签,i 标签和 em 标签的区别?
  7. 基于Vue2使用Vuex3
  8. VB计算最小公倍数和最大公约数1/2
  9. 求第N个素数的值,时间复杂度尽量低
  10. Axure无法同时打开多个.rp文件