元宵爬虫-YuanXiaoSpider

翻译了下..没有元宵的淫文啊....所以用PinYing吧...

这几天写了一个爬虫可以做定向爬虫.也可以做全网爬虫.

该考虑的部分考虑了..不该考虑的没考虑

这里是个程序运行的大概UML不怎么会画凑合看吧

[img]http://dl.iteye.com/upload/attachment/0062/9439/c9c5f8e6-6a16-3833-bd62-d92b7a52542d.png[/img]

支持正则过滤网址支持抽取模板

这个项目比起nutch不具有可比性...如果你非要当个demo来看我也不喊冤呵呵...

里面的url抽取..正文抽取...都是自己写的

用到了一些java(据说高级)的东西..可惜仅仅是用到...比如curren nio

周六日费了两天电..目前采集没出大问题(中途断网一次).

如果非要说特点.那就是作者造轮子吧..基于原生java api 写的..不用导包..连log4j 都没要..当然我也没做log...

不是我喜欢造轮子..是不太会用轮子..比如htmlpaser 我怎么看它抽取的正文都不是我想要的东西...js css 都属于正文...而且还得导入个巨大的jar ...这不是我想要的...

数据有了.下一步把cq分词完善下..然后自己写个垃圾索引...一告慰我四年的无为java生涯

使用方法如下

1.首先将项目导入到eclipse
2.在D:/data/url.txt 存放你的种子网页
3.主类在 ansj.sun.spider.thread.Scheduler在这里运行就可以了

配置文件:regexFilter.txt 这个是对需要采集网址的正则过滤
d:/data/wrapper 里面存放用户的自定义抽取模板

抽取模板的例子如下
命名规则必须是news-*.xml

<?xml version="1.0" encoding="UTF-8"?><configure>  <listUrlRegex>      http://roll.mil.news.sina.com.cn/col/zgjq/index_\d+.shtml    </listUrlRegex> <urlBlock>      <![CDATA[          <div class="fixList">ANSJTEXT</div>        ]]>    </urlBlock> <nextPage>      <![CDATA[          <a title="下一页"ANSJTEXT下一页       ]]>    </nextPage> <urlRegex>http://mil.news.sina.com.cn/(p/)?+\d{4}-\d{2}-\d{2}/\d+(_?+)\d+.html</urlRegex> <title>     <![CDATA[          <h1 id="artibodyTitle">ANSJTEXT</h1>       ]]>    </title>    <content>       <![CDATA[          <!-- publish_helper name='原始正文' p_id='\d+' t_id='\d+' d_id='\d+' f_id='\d+' -->ANSJTEXT<style type="text/css">      ]]>    </content>  <publishTime>       <![CDATA[          <span id="pub_date">ANSJTEXT</span>        ]]>    </publishTime>  <author>        <![CDATA[          <span id="media_name">ANSJTEXT</span>      ]]>    </author></configure>

元宵爬虫-YuanXiaoSpider相关推荐

Python爬虫的智能化解析——Diffbot
爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事. 比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览 ...
小散量化炒股记｜基于多任务爬虫技术，实现A股实时行情Level1采样
前言股票行情数据对量化交易者来说非常重要,无论是短线交易者还是中长线交易着. 对于短线交易者来说,获取实时行情数据的方案涉及到盘中分析和买卖点监测的时效性. 对于中长线交易中来说,盘后更新全市场数据 ...
多线程爬虫获取A股历史行情数据！股票量化分析工具QTYX-V2.2.3
前言股票数据的获取是从事股票分析的第一步. 数据获取的途径有很多,对大家来说除了数据的质量以外,获取的效率是第二敏感的点. 市面上有一些股票数据服务平台提供了Python接口来获取数据. 总的来说, ...
元宵福利 | 不废话，直接送 20 本书
摘要:你抽奖,我送书. 今天是元宵佳节,也是新年的最后一天,记得吃元宵. 每到过节,就想给关注我的粉丝送点福利,今天也不例外,又来给你送书了.之前几次送书都是我一个人送,数量有限,很多朋友没有送到,心 ...
知识星球《玩转股票量化交易》之爬虫爬取股票数据
量化交易是一个多技术综合的项目,学习完书籍<Python股票量化交易从入门到实践>我们再次升级学习的内容--知识星球<玩转股票量化交易> 在星球中我们会深入分享包括Python ...
还在一个个写规则？来了解下爬虫的智能化解析吧！
爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事. 比如一篇新闻吧,链接是这个:https://news.ifeng.com/c/7kQcQG2peWU,页面预览 ...
搭建系统|量化小工具升级！爬虫收集上市公司的公告，这样查阅才高效！
前言 "搭建系统"专栏系列前期一直以"选股"."回测"."行情"这三个主线展开的进程再不断地迭代开发工具. 我一直强调要 ...
python爬虫智能解析库详解
文章很长请耐心阅读什么是爬虫爬虫是做什么的?是帮助我们来快速获取有效信息的.然而做过爬虫的人都知道,解析是个麻烦事.比如一篇新闻吧,链接是这个: https://news.ifeng.com/c ...
星球年度汇总-爬虫获取基金持仓明细(附GUI可拿来就用}
量化交易是一个多技术综合的项目,学习完书籍<Python股票量化交易从入门到实践>我们提供了升级的学习内容--知识星球<玩转股票量化交易> 在星球中我们深入分享包括Python ...

元宵爬虫-YuanXiaoSpider

元宵爬虫-YuanXiaoSpider相关推荐

最新文章

热门文章