WebFetch 是无依赖极简网页爬取组件

WebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。

WebFetch 要达到的目标：

没有第三方依赖jar包
减少内存使用
提高CPU利用率
加快网络爬取速度
简洁明了的api接口
能在Android设备上稳定运行
小巧灵活可以方便集成的网页抓取组件

使用文档

WebFetch的使用非常简单，让小白用户快速上手，WebFetch为用户配置默认页面处理方法，默认将抓取到的页面信息使用System.out.print输出到控制台（通过配置PageHandler修改默认操作）。

启动代码：

WebFetch webFetch = new WebFetch();
webFetch.addBeginTask("https://github.com").start();

停止代码：

webFetch.close();

WebFetch再执行start()方法后不会阻塞程序执行，可以加入多个网页地址，目前支持http与https，至少需要一个起始地址。

第一个版本还需要不断改进与完善，希望大家提出宝贵的改进意见，感谢大家的支持。

联系方式：wanghailiang333@qq.com

hexleo/WebFetch

star 43 | fork 16

无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。

issues:

#1 新版本v0.1.x-改进

hexleo 3个月前

最近提交:

15ac3982d add Example README.md

hexleo 3个月前
bcd1f8fc4 add WebFetch Example

hexleo 3个月前
5de1b51dc mod README.md

hexleo 3个月前

下载zip master分支代码最近更新：2015-05-25

WebFetch 是无依赖极简网页爬取组件相关推荐

第二十八篇网页实战之静态网页爬取，四大案例，小说，书，图片等抓取操作
心得:不知道从什么时候开始,喜欢上了思考,完全可以把自己沉浸在自己的程序中,看着自己一点点的累积,慢慢的成长,证明这一天没有白白浪费掉,感谢还在认真的你. 自己在学习过程中总结出来的爬虫的过程: 1. ...
Python网络爬虫数据采集实战：同花顺动态网页爬取
前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...
手把手 | 教你爬下100部电影数据：R语言网页爬取入门指南
前言网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家 ...
Python爬虫: 单网页所有静态网页动态网页爬取
Python爬虫: 单网页所有静态网页动态网页爬取前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
静态网页爬取-Requests
静态网页爬取-Requests import requests r=requests.get('http://www.baidu.com/') print(r.encoding) print(r.st ...
爬取电影资源之网页爬取篇（python）
不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...
webmagic+selenium模拟浏览器启动（动态网页爬取方法之一的第一步）
现在绝大多数网页都是动态生成的,那么学习爬虫就意味着更加困难.若是静态网页,只需要了解如何连接网络和分析网页源代码提取标签信息即可,但是动态网页的话,就需要使用到一些特定的框架来爬取了.比较实用的爬取 ...
Python数据分析：爬虫从网页爬取数据需要几步？
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...
【Python】网页爬取CVPR论文
动机利用python自动下载 cvpr论文流程获取网页内容找到所有论文链接下载 1. 获取网页内容所用模块:requests 重要函数:requests.get 输出:web_contex ...

WebFetch 是无依赖极简网页爬取组件

使用文档

star 43 | fork 16

WebFetch 是无依赖极简网页爬取组件相关推荐

最新文章

热门文章