WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。

WebFetch 要达到的目标:

  • 没有第三方依赖jar包

  • 减少内存使用

  • 提高CPU利用率

  • 加快网络爬取速度

  • 简洁明了的api接口

  • 能在Android设备上稳定运行

  • 小巧灵活可以方便集成的网页抓取组件

使用文档

WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置默认页面处理方法,默认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改默认操作)。

启动代码:

WebFetch webFetch = new WebFetch();
webFetch.addBeginTask("https://github.com").start();

停止代码:

webFetch.close();

WebFetch再执行start()方法后不会阻塞程序执行,可以加入多个网页地址,目前支持http与https,至少需要一个起始地址。

第一个版本还需要不断改进与完善,希望大家提出宝贵的改进意见,感谢大家的支持。

联系方式:wanghailiang333@qq.com

hexleo/WebFetch

star 43 | fork 16

无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。
issues:

  • #1 新版本v0.1.x-改进

    hexleo 3个月前

最近提交:

  • 15ac3982d   add Example README.md

    hexleo 3个月前

  • bcd1f8fc4   add WebFetch Example

    hexleo 3个月前

  • 5de1b51dc   mod README.md

    hexleo 3个月前

下载zip master分支 代码最近更新:2015-05-25

WebFetch 是无依赖极简网页爬取组件相关推荐

  1. 第二十八篇 网页实战之静态网页爬取,四大案例,小说,书,图片等抓取操作

    心得:不知道从什么时候开始,喜欢上了思考,完全可以把自己沉浸在自己的程序中,看着自己一点点的累积,慢慢的成长,证明这一天没有白白浪费掉,感谢还在认真的你. 自己在学习过程中总结出来的爬虫的过程: 1. ...

  2. Python网络爬虫数据采集实战:同花顺动态网页爬取

    前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...

  3. 手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

    前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家 ...

  4. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

  5. 静态网页爬取-Requests

    静态网页爬取-Requests import requests r=requests.get('http://www.baidu.com/') print(r.encoding) print(r.st ...

  6. 爬取电影资源之网页爬取篇(python)

    不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...

  7. webmagic+selenium模拟浏览器启动(动态网页爬取方法之一的第一步)

    现在绝大多数网页都是动态生成的,那么学习爬虫就意味着更加困难.若是静态网页,只需要了解如何连接网络和分析网页源代码提取标签信息即可,但是动态网页的话,就需要使用到一些特定的框架来爬取了.比较实用的爬取 ...

  8. Python数据分析:爬虫从网页爬取数据需要几步?

    对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...

  9. 【Python】网页爬取CVPR论文

    动机 利用python自动下载 cvpr论文 流程 获取网页内容 找到所有论文链接 下载 1. 获取网页内容 所用模块:requests 重要函数:requests.get 输出:web_contex ...

最新文章

  1. OA项目12:系统管理之用户管理
  2. python3 使用 socket.gethostbyname 报错 getaddrinfo failed 解决方法
  3. 微信小游戏 Egret开发数据域官方Demo下载地址
  4. 关于Spring 中的PortletModeHandlerMapping
  5. Windows下用Mingw编译Boost.Regex库
  6. jpane1_Java—面板组件(Jpanel)1
  7. Spring在3.1版本后的bean获取方法的改变
  8. 在JSP中应用JavaBean
  9. linux逻辑卷管理(LVM)
  10. c语言 stm32结构体赋值,STM32学习笔记9——结构体赋值问题
  11. Sumatra PDF——好用快捷工具介绍及使用
  12. 常见的宏观经济指标介绍
  13. Spring Boot 2020 官方基础68课程第十六个 Securing a Web Application
  14. 组织机构、权限、角色设计
  15. 面向对象06(抽象类)
  16. android个人开发者广告平台
  17. apple pencil值不值得购买?ipad平替电容笔安利
  18. linux和aix命令总结
  19. Cellular Pro简介
  20. html下拉框设置默认值_html下拉框怎么设置默认值

热门文章

  1. ITK:来自图像的多分辨率金字塔
  2. VTK:PolyData之RibbonFilter
  3. VTK:图片之ImageToPolyDataFilter
  4. OpenCV基本线性变换的实例(附完整代码)
  5. OpenCV YOLO DNN(yolo_object_detection)
  6. 响应QML中的用户输入
  7. C语言求两个链表的合并点的算法(附完整源码)
  8. OpenGL Tessellation细分曲面的实例
  9. C++Heap Sort堆排序的实现算法(附完整源码)
  10. QML基础类型之list