WebFetch 是无依赖极简网页爬取组件
WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。
WebFetch 要达到的目标:
没有第三方依赖jar包
减少内存使用
提高CPU利用率
加快网络爬取速度
简洁明了的api接口
能在Android设备上稳定运行
小巧灵活可以方便集成的网页抓取组件
使用文档
WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置默认页面处理方法,默认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改默认操作)。
启动代码:
WebFetch webFetch = new WebFetch(); webFetch.addBeginTask("https://github.com").start();
停止代码:
webFetch.close();
WebFetch再执行start()方法后不会阻塞程序执行,可以加入多个网页地址,目前支持http与https,至少需要一个起始地址。
第一个版本还需要不断改进与完善,希望大家提出宝贵的改进意见,感谢大家的支持。
联系方式:wanghailiang333@qq.com
star 43 | fork 16
- #1 新版本v0.1.x-改进
hexleo 3个月前
- 15ac3982d add Example README.md
hexleo 3个月前
- bcd1f8fc4 add WebFetch Example
hexleo 3个月前
- 5de1b51dc mod README.md
hexleo 3个月前
WebFetch 是无依赖极简网页爬取组件相关推荐
- 第二十八篇 网页实战之静态网页爬取,四大案例,小说,书,图片等抓取操作
心得:不知道从什么时候开始,喜欢上了思考,完全可以把自己沉浸在自己的程序中,看着自己一点点的累积,慢慢的成长,证明这一天没有白白浪费掉,感谢还在认真的你. 自己在学习过程中总结出来的爬虫的过程: 1. ...
- Python网络爬虫数据采集实战:同花顺动态网页爬取
前文的爬虫都建立在静态网页基础之上,首先通过请求网站url获取到网页源代码.之后对源代码进行信息提取进而存储即可,本文则针对动态网页进行数据采集,首先介绍Ajax相关理论,之后实战爬取同花顺动态网页, ...
- 手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南
前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家 ...
- Python爬虫: 单网页 所有静态网页 动态网页爬取
Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
- 静态网页爬取-Requests
静态网页爬取-Requests import requests r=requests.get('http://www.baidu.com/') print(r.encoding) print(r.st ...
- 爬取电影资源之网页爬取篇(python)
不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...
- webmagic+selenium模拟浏览器启动(动态网页爬取方法之一的第一步)
现在绝大多数网页都是动态生成的,那么学习爬虫就意味着更加困难.若是静态网页,只需要了解如何连接网络和分析网页源代码提取标签信息即可,但是动态网页的话,就需要使用到一些特定的框架来爬取了.比较实用的爬取 ...
- Python数据分析:爬虫从网页爬取数据需要几步?
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...
- 【Python】网页爬取CVPR论文
动机 利用python自动下载 cvpr论文 流程 获取网页内容 找到所有论文链接 下载 1. 获取网页内容 所用模块:requests 重要函数:requests.get 输出:web_contex ...
最新文章
- OA项目12:系统管理之用户管理
- python3 使用 socket.gethostbyname 报错 getaddrinfo failed 解决方法
- 微信小游戏 Egret开发数据域官方Demo下载地址
- 关于Spring 中的PortletModeHandlerMapping
- Windows下用Mingw编译Boost.Regex库
- jpane1_Java—面板组件(Jpanel)1
- Spring在3.1版本后的bean获取方法的改变
- 在JSP中应用JavaBean
- linux逻辑卷管理(LVM)
- c语言 stm32结构体赋值,STM32学习笔记9——结构体赋值问题
- Sumatra PDF——好用快捷工具介绍及使用
- 常见的宏观经济指标介绍
- Spring Boot 2020 官方基础68课程第十六个 Securing a Web Application
- 组织机构、权限、角色设计
- 面向对象06(抽象类)
- android个人开发者广告平台
- apple pencil值不值得购买?ipad平替电容笔安利
- linux和aix命令总结
- Cellular Pro简介
- html下拉框设置默认值_html下拉框怎么设置默认值
热门文章
- ITK:来自图像的多分辨率金字塔
- VTK:PolyData之RibbonFilter
- VTK:图片之ImageToPolyDataFilter
- OpenCV基本线性变换的实例(附完整代码)
- OpenCV YOLO DNN(yolo_object_detection)
- 响应QML中的用户输入
- C语言求两个链表的合并点的算法(附完整源码)
- OpenGL Tessellation细分曲面的实例
- C++Heap Sort堆排序的实现算法(附完整源码)
- QML基础类型之list