Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性。是一个简单可扩展的爬虫框架,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。

官网链接 : http://beanbun.org

特点

  • 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
  • 默认使用 Guzzle 进行爬取
  • 支持分布式
  • 支持内存、Redis 等多种队列方式
  • 支持自定义URI过滤
  • 支持广度优先和深度优先两种爬取方式
  • 遵循 PSR-4 标准
  • 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
  • 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

PHP多进程网络爬虫相关推荐

  1. Python高级特性与网络爬虫(一):使用Ajax请求爬取用户微博内容和python多进程爬取用户图片

    最近阅读了崔庆才写的<Python3网络爬虫开发实战>,系统地学习一下利用Python写网络爬虫.由于这本书出版时间是2018年,很多书中案例涉及的网站已经改版,基本上每个案例都需要自己再 ...

  2. 13.网络爬虫—多进程详讲(实战演示)

    网络爬虫-多进程详讲 一·进程的概念 二·创建多进程 三·进程池 四·线程池 五·多进程和多线程的区别 六·实战演示 北京新发地线程池实战 前言:

  3. python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

  4. python代码大全p-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

  5. python网络爬虫权威指南 百度云-Python网络爬虫权威指南 PDF 第2版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小5.54 MB,瑞安·米切尔编写,目前豆瓣.亚马逊. ...

  6. python网络爬虫权威指南 百度云-Python网络爬虫权威指南(第2版)

    版权声明 O'Reilly Media, Inc. 介绍 业界评论 前言 什么是网页抓取 为什么要做网页抓取 关于本书 排版约定 使用代码示例 O'Reilly Safari 联系我们 致谢 电子书 ...

  7. Python学习网络爬虫--转

    原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scra ...

  8. SHELL网络爬虫实例剖析--转载

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://nolinux.blog.51cto.com/4824967/1552472 前天 ...

  9. 爬虫模拟登陆手机验证码_网络爬虫干货总结,这次比较全面!

    我从五个方面介绍了利用 Python 进行网络爬虫开发的相关知识点和技巧: 抓取 解析 存储 反爬 加速 目录 一.爬取 爬取的目标可以大致分为两类:网页.APP 对于网页,可以分为两种类别,即 服务 ...

  10. Python网络爬虫从入门到实践 -- chapter 1 -- 网络爬虫入门

    1 Robots协议 Robots协议(爬虫协议)全称网络爬虫排除标准,网站通过Robots协议告诉搜索引擎哪些页面可以抓取(Allow:/),哪些不能抓取(Disallow:/).这个协议是国际互联 ...

最新文章

  1. 为什么体制内外永远在互相羡慕着?
  2. 对于表列数据类型选择的一点思考
  3. Activity栈管理(一):Activity任务栈模型
  4. form 提交多个对象及springMVC接收
  5. 混合粒子群算法原理通俗讲解
  6. 精选CSDN的ACM-ICPC五星博客
  7. 常用3种数据库的Sql分页
  8. java main 声明_Java中main方面面试题
  9. Ubuntu中NS2安装详细教程
  10. [洛谷 P3992] [BJOI2017]开车
  11. 中文数字转换为阿拉伯数字
  12. java集合框架的选用 若是数据量很大,0421测试题
  13. CSS3实现的立体button
  14. UART、IIC以及SPI通信协议
  15. php验证码图片不显示怎么办,php 验证码图片无法显示怎么办
  16. CIE1931标准色度系统
  17. GoLang之接口interface
  18. Rational Rose 7.0安装教程
  19. 实践使用bfile 数据类型
  20. 一种锂电池充放电及外部供电自动切换的电路

热门文章

  1. STC学习:电子音乐
  2. java人员工作建议_给JAVA设计开发新手的一些建议和意见(1)
  3. java 访问 https网站_解决java访问https网站报错的问题
  4. 当前只读状态:是_DM数据库的启停以及数据库状态检查
  5. 线性代数中矩阵相乘如何计算
  6. opengl 光线追踪_Vulkan的视频编解码支持将于2020年上半年加入,光线追踪也在路上...
  7. 【codeVS 1082】树状数组(区间修改,区间查询)模版题
  8. 【天梯选拔月赛】二叉树上我和你(中序+先序建树+bfs(队列)----水题)
  9. mvvm绑定checkbox wpf_WPF(MVVM)菜单中的互斥(和可绑定)复选框
  10. 邮箱显示exchange账号服务器错误,删除监视邮箱Exchange服务器不正常状态