bboss大数据抽取工具功能特点如下:

  • 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
  • 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务,也可以全部重新执行所有作业任务;当停止作业后,可以在原有作业切分的基础进一步切分出子任务,然后再重新执行作业,提升系统处理数据效率。
  • 数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰
  • 采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
  • 通过管理监控端,可以实时监控作业在各个数据处理节点作业任务的实时运行状态,查看作业的历史执行状态,方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作

工具架构拓扑图:

所采用的技术体系:

  • Bboss ioc:轻量级ioc容器,ioc扩展属性配置语法
  • Bboss持久层:高效数据查询行处理器,灵活动态数据源管理(连接池数据源/非连接池数据源),表分区信息查询等,动态创建作业配置表和作业监控记录表
  • Bboss分布式事件框架:基于JGroups,提供异步分布式事件驱动模型,动态管理作业节点(服务节点和数据处理节点),包括作业节点的动态加入、动态离开等;在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
  • Bboss mvc:实现监控管理应用模块,在监控服务节点中,通过mvc 容器启动监听器启动作业管理节点
  • Bboss序列化组件:用来将作业监控数据序列化存储到sqllite中的作业监控表,同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象,便于界面展示
  • Bboss 标签库,jquery等:实现监控管理应用的视图层
  • Hadoop Hdfs客户端:用来连接hadoop hdfs文件系统
  • Sqllite:在监控节点中保存作业配置,保存作业执行状态数据
  • Jetty:运行监控管理应用模块的web应用容器
  • Bboss应用执行容器:用来启动作业管理监控应用、作业数据处理应用、启动jetty容器

bboss大数据抽取工具源码github托管地址:

https://github.com/bbossgroups/bigdatas

版本源码和发布包下载地址:

https://github.com/bbossgroups/bigdatas/releases

操作使用文档:大数据抽取工具管理操作手册.docx

bboss hadoop hdfs大数据抽取工具相关推荐

  1. Hadoop和大数据开源工具推荐

    一.Hadoop相关工具 Hadoop Apache的Hadoop项目已几乎与大数据划上了等号.它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算. 支持的操作系统:Win ...

  2. 分享Hadoop处理大数据工具及优势

    现如今,随着云计算技术.物联网技术的兴起,企业需要应对的数据规模越来越大.数据格式越来越复杂.数据收集速度越来越快,也使得它和传统意义的业务数据相比,有了明显的特点.比如ApacheHadoop已成为 ...

  3. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

  4. Hadoop和大数据:60款顶级开源工具

    说 到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司&q ...

  5. Hadoop和大数据最炫目的60款顶级开源工具

    说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司&qu ...

  6. Hadoop和大数据:60款顶级开源工具(山东数漫江湖)

    说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司&qu ...

  7. Hadoop生态圈 大数据文档

    文档基于介绍基于Hadoop的大数据生态圈.介绍下图每一个组件的使用场景及使用方法,同时还对每一个组件有更深入的介绍. 1.Hadoop 1.1 Hadoop简介 2005年,Doug Cutting ...

  8. 混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

    摘要:2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 "混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践" 为题的演讲.本文讲述了从 ...

  9. 数据抽取工具比对:Kettle、Datax、Sqoop、StreamSets

    数据抽取工具比对:Kettle.Datax.Sqoop.StreamSets 工具比对: Kettle 特性:纯Java编写 优点:可在Windows.linux.Unix上执行:数据抽取高效稳定:子 ...

最新文章

  1. 网站推广专员浅析网站推广运营如何提升企业网站转化率?
  2. 击败安全系统系列文章之突破卡巴6
  3. 2.5 程序示例--非线性决策边界-机器学习笔记-斯坦福吴恩达教授
  4. 编译器编译报错时aka是什么意思?(also known as)
  5. leetcode 242. 有效的字母异位词
  6. 生产者消费者之阻塞队列版本
  7. Contiki 2.7 Makefile 文件(五)
  8. sql和python数据分析对比_Python数据分析神器Pandas与数据库查询语言SQL的对比
  9. gprof—Ubuntu中使用gprofile进行性能统计时没有数字结果
  10. Linux学习---Day03
  11. java编码native2ascii下载_native2ascii.exe
  12. LFW database
  13. win11改win10重装系统教程图解
  14. 爬取 48048 条评论,解读 9.3 分的「毒液」是否值得一看?
  15. 【干货】张小龙的30条产品法则
  16. [个人笔记] Zabbix配置钉钉群聊告警机制
  17. intptr_t详解
  18. c语言rsi2010中制运行,汇编语言初探(控制类指令)-来自第三章3.6的笔记-P135-P163
  19. sharemouse切窗口就锁定了什么原因_iPhone 提示“Apple ID 已锁定”是什么原因?
  20. 个人计算机中央处理器一般称为,计算机考试题库:计算机基础练习题(10)

热门文章

  1. 自定义服务器控件 继承不到父类/基类的 SupportsEventValidation 特性.
  2. jq 创建与添加节点
  3. Standby Redo Log 的设定原则、创建、删除、查看、归档位置
  4. Linux diff命令
  5. 关于简聊 Webpack 配置的一些注释
  6. 【LoadRunner】OSGI性能测试实例
  7. nodejs获取当前url和url参数值
  8. 行业B2B网站策划6个基本要求
  9. 得到windows系统图标的解决方案(转)
  10. 使用 Firefox攻击Web2.0应用(二)