大数据时代,为了满足用R语言处理PB量级数据的需求,聪明的人们发现了一种便捷的方法,即把已有的2种先进技术合二为一——联合R与Hadoop,这样,R便可拥有在分布式文件系统(HDFS)上处理大数据的能力!以下,大圣众包威客平台将提供联合二者的3种方法的具体操作办法。

  一、使用RHadoop——在MapReduce模式下执行R函数

  作为RevolutionAnalytics下的一个开源库,RHadoop与Rhipe的功能相似——也是在MapReduce模式下执行R函数的。例如,想要连接R和HBase,则可以使用rhbase包中的函数,想要一些函数来连接R和分布式文件系统(HDFS),可以选择rdfs包;想要一些让R和Hadoop联合作业的函数,可以考虑rmr包;想在Hadoop中对大数据集进行一些常用的数据整理操作,可以使用plyrmr包;等等。

  以下,将会举出一个使用rmr包中的函数让R与Hadoop联合作业的例子:

  RHadoop需要对R进行一些设置,并且需要Hadoop集群上一些包的支持,而且RHadoop允许开发者在R函数中定义并调用MapReduce函数。这两点上,与马上将要说的第二种方法“使用Rhipe包”是一样的。

  二、使用Rhipe包——允许用户在R中使用MapReduce

  第二种方法是,让Rhipe包允许用户在R中使用MapReduce。值得注意的是,使用此方法,首先R需要被安装在Hadoop集群中的每一个数据节点上,另外,每个节点还要安装ProtocolBuffers,使得Rhipe在每个节点上都可以被使用。如果选择此方法,比较麻烦的是相应的前期准备工作需要先做好。

  以下,将会举出在R中利用Rhipe包应用MapReduce框架的范例:

  三、使用StreamingAPIs——安装和设置均很方便

  这是3种方法中最为简单的一种。StreamingAPI能够将R语言中的函数传入,并在MapReduce模式下运行这些函数,是Hadoop的特点之一。而且,贴心的是,用户并不需要额外开启客户端之类的东西,因为,这些StreamingAPI可以将任意能在MapReduce模式下访问和操作标准I/O接口的R脚本传入Hadoop中。不过,比较麻烦的是,在执行函数方面,StreamingAPIs需要将函数依次map和reduce。

  请看以下例子:

  条条大路通罗马,以上3种方法只是众多方法中比较简单常用的,用户其实也可以使用ApacheHive、ApacheMahout、Segue框架,与其他来自RevolutionAnalytics的商业版R来实现大规模的机器学习。希望以上的教程,能够让你在大数据业务中不断前进。

如何联合R与Hadoop更好处理大数据!相关推荐

  1. Hadoop怎么了,大数据路在何方?

    导读:近期Hadoop消息不断,众说纷纭.本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势. 作者:姚延栋 来源:数字化三部曲(ID:digitxcn) 00 15秒钟简缩版 Ha ...

  2. 最全面的Hadoop框架以及整个大数据生态介绍

    1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储. 具有可 ...

  3. 作者:张澄(1979-),男,中国联合网络通信有限公司江苏省分公司互联网部大数据中心总监...

    张澄(1979-),男,中国联合网络通信有限公司江苏省分公司互联网部大数据中心总监,有10年以上互联网创新产品及业务的设计及运营经验,对大数据.能力开放.支付金融.游戏运营.后向通信产品等业务有较深的 ...

  4. Hadoop+hive+flask+echarts大数据可视化项目之hive环境搭建与系统数据的分析思路

    Hadoop+hive+flask+echarts大数据可视化项目(四) --------------hive环境搭建与系统数据的分析思路---------------- 关注过Hadoop+hive ...

  5. Hadoop+hive+flask+echarts大数据可视化之系统数据收集

    Hadoop+hive+flask+echarts大数据可视化项目(一) --------------系统数据收集---------------- 谈到大数据的项目,一般以数据可视化为主体,收集大数据 ...

  6. 每周一更——什么是大数据?

    大数据是一个概念也是一门技术,是在以hadoop为代表的大数据平台框架上进行数据分析的技术. 大数据包括了以hadoop和spark 为代表的基础大数据框架. 还包括了离线大数据处理,实时大数据处理, ...

  7. Hadoop+hive+flask+echarts大数据可视化项目之系统数据整合和hadoop环境搭建

    Hadoop+hive+flask+echarts大数据可视化项目(二) --------------系统数据整合和hadoop环境搭建---------------- 关注Hadoop+Hive+F ...

  8. Hadoop+hive+flask+echarts大数据可视化项目之flask结合echarts前后端结合显示hive分析结果

    Hadoop+hive+flask+echarts大数据可视化项目(五) ------flask与echarts前后端结合显示hive分析结果------- 关注过Hadoop+hive+flask+ ...

  9. hadoop,spark,scala,flink 大数据分布式系统汇总

    20220314 https://shimo.im/docs/YcPW8YY3T6dT86dV/read 尚硅谷大数据文档资料 iceberg相当于对hive的读写,starrocks相当于对mysq ...

  10. Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?

    简介: 本文作者关涛是大数据系统领域的资深专家,在微软(互联网/Azure云事业群)和阿里巴巴(阿里云)经历了大数据发展20年过程中的后15年.本文试从系统架构的角度,就大数据架构热点,每条技术线的发 ...

最新文章

  1. 华为路由器静态路由配置
  2. 「情报局21」2019 AI 进入新算力时代
  3. 【❌❌vectorの奇技淫巧⭕⭕】C++ vector 如何正确处理动态申请内存的元素
  4. CentOS挂载NTFS移动硬盘
  5. 学计算机U盘内存,在U盘上设置虚拟内存
  6. window.showModalDialog模式窗口无法在子窗口访问解决办法
  7. 数据包络分析方法与maxdea软件_数据包络模型 DEA三阶段超效率SBM非期望
  8. 删除word文档中的空白页
  9. C语言实现埃拉托斯特尼筛法
  10. 如何修复DNS劫持?dns被劫持了怎么办有什么解决方法
  11. 公众号网课搜题系统-掘光者题库
  12. 现货黄金规则如此简单吗?
  13. java对文件分片处理
  14. SAP 采购发票校验
  15. ENVI中的辐射校正
  16. 数字IC后端实现TOP Floorplan专家秘籍
  17. 怎么快速调节EDIUS中声音的淡入淡出?
  18. 在python中调用高德地图(Amap)api
  19. GPRS模块SIM900A为什么连接USB-TTL没反应
  20. 使用opencv检测字符断裂

热门文章

  1. Html软件进度计划,施工进度计划表软件
  2. 基于opencv,C++实现中值滤波器
  3. Cocos Creator 极速入门
  4. oracle 安装包 下载、plsql 64位 安装包下载 、 plsql注册码
  5. Python使用OpenCV二值化
  6. 关于高德地图转换经纬度为屏幕点,方便自定义需链接网络的marker且添加属性动画
  7. pbrt3在windows10环境中的编译、安装及测试教程
  8. 【毫米波雷达】人体目标探测理论
  9. cisco路由器OSPF基础配置命令
  10. matlab显示图像只有一半,我去噪后图像为什么只显示一半