Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。
最近的一本新书Big Data Analytics with R and Hadoop是关于R和Hadoop实践的第一本图书。
RHadoop的发布页:https://github.com/RevolutionAnalytics/RHadoop/wiki

RHadoop实践系列文章:http://blog.fens.me/series-rhadoop/

Haddop环境准备
但JDK一定要用Oracle SUN官方的版本,请从官网下载,操作系统的自带的OpenJDK会有各种不兼容。JDK请选择1.6.x的版本,JDK1.7版本也会有各种的不兼容情况。
http://www.oracle.com/technetwork/java/javase/downloads/index.html

完全分步式的Hadoop集群,这个选择5台一样配置的虚拟机,通过内网的一个DNS服务器,指定5台虚拟机所对应的域名。
每台虚拟机,1G内存,系统硬盘2G,外接硬盘16G。hadoop会存储在外接硬盘上面。

外接硬盘,需要先进行格式化,然后创建目录,再mount到操作系统,通过修改/etc/fstab配置,系统每次重起都是自动加载外接硬盘。
(如果用户操作系统的硬盘够大,不用外接硬盘,这步可以省略)

接下来,为hadoop集群创建访问账号hadoop,创建访问组hadoop,创建用户目录/home/hadoop,把账号,组和用户目录绑定。

再为hadoop的hdfs创建存储位置/hadoop/conan/data0,给hadoop用户权限。

设置SSH自动登陆,从nn.qa.com虚拟机开始,通过ssh-keygen命令,生成id_rsa.pub,再合并到 authorized_keys的文件。再通过scp把authorized_keys复制到其他的虚拟机。循环生成authorized_keys并合并文件。使得5台虚拟机,都有了相互的SSH自动登陆的配置。
1:下载RHadoop相关软件包,放置在/mnt/mydisk/R/目录下
http://www.r-project.org/
R语言包
https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads
rhdfs R使用HDFS相关软件包
rmr R使用MapReduce相关软件包
rhbase R使用Hbase相关软件包

RHadoop(一)相关推荐

  1. qtablewidget 数据量大效率很低_让大牛带你走进大数据分析:R基础及应用的潮流尖端,享受RHadoop...

    走进R,走进大数据时代数据分析的潮流尖端,掌握R语言,熟悉大数据的基础概念和R与Hadoop结合进行大数据的处理分析. 大数据时代, R以其强大的数据分析挖掘.可视化绘图等功能,越来越受到社会各个领域 ...

  2. RHadoop实验 – 统计邮箱出现次数

    RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现.有了RHad ...

  3. RHadoop培训 之 Java基础课

    关于作者 张丹(Conan), 程序员Java,R,PHP,Javascript weibo:@Conan_Z blog: http://blog.fens.me email: bsspirit@gm ...

  4. Rhadoop实战:统计邮箱域名出现次数

    数据源(部分),完整数据见:http://blog.fens.me/rhadoop-demo-email/ wolys@21cn.com zss1984@126.com 294522652@qq.co ...

  5. RHadoop培训 之 R基础课

    RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现.有了RHad ...

  6. RHadoop和CDH整合实例(三)- RHive

    五. RHive的安装及测试 RHive依赖于Rserve,所有首先需要安装Rserve(在各个namenode上),接下来在所有节点上启动Rserve: > sudo R > insta ...

  7. RHadoop学习群电子刊物《每周荟萃》出刊了

    R&Hadoop学习群<每周荟萃>是QQ群推出的用于推广和交流R语言.Hadoop技术的开放式电子刊物. R语言是什么? 根据百度百科的描述,R是用于统计分析.绘图的语言和操作环境 ...

  8. 电信运营商如何玩转大数据?

    作为一种革命性的信息技术,大数据技术正在赋予数据生命和更多的商业价值.借助大数据进行舆情分析,将大数据应用到交通系统建设,用大数据预测赛事结果,以大数据辅助医疗--可以说,大数据正在我们的生活中发挥大 ...

  9. linux安装R包的安装

    首先在linux系统下,需要安装好R语言,由于依赖环境较多,一般会通过第三方软件库进行安装,比如说miniconda等 R包分以下几种: 镜像包:一般安装方式为:install.packages('' ...

  10. 《企业大数据系统构建实战:技术、架构、实施与应用》一3.2 如何选择解决方案...

    本节书摘来自华章出版社<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第3章,第3.2节,作者吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机& ...

最新文章

  1. HDU 2717 Catch That Cow(BFS)
  2. VS2019安装Image Watch与失败解决方法
  3. Event Delegate(代理)异常:该委托必须有一个目标 解决方法
  4. tcp/ip协议初识
  5. 学python用什么软件-零基础初学python需要安装哪些软件?希望对你们有帮助
  6. 使用ImessageFilter接口实现截获键盘或者鼠标的消息
  7. 四层和八层电梯控制系统Proteus仿真设计,51单片机,附仿真和Keil C代码
  8. 软工网络15团队作业3——需求分析与设计
  9. 完美解决Can‘t locate Data/Dumper.pm in @INC
  10. 微信公众平台移动版开始内测了
  11. Relative Orientation 与fundamental essential matrix
  12. php 输入表格数据,怎样将导出数据输入Excel 表格-php 怎么把数据导出到excel表格...
  13. 无限分类左右值实现算法
  14. libnuma详解-A NUMA API for LINUX
  15. 最简单的方波变三角波__RC一阶电路__方波变三角波
  16. 牌照发布后的第20天,上海MWC,中国5G,GO!
  17. MySQL索引相关知识
  18. 区块链概念股分化 新落地公司成新宠
  19. Windows驱动开发书籍简介
  20. 10.16日常的小bug解决

热门文章

  1. W5500以太网控制器芯片(五):实现FTP客户端
  2. c语言办公用品管理系统,恒达办公用品管理系统
  3. 【音乐可视化】音乐表演可视化软件分析
  4. HDFView 3.1.2win10百度云资源
  5. Astar算法基本概念及其实现
  6. Word VBA中读取Excel表格中的数据
  7. SQL标准语句——思维导图
  8. Vegas18 pro视频编辑软件下载官方激活码-序列号-密钥版-注册
  9. 集成电路制造及工艺 主要名词解释
  10. 有什么计算机应用基础的app,计算机应用基础软件