• Hadoop 教程
    • 1. 前期准备
    • 2. HDFS启动
    • 3. Hadoop启动失败解决方法
    • 4. Hadoop Shell命令
    • 5. Java 操作 HDFS API
      • 5.1. 新建项目
      • 5.2. 测试
        • 5.2.1 新建文件夹
        • 5.2.2 新建文件
        • 5.2.3 修改文件名称
        • 5.2.4 查看文件
        • 5.2.5 上传文件
        • 5.2.6 下载文件
    • 6. Java 实现 WordCount

Hadoop 教程

1. 前期准备

  • IDEA安装

    • IDEA2020.3.3
  • JDK安装
    • jdk18绿色版
  • IDEA中JDK配置
  • VMware安装
  • Hadoop 虚拟机
    • 待补充

2. HDFS启动

cd app/hadoop-2.6.0-cdh5.7.0/sbin/
./start-dfs.sh

3. Hadoop启动失败解决方法

  • 重新编辑本机的hosts文件

    sudo vim /etc/hosts
    
  • hadoop000localhost 均改为本机ip

4. Hadoop Shell命令

  • 浏览器可视化文件系统
  • 路径遍历

    • hadoop fs -ls [路径]
  • 查看文件
    • hadoop fs -cat [文件路径]
    • eg:hadoop fs -cat /hadoopruochen/test/ruochen.txt
  • 新建文件夹
    • hadoop fs -mkdir -p [路径]
    • -p:递归新建
    • eg:hadoop fs -mkdir -p /hadoopruochen/test
  • 传文件到 Hadoop
    • hadoop fs -put [文件路径] [hadoop路径]
    • eg:hadoop fs -put ruochen.txt /hadoopruochen/test
  • 下载 Hadoop 文件到本地
    • hadoop fs -get [hadoop文件路径] [本地路径]
    • eg:hadoop fs -get /hadoopruochen/test/ruochen.txt haha.txt
  • 移动文件
    • hadoop fs -mv [源路径] [目的路径]
    • eg:hadoop fs -mv /hadoopruochen/test/ruochen.txt /user
  • 删除文件
    • hadoop fs -rm [-r] [文件]
    • eg:hadoop fs -rm /hadoopruochen
    • eg:hadoop fs -rm -r /hadoopruochen

5. Java 操作 HDFS API

5.1. 新建项目

  • 新建一个空项目,我这里起名为BigData
  • 新建一个module


  • Finish 即可
  • pom.xml如下
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.neusoft</groupId><artifactId>hadoopdemo</artifactId><version>1.0-SNAPSHOT</version><name>hadoopdemo</name><!-- FIXME change it to the project's website --><url>http://www.example.com</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><maven.compiler.source>1.7</maven.compiler.source><maven.compiler.target>1.7</maven.compiler.target><hadoop.version>2.6.0-cdh5.7.0</hadoop.version></properties><repositories><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><dependencies><!--        添加hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>${hadoop.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.11</version><scope>test</scope></dependency></dependencies><build><pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --><plugins><!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#clean_Lifecycle --><plugin><artifactId>maven-clean-plugin</artifactId><version>3.1.0</version></plugin><!-- default lifecycle, jar packaging: see https://maven.apache.org/ref/current/maven-core/default-bindings.html#Plugin_bindings_for_jar_packaging --><plugin><artifactId>maven-resources-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.8.0</version></plugin><plugin><artifactId>maven-surefire-plugin</artifactId><version>2.22.1</version></plugin><plugin><artifactId>maven-jar-plugin</artifactId><version>3.0.2</version></plugin><plugin><artifactId>maven-install-plugin</artifactId><version>2.5.2</version></plugin><plugin><artifactId>maven-deploy-plugin</artifactId><version>2.8.2</version></plugin><!-- site lifecycle, see https://maven.apache.org/ref/current/maven-core/lifecycles.html#site_Lifecycle --><plugin><artifactId>maven-site-plugin</artifactId><version>3.7.1</version></plugin><plugin><artifactId>maven-project-info-reports-plugin</artifactId><version>3.0.0</version></plugin></plugins></pluginManagement></build>
</project>

5.2. 测试

5.2.1 新建文件夹

  • 接下来,我们使用 Java 连接 hdfs,并新建一个文件夹
  • 在test下新建HDFSApp.java,如下
  • 通过测试方法连接HDFS,并新建一个/ruochen/test2文件夹,代码如下
    package com.neusoft.hdfs;import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.junit.After;
    import org.junit.Before;
    import org.junit.Test;
    import org.apache.hadoop.conf.Configuration;import java.net.URI;public class HDFSApp {Configuration configuration = null;FileSystem fileSystem = null;public static final String HDFS_PATH = "hdfs://192.168.10.128:8020";@Testpublic void mkdir() throws Exception {fileSystem.mkdirs(new Path("/ruochen/test2"));}// Java 连接hdfs 需要先建立一个连接// 测试方法执行之前要执行的操作@Beforepublic void setUp() throws Exception {System.out.println("开始建立与HDFS的连接");configuration = new Configuration();fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, "hadoop");}// 测试之后要执行的代码@Afterpublic void tearDown() {configuration = null;fileSystem = null;System.out.println("关闭与HDFS的连接");}
    }
  • 然后运行mkdir()函数,运行完后我们可以看到已经新建了一个文件夹

5.2.2 新建文件

  • 新建文件代码如下

        // 创建文件@Testpublic void create() throws Exception {Path path = new Path("/ruochen/test1/hello.txt");FSDataOutputStream outputStream = fileSystem.create(path);outputStream.write("hello world".getBytes());outputStream.flush();outputStream.close();}
    
  • 运行结束后,我们通过shell脚本查看一下

5.2.3 修改文件名称

  • Java代码如下

       // rename文件@Testpublic void rename() throws Exception {Path oldPath = new Path("/ruochen/test1/hello.txt");Path newPath = new Path("/ruochen/test1/xixi.txt");fileSystem.rename(oldPath, newPath);}
    
  • 运行结果如下

5.2.4 查看文件

  • Java代码如下

        // 查看文件@Testpublic void cat() throws Exception {Path path = new Path("/ruochen/test1/xixi.txt");FSDataInputStream inputStream = fileSystem.open(path);IOUtils.copyBytes(inputStream, System.out, 1024);inputStream.close();}
    
  • 运行结果

5.2.5 上传文件

  • Java 代码如下

        // 上传文件@Testpublic void upload() throws Exception {Path localPath = new Path("cifar-10-python.tar.gz");Path hdfsPath = new Path("/");fileSystem.copyFromLocalFile(localPath, hdfsPath);}
    
  • 运行完成后,我们可以看到 hdfs 已经成功显示刚才上传的文件

5.2.6 下载文件

  • Java 代码

        // 下载文件@Testpublic void download() throws Exception {Path hdfsPath = new Path("/hadoop-2.6.0-cdh5.7.0.tar.gz");Path localPath = new Path("./down/hadoop-2.6.0-cdh5.7.0.tar.gz");fileSystem.copyToLocalFile(false, hdfsPath, localPath, true);}
    
  • 运行完后我们可以看到当前目录 down 下已经有了刚刚下载的文件

6. Java 实现 WordCount

这里要注意在 main 下操作,test下是用来测试的

  • 新建一个 WordCountApp

  • Java 代码如下

    package com.neusoft;import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.Mapper;
    import org.apache.hadoop.mapreduce.Reducer;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;/*** 词频统计*/
    public class WordCountApp {/*** map 阶段*/public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable> {LongWritable one = new LongWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 分String line = value.toString();// 拆分String[] s = line.split(" ");for (String word : s) {// 输出context.write(new Text(word), one);}}}/*** reduce 阶段*/public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> {@Overrideprotected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {long sum = 0;// 合并统计for (LongWritable value : values) {// 求和sum += value.get();}context.write(key, new LongWritable(sum));}}public static void main(String[] args) throws Exception {Configuration configuration = new Configuration();Job job = Job.getInstance(configuration, "wordcount");job.setJarByClass(WordCountApp.class);// 设置 map 相关参数FileInputFormat.setInputPaths(job, new Path(args[0]));job.setMapperClass(MyMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(LongWritable.class);// 设置 reduce 相关参数job.setReducerClass(MyReducer.class);job.setOutputKeyClass(MyReducer.class);job.setOutputValueClass(LongWritable.class);Path outPath = new Path(args[1]);FileSystem fileSystem = FileSystem.get(configuration);if (fileSystem.exists(outPath)) {// 删除文件fileSystem.delete(outPath, true);System.out.println("输出路径已存在, 已被删除");}FileOutputFormat.setOutputPath(job, outPath);// 控制台输出详细信息// 输出:1  不输出:0System.exit(job.waitForCompletion(true) ? 0 : 1);}
    }
  • 打包程序

  • 打包完成后,将 jar 包上传到 hadoop 虚拟机

  • 首先通过shell命令将输出文件夹删除,不然重复执行会报错

    hadoop fs -rm -r /output/wc
    
  • 然后执行下列操作

    hadoop jar hadoopdemo-1.0-SNAPSHOT.jar com.neusoft.WordCountApp hdfs://hadoop000:8020/ruochenchen.txt hdfs://hadoop000:8020/output/wc
    

    hadoop jar hadoopdemo-1.0-SNAPSHOT.jar com.neusoft.WordCountApp 输入文件 输出文件

  • 然后我们可以看到作业中有显示

  • 通过 cat 命令可以查看一下输出的文件

    hadoop fs -cat /output/wc/part-r-00000
    

Hadoop 入门教程相关推荐

  1. hadoop入门教程免费下载

    Hadoop入门教程免费下载,学习大数据的小伙伴应该都知道Hadoop是必须要接触的,学习大数据,从Hadoop入门教程开始. Hadoop是什么? 首先我们了解到Hadoop是Apache软件基金会 ...

  2. 【Hadoop生态圈】1.Hadoop入门教程及集群环境搭建

    文章目录 1.简介 2.环境准备 3.安装hadoop 3.修改Hadoop配置文件 3.1.hadoop-env.sh配置 3.2.core-site.xml配置 3.3.hdfs-site.xml ...

  3. Hadoop入门教程

    Hadoop入门教程 生命无罪,健康万岁,我是laity 分布式和集群的概念 分布式:多台机器,每台机器上部署不同组件. 集群:多台机器,每台机器上部署相同组件. Hadoop核心组件 HDFS :分 ...

  4. 最详细的 Hadoop 入门教程

    前言 Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远. 这是一篇入门文章,Hadoop 的学习 ...

  5. Hadoop入门教程 详细的入门实战教程

    前言 Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远. 这是一篇入门文章,Hadoop 的学习 ...

  6. Apache Hadoop 入门教程第一章

    Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构.可以让用户在不了解分布式底层细节的情况下,开发出可靠.可扩展的分布式计算应用. Apache Hadoop 框架, ...

  7. Apache Hadoop 入门教程

    原文同步至 http://waylau.com/about-hadoop/ Apache Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构.可以让用户在不了解分布式底层细节的情况 ...

  8. 大数据Hadoop入门教程 | (一)概论

  9. Hadoop新手篇:hadoop入门基础教程

    Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...

最新文章

  1. jQuery温度计,支持摄氏度华氏度同时展示
  2. 算法-------寻找旋转排序数组中的最小值
  3. Java中级工程师知识图谱
  4. head,branch,version,date
  5. 如何申请outlook.com的邮箱
  6. 【HDU - 1102】Constructing Roads (最小生成树裸题模板)
  7. 年薪 37 万+,挪威科技大学(NTNU)招募博士,利用 ML 和 AI 进行钢桥结构健康监测和损伤检测...
  8. 融合大数据能力,解决在存量时代下的力分之困
  9. 《学习之道》第十章方法空间能力是可以后天形成的
  10. Exchange 2013 创建新用户
  11. Ubuntu下反编译apk源码查看
  12. KVM虚拟化崛起:你选Ubuntu还是Red Hat?
  13. Java开发工具Jcreator使用技巧总结
  14. GEE学习笔记3:Landsat8 植被指数计算
  15. Air Jordan 32 Performance Review
  16. C解析8583报文55域
  17. 当db_cache_advice初始化参数设为on, 大大降低了cpu的使用
  18. 有道云笔记桌面挂件android,有道云笔记网页版全面更新!更有Android,pc新版享不停!...
  19. Python输入三个值,判断是否为等腰等边直角三角形,求1+2N+3N+4N+5N...20N的和的两个程序代码
  20. 《计算机系统与维护》— 计算机硬件的组成

热门文章

  1. 软件测试作业谓词测试,2.7.4 谓词测试准则
  2. 分享一款国产5.0蓝牙芯片厂家EB5REB1可替换nRF52832
  3. 中国工业防尘口罩市场调研与投资前景预测报告2022-2028年
  4. Terracotta设计原理分析--(部分内容来自官方描述)
  5. 最值得推荐的免费分区管理软件
  6. python抠图_别再用PS了,我用五行Python代码就实现了批量抠图
  7. windows下启动cmd,打开指定目录,执行指定命令
  8. 在页面中直接嵌入JavaScript代码
  9. cgb2106-day19
  10. 【OpenHarmony】LiteOS-A 源码目录