使用MapReduce程序完成相关数据预处理

数据大概有2万条左右所以部分截取 (格式为csv)

1月20日,北京,大兴区,2,0,0,北京市大兴区卫健委,https://m.weibo.cn/2703012010/4462638756717942,
1月20日,北京,昌平区,2,0,0,北京市卫健委,http://wjw.beijing.gov.cn/xwzx_20031/wnxw/202001/t20200121_1620353.html,
1月20日,北京,外地来京,1,0,0,北京市卫健委,http://wjw.beijing.gov.cn/xwzx_20031/wnxw/202001/t20200121_1620353.html,
1月20日,广东,深圳市,1,0,0,深圳市卫健委,http://wjw.sz.gov.cn/gsgg/202001/t20200120_18987619.htm,
1月20日,广东,深圳市,8,0,0,广东卫健委,http://wsjkw.gd.gov.cn/zwyw_yqxx/content/post_2876926.html,
1月20日,广东,珠海市,3,0,0,珠海市卫健委,http://wsjkj.zhuhai.gov.cn/zwgk/tzgg/content/post_2461447.html,
1月20日,广东,湛江市,1,0,0,广东卫健委,http://wsjkw.gd.gov.cn/zwyw_yqxx/content/post_2876926.html,https://www.zhanjiang.gov.cn/zjwjj/sy/gzdt/content/post_1031598.html,
1月20日,广东,惠州市,1,0,0,广东卫健委,http://wsjkw.gd.gov.cn/zwyw_yqxx/content/post_2876926.html,

1.1、数据转换:请将数据中日期字段格式,替换成日期格式为xxxx年xx月xx日
在集群执行明令:

结果:

代码如下:
Java代码


```java
package webgame_demo;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import webgame_demo.yq_replace.MyMap.MyReduce;public class yq_replace {public static class MyMap extends Mapper<LongWritable, Text, LongWritable, Text>{@Overrideprotected void map(LongWritable key, Text value,Mapper<LongWritable, Text, LongWritable, Text>.Context context)throws IOException, InterruptedException {String line = value.toString();  //将文本数据根据,切分String[] split = line.split(",");String newsplit = "";//添加字段后写回数组split[0]= "2020年"+split[0];for(String s1:split) {newsplit+=s1;}context.write(key, new Text(newsplit));      }public static class MyReduce extends Reducer<LongWritable, Text, Text, Text>{@Overrideprotected void reduce(LongWritable k2, Iterable<Text> v2s,Reducer<LongWritable, Text, Text, Text>.Context context)throws IOException, InterruptedException {//遍历后输出 key设置为空只输出value的值for (Text text : v2s) {context.write(new Text(), text);}}}}public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {        //设置配置参数Configuration conf = new Configuration();//conf.set("mapred.textoutputformat.separator", ",");//创建任务Job job = Job.getInstance(conf, yq_replace.class.getSimpleName());//指定jar文件job.setJarByClass(yq_replace.class);//指定输入路径,数据在hdfs上的输入路径,指定第一个参数是hdfs输入路径FileInputFormat.addInputPath(job,new Path(args[0]));//指定map的类job.setMapperClass(MyMap.class);//指定map输出的key和value的数据类型。job.setMapOutputKeyClass(LongWritable.class);job.setMapOutputValueClass(Text.class);//指定reduce类以及输出数据类型。job.setReducerClass(MyReduce.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);//指定输出路径hdfsFileOutputFormat.setOutputPath(job, new Path(args[1]));//提交任务,如果是true,会返回任务执行的进度信息等。job.waitForCompletion(true);}}

## 使用MapReduce程序完成相关数据预处理相关推荐

  1. 使用MapReduce程序完成相关数据预处理(二)

    使用MapReduce程序完成相关数据预处理(二) 数据大概有2万条左右所以部分截取 (格式为csv) 1月20日,北京,大兴区,2,0,0,北京市大兴区卫健委,https://m.weibo.cn/ ...

  2. excel量化交易接口系统程序怎样进行数据预处理?

    在数据统计和预测的过程中,工程师基本都使用现成的算法,工程师的主要工作是根据具体业务逻辑预处理数据和选择算法,即可以使用excel量化交易接口系统来进行数据预处理. 首先要对数据预处理包括数据的归一化 ...

  3. 程序和相关数据存放在计算机,当前正在执行的程序和相关数据存放在计算机的( )中。...

    当前的程的中P协性(据在过程证数中的传输议可以保可靠. 他称之为,正执行计人富勒设量生大批的美国计出家庭住宅产的一种可以,年,意思是(,词复合是个. 效果列性的序技术经济农业评价,序和相关面是个方一般 ...

  4. python数据预处理案例_对pandas进行数据预处理的实例讲解

    参加kaggle数据挖掘比赛,就第一个赛题Titanic的数据,学习相关数据预处理以及模型建立,本博客关注基于pandas进行数据预处理过程.包括数据统计.数据离散化.数据关联性分析 引入包和加载数据 ...

  5. Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

    2019独角兽企业重金招聘Python工程师标准>>> Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据 输入是GBK文件, 输出也 ...

  6. java导出hbase表数据_通用MapReduce程序复制HBase表数据

    编写MR程序,让其可以适合大部分的HBase表数据导入到HBase表数据.其中包括可以设置版本数.可以设置输入表的列导入设置(选取其中某几列).可以设置输出表的列导出设置(选取其中某几列). 原始表t ...

  7. hadoop大数据——mapreduce程序提交运行模式及debug方法

    本地运行模式 (1)mapreduce程序是被提交给LocalJobRunner在本地运行 (2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上 怎样实现本地运行?:写一个程序,不要带集 ...

  8. Hadoop之MapReduce程序应用一读取专利引用数据集并对它进行倒排

    摘要:MapReduce程序处理专利数据集. 关键词:MapReduce程序   专利数据集 数据源:专利引用数据集cite75_99.txt.(该数据集可以从网址http://www.nber.or ...

  9. pandas 第一行_Pandas数据预处理相关经验

    在这里记录一些平常用的pandas操作以供参考. 学习相关操作的最好方法还是找官方的文档最好,否则就会产生百度1小时,查文档3分钟的尴尬处境,之前为了找python里类似 in 的操作搜了半天资料也没 ...

最新文章

  1. FFMpeg的基本介绍
  2. 时间戳转换成时间格式
  3. CodeDom Assistant CodeDom的强大工具, 有些BUG修正了下,发到CodePlex,大家有需要的可以看看...
  4. linux mysql导出导入表_linux mysql 数据库操作导入导出 数据表导出导入
  5. 微信看一看强化学习推荐模型的知识蒸馏探索之路丨CIKM 2021
  6. 应对计算机领域中后门,网络课程论坛中长尾现象的应对策略——以《计算机应用基础》网络课程为例...
  7. [Leetcode 18]四数之和 4 Sum
  8. java反射集合类_java反射 - lara - OSCHINA - 中文开源技术交流社区
  9. 【学习笔记】python实现excel数据处理
  10. 浅析View的事件分发机制
  11. 飞鸽快递系统代码_中通快递港股上市募资约96亿港元,董事长赖梅松认为股票代码2057寓意开启新征程...
  12. C++之个人银行账户管理程序(二)
  13. notepad++打开bin文件
  14. vue动态加载SVG文件并修改节点数据
  15. python科学计算主要学什么_以下哪些是python常用的科学计算库?_学小易找答案
  16. 考研机试真题--素数--北京航空航天大学
  17. Ubuntu无法ping通百度
  18. 数据分析在一个企业中起到哪些关键性作用?
  19. 第七篇 FastAI模型训练
  20. C++——malloc()

热门文章

  1. sharding-jdbc分库分表的 4种分片策略
  2. python 中类属性共享问题
  3. 面试两个月,我吐了(软件测试岗面试经验)
  4. 用python+pygame模块实现一波刮刮卡效果,图像处理之路(附源码)
  5. Python面向对象编程:类继承和其衍生术语
  6. php启用日志记录,PHP SDK启用日志功能报错
  7. c语言rank需要头文件吗,C++ std::rank用法及代码示例
  8. vue js中报红_vue:我和node、webpack的情深似海
  9. 金税接口调用实例 java_Java 常见面试题
  10. java重定向设置header_在Java中重定向请求时如何传递HTTP头中的数据