在进行数据的预处理时,我们常常关注有无重复数据,如果两行数据完全一致,则可能存在数据的重复录入等情况,此时就要对这两行数据进行核实。但这个过程如何用R语言实现?笔者近期对这个问题进行了探索。

我们首先虚拟一个数据,并将这个数据保存为CSV文件,命名为"a.csv“,数据如下图:

我们首先读入数据,并查看数据读入是否正确:

a<-read.csv("a.csv")
head(a)

R语言里有一个判断重复值的函数duplicated,可以分别运行如下三行程序,分别输出每一行数据和前面是否是重复的,重复数据,重复数据所在的行:

duplicated(a)
a[duplicated(a),]
which(duplicated(a))

但上面这段代码存在的问题是,只能找到第二次及以后出现的数据,我们并不能找到这行数据第一次出现的位置。

对重复数据的理解状态是输出所有的重复数据及所在的行,再进行判断,这就需要写出来相应的代码去实现。具体的思路是先找出重复的行,赋值到数据框b中,然后判断b的每一行和a是否重复,经过尝试,代码如下:

b<-a[duplicated(a[duplicated(a),]),]for (i in c(1:nrow(b))){for (j in c(1:nrow(a))){if (sum(b[i,] == a[j,]) == ncol(a)){print(a[j,])print(paste( "In the row", j))}}
}

输出的结果如下:

使用R语言筛选数据中的重复行相关推荐

  1. R语言筛选dataframe中某一日期之后的数据集、特定日期之后的数据行

    R语言筛选dataframe中某一日期之后的数据集.特定日期之后的数据行 目录 R语言筛选dataframe中某一日期之后的数据集.特定日期之后的数据行

  2. R语言筛选dataframe中两个日期之外的数据行,介于两个日期(包括两个日期)之间的数据行

    R语言筛选dataframe中两个日期之外的数据行,介于两个日期(包括两个日期)之间的数据行 目录

  3. R语言读取CSV,删除重复行,进行数据分析

    R语言读取CSV,将csv数据中的重复值进行统计,统计之后删除重复内容,只保留第一次出现的值. rm(list = ls()) library(ggplot2) library(dplyr)Rstar ...

  4. R语言 提取数据中的任意子集

    # 生成数据 data <- data.frame(name = c('bob', 'tomas', 'jack'),year = c(17, 18, 19),score1 = c(78, 85 ...

  5. excel表格多列数据中查找重复行数据

    1.做透视表统计 2.设置显示格式 3.取消分类汇总 4.拷贝到原数据后面 5.排序

  6. R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法、data.table、dplyr等方案、计算分组均值并添加到可视化结果中

    R语言进行数据聚合统计(Aggregating transforms)实战:使用R原生方法.data.table.dplyr等方案.计算分组均值并添加到可视化结果中 目录

  7. R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计、所有特征的NA值统计

    R语言dataframe数据列中的缺失值NA的个数统计实战:特定数据列的NA值统计.所有特征的NA值统计 目录

  8. R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数

    R语言将数据列中的多种日期格式统一变化为一种固定格式实战:使用lubridate包中的parse_date_time函数 目录

  9. R语言导入数据文件(数据导入、加载、读取)、使用readr包中的read_csv函数导入逗号分割文件CSV(Comma Delimited Text File)

    R语言导入数据文件(数据导入.加载.读取).使用readr包中的read_csv函数导入逗号分割文件CSV(Comma Delimited Text File) 目录

最新文章

  1. SQL Server 2008中Analysis Services的新特性——深入SQL Server 2008
  2. 扎心!天天写代码,方向真的对吗?
  3. 前端 html border-right: 1px solid red;
  4. 天猫双11凭什么达到1682亿?这些支撑技术或许可以告诉你
  5. Maven deploy部署jar到远程私服仓库
  6. oppoR17手机计算机的隐藏功能,OPPO R17 Pro隐藏了很多你不知道的黑科技,让你高效使用手机...
  7. 【送书福利】第一次送书活动(总共10本)
  8. 阿里涉足零售 IoT 的猜想
  9. Android proguard-rules.pro 混淆模板
  10. IOS第11天(4:UIDatePicker时间选择,和键盘处理,加载xib文件,代理模式)
  11. HTML中构建自动伸缩的表格Table
  12. fgo服务器维护2018,fgo迦勒底男性精选2018推荐召唤开启 fgo4月20日维护公告_游侠手游...
  13. 运算放大器的偏置电流
  14. 电热毯亚马逊欧洲站CE认证审核标准解析
  15. get和post详解
  16. 本地HTML文件 带参数方案
  17. C++ 小帅真的饿了
  18. 大吉大利,今晚吃鸡!
  19. 微软发布2015年7月安全公告 安全狗提醒及时修复
  20. 埃森哲杯第十六届上海大学程序设计联赛春季赛暨上海高校金马五校赛E题小Y吃苹果

热门文章

  1. 地图匹配实例-几何匹配
  2. 永磁同步电机力矩控制(九):定子磁场中的若干相关概念
  3. VUE动态展示表格字段
  4. java解压obb,使用 OBB 文件(Android)
  5. webrtc服务器_服务器WebRTC over TCP的通道质量指标
  6. java中级工程师所需的技能_Java 工程师要具备哪些技能或技术?
  7. 微电子电路——反相器延迟时间
  8. 奇怪的小鸭子也增加了Java实现
  9. css写√的图标_CSS - 图标列表的写法
  10. Android webview Input type=file 文件上传 解决方法