作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

去除重复条目,一般是指去除一个向量或数据框中重复的部分,只保留它出现第一次的条目。

Python:

import pandas as pd
df = pd.read_csv('data/table.csv',index_col='ID')df.duplicated('Class').head()
df.duplicated('Class',keep='last').tail()
df.duplicated('Class',keep=False).head()df.drop_duplicates('Class')
df.drop_duplicates('Class',keep='last')
df.drop_duplicates(['School','Class'])

R:

library(tidyfst)
fread("data/table.csv") -> dfduplicated(df,by = "Class") %>% head()
duplicated(df,by = "Class",fromLast = T) %>% taildf %>% distinct_dt(Class,.keep_all = T)
df %>% unique(by = "Class",fromLast = T)
df %>% distinct_dt(School,Class,.keep_all = T)

这个功能在实现上,两个工具大同小异。不过duplicated和unique都是data.table中的内生函数,学到了新东西。可以考虑给distinct_dt加上fromLast参数,来从数据框尾部开始去除重复值,保留其出现最后一次的条目。

往期提要:

HopeR:tidyfst vs pandas(0):环境配置

HopeR:tidyfst vs pandas(1):csv文件读写

HopeR:tidyfst vs pandas(2):数据文件读写

HopeR:tidyfst vs pandas(3):向量(序列)的使用

HopeR:tidyfst vs pandas(4):数据框的使用

HopeR:tidyfst vs pandas(5):基本函数实现

HopeR:tidyfst vs pandas(6):排序

HopeR:tidyfst vs pandas(7):索引-loc方法

HopeR:tidyfst vs pandas(8):索引-iloc方法

HopeR:tidyfst vs pandas(9):索引-`[`方法

HopeR:tidyfst vs pandas(10):索引-条件筛选(布尔索引)

HopeR:tidyfst vs pandas(11):索引-快速标量索引

r语言 去除双引号_tidyfst vs pandas(12):去除重复条目相关推荐

  1. php语言中双引号的作用是什么,php中的单引号与双引号作用详解

    一.引号定义字符串 在Php中,通常一个字符串被定义在一对引号中,如: 'I am a string in single quotes' "I am a string in double q ...

  2. mysql 去除双引号

    概念 这里使用TRIM 函数去除双引号,这里的both 函数指去除目标,可以是双引号,也可以是其它的目标内容. 1.使用trim 函数去除双引号 2.BOTH 要去除对象 3.FROM 要去除目标字段 ...

  3. c语言 去掉双引号_技术分享|浅谈C语言陷阱和缺陷

    良好的软件架构.清晰的代码结构.掌握硬件.深入理解C语言是防错的要点,人的思维和经验积累对软件可靠性有很大影响.C语言诡异且有种种陷阱和缺陷,需要程序员多年历练才能达到较为完善的地步.软件的质量是由程 ...

  4. 格兰杰因果关系检验r语言_R语言系列第四期:R语言单样本双样本差异性检验

    之前详细介绍了利用R语言进行统计描述,详情点击:R语言系列第三期:①R语言单组汇总及图形展示.R语言系列第三期:②R语言多组汇总及图形展示.R语言系列第三期:③R语言表格及其图形展示 从这个部分我们就 ...

  5. 【C语言】双引号中使用宏定义

    目录 快速答案 详细讲解 举个例子 方法 及 代码 参考资料 快速答案 使用星号占位符(*) printf("%*d", -4, "12"); // 或 pri ...

  6. 关于C语言中单双引号的问题

    代码 #include<stdio.h>int main() {if ( "{" =='{' )printf("True\n");elseprint ...

  7. C语言(CED)C语言中双引号和单引号的区别

    最简单的区别: 在字符型变量赋初值时,用单引号:为字符串变量赋初值时用双引号! 具体区别: 1.大小 单引号引起的一个字符,其大小为1个Byte. 双引号引起的字符串,因为在其结尾需加一个二进制&qu ...

  8. C语言中双引号和单引号区别之一

    今天遇到一个问题 int choice = getchar( ); if (choice == "Y" || choice == "y") printf(&qu ...

  9. R语言学堂推文索引-2022年12月

    专注系列化.高质量的R语言教程 推文索引 | 联系小编 | 付费合集 更新时间: 2022.12.12 0 前言 1 数据处理通识专辑 1.1 R语言基础与base-R 1.2 数据处理与tidy-R ...

最新文章

  1. 上课讲到的设计模式总结
  2. Java jar 如何防止被反编译?代码写的太烂,害怕被人发现
  3. 全球及中国高压和超高压波纹铝护套交联聚乙烯电缆行业产销现状与投资策略建议报告2021-2027年版
  4. ElasticSearch搜索引擎: 内存分析与设置
  5. javaSE各阶段练习题--初识Java章节
  6. 计算机病毒的防范(一)计算机病毒的分类
  7. es6 --- 异步迭代生成器 Promise
  8. mysql 的数据库实例理解_理解数据库和实例
  9. Android-Animations的使用大全之二:Frame Animation和其他
  10. 香港高校校长对话盖茨:技术与社会
  11. vim内部实现完美运行代码和脚本
  12. 网络安全策略防御加固
  13. 联发科mt8516价格_揭秘联发科MT8516单颗芯片破千万背后的故事
  14. 香港各个大学计算机类专业
  15. ps计算机设置,做着ps电脑卡了怎么办 试试设置这四项
  16. Win10更新补丁错误代码0x80070643解决方法
  17. Pytesseract图片识别结果箭头符号去除
  18. 制作一套适用于Oracle数据库的县及县以上行政区划数据
  19. C#编程学习:正则表达式的使用
  20. BUUCTF RE [SUCTF2019] SignIn

热门文章

  1. java文本框默认格式化,XJL:Swing中的格式化文本框
  2. php抽象的案例,php抽象类和抽象方法的例子
  3. python读取用空格分隔的文字_Python:从类似readlin的文件中读取空格分隔的字符串...
  4. 企业网站 源码 服务邮箱:_口碑营销:乌海腾讯企业邮箱服务报价
  5. Java黑皮书课后题第6章:*6.23(指定字符的出现次数)使用下面的方法头编写一个方法,找到一个字符串中指定字符的出现次数。编写一个测试程序,提示用户输入一个字符串以及一个字符,显示该字符出现次数
  6. linux父子进程字写父读无效,linux父子进程
  7. SpringCloud入门 - 分布式事务【概念、常见框架选择 - tx-lcn】
  8. 第一章 初识Linux shell
  9. [物理学与PDEs]第1章第3节 真空中的 Maxwell 方程组, Lorentz 力 3.1 真空中的 Maxwell 方程组...
  10. 实用的SqlHelper类