因为最近搞毕业论文,有点忙,加上还有好多粉丝咨询,临近毕业更新就很少了。

今天就写一个非常简单的文章,敷衍一下吧,哈哈哈。

今天要写的就是数据清洗的函数mutate(),这个属于超级基本的内容哦,一般我们拿到数据最头疼应该就是清洗数据了,所以清洗数据的基础一定要牢牢掌握。

还有,如果你想成为一名合格的分析师,其实你只要精通清洗数据就够了,我这么说一点都不夸张。

一个简单数据清洗任务常常包括:

  • 从数据中选择列
  • 设置数据行
  • 汇总数据
  • 汇总数据(计算汇总统计信息)
  • 排序数据
  • 创建新变量

本文就只写最后一个,即在R中使用mutate创建新变量。

mutate的基础知识

在开始之前,我们先谈谈dplyr。

dplyr是R中专门用于数据处理的包。更具体功能包括:

  • select() 从数据中选择列
  • filter() 数据行的子集
  • group_by() 汇总数据
  • summarise() 汇总数据(计算汇总统计信息)
  • arrange() 排序数据
  • mutate() 创建新变量

在大多数情况下,dplyr仅执行这些任务。dplyr出色的部分原因在于它“紧凑”。只有5或6种主要工具,并且非常易于使用。

mutate()如何用?

使用时,通常你只需要指定3项内容:

  • 您要修改的数据框的名称
  • 您将创建的新变量的名称
  • 您将分配给新变量的值

还是给大家举个例子:看下图,mutate()的第一个参数就是数据框,然后就是新变量名=旧变量的某种新式。就是说你可以轻松地以数据框中的原有变量生成新变量。

但是这个函数只能用于数据框,不能在列表,矩阵,向量或其他数据结构中使用。

注意,mutate()的第二个参数是“名称-值”对,就是说我们在创建变量时新变量需要一个名称,但是它也需要一个分配给该名称的值。因此,当使用mutate时,您需要提供名称和新值…即名称/值对。

我们再次看一下刚刚的语法示例:

那么在上图中我们是要创建一个名为new_variable的新变量。分配给new_variable的值为existing_var乘以2的值。在此示例中,变量existing_var为原本就存在于数据框df当中的。

就是这么简单。

实例操作

为了加深大家的印象,还是给大家一个实例

library(dplyr)
library(ISLR)

我们使用ISLR包中的Auto数据框给大家演示。

在我们对数据进行实际操作之前,让我们先瞅一瞅它长啥样。

print(Auto)

打印出来时,您会发现数据数据框排列的有些杂乱,我们可以将它转化为tibble打印效果更好。tibble实际上修改后的数据框。它的优点之一是它们以更好的格式打印出来。

auto_specs <- as.tibble(Auto)
print(auto_specs)

这样好多了。

您可以看到,当我们现在打印出来时,tibble结构更具可读性。

好了。比如我现在需要一个新变量叫做hp_to_weight,这个变量是原先horsepower / weight两个变量的比值,我们就可以用使用mutate()写出如下代码:

auto_specs_new <- mutate(auto_specs, hp_to_weight = horsepower / weight)
print(auto_specs_new)

可以看到新的变量已经在auto_specs_new这个数据框中了。在R中使用mutate()就是这么简单。

小结

今天给大家写了mutate()如何创建新变量,超级简单的一个教程,感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞转发。

也欢迎大家的意见和建议。

如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供好的,详细和耐心的数据分析服务。

如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取详细和耐心的指导。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧,打工人!

猜你喜欢:

R数据分析:有调节的中介

R数据分析:中介效应的做法

R数据分析:中介作用与调节作用的分析与解释

R数据分析:混合效应模型实例

重复测量数据分析系列:混合效应模型基础

R数据分析:如何计算问卷的聚合效度,实例操练

R数据分析:如何计算问卷的组合信度,实例操练

R数据分析:如何在R中使用mutate相关推荐

  1. R沟通 | 如何在Typora中设置免费的图床

    简介 前段时间小编给大家推荐了一个markdown的IDE编辑器:Typora,具体推文如下:R沟通|markdown编辑器-Typora 和 R沟通 | 如何在Typora中设置免费的图床. 今天针 ...

  2. 大数据分析如何在Python中生成FiveThirtyEight图

    大数据分析如何在Python中生成FiveThirtyEight图?如果你阅读大数据分析文章,则可能已经迷失了FiveThirtyEight的内容.自然,他们的出色可视化使你印象深刻.你想制作自己的出 ...

  3. r java_如何在R中使用JAVA写的程序包?

    不过我对 Java 真的不太熟悉,按照教程调用这个 LLDA 包之后只会使用 inferencer. 如果你不嫌麻烦可以考虑先用 Java 计算出结果,然后在 R 中载入这些结果. 具体步骤如下: 0 ...

  4. R数据分析:用R建立预测模型

    预测模型在各个领域都越来越火,今天的分享和之前的临床预测模型背景上有些不同,但方法思路上都是一样的,多了解各个领域的方法应用,视野才不会被局限. 今天试图再用一个实例给到大家一个统一的预测模型的做法框 ...

  5. R数据分析:交叉滞后模型基础与实例解析

    最近问纵向数据分析的同学贼多,像潜增长,GEE,多水平,之前都有写,今天偷空出个简易的交叉滞后教程哈,大家只要遇到像causal models,cross- lagged panel models,l ...

  6. R数据分析:潜在转化分析LTA的做法和解释(一)

    之前给大家写了很多潜在类别分析的教程Mplus教程:如何做潜在类别分析LCA R数据分析:用R语言做潜类别分析LCA Mplus数据分析:潜在类别分析(LCA)流程(详细版) R数据分析:再写潜在类别 ...

  7. R数据分析:生存分析的做法和结果解释

    今天给大家写写生存分析: Survival analysis corresponds to a set of statistical approaches used to investigate th ...

  8. r语言数据变量分段_R数据分析:用R语言做meta分析

    这里以我的一篇meta分析为例,详细描述meta分析的一般步骤,该例子实现的是效应量β的合并 R包:metafor或meta包,第一个例子以metafor包为例. 1.准备数据集 2.异质性检验 in ...

  9. 如何在R语言中建立六边形矩阵热图heatmap可视化

    原文链接:http://tecdat.cn/?p=18879 这是一个六边形热图可视化程序,主要用到的知识RColorBrewer,fields,也就是R中的可视化绘图库(点击文末"阅读原文 ...

  10. csv文件示例_如何在R中使用数据框和CSV文件-带有示例的详细介绍

    csv文件示例 Welcome! If you want to start diving into data science and statistics, then data frames, CSV ...

最新文章

  1. DASH流媒体MPD文件存储
  2. 华为腾讯百度众安微众360大咖齐聚,2019中国区块链开发者大会首批议程曝光!...
  3. linux history存放位置,Linux中history历史命令使用方法详解
  4. 深入掌握Java技术 EJB调用原理分析
  5. memcached安装、使用
  6. mammary cancer关联规则挖掘详解
  7. oracle表参数,Oracle 表的创建 及相关参数
  8. 计算机搜索文件时找不到搜索按钮,电脑搜不到文件怎么办?文件搜索软件用起来!...
  9. C#中Datatable的Compute的用法(转载)
  10. 有钱了不起?!苹果猎头挖到马斯克没脾气,特斯拉股东公开求收购
  11. latex 公式去掉不要编号
  12. iTunes只能装C盘吗_如何通过iTunes将iPhone备份到移动硬盘?
  13. pdf转换html表格没了,PDF转HTML后,表格排版全乱了是怎么回事?
  14. Metasploit为什么选择Ruby语言(部分)
  15. gradle报错this sometimes occurs after a network connection timeout.解决
  16. python输出被五整除的数_Python程序打印给定数字的所有被3和5整除的数字
  17. 浏览器无法上网,其他软件可以
  18. ★「C++游戏」BattleOfPhantom:大乱斗游戏升级版
  19. 2013年第四届C B组蓝桥杯省赛真题
  20. 责任链模式:“张三为了纪念王二请假的悲催经历想出来的一种设计模式”

热门文章

  1. 斯坦福计算机硕士要求,申请斯坦福计算机硕士要求有哪些?
  2. finecms V5 会员头像任意文件上传漏洞 附修复代码
  3. 组装台式计算机的过程,学习电脑装机全过程 组装台式机图解教程(6)
  4. Python下载网易云歌曲(版权限制的怎么播放和下载呢?)
  5. HMM隐马尔可夫模型详解
  6. java基础(一)基础认识、数据类型
  7. Linux regulator框架理解及使用
  8. Julia学习笔记(一)——入门
  9. 卡内基梅隆大学计算机专业介绍,卡内基梅隆大学计算机专业介绍 全美大学计算机专业榜首...
  10. 麦克风没声音,这个选项你注意到了吗?