今天主要来带大家重温一下数据管理,并提供了Stata和R语言的操作。

数据管理的重要性

  • 一些初学者可能意识不到数据管理的重要性,认为数据到手,软件打开,就也可以死出模型,这种想法是大错特错的
  • 没有任何一份数据是能拿到手就做模型分析的,必须经过数据清理
  • 通常情况下无论多复杂的模型,他的命令也只会有一行,定量研究的工作基本全是在前期数据的清理。
  • 例如:所有的数据库中都不会有年龄变量,都需要根据出生年生成

数据管理如何做?Stata&R语言应用1.缺失值的处理(处理为系统可识别)一般而言数据中的缺失值以负数或者一个极端不可能值替代,例如99999等,但是软件并不认为负数或极端数是缺失值,需要处理成软件可识别的缺失值,如果不处理软件会带入计算Stata:replace happy==. if happy==-8R语言:cgss$happy[cgss$happy == -8] (其中happy为变量名)2.奇异值的识别:箱线图一般在连续变量中奇异值存在的可能性比较大,例如收入。为什么要识别奇异值?从统计上来说,奇异值的存在严重影响模型估计,最简单的理解是,有极大值存在,均值就会受到非常大的影响。Stata:gr box incomeR语言:boxplot(cgss$income)(其中income为变量名)3.变量分布的识别在回归分析中有一个重要的假定,就是变量要服从正态分布,我们可以通过直方图的形式来观察变量是否服从正太分布Stata:hist incomeR语言:hist(cgss$income)(其中income为变量名)4. 变量的生成例如,一般的数据中都不会直接有年龄这一变量,均是报告的出生年份,所以年龄变量需要生成 Stata:gen age=2015-birthR语言:cgss$age(其中birth为变量名)5.样本的筛选例如:我们研究只关心60岁以下的人群怎么办?或者专门研究老年人,该怎么办?Stata:keep if age>=60 #只保留年龄在60岁以上的样本R语言:cgss=60)6. 变量的重新编码例如:性别变量在数据中的编码,男性=1,女性=2但是一般情况下,我们会把女性编码0,男性编码为1,这样软件就会自动识别这是一个虚拟变量并把0作为参照组,否则他会当做连续变量计算Stata:recode gender (1=1 "男性")(2=0 "女性"),gen(newgender)R语言:cgss$newgender 以上为大家总结了R语言和Stata中关于数据管理常用的命令,通过比较来看,二者在命令上有着一定的相似之处,总体而言Stata更加简洁一些。

r语言变量长度不一致怎么办_基础方法 | 数据管理:Stata与R语言的应用相关推荐

  1. r语言变量长度不一致怎么办_R语言实现数据离散化方法总结

    前言 在做数据挖掘模型的时候,我们有时会需要把连续型变量转型离散变量,这种转换的过程就是数据离散化,分箱就是离散化常用的一种方法. 数据离散化处理属于数据预处理的一个过程,R语言在数据处理上有天然的优 ...

  2. C语言变量长度在32位和64位处理器上的关系

    C语言变量长度在32位和64位处理器上的关系   理论上来讲 我觉得数据类型的字节数应该是由CPU决定的,但是实际上主要由编译器决定(占多少位由编译器在编译期间说了算). 常用数据类型对应字节数   ...

  3. 传智播客C语言视频第二季(第一季基础上增加诸多C语言案例讲解,有效下载期为10.5-10.10关闭

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 卷 ba ...

  4. 传智播客C语言视频第二季 第一季基础上增加诸多C语言案例讲解,有效下载期为10 5-10 10关闭

    分享一下我老师大神的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow 卷 backup ...

  5. 传智播客C语言视频第二季(第一季基础上增加诸多C语言案例讲解,有效下载期为10.5-10.10关闭)

    卷 backup 的文件夹 PATH 列表 卷序列号为 00000025 D4A8:14B0 J:. │  1.txt │  c语言经典案例效果图示.doc │  ├─1传智播客_尹成_C语言从菜鸟到 ...

  6. 传智播客C语言视频第二季(第一季基础上增加诸多C语言案例讲解,有效下载期为10.5-10.10关闭)...

    卷 backup 的文件夹 PATH 列表 卷序列号为 00000025 D4A8:14B0 J:. │  1.txt │  c语言经典案例效果图示.doc │  ├─1传智播客_尹成_C语言从菜鸟到 ...

  7. c语言变量按作用域范围分两种,第02天C语言(10):变量-作用域

    #变量的作用域 ##本小节知识点: ####1.[掌握]变量的作用域 ####2.[掌握]局部变量 ####3.[掌握]全局变量 ####4.[掌握]常见错误 ##1.变量的作用域 * C语言中所有变 ...

  8. java语言中声明布尔型_【Java初探02】——Java语言基础

    本篇博文就Java语言的一些基本元素进行一些记录和阐述,主要讲解一下Java语言的一些基本构成元素和Java的主类结构. Java语言基础的大致组成 java主类结构 基本的数据类型 变量与常量 运算 ...

  9. c语言求不成功查找长度的代码_哈希查找算法(C语言实现)

    上一节介绍了有关哈希表及其构造过程的相关知识,本节将介绍如何利用哈希表实现查找操作.在哈希表中进行查找的操作同哈希表的构建过程类似,其具体实现思路为:对于给定的关键字 K,将其带入哈希函数中,求得与该 ...

最新文章

  1. linux下访问windows的共享
  2. Python 抖音用户粉丝(公开)--分析与实现
  3. Python学习笔记:面向对象编程(2)
  4. 十大开源推荐系统简介 [转自oschina]
  5. android 单例存储,Android 单例在内存中存储数据
  6. springboot下使用mybatis配置
  7. h5+js视频播放器控件
  8. 多线程顺序交替打印ABCD
  9. Livecoin交易所被盗BTC与3天前EXMO被盗BTC转入同一地址
  10. 成都哪所专科院校有计算机专业,成都哪些高职院校有计算机应用技术
  11. itest Tutorial
  12. Arduino 串行通信之串口通信 UART 原理及释义
  13. 817考研c语言程序设计,2018年沈阳航空航天大学计算机院817C程序设计考研核心题库...
  14. 【创文进行时】创建文明城市社区在行动
  15. latex 加入.sty文件
  16. Martin Fowler:持续集成(很有参考意义)
  17. HCIA网络课程第四周作业
  18. matlab中单位矩阵eye()函数
  19. 69个微信小程序常见问题
  20. JSR303数据校验介绍和使用

热门文章

  1. 工作日志-2017年06月04日
  2. [ pikachu ] 靶场通关之 XSS (一) --- 概述
  3. 02-Maven高级-分模块开发、依赖传递、聚合、继承(SpringBoot的部分底层原理)、多模块开发(环境切换)、Nexus私服搭建与使用
  4. 认识因特网络(小学计算机课件),认识因特网课件.ppt
  5. 第一章Single Threaded Execution模式 能通过这座桥的只有一个人
  6. 什么是“无头系统”(Headless System)
  7. CLIPCAP:图生文
  8. 中兴a2018刷android,中兴A2018刷机教程 中兴A2018 天机7S卡刷升级更新官方系统
  9. 【文献管理】Zotero插件QuickLook || 让Zotero具备文献预览功能
  10. 用3dmax测试软件会烧掉硬件吗,以3ds Max软件为例 3D渲染和三维建模是CPU重要还是显卡重要?...