我们从SEER数据库下载到数据库后,一个很重要的步骤就是把数据库随机分为建模组和验证组,一般来说的话是用70%的数据建模,30%的数据进行验证。因为我们很难找到和SEER数据库类似的数据进行外部验证,因此只能对数据进行拆分来验证。下图这个范文,作者就是使用了数据7:3的拆分


今天我们来说说怎么通过R语言来对SEER数据库按比例拆分为建模集和验证集,还是使用我们常用的既往乳腺癌的数据,
先把数据导入

tr1<- sample(nrow(bc),0.7*nrow(bc))##随机无放抽取
bc_train <- bc[tr1,]#70%数据集
bc_test<- bc[-tr1,]#30%数据集


OK,数据已经随机抽取好了,把它写成文件就好了

write.csv(bc_train,file = "bc_train.csv")
write.csv(bc_test,file = "bc_test.csv")


OK,完成,虽然很简单,也是很实用的。
本公众号提供了SPSS、Stata对seer数据库整套挖掘课程,零基础,简单上手,欢迎订阅。
更多精彩文章请关注公众号:零基础说科研

R语言对SEER数据库随机分为建模组和验证组相关推荐

  1. R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

    全文链接:http://tecdat.cn/?p=31644 借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛(点击文末"阅读原文&q ...

  2. R语言构建仿真数据库(sqlite)并使用dplyr语法和SQL语法查询数据库、将dplyr语法查询语句翻译为SQL查询语句

    R语言构建仿真数据库(sqlite)并使用dplyr语法和SQL语法查询数据库.将dplyr语法查询语句翻译为SQL查询语句 目录

  3. R语言之MYSQL数据库获取及输出

    R语言之MYSQL数据库获取及输出 在这里我们使用ODBC连接,连接之前请先配置ODBC MYSQL  ODBC下载地址:http://dev.mysql.com/downloads/connecto ...

  4. r 连oracle数据库,R语言—连接Oracle数据库

    R语言-连接Oracle数据库 本教程会讲解两种方法,第一种方法较为简单,且中文不容易出现乱码.第二种方法,较为复杂,和java的jdbc连接数据库操作类似. 操作环境: 系统:windows10 6 ...

  5. 使用R语言解析kegg数据库get请求

    使用R语言解析kegg数据库get请求 1. kegg数据库get请求 虽然kegg数据库提供了相关的Restful API来请求数据,但使用get请求查询出的数据是没有格式的字符串,如下: 要得到具 ...

  6. R语言置换检验(permutation tests、响应变量是否独立于组、两个数值变量是独立的吗、两个分类变量是独立的吗)、置换检验的基本步骤、R语言自助法Bootstrapping计算置信区间

    R语言置换检验(permutation tests.响应变量是否独立于组.两个数值变量是独立的吗.两个分类变量是独立的吗).置换检验的基本步骤.R语言自助法Bootstrapping.自助法计算单个统 ...

  7. R语言构建xgboost模型:xgb.cv函数交叉验证确定模型的最优子树个数(可视化交叉验证对数损失函数与xgboost模型子树个数的关系)、交叉验证获取最优子树之后构建最优xgboost模型

    R语言构建xgboost模型:xgb.cv函数交叉验证确定模型的最优子树个数(可视化交叉验证对数损失函数与xgboost模型子树个数的关系).交叉验证获取最优子树之后构建最优xgboost模型 目录

  8. 预测分析:R语言实现1.3 预测建模的过程

    1.3 预测建模的过程 通过观察模型的某些不同特征,我们已经对预测建模过程的各种步骤有所了解.在本节,我们要顺序讲解这些步骤,并理解每个步骤是如何对该任务的整体成功起作用的. 1.3.1 定义模型的目 ...

  9. r dataframe 转成向量_快速掌握R语言中类SQL数据库操作技巧

    在数据分析中,往往会遇到各种复杂的数据处理操作:分组.排序.过滤.转置.填充.移动.合并.分裂.去重.找重.填充等操作.这时候R语言就是一个很好的选择:R可以高效地.优雅地解决数据处理操作.(本章节为 ...

最新文章

  1. Dell 原有PowerEdge 服务器型号获得通过 Red Hat Enterprise Linux 6 认证
  2. 速卖通运营之商品结构及分层逻辑
  3. You can't specify target table 'TS_AUTH_ADMIN' for update in FROM clause记录
  4. iQOO Z1于10月21日开启双十一钜惠,最高立减200元
  5. 【java学习之路】(java SE篇)006.异常
  6. 【java学习之路】(java SE篇)003.java SE基础语法之数组
  7. 谁在阻止RSS的普及??
  8. 贴片电阻阻值代码对照表
  9. 征途服务器维护时间,《征途》服务器重组几大怪现象
  10. 高瓴张磊对话高毅邱国鹭:如何越过投资的价值陷阱?(附实录)
  11. DataNode引用计数磁盘选择策略
  12. 「镁客·请讲」周全:想做世界上没有的、比较酷的东西
  13. java secretkey用法_Java SecretKeyFactory.generateSecret方法代码示例
  14. 有一个四分钟的沙漏,一个七分钟的沙漏,怎样测试九分钟的时间
  15. 定义视频尺寸html,使HTML5视频海报与视频本身尺寸相同
  16. 《用计算机写日记》》教学课件,写日记教学课件 [观察日记教学课件]
  17. 珍贵!分享!全国各省市最全乡镇、街道行政区划边界shp矢量数据+wgs84坐标系+2021年7月最新获取+2018年更新数据
  18. 电路图中R1,D1有什么作用 ?
  19. BigBrother的大数据之旅Day 13 hbase(2)
  20. 【OpenCV】Qt + OpenCV 开发配置 + 入门知识(代码示例)

热门文章

  1. BUUCTF-刷题记录-10
  2. 如何使数据异常解决不那么卡通化
  3. 笑死人的对话!咱爸咱妈真幽默耶!
  4. Adobe Photoshop CC 国际认证考试学习指南(一)
  5. 被骗几十万总结出来的Ddos***防护经验!(很值得分享 有意思)
  6. tfr 计算机硬件,实践操作:六步教你如何用开源框架Tensorflow对象检测API构建一个玩具检测器...
  7. Thinkphp5汉字转拼音
  8. “三分钟”之SVG画微信LOGO
  9. nslookup命令
  10. 老款诺基亚6 android 8,迅速吃上奥利奥:诺基亚7与新诺基亚6推送Android 8.0