之前的教程中提到了数据下载链接,但未提供整理好后的数据。后台总有朋友问起,提供数据网盘容易失效,就把整理方法放在这,可基于原始链接下载后转换为所需格式。

安装YSX包 (已改名为ImageGP包)

YSX包已改名为ImageGP包,这是为配合绘图网站ImageGP而构建的包,里面也包含了对常用绘图函数和数据整理命令的包装,在整个机器学习教程中也常有用到。

ImageGP包目前在Github码云上都有,推荐用码云,下载速度快。

devtools::install_git("https://gitee.com/ct586/ImageGP")# 安装好之后,之前教程的library(YSX)都改为library(ImageGP)
library("ImageGP")

改名是因为之前一个误操作,在YSX仓库里面引入了不少示例数据,使得包变得很大。而Github又访问速度慢,常常安装不成功。

# 如果从Github上安装原有的`YSX`也可以:
# 不推荐
# devtools::install_github("Tong-Chen/YSX")

DLBCL 数据集

数据信息在页面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html

Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular lymphoma (FL): 19 examples (24.7%)。

可通过链接下载https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。

下载后,删除第2行和第3行。

再用下面的R代码读取和整理

dlbcl_tab <- "DLBCL.tab"
dlblc <- read.table(dlbcl_tab, row.names = NULL, header=T)
dim(dlblc)class = dlblc$class
table(class)

生成Metadata信息

metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"), paste("FL", 1:19, sep="_")),class=class)
head(metadata)write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)

生成表达文件

rownames(dlblc) <- metadata$sample
dlblc <- dlblc[,1:7070]
dlblc <- t(dlblc)
dlblc[1:3,1:4]library(ImageGP)
sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)

机器学习系列教程

从随机森林开始,一步步理解决策树、随机森林、ROC/AUC、数据集、交叉验证的概念和实践。

文字能说清的用文字、图片能展示的用、描述不清的用公式、公式还不清楚的写个简单代码,一步步理清各个环节和概念。

再到成熟代码应用、模型调参、模型比较、模型评估,学习整个机器学习需要用到的知识和技能。

  1. 机器学习算法 - 随机森林之决策树初探(1)

  2. 机器学习算法-随机森林之决策树R 代码从头暴力实现(2)

  3. 机器学习算法-随机森林之决策树R 代码从头暴力实现(3)

  4. 机器学习算法-随机森林之理论概述

  5. 随机森林拖了这么久,终于到实战了。先分享很多套用于机器学习的多种癌症表达数据集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。

  6. 机器学习算法-随机森林初探(1)

  7. 机器学习 模型评估指标 - ROC曲线和AUC值

  8. 机器学习 - 训练集、验证集、测试集

  9. 机器学习 - 随机森林手动10 折交叉验证

  10. 一个函数统一238个机器学习R包,这也太赞了吧

  11. 基于Caret和RandomForest包进行随机森林分析的一般步骤 (1)

  12. Caret模型训练和调参更多参数解读(2)

  13. 机器学习相关书籍分享

  14. 基于Caret进行随机森林随机调参的4种方式

  15. 送你一个在线机器学习网站,真香!

  16. UCI机器学习数据集

  17. 机器学习第17篇 - 特征变量筛选(1)

  18. 机器学习第18篇 - Boruta特征变量筛选(2)

机器学习系列补充:数据集准备和更正YSX包相关推荐

  1. [当人工智能遇上安全] 7.基于机器学习的安全数据集总结

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  2. 机器学习系列(7)_机器学习路线图(附资料)

    作者:寒小阳&&龙心尘 时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http:/ ...

  3. (转)机器学习系列(7)_机器学习路线图(附资料)

    作者:寒小阳&&龙心尘 时间:2016年2月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50759472 http:/ ...

  4. 机器学习系列(12)_XGBoost参数调优完全指南(附Python代码)

    机器学习系列(12)_XGBoost参数调优完全指南(附Python代码) 原文链接:http://blog.csdn.net/han_xiaoyang/article/details/5266539 ...

  5. 机器学习系列18:核函数

    https://www.toutiao.com/a6700783341630652931/ 机器学习系列18:核函数 让我们来考虑这样一个问题,现在给定一个数据集,让你划分出决策边界,该怎么办呢?数据 ...

  6. 人工智能 机器学习系列 2:代价函数

    机器学习系列 2:代价函数 现在我有一些数据集,就像上图中的叉.那么我想通过一次函数也叫线性回归函数(一条直线)去拟合这些数据,一次函数在没有确定之前,应该是这个样子的: 其中 θ0 和 θ1 都是未 ...

  7. 机器学习系列 1:监督学习和无监督学习

    https://www.toutiao.com/a6690813539747103246/ 2019-05-15 09:31:00 机器学习系列 1:监督学习和无监督学习 机器学习就是通过一大堆数据集 ...

  8. 机器学习系列之EM算法

    机器学习系列之EM算法 我讲EM算法的大概流程主要三部分:需要的预备知识.EM算法详解和对EM算法的改进. 一.EM算法的预备知识 1.极大似然估计 (1)举例说明:经典问题--学生身高问题 我们需要 ...

  9. k近邻法matlab_机器学习系列(一)K近邻算法(KNN,KNearestNeigh

    本文源自微信公众号[Python编程和深度学习]原文链接:机器学习系列(一)K-近邻算法(KNN,K-Nearest-Neighbor),欢迎扫码关注鸭! 目录 一.算法概述 二.Python代码 三 ...

最新文章

  1. 有关C/C++中,表达式计算顺序的问题,以及表达式内部变量“副作用”问题(转)...
  2. 第十六届全国大学生智能车竞赛竞速组-室内视觉组补充说明
  3. python解决鸡兔同笼问题
  4. iview中的Col在vue/html-self-closing中识别错误
  5. html form表单提交数据并后台获取
  6. python修改手机默认语言_修改 CentOS 6.x 上默认Python的方法
  7. Android系统init进程启动及init.rc全解析
  8. 安装Microsoft Visual Studio 2008的时候,经常会出现Microsoft Visual Studio Web创作组件安装失败的情况
  9. python 分类变量xgboost_XGBoost 原理 及 常见面试题
  10. 小心sae的jvm异常导致的Error 404 – Not Found.No context on this server matched or handled this request....
  11. html 自动连接websocket_SpringBoot + WebSocket 实现实时聊天
  12. jpg格式怎么免费压缩大小
  13. python做一个微型美颜图片处理器,十行代码即可完成
  14. 计算机刷bios版本,怎么更新主板bios版本_教你更新技嘉主板bios版本的方法
  15. AI微信小程序源码下载人脸照片AI转换动漫照片全新源码安装简单无需服务器域名
  16. VBA 贴片电阻名称转换
  17. MySQL安装问题 Starting the server 失败
  18. 比特大陆裁员潮据称已波及整个BCH开发团队
  19. 拼购造富,苏宁引领“电商扶贫”
  20. Android 添加Flutter 项目依赖

热门文章

  1. 【离散数学】实验 一个简单的自动逻辑推理问题
  2. 【数值分析】顺序高斯消去法和列主元高斯消去法的三个主要不同点
  3. Java架构-JavaSE(一)之类与对象
  4. java基础加强_补充笔记
  5. Spark MLlib
  6. Shell脚本监控专线Network并SendEmail报警
  7. 三:大型网站的核心架构要素
  8. struts2在lt;s:selectgt;用动态标签
  9. http代理的脚本http_proxy.py
  10. C# 参考之方法参数关键字:params、ref及out