【生信技能树】GEO数据库挖掘_哔哩哔哩_bilibilijimmy开始招学徒啦~这个课程就是周末的线下课的录屏哦~戳它了解→ https://mp.weixin.qq.com/s/gzyCRNnfgYkSsnjPSr-MGw 专栏:https://www.bilibili.com/read/cv719181这个系列视频包学包会,学不会……那就多看几遍……或者……欢迎报名jimmy的线下课呀~o(* ̄▽ ̄*)ブhttps://www.bilibili.com/video/BV1is411H7Hq?p=6&spm_id_from=333.1007.top_right_bar_window_history.content.click本章为该section的笔记

【生信技能树】GEO数据库挖掘 P6 5 了解你的表达矩阵

# 检查matrix表达量是否合适
# 载入内参基因的表达量,看是否与相应的基因名相统一
# GAPDH 以及 ACTB(b-actin的基因名)是常用的内参
# 转换exprset的rownames为基因名
rownames(exprSet)=ids[match(rownames(exprSet),ids$probe_id),2]


# 检查matrix表达量是否合适
# 载入内参基因的表达量,看是否与相应的基因名相统一
# GAPDH 以及 ACTB(b-actin的基因名)是常用的内参
# 转换exprset的rownames为基因名
rownames(exprSet)=ids[match(rownames(exprSet),ids$probe_id),2]

后续检查样本是否正常表达一些基因。

【方法1】用GAPDH和ACTB基因作为阳性参照,看是否表达量正常。(应保守的高表达)

【方法2】用melt将样本变成纵列后,重命名以及予以分组信息,使用ggplot2看基因表达量的分布。

# 检查1,常见基因表达量,确定管家基因是否弄错
exprSet['GAPDH',]
exprSet['ACTB',]
# 检查2 检验基因分布图
if(T){library(reshape2)exprSet_L=melt(exprSet)colnames(exprSet_L)=c('probe','sample','value')# group_list获取每个样本的分组信息group_list=c('Control','Control','Control','Vemurafenib','Vemurafenib','Vemurafenib')exprSet_L$group=rep(group_list,each=nrow(exprSet))head(exprSet_L)### ggplot2 library(ggplot2)p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_boxplot()print(p)p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_violin()print(p)p=ggplot(exprSet_L,aes(value,fill=group))+geom_histogram(bins = 200)+facet_wrap(~sample, nrow = 4)print(p)p=ggplot(exprSet_L,aes(value,col=group))+geom_density()+facet_wrap(~sample, nrow = 4)print(p)p=ggplot(exprSet_L,aes(value,col=group))+geom_density() print(p)p=ggplot(exprSet_L,aes(x=sample,y=value,fill=group))+geom_boxplot()p=p+stat_summary(fun.y="mean",geom="point",shape=23,size=3,fill="red")p=p+theme_set(theme_set(theme_bw(base_size=20)))p=p+theme(text=element_text(face='bold'),axis.text.x=element_text(angle=30,hjust=1),axis.title=element_blank())print(p)# 如果来自不同样本或基线不匹配,需使用sv包中的combine函数来矫正# 检查样本是否有问题,是否有异常值或不一致的分布
}

【方法3】用hclust包看以下样本间的关系,是否相同处理聚类到了一起。

grouplist可以根据网址上的样本信息予以确定,也可以根据table确定。

# 检查3 利用hclust包进行聚类,简单看一下进化关系,是否每个样本都类似
if(T){# pdata=pData(data_information)group_list=as.character(pdata[,2])group_listdim(exprSet)exprSet[1:5,1:5]## hclust colnames(exprSet)=paste(group_list,1:6,sep='')# Define nodeParnodePar <- list(lab.cex = 0.6, pch = c(NA, 19), cex = 0.7, col = "blue")hc=hclust(dist(t(exprSet)))par(mar=c(5,5,5,10)) plot(as.dendrogram(hc), nodePar = nodePar,  horiz = TRUE)
}

【方法4】PCA主成分分析看一下样本情况。

# 检查4 利用PCA来看样本分布是否一致
if(F){# BiocManager::install('ggfortify')library(ggfortify)df=as.data.frame(t(exprSet))df$group=group_list autoplot(prcomp( df[,1:(ncol(df)-1)] ), data=df,colour = 'group')library("FactoMineR")#画主成分分析图需要加载这两个包library("factoextra") df=as.data.frame(t(exprSet))dat.pca <- PCA(df, graph = FALSE)#现在dat最后一列是group_list,需要重新赋值给一个dat.pca,这个矩阵是不含有分组信息的fviz_pca_ind(dat.pca,geom.ind = "point", # show points only (nbut not "text")col.ind = group_list, # color by groups# palette = c("#00AFBB", "#E7B800"),addEllipses = TRUE, # Concentration ellipseslegend.title = "Groups")
}

【生信技能树】GEO数据库挖掘 P6 5了解矩阵相关推荐

  1. CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

    CancerSubtypes包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理,感谢Jimmy老师!) 1. 引言 2. 数据处理 2.1 基本处理 2.1.1 通过检查数据分布来分 ...

  2. ProTICS包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理)

    ProTICS包的介绍(根据生信技能树Jimmy老师分享的乳腺癌分子分型包资料整理,感谢Jimmy老师!) 1.设置环境 2.Part1的结果 3.Part2的结果 4.Part3的结果 5.相关函数 ...

  3. R:生信技能树学习笔记一

    生信技能树小破站:R应该这样学1-4 1.查看已经安装的包的地址 .libPaths() 2.怎么查看函数用法 #在RStudio的右下角窗口的help可以看到 ?函数名 3.三个有用的函数 1.he ...

  4. R:生信技能树学习笔记二

    生信技能树小破站:R应该这样学5-7 1.热图 rm(list=ls()) library(pheatmap) a1=rnorm(100) dim(a1)=c(5,20) #设置维度 pheatmap ...

  5. TCGA学习笔记一(生信技能树概述版)

    1.背景介绍 重要数据 外显子数据 表达数据 小RNA测序数据 拷贝数芯片 甲基化数据 蛋白质组学数据 临床信息 癌症背景知识 网页工具大全 GDC cbioportal:按照paper来分类的 UC ...

  6. 生信技能树【代码大全搜录】

    生信技能术代码大全: rm(list = ls()) options()$repos options()$BioC_mirror #options(BioC_mirror="https:// ...

  7. 生信学习--生物数据库大全

    本文转自https://blog.csdn.net/g863402758/article/details/52957299 综合数据库 ★ INSD,国际核酸序列数据库(International N ...

  8. 生信蛋白分析数据库与ID转换

    对于数据分析(工程师)来说,数据库的海量信息可能蕴含着无数的新发现! 目录 前言 一.PDB 1.如有PDBID 二.chembl 1.基本信息 2.转化chemblID为uniprotID 3.使用 ...

  9. 生信分析、数据库网站集合

    [注:不定期更新:笔记整理:学习笔记] 功能富集分析 Metascape Metascapehttps://metascape.org/gp/index.html#/main/step1 实现零代码功 ...

  10. 生信技能树 电脑配置linux,生信技能树--Jimmy - Linux 20题

    一.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列. 二.在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面 ...

最新文章

  1. 模拟Web 服务器磁盘满故障深入解析
  2. python中plot实现即时数据动态显示方法_python中plot实现即时数据动态显示方法
  3. 法媒评马云996:亚洲独有的洗脑我们不懂
  4. Python之Pandas:利用Pandas函数实现对表格文件的查之高级查询(类似sql,分组查询等)之详细攻略
  5. MongoRepository自定义条件及分页查询代码
  6. 腾讯2019秋招笔试真题
  7. IP地址的网络位与主机位
  8. JS 点击复制Copy插件--Zero Clipboard
  9. 编程一小时 code.org [六一关注]
  10. python接口自动化(三十七)-封装与调用--读取excel 数据(详解)
  11. 3.7.4 - Indexing and Slicing Strings
  12. 获取Android包名和activity名
  13. FusionChartsFree在JSP中的用法
  14. c#开发环境下用Directx载入3D模型
  15. python绘制正态分布曲线_利用python绘制正态分布曲线
  16. 计算机EXE文件改参数,笔记本专用xp系统修改注册表参数导致exe格式文件无法打开怎么办...
  17. vue 用echarts写的进度条组件
  18. html5科技感logo,这些LOGO设计得太巧妙了!
  19. 输入一个字符,是小写转换为大写,大写转换为小写,其他字符原样输出
  20. SylixOS 延时工作队列实现原理详解

热门文章

  1. 解决关灯游戏(Lights Off)
  2. 【吾爱破解】零基础新手破解学习导航
  3. 视频直播app源码,可拖拽悬浮球
  4. lammps软件介绍与使用
  5. 数学建模常用模型10 :数据包络(DEA)分析法(投入产出法)
  6. iOS 中文转拼音 多音字处理
  7. mysql注入扫描网站漏洞工具_网站安全检测,高手必备几款SQL注入工具
  8. idea使用教程-idea简介
  9. Google Earth Engine(GEE)——点、线、面和省级行政区的加载和展示,以及矢量的过滤筛选
  10. mac 安装Xshell4