方法1.RNA-seq得到不同表达程度基因

方法2. 直接download U2OS_gene.csv https://cancer.sanger.ac.uk/cell_lines/download

最开始excel直接选用25%最高和25%最低,U2OS细胞共~16000基因,故复制前4000行的gene symbol并存为txt;

table browser下载'group:Genes and gene prediction; track:UCSC genes; outpu format:selected fileds from primary and related tables' then getoutput,如下图选择

问题出现在grep -wFf 25%_most_highly_expressed_gene_name.txt hg19_geneid_genesymbol.txt > 25%_most_highly_expressed_geneid.txt总是没有输出

trouble shooting首先检查代码,自定义两个文件1.txt 2.txt然后 grep -wFf 1.txt 2.txt成功;

然后检查输入文件hg19_geneid_genesymbol.txt,自定义基因文件(随便选几个U2OS/non-U2OS基因 vi gene.txt),grep -wFf gene.txt hg19_geneid_genesymbol.txt成功;

最后发现问题出在25%_most_highly_expressed_gene_name.txt,最开始得到这个文件是直接从csv中copy and paste,但csv是 comma delimited,所以复制事实上连,一起复制了

#$ head U2OS_genes.csv

#$ head 25%_most_highly_expressed_gene_name.txt

事实上在做grep的时候是“ ,MED6, ”,因此无法匹配 hg19_geneid_genesymbol.txt,这也是为什么grep 'MED6'  hg19_geneid_genesymbol.txt 可以work的原因

正确做法

#0.6是第4000个基因的zscore

awk -F',' '$5 > 0.6 {print $3}' U2OS_genes.csv >  25%_most_highly_expressed_gene_name.txt

0.6有点过低,做zscore散点图可发现用2更为合理

awk -F',' '$5 > 2 {print $3}' U2OS_genes.csv >  highest_expressed_gene_name.txt

更为准确的方法是用R quantile得到合适Z score筛选得到most_expressed 和 least_expressed

grep -wFf highest_expressed_genesym.txt gene_hg19.bed > highest_expressed_gene.bed

PS:head gene_hg19.bed

一个基因有不同的cds

https://www.jianshu.com/p/cc5cd7053d6e

转载于:https://www.cnblogs.com/xiaoxiaoxiaoxue/p/10006223.html

寻找U2OS中表达的基因及其promoter并用于后续annotation相关推荐

  1. 如何定量、提取表达某基因的细胞(及比例)

    一,提取表达某基因的所有细胞 expr <- sce_endo@assays$RNA gene_expression <- expr %>% .['PLAT',] %>% as ...

  2. R语言---查看指定癌症中感兴趣基因的表达量---笔记整理

    原文链接:https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247486845&idx=1&sn=b735a4690 ...

  3. 热图展示单细胞转录组基因在不同组中表达阳性细胞差异

    近日,看到-生信作曲家-发的帖子,展示的内容是单细胞差异基因的图,是利用热图的形式展现的,在一个热图上可以展示不同cluster中不同组的基因表达阳性细胞比例,差别一目了然,可以同时展示很多的基因. ...

  4. WGCNA如何从module中挖掘关键基因

    https://blog.csdn.net/weixin_43569478/article/details/83747196 认识到与表型数据相关的modules之后,还可以在modules中进一步筛 ...

  5. Science:中国农业科学院作物科学研究所周文彬团队在水稻中发现单一基因可使水稻显著增产...

    从绿色革命改良作物株型,到杂交水稻大面积推广,粮食单产增长了一倍多. 然而,此前研究表明,全球约24~39%的玉米.水稻.小麦以及大豆种植区域单产处于停滞不前甚至下降的态势. 北京时间2022年7月2 ...

  6. 一些值得记录的题目(将数组中相同的数据删除、判断n 阶方阵是否对称、寻找矩阵中的马鞍点、将前面各数顺序后移 m 位,最后 m 个数变成最前m 个数并输出、将一长整型数转换为十六进制,以字符串形式输出)

    1.设数组中的数据已经按照由小到大的顺序存放,请将数组中相同的数据删除,仅保留一个,然后以每行3个输出数组元素. #include<stdio.h> int main() {int arr ...

  7. Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点

    今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...

  8. 编程之美2.10 寻找数组中的最大值和最小值

    这个问题其实很容易解决,就是循环遍历一遍数组,然后找到数组中存在的最大值和最小值就可以了,书中主要讨论的问题是比较次数较小的方法,不过,书中已经证明了,无论用什么方法最少的比较次数也就是循环遍历一遍的 ...

  9. ES6中表达export default const是无效的

    问题 如果您是ES6新手,可以参考一下本文--高手请移驾别往! 请先看下面的图形描述: 也就是说,ES6中default后面是不允许跟const关键字的. 分析 上图中表达可以更换成另一种形式,就可以 ...

最新文章

  1. linux内核内存管理(zone_dma zone_normal zone_highmem)
  2. 初论函数指针、指针函数、指针的指针
  3. oracle存储while用mysql_oracle存储过程while
  4. ASP.NET Button控件的UseSubmitBehavior属性引发的血案
  5. 【VB.NET】VB.NET面向对象技术问题的解答
  6. 容器编排技术 -- Kubernetes kubectl label 命令详解
  7. 交换机putty怎么调试_弱电工程视频监控系统设计、安装、调试、维护全过程讲解...
  8. php 连接池 idletime,聊聊hikari连接池的idleTimeout及minimumIdle属性
  9. Java Project项目在Linux下部署步骤及注意事项
  10. 【转】VBScript-RegExp对象的详细用法
  11. 八、面向对象三大特征(二)—— 继承
  12. Python3学习笔记18-访问限制
  13. matlab距离平方和公式推导,求助高手,用matlab求两幅图像平方和再开根号公式怎样表达?...
  14. 如何查看steam游戏销量_如何查看您在Steam游戏上花费的金钱和时间
  15. Backlog Order
  16. ROHS认证是什么?
  17. 条件运算符的嵌套使用
  18. 电子计算机可直接,电子计算机可直接执行的指令在机器内部是以什么表示的
  19. 微信支付必须是服务器,微信付款码不需要联网的原理是什么?怎么生成?
  20. android 打包报错 Execution failed for task ‘:app:lintVitalRelease‘.

热门文章

  1. opensuse13.2 安裝五笔
  2. vmware esxi的安装
  3. 电子邮件成企业主动营销的首选工具
  4. CSS hack:针对IE6,IE7,IE8,IE9,firefox显示不同效果
  5. C/C++ 程序设计员应聘常见面试试题深入剖析
  6. Memcached Java客户端2.6.1发布
  7. 哎哟我去!betterzip居然支持这么多压缩格式!
  8. 不讲CRUSH的Ceph教程是不完整的
  9. 在Prefetcher中取消robots.txt的限制
  10. UVALive 6093 Emergency Room --优先队列实现的模拟