python lncrna_[转载]lncrna分析流程
1:数据质量评估(fastqc)
2:比对(tophat2)
建立索引的命令:bowtie2-build genome.fa
*.bowtie2
比对命令:tophat2 -p 16 -G genome.gtf *.bowtie2
MTncRNA1_1.fastq MTncRNA1_2.fastq
3:组装(cufflinks)
cufflinks -o ./ -p 6 -g genome.gtf -u
accepted_hits.bam
4:合并(cuffmerge)
cuffmerge -g genome.gtf -s genome.fa -p 32
assemble
5:差异表达分析(cuffdiff)
cuffdiff -b genome.fa -p 32 -u merged.gtf -L
M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam
WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam(isoforms.count_tracking用于过滤lncrna,提供了覆盖度的信息,isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测,计算两者的相关性)
cuffdiff -b genome.fa -p
32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam
WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam(生成的isoform_exp.diff用于寻找差异表达的转录本,生成的gene_exp.diff用于寻找差异表达的基因
)
6:过滤merged文件(自己写)
exon>=1(merged.gtf),reads>=3(isoforms.count_tracking),length>=200(merged.gtf),classcode=x
j o u i(merged.gtf)
7:编码能力预测(cpc,cnci,plek)
CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”,
且放在CPC安装目录下的data目录下面。
nr数据库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
uniprot数据库:ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/
CPC的安装:下载cpc-0.9-r2.tar.gz
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean
&& make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean
&& make
建立本地blast数据库:cd
cpc-0.9-r2/data
formatdb -i (your_fasta_file)
-p T -n prot_db
运行CPC:cd cpc-0.9-r2/bin/run_predict.sh (input_seq)
(result_in_table) (working_dir) (result_evidence)run_predict.sh
建议将原始文件分割成比较小的文件去跑会快很多
CNCI的安装:CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。tar zxvf
CNCI_version2.tar.gz
cd CNCI_package
unzip libsvm-3.0.zip
cd libsvm-3.0
make
cd ..
CNCI的运行:
基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m
ve -p 4参数说明:
-f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)
-o 输出结果目录
-m 指定模式,脊椎动物选择ve,植物选择pl
-p 指定CPU核数
小提示:CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。
plek略
8:靶基因预测
cis预测:寻找在lncrna附近10K~100K附近的基因(自己写很容易)
trans预测:在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因(自己写或者真的是很多样本可以用WGCNA)
9:将靶基因做GO分析
略
python lncrna_[转载]lncrna分析流程相关推荐
- python加油视频_python分析6625条视频,揭秘“打工人”凭啥刷爆全网!
原标题:python分析6625条视频,揭秘"打工人"凭啥刷爆全网! CDA数据分析师 出品 作者:Mika 数据:真达 后期:Mika [导读] Show me data,用数据 ...
- python lncrna_一种基于序列组成,结构信息及理化特征的lncRNA鉴定方法与流程
本发明属于生物信息领域,尤其涉及lncRNA的鉴定. 背景技术: : 在人类基因组中,有80%的序列具有生物学功能,而编码蛋白质的序列只占基因组的不到 2%.我们将长度大于200碱基,不能编码蛋白质的 ...
- [转载] Python大数据文本分析及应用
参考链接: 使用Python的SQL 3(处理大数据) 实践课题报告: 大数据文本分析与应用 学 校:xxx 学 院:大数据与智能工程学院 专 业:信息工程(数据科学与大数据技术) 年 级:2017级 ...
- Python爬虫:逆向分析某酷音乐请求参数
文章目录 前言 1. 请求分析 2. 获取参数 3. 提取信息 结束语 前言 免责声明: 本篇博文的初衷是分享自己学习逆向分析时的个人感悟,所涉及的内容仅供学习.交流,请勿将其用于非法用途 ...
- 如何用Python进行历史股价分析
如何用Python进行历史股价分析 一. 概述 二. 概念 三. 操作 3.1 统计分析 3.2 股票收益率 3.3 日期分析 3.4 周汇总 3.5 真实波动幅度均值 3.6 简单移动平均线 3.7 ...
- Python --深入浅出Apriori关联分析算法(二) Apriori关联规则实战
上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...
- 生信分析流程构建的几大流派
导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...
- Nature子刊:宏基因组中挖掘原核基因组的分析流程
宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...
- ChIP-seq基本分析流程
前年在中科院做培训时,整理了一套ChIP-seq分析流程,截选实战部分,略作修改,分享出来,希望大家指正. 那次培训内容比较杂,还有关于TCGA.ICGC.ProteinAtlas等数据库的使用, 前 ...
- 宏基因组扩增子最新分析流程QIIME2:官方中文帮助文档
本网对Markdown排版支持较差,对格式不满意的用户请跳转至 或"宏基因组"公众号阅读: 注:文为蓝色字均为文章链接,可点击直达 写在前面 **声明:本文为QIIME2官方帮助文 ...
最新文章
- java笔记 -- java运算
- incon函数图像c语言,[转载]c语言经典题目
- 差速移动机器人之轨迹跟踪
- xilinx c语言编程,使用Xilinx SDSoc在Xilinx zcu102开发板上编程HelloWorld
- php说明代码怎么写,代码怎么写 - 起步 - PHP基础 - KK的小故事
- OpenGL:纹理映射bmp图像
- CString Format 乱码问题
- ECSHOP集成百度ueditor编辑器上传图片到服务器或又拍云(七牛云)
- Java层Binder使用(ServiceManager)
- 顶着“顶流”光环面对舆论质疑,为何威震天向左,玲娜贝儿向右?
- 使用CodeIgniter框架发送QQ邮件
- 垃圾回收之三色标记法
- NORDIC Thing:52 Android App 学习之一:THINGY 52 节点与手机的蓝牙识别、过滤及通信建立
- 云计算是继互联网计算机后在信息时代,你知道啥是“云计算”吗?
- 金多多看盘新周期还在路上
- Jquery方法实现图片放大缩小
- 电子商务网站建设与维护知识点
- 如何在ex表格导入php_phpexcel导入excel数据使用方法实例
- 基于RFID资产管理系统下的车辆位置管理,实时定位,RFID固定资产管理
- bluetoo流程杂
热门文章
- Android 利用canvas画各种图形(点、直线、弧、圆、椭圆、文字、矩形、多边形、曲线、圆角矩形)
- 黑苹果主机z77技嘉wifi主板,
- 使用kvm部署虚拟化服务器,KVM虚拟化(KVM的部署及使用)
- 数据库kettle,datax,DBMigration,RazorSQL几款迁移工具使用感受(以及如何迁移表的结构如主键,索引,约束等)
- Pytorch - masked_fill方法参数详解与使用
- 6 生僻字_教改后注音书还有必要读吗?别纠结,6-8岁注音书我推荐这10套
- 用友系统服务器架构,用友ERP-U总体架构.DOC
- Ubuntu出现Failed to Fetch的解决办法
- turtle画哆啦A梦(不止一个哦 多个有趣的画)
- Thinkphp6快速入门教程