如何利用linux分析转录组数据库,对转录组测序数据进行分析以及注释
随着二代测序技术的高速发展,人们获得了大量的转录组数据序列如何从数据中挖掘具有生物意义的信息已经成为很多研究的关键,对未知基因的功能进行预测和注释就是一个重要问题
这篇文章主要是跟着 刘粉香,杨文国,孙勤红,三位老师的文献对测序数据进行分析以及GO注释,旨在学习测序数据分析的方法以及GO注释的方法
数据来源于NCBI上的SRA数据库 SRR063784
1.原始测序数据下载与质控
#下载数据
~/.aspera/connect/bin/ascp -T -i /home/qiujunhui/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR063/SRR063784/SRR063784.sra ./
#解压
fastq-dump SRR063784.sra
#质控
mkdir fastqc_out
fastqc -o fastqc_out/ --noextract SRR063784.fastq
#用Trimmomatic切除reads的phred值小于20的
java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR063784.fastq SRR063784_clean.fastq LEADING:20 TRAILING:20
TrimmomaticSE: Started with arguments:
-phred33 SRR063784.fastq SRR063784_clean.fastq LEADING:20 TRAILING:20
Automatically using 4 threads
Input Reads: 31028774 Surviving: 26555513 (85.58%) Dropped: 4473261 (14.42%)
TrimmomaticSE: Completed successfully
#可以看到有4473261条reads因为碱基质量过低被舍弃,不做去除接头是因为原始数据没有接头
2.从头拼接
#由于服务器内存太小!!!所以我直接选用最优Kmer值37,原文中是准备了5个
velveth chickpea_37 37 -short -fastq SRR063784_clean.fastq #velveth准备数据
velvetg chickpea_37 -read_trkg yes #velvetg做转录组拼接
#然后再chickpea_37文件夹里面有8个文件,contigs.fa为拼接后的contigs
最后运行oases对Velvet拼接到的contig进行进一步的拼接获得转录本
oases安装与使用见:https://www.plob.org/article/918.html
./oases ~/chickpea_37
运行结束后文件夹chickpea_37中产生两个文件,分别是transcripts.fa和contig-ordering.txt。前者为包含组装得到的transcripts文件,后者记录了每一个transcripts中的contigs组成情况
3.基因注释与功能分类
做到这里我已经连续做了6.5个小时了,可能是因为第一次做吧,对流程不熟悉,软件的安装与使用都要自己摸索。。。头很痛
头痛不是因为做的时间长,而是实验条件有限制,做不了本地blast对转录组数据进行注释,但是放弃又觉得可惜。。。我就接着把后面的教程写下来,等以后有条件再做后续实验
到这一步是要通过比对已知数据库中的同源基因的信息推断未知基因的功能
这里用的软件是NCBI上的blast工具,可以在NCBI上下载,解压
要进行本地Blast搜索,首先需要从NCBI的ftp站点下载并且格式化数据库nr.gz,额大概100G左右(这还是压缩后的大小),所以就。。。。
1.将下载的nr.gz放在目录ncbi-blast-2.2.25+/bin/中,并解压。利用文件夹bin/中的makeblastdb格式化数据库,代码如下
make-blastdb -in nr -dbtype prot -parse_seqids -out nr.db
in (nr)是待格式化的文件
dbype (prot)给出数据库的类型(蛋白质数据库)
-parse_seqids 启动序列ID解析
格式化数据库后,就可以运行Blast将拼接得到的transcipts比对到本地nr数据库 代码如下
blastx -query transcripts.fa -out transcripts.xml -db ~/Biosofts/blast+/bin/nrdb -outfmt 5 -evalue 1.OE -6 -max_target_seqs 10 -num_threads 20
-query 给出输入带比对的数据文件
-out 指定输出文件
-db 指定本地数据库
-outfmt 指定输入数据格式(xml格式)
-evalue 设置输出结果的E-value
-num_threds 使用多线程运算
4.利用Blast2Go进行GO注释
Blast+只是一种预测新基因功能的基本工具,仅通过Blast无法得到新基因的GO注释信息 可以将Blast的输出文件(xml文件)作为Blast2God的输入文件对其进行GO注释。
然而依然需要配置本地数据库(100G!!!)
1.进入Blast2Go主页(http://www.blast2go.com/)下载并安装软件,在Linux下打开Blast2Go运行界面输入代码
Javaws -Xnosplash blast2go*.jnlp
2.选择合适的数据库后,点击start便开始Blast比对
(1)直接输入xml文件
(2)输入序列文件
(3)选择Blast运行方式
(4)Blast设置
3.进行Mapping
4..进行Annotating
这些都是软件的使用方法,慢慢摸索总会的~
如何利用linux分析转录组数据库,对转录组测序数据进行分析以及注释相关推荐
- 悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践
悠星网络基于阿里云分析型数据库PostgreSQL版的数据实践 说到"大数据",当下这个词很火,各行各业涉及到数据的,目前都在提大数据,提数据仓库,数据挖掘或者机器学习,但同时另外 ...
- Python爬虫笔记——分析AJAX传递的JSON获取数据-初步分析动态网页
转载文章链接: Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1) [4]实战:爬取动态网页的两种思路爬取新浪趣图(1) [5]实战:爬取动态网页的两种思路爬取新浪趣图(2) ...
- DEAP:使用生理信号进行情绪分析的数据库(二、实验设计与主观分析)
来源CSDN网友HaZyiCe的授权分享 在此非常感谢HaZyiCe! 本篇文章是关于用于情绪分析的生理信号数据库DEAP简介的第二部分:实验设计与主观分析,用于情绪分析的生理信号数据库DEAP简介内 ...
- Case Study: 利用PHP获取关系型数据库中多张数据表的数据
一.目标 该笔记的目的是引导读者借助WampServer平台和MySQL数据库,利用HTML/CSS/JS/PHP设计一个多数据表关联的网页.在上一个案例(Case Study: 利用JS实现数据库网 ...
- DNA甲基化测序数据的分析流程及相关软件总结
目前检测DNA甲基化的方法众多,主要可以分为以下几类(如表1所示): 图片来源(凡时财等,中国科学: 生命科学,2015) <更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信 ...
- GEO数据库中单细胞测序数据下载
首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号. 用户 ...
- R语言导入单细胞测序数据并分析
我可以建议您使用 Bioconductor 包来导入和分析单细胞测序数据.Bioconductor 是一个开源软件包,专门用于生物信息学中的数据挖掘和分析.它可以与 R 语言紧密集成,可以轻松处理大量 ...
- 读书笔记 1.数据包分析技术与网络基础 Wireshark数据包分析实战 第3版
1.数据包分析技术与网络基础 1.2.1 协议 发起连接 :是由客户端还是服务器发起连接?在真正通信之前必须要交换哪些信息? 协商连接参数 :通信需要进行协议加密吗?加密密钥如何在通信双方进行传输? ...
- SpringBoot2 整合 ClickHouse数据库,实现高性能数据查询分析
本文源码:GitHub·点这里 || GitEE·点这里 一.ClickHouse简介 1.基础简介 Yandex开源的数据分析的数据库,名字叫做ClickHouse,适合流式或批次入库的时序数据.C ...
- 云客Drupal源码分析之数据库Schema及创建数据表
本主题是<云客Drupal源码分析之数据库系统及其使用>的补充,便于查询,所以独立成一个主题 讲解数据库系统如何操作Schema(创建修改数据库.数据表.字段:判断它们的存在性等等),以及 ...
最新文章
- 基于机器视觉的缺陷检测汽车零部件
- java array iterator_java数组遍历——iterator和for方法
- 【杭电多校2020】Fibonacci Sum【斐波拉契通项】【推式子】
- 这也许是你不曾留意过的 Mybatis 细节
- Javascript——声明提升(函数、变量提升)
- JS String 对象 常用方法
- andriod studio在缩小图片_画图教室|有哪些办法可以有效缩小作品集的pdf文件大小?...
- 吊打线段树的超级树状数组
- 机器学习(1)——基础概念
- Android成企业安全主要威胁的十大原因
- 【完整matlab程序】【预测程序】狼群优化算法及BP神经网络
- 变速恒频风电机组的优缺点_变速恒频风电机组控制系统可靠性分析
- access注入及工具使用
- IIS 无法启动:发生意外错误0x8ffe2740 的原因
- 2021.11.17 关于一元二次方程组求根
- [网站] 中国古代名画鉴赏网站
- 电脑连打印机不打印,是怎么回事?
- 【DSP教程】第35章 FIR有限冲击响应滤波器设计
- Excel-VBA 快速上手(二、条件判断和循环)
- python添加背景音乐
热门文章
- Error:Cannot read packageName from AndroidManifest.xml
- python数据分析 - 卡方检验
- 【PHPWord】PHPWord导出PDF格式文件的几种方式以及最优解并附代码
- dedecms织梦 list列表页pagesize数量不对
- html怎么修改像素,PS怎么修改像素又不改变尺寸?
- 程序员为什么多数秃头?看完这15个瞬间,终于懂了
- 小米路由器r2d_小米路由器二代R2D怎样设置无线中继模式
- 可以提高DeepFaceLab(DeepFake)合成最终视频速度的方法
- 北京邮电大学计算机学院2020复试,预览北京邮电大学计算机学院2020研究生复试流程...
- 使用Vim/Neovim编辑二进制文件