上篇文章主要讲述了转录组测序的上传与检测完整性,今天的内容是如何远程连接服务器并且查看测序文件的结构。

补充上篇文章

一般做转录组测序都会做三个生物学重复。因为大多数老师都会让学生做重复,就忘记提了。但是为了文章能够完全面对零基础的读者们,还是补充一下比较好。

另外服务器IP的话,我实验室的服务器连接在路由器上,因此我直接查看路由器的设置,看看IP是啥。不知道自己服务器的IP的话,问下实验室管理服务器的人是谁就知道了。

RNA-seq分析流程

转录组测序数据的结构

当成功上传服务器之后,就需要远程连接服务器上进行后续的操作。远程连接的软件有很多,我个人用的远程连接软件是MobaXterm(https://mobaxterm.mobatek.net/download.html。官方的网站,下载免费版安装即可。我就一直用的免费版的),因此这个软件可以在操作命令行的同时查看当前目录的文件。如下图:

这个是软件。

连接方式:

点击右上角菜单栏下面第一个Session,选择SSH。

Remote host:输入服务器IP。

Specify username :输入你的账号名。我的就输入hsq。

点击下面的OK。

然后出现下面界面(我的账号已经记住了密码,直接会进入命令行,下面的账号名叫qmh),让你输入密码。输入时界面是不会显示任何字符(防止他人看到),正常输入即可,回车就进入命令行模式。成功连接服务器。

转录组测序数据查看

首先服务器都是linux系统,跟平时用的windows电脑不一样,切换文件夹不能使用鼠标。Linux切换命令行是cd。下图是我的主界面:

我的转录组测序在zhanshi这个文件夹中,我就输入cd zhanshi/。(cd后面是有个空格)

回车就进入zhanshi这个文件夹中,想回到上一级目录,就输入cd ..  (两个点)。

更多关于相关的cd命令,百度一看就懂。

(小技巧:如果当前目录只有一个zhan开头的文件夹,输入cd zhan时直接按下TAB键,会自动补全。若只有仅一个z开头的,输入cd z时直接按下TAB键即可)

测序数据主要是fq.gz的压缩文件。在Linux下,我一般查看文件的方式是cat 文件名|less -S(cat与less后各有一个空格),然后方向键上下左右看文件。如果想返回命令行,就按下q。而压缩文件一般使用zcat。比如我想查看s1_1.clean.fq.gz这个文件,就输入zcat s1_1.clean.fq.gz |less -S

就会显示下图。

测序文件中以4行文本作为一个reads的信息。

第一行:表示reads的ID名。

第二行:reads的序列,即(ATGC)。

第三行:+号(一般不管)。

第四行:reads的碱基质量。

我只关注第二行与第四行(一个碱基对应一个质量值,因此第二行与第四行的字母数完全相等)。

第二行是测序的碱基,这个没什么说的,是啥就是啥。

第四行是测序碱基的质量(即这个碱基测序准不准),用ACSII码表示。

关于第四行的碱基质量转换有点复杂。我只做简单说明,如果一个碱基出错的概率是0.001,那对应的Q值Q=-10log10(0.001)=30,如果测序质量值的体系是phred33,那在第四行的字母就是(30+33)对应的ACSII码为“?”。如果一个碱基出错的概率是0.01,Q值就是20,第四行的字母就是(20+33)对应的ACSII码为“5”。

目前高通量测序reads质量值有phred33体系和phred64体系(不同的测序公司不用的体系,大部分都是phred33),如何查看哪种体系使用如下命令。

zcat s1_1.clean.fq.gz | head -1000 | awk '{if(NR%4==0) printf("%s",$0);}' |  od -A n -t u1 | awk 'BEGIN{min=100;max=0;}{for(i=1;i<=nf;i++) i="">max) max=$i; if($i<min) min=$i;}}END{if(max<=74 && min<59) print="" else="" max="">73 && min>=64) print "Phred+64"; else if(min>=59 && min<64 max="">73) print "Solexa+64"; else print "Unknown score encoding!";}'

第三行显示是phred33体系。我目前见过的测序数据中(DNA重测序,转录组测序,甲基化测序)全部都是phred33体系。

关于介绍这个phred33体系的目的是:后续去除碱基时,软件需要选择是phred33还是phred64,所以就简单介绍下并且分享检测体系的代码。

一些题外话

首先关于下载软件与代码分享,一些官网的软件我仅仅放网站,大家稍微看下就能够下载,安装时不要不要不要选择C盘(只有R语言的软件我会安装在C盘),剩下的就是下一步下一步就可安装。一些不好下载的软件我会分享给大家。

我自己用的代码会直接放在文章中,大家都可以直接使用。关于学习代码部分来说,今天用的zcat s1_1.clean.fq.gz |less -S这个命令来说,我只简单介绍了一下zcat,但是后面的竖线与less -S我并没有介绍(|:管道操作符,可以将|前的内容直接输入后less中,而less -S表示将内容进行单行展示,如果输入less -SN会同时展示行数),可以直接输入zcat s1_1.clean.fq.gz,看看会怎么样(屏幕会不断刷新内容,这时按Ctrl+C 就会终止)。以后如果没有介绍|与less -S这种类似的代码含义,大家可以直接百度查看。而我会展示我自己的习惯(我查看文件一般都是用cat 文本名|less -S  或者 zcat 文本名|less -S)。因为我也不可能把所有的命令参数介绍完,只介绍我个人的习惯就可以了。

本节先介绍到这里,下节会介绍如何安装生物数据分析的软件以及fastqc软件检测测序文件。fastqc检测测序文件本节并没有介绍,因为忘了还需要告诉你们如何安装软件。

真核有参转录组测序标准分析-2相关推荐

  1. 非链特异性转录组测序

    非链特异性转录组测序 转录组(transcriptome)在广义上是指细胞内全部转录产物的集合,狭义上是指细胞中所有转录本(mRNA)的集合.转录组测序通常来说是指依托于高通量测序平台对细胞中的mRN ...

  2. 分析方法升级三代测序辅助,优化无参转录组测序策略

    分析方法升级&三代测序辅助,优化无参转录组测序策略 无参转录组拼接升级 Corset 让"基因"概念更准确 在无参转录组项目中,利用主流软件 Trinity 进行 De n ...

  3. 转录组测序技术和结果解读(二)——文库构建和测序策略

    文库构建 转录组测序文库是以样本的Total RNA为基础,从中提取mRNA构建测序文库,因此文库构建包括mRNA富集和碎片化.mRNA反转录.接头添加和PCR富集等过程. 文库构建流程 mRNA富集 ...

  4. 易基因 | 学科前沿:转录组测序在原核生物研究中的应用(2)|文献科普

    易点评 最近有研究表明,在多细胞真核生物的发育转录本中存在着系统发育和个体发育的相关性.同时,人们逐渐认识到多细胞行为是细菌生物膜形成的基础.然而,目前还不清楚细菌生物膜的生长是否与复杂真核生物的发育 ...

  5. 2020.8.26丨全长转录组测序产品概述

    知识点梳理 全长转录组 测序发展史 测序原理 Sanger测序:毛细管电泳测序 illumina测序:制备文库.桥式PCR.可逆终止边合成边测序 SMRT测序:边合成边测序 二代拼接与组装 二代测序: ...

  6. 凌恩生物美文分享|转录组研究利器——三代全长转录组测序(Iso-Seq)

    近年来,随着高通量测序技术的发展,转录组测序已经成为研究基因表达调控的主要手段.我们知道,很多物种的转录本非常多样和复杂,绝大多数真核生物基因不符合"一基因一转录本"的模式,这些基 ...

  7. 二代三代转录组测序分析实战班

    本文原创"生信宝典"公众号,作者陈同. 转录组大家都很熟悉了,我们之前也有几篇介绍: 转录组分析的正确姿势 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版) ...

  8. 全长转录组测序在植物中的应用研究进展 赵陆滟,曹绍玉,龙云树,张应华,许俊强

    基因组和转录组测序是生命科学领域的基础 性工作[1].高通量测序技术正向着高通量.低成本.长读取长度的方向发展.一代[2-3] .二代[4-7]测序技术,加快了高通量测序时代的到来,也从单个基因位点的 ...

  9. 转录组测序和RNA-seq

    转录组测序和RNA-seq是一样的,他们的关系zhi如下: 转录组测序的方法很多,而RNA-seq是当zhuan前转录组测序的一种测序方法,又称为二代测序,包括454,solexa等. RNA-seq ...

  10. RNA-seq最新利器——全长转录组测序

    RNA-seq最新利器--全长转录组测序 1.三代测序技术PacBio SMRT Sequencing 2005年以来,转录组测序和研究的主流是基于NGS,即所谓的二代测序技术,虽然二代测序技术极大地 ...

最新文章

  1. i.MX6UL: i.MX 6UltraLite处理器 - 低功耗,安全,Arm® Cortex®-A7内核
  2. 那个14岁上大学、17岁读博、24岁成教授的天才神童,如今怎样了?
  3. 【译】function.caller 被认为是有害的
  4. CISCO 2511终端服务器配置
  5. 实现一个包含Microsoft.Advertising和SmartMad广告控件的UserControl
  6. HTML/CSS[收藏]
  7. synchronized同步方法概述
  8. 14产品经理要懂的-人性的目的性
  9. 如何利用 AVFoundation 设计一个通用稳定的音视频框架?
  10. 主成分分析法怎么提取图片中的字_视频图像的MATLAB处理(2)两种主成分分析方法...
  11. 动态水晶报表:任意表,任意列 之 动态格线实现
  12. 1分钟获取上千ID,暴力破解、端口扫描、拖库攻击如何防范
  13. imx6 android 最新,【iMX6Q-Android6.0】---移植 iMX6Q android6.0 源码 史上最详细
  14. pyinstaller包含html文件,pyinstaller打包exe
  15. 如何找到能商用的背景纯音乐
  16. PC微信机器人之实战分析微信图片加密解密
  17. android源码大放送啦(实战开发必备)
  18. Debian11 更换软件源
  19. c语言while根据近似公式求,c语言用π=1-1/3+1/5-1/7+.公式求π的近似值,直到最后一项的绝对值小于10^-6为止...
  20. ios:在XCode下混合编译C++/Objective-C

热门文章

  1. 需求变更对软件质量的影响
  2. 土木学matlab还是python_五行属土的字大全
  3. Oracle中表pagesize,Oracle使用pagesize命令
  4. Uni-app 小程序 App 的广告变现之路:Banner 信息流广告
  5. 计算机处理器显卡,怎么看处理器cpu和显卡
  6. H750/H755 安装centos系统
  7. Excel--indirect函数(间接引用)
  8. 企业直播带货如何做?第一步就是选直播平台
  9. python清空文本框内容_js清空文本框
  10. Shopee虾皮电商平台考试题附答案