1

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析_YoungLeelight的博客-CSDN博客

01-rna-seq从头开始 卖萌哥 Linux生信技能树Linux安装软件 Linux实战RNASEQ上游_YoungLeelight的博客-CSDN博客

1.首先构建项目所需目录,这样比较哦清晰。共分为四个目录,

2.原始数据上传测序数据
或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据

下载公共测序数据的另一种姿势(kingfisher) - 简书

生物信息常见文件的格式以及查看方式 | Public Library of Bioinformatics

高速快速下载基因组ref文件

查看文件下载是否完整

md5值检查文件完整性,因为原始文件 太大,需要检查数据完成性    md5值给每个文件一个独特的id,根据id是否相等来检查文件完整性cd  01raw_data/

 md5sum *gz>md5.txt     #给每个 gz文件都生成md5值,,并且输入到 md5.txt lscat md5.txt          #查看内容md5sum -c md5.txt   #比较文件自带的md5值和自己生成的md5值是否相等。若相等则文件相等。  -c参数,check一下
md5sum --help

查看fastq文件内容

  1. # zcat查看gzip压缩的文件# head -n 8 显示前8行文件内容(前8行代表2条序列)zcat filename.fq.gz | head -n 8

3 查看原始数据的质量情况 质控

conda activate rna
#当前目录下
fastqc S*gz
ls -lhmultiqc ./

fastq.gz为原始的测序数据

fastqc.zip 为fastqc质控时候产生的数据 

似乎质量不行啊

通过前面这些步骤,已经初步判定数据是否合格。如果不合格,那如何修改?或者把不合格的数据扔掉?trimmgalore质控

4 trim_galore去接头(并行处理) - 简书

trimmgalore批量质控  双端数据

2 分离_1和_2文件

(wes) pc@lab-pc:/project/raw_fq$ ls|grep _1.fastq.gz>gz1
(wes) pc@lab-pc:/project/raw_fq$ ls|grep _2.fastq.gz>gz2
(wes) pc@lab-pc:/project/raw_fq$ paste gz1 gz2>config
(wes) pc@lab-pc:/project/raw_fq$ cat config|head

然后写一个脚本 用于 trimmgalore批量质控  双端数据 同时处理两个参数

$一定不要忘记加上 

(rna) tree119 21:48:01 ~/pipeline/download/rnaseq/01_rawdata
$ cat trim.sh
outdir=~/pipeline/download/rnaseq/02cleandata/cat config |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup trim_galore  -q 25 --phred33 --length 36 --stringency 3 --paired  -o $outdir  $fq1 $fq2 &
done

运行即可

bash trim.sh 

结果输入到了outdir文件夹下 (这里指的是02cleandata文件夹)

得到的质控过滤后的文件:

$ ls -lh  *fq.gz|cut -d" " -f 5-

选取运行过程中其中一对结果展示如下

RUN STATISTICS FOR INPUT FILE: SRR11618782_1.fastq.gz
=============================================
343183 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Writing report to '/home/st8/ssd2/tree119/pipeline/download/rnaseq/01_rawdata/outdir/SRR11618782_2.fastq.gz_trimming_report.txt'SUMMARISING RUN PARAMETERS
==========================
Input filename: SRR11618782_2.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.7
Cutadapt version: 1.18
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: 'CTGTCTCTTATA' (Nextera Transposase sequence; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 3 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 36 bp
Output file(s) will be GZIP compressedCutadapt seems to be reasonably up-to-date. Setting -j -j 1
Writing final adapter and quality trimmed output to SRR11618782_2_trimmed.fq.gz>>> Now performing quality (cutoff '-q 25') and adapter trimming in a single pass for the adapter sequence: 'CTGTCTCTTATA' from file SRR11618782_2.fastq.gz <<<
This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618610_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 2.45 s (18 us/read; 3.36 M reads/minute).=== Summary ===Total reads processed:                 137,124
Reads with adapters:                     4,643 (3.4%)
Reads written (passing filters):       137,124 (100.0%)Total basepairs processed:    13,712,400 bp
Quality-trimmed:                 305,580 bp (2.2%)
Total written (filtered):     13,368,511 bp (97.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 4643 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 18.6%C: 33.4%G: 24.8%T: 23.1%none/other: 0.0%Overview of removed sequences
length  count   expect  max.err error counts
3   3150    2142.6  0   3150
4   577 535.6   0   577
5   174 133.9   0   174
6   39  33.5    0   39
7   12  8.4 0   12
8   15  2.1 0   15
9   15  0.5 0   13 2
10  29  0.1 1   13 16
11  3   0.0 1   2 1
12  10  0.0 1   8 2
13  11  0.0 1   11
14  13  0.0 1   11 2
15  16  0.0 1   12 4
16  15  0.0 1   10 5
17  8   0.0 1   6 2
18  6   0.0 1   5 1
19  12  0.0 1   11 1
20  10  0.0 1   6 4
21  12  0.0 1   11 1
22  9   0.0 1   8 1
23  16  0.0 1   13 3
24  8   0.0 1   6 2
25  10  0.0 1   9 1
26  7   0.0 1   6 1
27  16  0.0 1   14 2
28  5   0.0 1   4 1
29  11  0.0 1   9 2
30  26  0.0 1   19 7
31  32  0.0 1   29 3
32  10  0.0 1   9 1
33  22  0.0 1   13 9
34  11  0.0 1   11
35  17  0.0 1   9 8
36  7   0.0 1   3 4
37  3   0.0 1   3
38  20  0.0 1   19 1
39  14  0.0 1   13 1
40  7   0.0 1   4 3
41  22  0.0 1   20 2
42  39  0.0 1   37 2
43  5   0.0 1   4 1
44  15  0.0 1   15
45  7   0.0 1   5 2
46  12  0.0 1   9 3
47  1   0.0 1   0 1
48  8   0.0 1   7 1
49  6   0.0 1   6
50  2   0.0 1   1 1
51  3   0.0 1   3
52  3   0.0 1   0 3
53  5   0.0 1   3 2
54  2   0.0 1   0 2
55  1   0.0 1   1
57  8   0.0 1   5 3
58  8   0.0 1   7 1
59  1   0.0 1   1
60  11  0.0 1   8 3
61  26  0.0 1   24 2
62  5   0.0 1   4 1
63  6   0.0 1   3 3
64  8   0.0 1   7 1
65  1   0.0 1   0 1
67  3   0.0 1   1 2
68  3   0.0 1   3
69  1   0.0 1   0 1
70  1   0.0 1   0 1
72  3   0.0 1   0 3
73  1   0.0 1   0 1
74  3   0.0 1   0 3
77  14  0.0 1   2 12
78  1   0.0 1   1
79  5   0.0 1   0 5
81  5   0.0 1   0 5
84  6   0.0 1   1 5
86  2   0.0 1   0 2
88  2   0.0 1   0 2
90  3   0.0 1   0 3
91  2   0.0 1   1 1
92  2   0.0 1   1 1
93  1   0.0 1   0 1
95  1   0.0 1   0 1
98  1   0.0 1   0 1RUN STATISTICS FOR INPUT FILE: SRR11618610_2.fastq.gz
=============================================
137124 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Validate paired-end files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz
file_1: SRR11618610_1_trimmed.fq.gz, file_2: SRR11618610_2_trimmed.fq.gz>>>>> Now validing the length of the 2 paired-end infiles: SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz <<<<<
Writing validated paired-end Read 1 reads to SRR11618610_1_val_1.fq.gz
Writing validated paired-end Read 2 reads to SRR11618610_2_val_2.fq.gzTotal number of sequences analysed: 137124Number of sequence pairs removed because at least one read was shorter than the length cutoff (36 bp): 2597 (1.89%)Deleting both intermediate output files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz====================================================================================================This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618782_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 4.63 s (13 us/read; 4.44 M reads/minute).=== Summary ===Total reads processed:                 343,183
Reads with adapters:                    31,276 (9.1%)
Reads written (passing filters):       343,183 (100.0%)Total basepairs processed:    34,318,300 bp
Quality-trimmed:               2,815,627 bp (8.2%)
Total written (filtered):     30,713,243 bp (89.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 31276 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 17.2%C: 45.5%G: 19.7%T: 17.6%none/other: 0.0%Overview of removed sequences
length  count   expect  max.err error counts
3   6021    5362.2  0   6021
4   1325    1340.6  0   1325
5   542 335.1   0   542
6   372 83.8    0   372
7   358 20.9    0   358
8   348 5.2 0   348
9   291 1.3 0   283 8
10  386 0.3 1   281 105
11  384 0.1 1   305 79
12  490 0.0 1   387 103
13  388 0.0 1   331 57
14  512 0.0 1   406 106
15  371 0.0 1   323 48
16  392 0.0 1   307 85
17  449 0.0 1   370 79
18  354 0.0 1   272 82
19  517 0.0 1   422 95
20  440 0.0 1   371 69
21  380 0.0 1   294 86
22  310 0.0 1   249 61
23  220 0.0 1   199 21
24  291 0.0 1   255 36
25  604 0.0 1   510 94
26  370 0.0 1   306 64
27  489 0.0 1   411 78
28  314 0.0 1   265 49
29  600 0.0 1   491 109
30  432 0.0 1   382 50
31  1108    0.0 1   954 154
32  361 0.0 1   306 55
33  501 0.0 1   418 83
34  509 0.0 1   421 88
35  548 0.0 1   472 76
36  411 0.0 1   346 65
37  665 0.0 1   507 158
38  1168    0.0 1   1053 115
39  2363    0.0 1   2233 130
40  276 0.0 1   235 41
41  537 0.0 1   506 31
42  278 0.0 1   249 29
43  452 0.0 1   428 24
44  368 0.0 1   344 24
45  60  0.0 1   53 7
46  74  0.0 1   65 9
47  129 0.0 1   122 7
48  225 0.0 1   200 25
49  366 0.0 1   346 20
50  163 0.0 1   146 17
51  43  0.0 1   40 3
52  26  0.0 1   20 6
53  79  0.0 1   63 16
54  14  0.0 1   12 2
55  80  0.0 1   61 19
56  35  0.0 1   22 13
57  152 0.0 1   146 6
58  184 0.0 1   179 5
59  121 0.0 1   114 7
60  242 0.0 1   227 15
61  796 0.0 1   756 40
62  146 0.0 1   134 12
63  64  0.0 1   62 2
64  146 0.0 1   134 12
65  66  0.0 1   59 7
66  20  0.0 1   18 2
67  104 0.0 1   85 19
68  65  0.0 1   58 7
69  16  0.0 1   11 5
70  11  0.0 1   10 1
71  11  0.0 1   9 2
72  19  0.0 1   13 6
73  17  0.0 1   14 3
74  40  0.0 1   27 13
75  21  0.0 1   14 7
76  9   0.0 1   8 1
77  18  0.0 1   15 3
78  13  0.0 1   10 3
79  16  0.0 1   10 6
80  11  0.0 1   9 2
81  9   0.0 1   3 6
82  14  0.0 1   14
83  13  0.0 1   12 1
84  17  0.0 1   15 2
85  33  0.0 1   30 3
86  17  0.0 1   16 1
87  20  0.0 1   20
88  5   0.0 1   5
89  13  0.0 1   13
90  6   0.0 1   5 1
91  7   0.0 1   6 1
92  13  0.0 1   2 11
95  1   0.0 1   0 1
96  1   0.0 1   0 1
97  7   0.0 1   1 6
100 3   0.0 1   0 3

5.比对 align索引文件和质控好的测序数据进行比对

下载参考基因组 下载已经建立好索引的基因组

在全新服务器配置转录组测序数据处理环境

查看下载的基因组是否正确  查看下载内容时候有误

md5sum检查完整性 查看gtf文件是否完整

 md5sum *.gz >md5.txt
cat md5.txt
md5sum -c md5.txt

下载索引文件

Hisat2官网上人类基因组索引的下载 - 简书

wget -c

在全新服务器配置转录组测序数据处理环境

对基因组文件解压缩 去掉gz后缀 

ls *gz |xargs gunzip

RNA-seq(5):序列比对:Hisat2 - 简书

对索引文件解压缩 

$ cd reference/index
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
# 解压得到两个目录,hg19和mm10
$ tar -zxvf *.tar.gz

得到8个索引

基因组注释文件(GFF,GTF)下载的五种方法_白墨石的博客-CSDN博客_基因组注释文件

hg38的gtf文件下载

genecode中参考基因组的名字  更新很快!

新建脚本来运行  制备文件准备工作

489  ls |grep _1.fq.gz490  ls |grep _1.fq.gz >gz1491  ls |grep _2.fq.gz >gz2492  paste gz1 gz2 >file_for_align493  cat file_for_align

新建脚本来运行  失败

vim align.shcat file_for_align |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup sh -c " hisat2 -p 2 -x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome  -1 ${fq1} -2 ${fq2}  2>${id%%_*}.log  | samtools sort -@ 2 -o ${id%%_*}.bam  " & done

 联合多人的代码之后,成功!

ls |grep  .fq.gz|cut -d "_" -f 1|
while read id; do nohup sh -c " hisat2 -p 2
-x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome
-1 ${id}_1_val_1.fq.gz  -2 ${id}_1_val_1.fq.gz 2>${id%%_*}.log  |
samtools sort -@ 2 -o ${id%%_*}.bam  " & done

RNA-seq(5):序列比对:Hisat2 - 简书 别人的代码

#启动miniconda3环境(hisat2所在的环境)
$ source ~/miniconda3/bin/activate
#进入data目录
$cd /mnt/f/rna_seq/aligned
(base) kelly@DESKTOP-MRA1M1F:/mnt/f/rna_seq/aligned$# 小鼠和人是分开各自比对自己的index
# 人的比对
$ for ((i=56;i<=58;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/hg19/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam ;done
# 小鼠比对
$ for ((i=59;i<=62;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/mm10/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam; done
#结果一共得到7个sam文件

genome指的是这里的genome.x.ht2的basename 

4.定量 featurecounts

featurecounts的使用说明 - 简书

gtf=~/pipeline/download/rnaseq/00ref/genom_file/gencode.v41.annotation.gtfnohup featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *bam  1>counts.id.log 2>&1 &

reads计数原理及featureCounts统计counts后的cpm和tpm计算 - 简书

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容相关推荐

  1. Linux内核--网络栈实现分析(二)--数据包的传递过程--转

    转载地址http://blog.csdn.net/yming0221/article/details/7492423 作者:闫明 本文分析基于Linux Kernel 1.2.13 注:标题中的&qu ...

  2. linux安装软件的几种方法

    一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...

  3. dpkg安装软件流程_详解linux安装软件的几种方法

    一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...

  4. Linux安装软件时缺少依赖包的简单较完美解决方法!

    Linux安装软件时缺少依赖包的简单较完美解决方法! 参考文章: (1)Linux安装软件时缺少依赖包的简单较完美解决方法! (2)https://www.cnblogs.com/xiaommvik/ ...

  5. kail linux安装软件提示“无法定位软件包”解决方法

    kail linux安装软件提示"无法定位软件包"解决方法 参考文章: (1)kail linux安装软件提示"无法定位软件包"解决方法 (2)https:// ...

  6. linux安装软件时/usr/lib/python2.7/site-packages/urlgrabber/grabber.py文件异常

    linux安装软件时,经常出现以下异常信息 Traceback (most recent call last):File "/usr/libexec/urlgrabber-ext-down& ...

  7. linux系统安装软件报错,Linux安装软件时报错解决方法

    提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示: E: Could not ...

  8. Linux系统安装时报错,Linux安装软件时报错解决方法

    提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示:E: Could not ...

  9. linux安装软件时Stuck at 0% [waiting for headers]错误

    linux安装软件时出现Stuck at 0% [waiting for headers]错误,网络能正常链接但是无法下载. 解决方案: 在终端里输入如下命令 sudo apt-get clean 之 ...

最新文章

  1. 模仿Hibernate的逆向工程_java版_源码下载
  2. matlab最大化函数,求助,最大化一个函数
  3. MongoDB修改删除数据
  4. 使用pipeline的函数
  5. 第一个OpenGL程序
  6. 湖湘杯 | Misc Wp
  7. C#窗体控件-按钮控件Button
  8. python模块管理工具,Python的包管理工具
  9. spring data jpa 的 in 查询 Specification 实现
  10. html写界面,C++|Qt后台处理业务(后台登录例子JavaScript给Qt提供数据)
  11. PHP中MySQL、MySQLi和PDO的用法和区别
  12. 辗转相除法(欧几里得算法)求解最大公约数、最小公倍数
  13. 228 Summary Ranges 汇总区间
  14. 用treeview遍历文件夹(vb)
  15. logistic regression_【科研加油站】SPSS操作之有序Logistic回归的详细教程
  16. win10系统如何解除端口占用
  17. GCC和C99标准中inline
  18. 【C语言进阶】C语言实现通讯录(简易版)
  19. K线技术指标实现详解—ENE
  20. 干货!基于语义生成概率的无监督常识问答方法——清华CoAI小组牛艺霖

热门文章

  1. 2018年全国多校算法寒假训练营练习比赛(第二场) F.德玛西亚万岁(状压动归)
  2. 常用排序算法复杂度分析
  3. 运营亚马逊店铺的前期准备
  4. while my guitar gently weeps
  5. Hibernate基础(by cju)
  6. 怎么调整Word中编号和文字中间的空格距离?
  7. 用Python制作一个颜值打分器,看看你女盆友们颜值多少分
  8. 阅读笔记 PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
  9. 罕见类加载冲突问题:LinkageError
  10. Win10 2004版如何删除小娜Cortana