第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析_YoungLeelight的博客-CSDN博客

01-rna-seq从头开始卖萌哥 Linux生信技能树Linux安装软件 Linux实战RNASEQ上游_YoungLeelight的博客-CSDN博客

1.首先构建项目所需目录，这样比较哦清晰。共分为四个目录，

2.原始数据上传测序数据
或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据

下载公共测序数据的另一种姿势（kingfisher） - 简书

生物信息常见文件的格式以及查看方式 | Public Library of Bioinformatics

高速快速下载基因组ref文件

查看文件下载是否完整

md5值检查文件完整性，因为原始文件太大，需要检查数据完成性 md5值给每个文件一个独特的id，根据id是否相等来检查文件完整性cd 01raw_data/

 md5sum *gz>md5.txt     #给每个 gz文件都生成md5值，，并且输入到 md5.txt lscat md5.txt          #查看内容md5sum -c md5.txt   #比较文件自带的md5值和自己生成的md5值是否相等。若相等则文件相等。  -c参数，check一下
md5sum --help

查看fastq文件内容

# zcat查看gzip压缩的文件# head -n 8 显示前8行文件内容（前8行代表2条序列）zcat filename.fq.gz | head -n 8

3 查看原始数据的质量情况质控

conda activate rna
#当前目录下
fastqc S*gz
ls -lhmultiqc ./

fastq.gz为原始的测序数据

fastqc.zip 为fastqc质控时候产生的数据

似乎质量不行啊

通过前面这些步骤，已经初步判定数据是否合格。如果不合格，那如何修改？或者把不合格的数据扔掉？trimmgalore质控

4 trim_galore去接头(并行处理) - 简书

trimmgalore批量质控双端数据

2 分离_1和_2文件

(wes) pc@lab-pc:/project/raw_fq$ ls|grep _1.fastq.gz>gz1
(wes) pc@lab-pc:/project/raw_fq$ ls|grep _2.fastq.gz>gz2
(wes) pc@lab-pc:/project/raw_fq$ paste gz1 gz2>config
(wes) pc@lab-pc:/project/raw_fq$ cat config|head

然后写一个脚本用于 trimmgalore批量质控双端数据同时处理两个参数

$一定不要忘记加上

(rna) tree119 21:48:01 ~/pipeline/download/rnaseq/01_rawdata
$ cat trim.sh
outdir=~/pipeline/download/rnaseq/02cleandata/cat config |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup trim_galore  -q 25 --phred33 --length 36 --stringency 3 --paired  -o $outdir  $fq1 $fq2 &
done

运行即可

bash trim.sh

结果输入到了outdir文件夹下（这里指的是02cleandata文件夹）

得到的质控过滤后的文件：

$ ls -lh  *fq.gz|cut -d" " -f 5-

选取运行过程中其中一对结果展示如下

RUN STATISTICS FOR INPUT FILE: SRR11618782_1.fastq.gz
=============================================
343183 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Writing report to '/home/st8/ssd2/tree119/pipeline/download/rnaseq/01_rawdata/outdir/SRR11618782_2.fastq.gz_trimming_report.txt'SUMMARISING RUN PARAMETERS
==========================
Input filename: SRR11618782_2.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.7
Cutadapt version: 1.18
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: 'CTGTCTCTTATA' (Nextera Transposase sequence; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 3 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 36 bp
Output file(s) will be GZIP compressedCutadapt seems to be reasonably up-to-date. Setting -j -j 1
Writing final adapter and quality trimmed output to SRR11618782_2_trimmed.fq.gz>>> Now performing quality (cutoff '-q 25') and adapter trimming in a single pass for the adapter sequence: 'CTGTCTCTTATA' from file SRR11618782_2.fastq.gz <<<
This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618610_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 2.45 s (18 us/read; 3.36 M reads/minute).=== Summary ===Total reads processed:                 137,124
Reads with adapters:                     4,643 (3.4%)
Reads written (passing filters):       137,124 (100.0%)Total basepairs processed:    13,712,400 bp
Quality-trimmed:                 305,580 bp (2.2%)
Total written (filtered):     13,368,511 bp (97.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 4643 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 18.6%C: 33.4%G: 24.8%T: 23.1%none/other: 0.0%Overview of removed sequences
length  count   expect  max.err error counts
3   3150    2142.6  0   3150
4   577 535.6   0   577
5   174 133.9   0   174
6   39  33.5    0   39
7   12  8.4 0   12
8   15  2.1 0   15
9   15  0.5 0   13 2
10  29  0.1 1   13 16
11  3   0.0 1   2 1
12  10  0.0 1   8 2
13  11  0.0 1   11
14  13  0.0 1   11 2
15  16  0.0 1   12 4
16  15  0.0 1   10 5
17  8   0.0 1   6 2
18  6   0.0 1   5 1
19  12  0.0 1   11 1
20  10  0.0 1   6 4
21  12  0.0 1   11 1
22  9   0.0 1   8 1
23  16  0.0 1   13 3
24  8   0.0 1   6 2
25  10  0.0 1   9 1
26  7   0.0 1   6 1
27  16  0.0 1   14 2
28  5   0.0 1   4 1
29  11  0.0 1   9 2
30  26  0.0 1   19 7
31  32  0.0 1   29 3
32  10  0.0 1   9 1
33  22  0.0 1   13 9
34  11  0.0 1   11
35  17  0.0 1   9 8
36  7   0.0 1   3 4
37  3   0.0 1   3
38  20  0.0 1   19 1
39  14  0.0 1   13 1
40  7   0.0 1   4 3
41  22  0.0 1   20 2
42  39  0.0 1   37 2
43  5   0.0 1   4 1
44  15  0.0 1   15
45  7   0.0 1   5 2
46  12  0.0 1   9 3
47  1   0.0 1   0 1
48  8   0.0 1   7 1
49  6   0.0 1   6
50  2   0.0 1   1 1
51  3   0.0 1   3
52  3   0.0 1   0 3
53  5   0.0 1   3 2
54  2   0.0 1   0 2
55  1   0.0 1   1
57  8   0.0 1   5 3
58  8   0.0 1   7 1
59  1   0.0 1   1
60  11  0.0 1   8 3
61  26  0.0 1   24 2
62  5   0.0 1   4 1
63  6   0.0 1   3 3
64  8   0.0 1   7 1
65  1   0.0 1   0 1
67  3   0.0 1   1 2
68  3   0.0 1   3
69  1   0.0 1   0 1
70  1   0.0 1   0 1
72  3   0.0 1   0 3
73  1   0.0 1   0 1
74  3   0.0 1   0 3
77  14  0.0 1   2 12
78  1   0.0 1   1
79  5   0.0 1   0 5
81  5   0.0 1   0 5
84  6   0.0 1   1 5
86  2   0.0 1   0 2
88  2   0.0 1   0 2
90  3   0.0 1   0 3
91  2   0.0 1   1 1
92  2   0.0 1   1 1
93  1   0.0 1   0 1
95  1   0.0 1   0 1
98  1   0.0 1   0 1RUN STATISTICS FOR INPUT FILE: SRR11618610_2.fastq.gz
=============================================
137124 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Validate paired-end files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz
file_1: SRR11618610_1_trimmed.fq.gz, file_2: SRR11618610_2_trimmed.fq.gz>>>>> Now validing the length of the 2 paired-end infiles: SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz <<<<<
Writing validated paired-end Read 1 reads to SRR11618610_1_val_1.fq.gz
Writing validated paired-end Read 2 reads to SRR11618610_2_val_2.fq.gzTotal number of sequences analysed: 137124Number of sequence pairs removed because at least one read was shorter than the length cutoff (36 bp): 2597 (1.89%)Deleting both intermediate output files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz====================================================================================================This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618782_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 4.63 s (13 us/read; 4.44 M reads/minute).=== Summary ===Total reads processed:                 343,183
Reads with adapters:                    31,276 (9.1%)
Reads written (passing filters):       343,183 (100.0%)Total basepairs processed:    34,318,300 bp
Quality-trimmed:               2,815,627 bp (8.2%)
Total written (filtered):     30,713,243 bp (89.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 31276 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 17.2%C: 45.5%G: 19.7%T: 17.6%none/other: 0.0%Overview of removed sequences
length  count   expect  max.err error counts
3   6021    5362.2  0   6021
4   1325    1340.6  0   1325
5   542 335.1   0   542
6   372 83.8    0   372
7   358 20.9    0   358
8   348 5.2 0   348
9   291 1.3 0   283 8
10  386 0.3 1   281 105
11  384 0.1 1   305 79
12  490 0.0 1   387 103
13  388 0.0 1   331 57
14  512 0.0 1   406 106
15  371 0.0 1   323 48
16  392 0.0 1   307 85
17  449 0.0 1   370 79
18  354 0.0 1   272 82
19  517 0.0 1   422 95
20  440 0.0 1   371 69
21  380 0.0 1   294 86
22  310 0.0 1   249 61
23  220 0.0 1   199 21
24  291 0.0 1   255 36
25  604 0.0 1   510 94
26  370 0.0 1   306 64
27  489 0.0 1   411 78
28  314 0.0 1   265 49
29  600 0.0 1   491 109
30  432 0.0 1   382 50
31  1108    0.0 1   954 154
32  361 0.0 1   306 55
33  501 0.0 1   418 83
34  509 0.0 1   421 88
35  548 0.0 1   472 76
36  411 0.0 1   346 65
37  665 0.0 1   507 158
38  1168    0.0 1   1053 115
39  2363    0.0 1   2233 130
40  276 0.0 1   235 41
41  537 0.0 1   506 31
42  278 0.0 1   249 29
43  452 0.0 1   428 24
44  368 0.0 1   344 24
45  60  0.0 1   53 7
46  74  0.0 1   65 9
47  129 0.0 1   122 7
48  225 0.0 1   200 25
49  366 0.0 1   346 20
50  163 0.0 1   146 17
51  43  0.0 1   40 3
52  26  0.0 1   20 6
53  79  0.0 1   63 16
54  14  0.0 1   12 2
55  80  0.0 1   61 19
56  35  0.0 1   22 13
57  152 0.0 1   146 6
58  184 0.0 1   179 5
59  121 0.0 1   114 7
60  242 0.0 1   227 15
61  796 0.0 1   756 40
62  146 0.0 1   134 12
63  64  0.0 1   62 2
64  146 0.0 1   134 12
65  66  0.0 1   59 7
66  20  0.0 1   18 2
67  104 0.0 1   85 19
68  65  0.0 1   58 7
69  16  0.0 1   11 5
70  11  0.0 1   10 1
71  11  0.0 1   9 2
72  19  0.0 1   13 6
73  17  0.0 1   14 3
74  40  0.0 1   27 13
75  21  0.0 1   14 7
76  9   0.0 1   8 1
77  18  0.0 1   15 3
78  13  0.0 1   10 3
79  16  0.0 1   10 6
80  11  0.0 1   9 2
81  9   0.0 1   3 6
82  14  0.0 1   14
83  13  0.0 1   12 1
84  17  0.0 1   15 2
85  33  0.0 1   30 3
86  17  0.0 1   16 1
87  20  0.0 1   20
88  5   0.0 1   5
89  13  0.0 1   13
90  6   0.0 1   5 1
91  7   0.0 1   6 1
92  13  0.0 1   2 11
95  1   0.0 1   0 1
96  1   0.0 1   0 1
97  7   0.0 1   1 6
100 3   0.0 1   0 3

5.比对 align索引文件和质控好的测序数据进行比对

下载参考基因组下载已经建立好索引的基因组

在全新服务器配置转录组测序数据处理环境

查看下载的基因组是否正确查看下载内容时候有误

md5sum检查完整性查看gtf文件是否完整

 md5sum *.gz >md5.txt
cat md5.txt
md5sum -c md5.txt

下载索引文件

Hisat2官网上人类基因组索引的下载 - 简书

wget -c

在全新服务器配置转录组测序数据处理环境

对基因组文件解压缩去掉gz后缀

ls *gz |xargs gunzip

RNA-seq(5):序列比对：Hisat2 - 简书

对索引文件解压缩

$ cd reference/index
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
# 解压得到两个目录，hg19和mm10
$ tar -zxvf *.tar.gz

得到8个索引

基因组注释文件(GFF,GTF)下载的五种方法_白墨石的博客-CSDN博客_基因组注释文件

hg38的gtf文件下载

genecode中参考基因组的名字更新很快！

新建脚本来运行 制备文件准备工作

489  ls |grep _1.fq.gz490  ls |grep _1.fq.gz >gz1491  ls |grep _2.fq.gz >gz2492  paste gz1 gz2 >file_for_align493  cat file_for_align

新建脚本来运行失败

vim align.shcat file_for_align |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup sh -c " hisat2 -p 2 -x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome  -1 ${fq1} -2 ${fq2}  2>${id%%_*}.log  | samtools sort -@ 2 -o ${id%%_*}.bam  " & done

联合多人的代码之后，成功！

ls |grep  .fq.gz|cut -d "_" -f 1|
while read id; do nohup sh -c " hisat2 -p 2
-x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome
-1 ${id}_1_val_1.fq.gz  -2 ${id}_1_val_1.fq.gz 2>${id%%_*}.log  |
samtools sort -@ 2 -o ${id%%_*}.bam  " & done

RNA-seq(5):序列比对：Hisat2 - 简书别人的代码

#启动miniconda3环境（hisat2所在的环境）
$ source ~/miniconda3/bin/activate
#进入data目录
$cd /mnt/f/rna_seq/aligned
(base) kelly@DESKTOP-MRA1M1F:/mnt/f/rna_seq/aligned$# 小鼠和人是分开各自比对自己的index
# 人的比对
$ for ((i=56;i<=58;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/hg19/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam ;done
# 小鼠比对
$ for ((i=59;i<=62;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/mm10/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam; done
#结果一共得到7个sam文件

genome指的是这里的genome.x.ht2的basename

4.定量 featurecounts

featurecounts的使用说明 - 简书

gtf=~/pipeline/download/rnaseq/00ref/genom_file/gencode.v41.annotation.gtfnohup featureCounts -T 5 -p -t exon -g gene_id  -a $gtf -o  all.id.txt  *bam  1>counts.id.log 2>&1 &

reads计数原理及featureCounts统计counts后的cpm和tpm计算 - 简书

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容相关推荐

Linux内核--网络栈实现分析（二）--数据包的传递过程--转
转载地址http://blog.csdn.net/yming0221/article/details/7492423 作者:闫明本文分析基于Linux Kernel 1.2.13 注:标题中的&qu ...
linux安装软件的几种方法
一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...
dpkg安装软件流程_详解linux安装软件的几种方法
一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...
Linux安装软件时缺少依赖包的简单较完美解决方法!
Linux安装软件时缺少依赖包的简单较完美解决方法! 参考文章: (1)Linux安装软件时缺少依赖包的简单较完美解决方法! (2)https://www.cnblogs.com/xiaommvik/ ...
kail linux安装软件提示“无法定位软件包”解决方法
kail linux安装软件提示"无法定位软件包"解决方法参考文章: (1)kail linux安装软件提示"无法定位软件包"解决方法 (2)https:// ...
linux安装软件时/usr/lib/python2.7/site-packages/urlgrabber/grabber.py文件异常
linux安装软件时,经常出现以下异常信息 Traceback (most recent call last):File "/usr/libexec/urlgrabber-ext-down& ...
linux系统安装软件报错,Linux安装软件时报错解决方法
提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示: E: Could not ...
Linux系统安装时报错,Linux安装软件时报错解决方法
提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示:E: Could not ...
linux安装软件时Stuck at 0% [waiting for headers]错误
linux安装软件时出现Stuck at 0% [waiting for headers]错误,网络能正常链接但是无法下载. 解决方案: 在终端里输入如下命令 sudo apt-get clean 之 ...

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容

1.首先构建项目所需目录，这样比较哦清晰。共分为四个目录，

2.原始数据上传测序数据
或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据

查看fastq文件内容

3 查看原始数据的质量情况质控

通过前面这些步骤，已经初步判定数据是否合格。如果不合格，那如何修改？或者把不合格的数据扔掉？trimmgalore质控

4 trim_galore去接头(并行处理) - 简书

trimmgalore批量质控双端数据

2 分离_1和_2文件

然后写一个脚本用于 trimmgalore批量质控双端数据同时处理两个参数

结果输入到了outdir文件夹下（这里指的是02cleandata文件夹）

选取运行过程中其中一对结果展示如下

5.比对 align索引文件和质控好的测序数据进行比对

md5sum检查完整性查看gtf文件是否完整

下载索引文件

对基因组文件解压缩去掉gz后缀

对索引文件解压缩

新建脚本来运行失败

联合多人的代码之后，成功！

genome指的是这里的genome.x.ht2的basename

4.定量 featurecounts

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容相关推荐

最新文章

热门文章

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容

1.首先构建项目所需目录，这样比较哦清晰。共分为四个目录，

2.原始数据上传测序数据 或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据

查看fastq文件内容

3 查看原始数据的质量情况 质控

通过前面这些步骤，已经初步判定数据是否合格。如果不合格，那如何修改？或者把不合格的数据扔掉？trimmgalore质控

4 trim_galore去接头(并行处理) - 简书

trimmgalore批量质控 双端数据

2 分离_1和_2文件

然后写一个脚本 用于 trimmgalore批量质控 双端数据 同时处理两个参数

结果输入到了outdir文件夹下 （这里指的是02cleandata文件夹）

选取运行过程中其中一对结果展示如下

5.比对 align索引文件和质控好的测序数据进行比对

md5sum检查完整性 查看gtf文件是否完整

下载索引文件

对基因组文件解压缩 去掉gz后缀

对索引文件解压缩

新建脚本来运行 失败

联合多人的代码之后，成功！

genome指的是这里的genome.x.ht2的basename

4.定量 featurecounts

第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容相关推荐

最新文章

热门文章

2.原始数据上传测序数据
或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据

3 查看原始数据的质量情况质控

trimmgalore批量质控双端数据

然后写一个脚本用于 trimmgalore批量质控双端数据同时处理两个参数

结果输入到了outdir文件夹下（这里指的是02cleandata文件夹）

md5sum检查完整性查看gtf文件是否完整

对基因组文件解压缩去掉gz后缀

新建脚本来运行失败