第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容
1
第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析_YoungLeelight的博客-CSDN博客
01-rna-seq从头开始 卖萌哥 Linux生信技能树Linux安装软件 Linux实战RNASEQ上游_YoungLeelight的博客-CSDN博客
1.首先构建项目所需目录,这样比较哦清晰。共分为四个目录,
2.原始数据上传测序数据
或者自己通过kingfisher下载sra原始数据或者 fastq.gz数据
下载公共测序数据的另一种姿势(kingfisher) - 简书
生物信息常见文件的格式以及查看方式 | Public Library of Bioinformatics
高速快速下载基因组ref文件
查看文件下载是否完整
md5值检查文件完整性,因为原始文件 太大,需要检查数据完成性 md5值给每个文件一个独特的id,根据id是否相等来检查文件完整性cd 01raw_data/
md5sum *gz>md5.txt #给每个 gz文件都生成md5值,,并且输入到 md5.txt lscat md5.txt #查看内容md5sum -c md5.txt #比较文件自带的md5值和自己生成的md5值是否相等。若相等则文件相等。 -c参数,check一下
md5sum --help
查看fastq文件内容
# zcat查看gzip压缩的文件# head -n 8 显示前8行文件内容(前8行代表2条序列)zcat filename.fq.gz | head -n 8
3 查看原始数据的质量情况 质控
conda activate rna
#当前目录下
fastqc S*gz
ls -lhmultiqc ./
fastq.gz为原始的测序数据
fastqc.zip 为fastqc质控时候产生的数据
似乎质量不行啊
通过前面这些步骤,已经初步判定数据是否合格。如果不合格,那如何修改?或者把不合格的数据扔掉?trimmgalore质控
4 trim_galore去接头(并行处理) - 简书
trimmgalore批量质控 双端数据
2 分离_1和_2文件
(wes) pc@lab-pc:/project/raw_fq$ ls|grep _1.fastq.gz>gz1
(wes) pc@lab-pc:/project/raw_fq$ ls|grep _2.fastq.gz>gz2
(wes) pc@lab-pc:/project/raw_fq$ paste gz1 gz2>config
(wes) pc@lab-pc:/project/raw_fq$ cat config|head
然后写一个脚本 用于 trimmgalore批量质控 双端数据 同时处理两个参数
$一定不要忘记加上
(rna) tree119 21:48:01 ~/pipeline/download/rnaseq/01_rawdata
$ cat trim.sh
outdir=~/pipeline/download/rnaseq/02cleandata/cat config |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o $outdir $fq1 $fq2 &
done
运行即可
bash trim.sh
结果输入到了outdir文件夹下 (这里指的是02cleandata文件夹)
得到的质控过滤后的文件:
$ ls -lh *fq.gz|cut -d" " -f 5-
选取运行过程中其中一对结果展示如下
RUN STATISTICS FOR INPUT FILE: SRR11618782_1.fastq.gz
=============================================
343183 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Writing report to '/home/st8/ssd2/tree119/pipeline/download/rnaseq/01_rawdata/outdir/SRR11618782_2.fastq.gz_trimming_report.txt'SUMMARISING RUN PARAMETERS
==========================
Input filename: SRR11618782_2.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.7
Cutadapt version: 1.18
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Adapter sequence: 'CTGTCTCTTATA' (Nextera Transposase sequence; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 3 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 36 bp
Output file(s) will be GZIP compressedCutadapt seems to be reasonably up-to-date. Setting -j -j 1
Writing final adapter and quality trimmed output to SRR11618782_2_trimmed.fq.gz>>> Now performing quality (cutoff '-q 25') and adapter trimming in a single pass for the adapter sequence: 'CTGTCTCTTATA' from file SRR11618782_2.fastq.gz <<<
This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618610_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 2.45 s (18 us/read; 3.36 M reads/minute).=== Summary ===Total reads processed: 137,124
Reads with adapters: 4,643 (3.4%)
Reads written (passing filters): 137,124 (100.0%)Total basepairs processed: 13,712,400 bp
Quality-trimmed: 305,580 bp (2.2%)
Total written (filtered): 13,368,511 bp (97.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 4643 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 18.6%C: 33.4%G: 24.8%T: 23.1%none/other: 0.0%Overview of removed sequences
length count expect max.err error counts
3 3150 2142.6 0 3150
4 577 535.6 0 577
5 174 133.9 0 174
6 39 33.5 0 39
7 12 8.4 0 12
8 15 2.1 0 15
9 15 0.5 0 13 2
10 29 0.1 1 13 16
11 3 0.0 1 2 1
12 10 0.0 1 8 2
13 11 0.0 1 11
14 13 0.0 1 11 2
15 16 0.0 1 12 4
16 15 0.0 1 10 5
17 8 0.0 1 6 2
18 6 0.0 1 5 1
19 12 0.0 1 11 1
20 10 0.0 1 6 4
21 12 0.0 1 11 1
22 9 0.0 1 8 1
23 16 0.0 1 13 3
24 8 0.0 1 6 2
25 10 0.0 1 9 1
26 7 0.0 1 6 1
27 16 0.0 1 14 2
28 5 0.0 1 4 1
29 11 0.0 1 9 2
30 26 0.0 1 19 7
31 32 0.0 1 29 3
32 10 0.0 1 9 1
33 22 0.0 1 13 9
34 11 0.0 1 11
35 17 0.0 1 9 8
36 7 0.0 1 3 4
37 3 0.0 1 3
38 20 0.0 1 19 1
39 14 0.0 1 13 1
40 7 0.0 1 4 3
41 22 0.0 1 20 2
42 39 0.0 1 37 2
43 5 0.0 1 4 1
44 15 0.0 1 15
45 7 0.0 1 5 2
46 12 0.0 1 9 3
47 1 0.0 1 0 1
48 8 0.0 1 7 1
49 6 0.0 1 6
50 2 0.0 1 1 1
51 3 0.0 1 3
52 3 0.0 1 0 3
53 5 0.0 1 3 2
54 2 0.0 1 0 2
55 1 0.0 1 1
57 8 0.0 1 5 3
58 8 0.0 1 7 1
59 1 0.0 1 1
60 11 0.0 1 8 3
61 26 0.0 1 24 2
62 5 0.0 1 4 1
63 6 0.0 1 3 3
64 8 0.0 1 7 1
65 1 0.0 1 0 1
67 3 0.0 1 1 2
68 3 0.0 1 3
69 1 0.0 1 0 1
70 1 0.0 1 0 1
72 3 0.0 1 0 3
73 1 0.0 1 0 1
74 3 0.0 1 0 3
77 14 0.0 1 2 12
78 1 0.0 1 1
79 5 0.0 1 0 5
81 5 0.0 1 0 5
84 6 0.0 1 1 5
86 2 0.0 1 0 2
88 2 0.0 1 0 2
90 3 0.0 1 0 3
91 2 0.0 1 1 1
92 2 0.0 1 1 1
93 1 0.0 1 0 1
95 1 0.0 1 0 1
98 1 0.0 1 0 1RUN STATISTICS FOR INPUT FILE: SRR11618610_2.fastq.gz
=============================================
137124 sequences processed in total
The length threshold of paired-end sequences gets evaluated later on (in the validation step)Validate paired-end files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz
file_1: SRR11618610_1_trimmed.fq.gz, file_2: SRR11618610_2_trimmed.fq.gz>>>>> Now validing the length of the 2 paired-end infiles: SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz <<<<<
Writing validated paired-end Read 1 reads to SRR11618610_1_val_1.fq.gz
Writing validated paired-end Read 2 reads to SRR11618610_2_val_2.fq.gzTotal number of sequences analysed: 137124Number of sequence pairs removed because at least one read was shorter than the length cutoff (36 bp): 2597 (1.89%)Deleting both intermediate output files SRR11618610_1_trimmed.fq.gz and SRR11618610_2_trimmed.fq.gz====================================================================================================This is cutadapt 1.18 with Python 3.7.15
Command line parameters: -j 1 -e 0.1 -q 25 -O 3 -a CTGTCTCTTATA SRR11618782_2.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 4.63 s (13 us/read; 4.44 M reads/minute).=== Summary ===Total reads processed: 343,183
Reads with adapters: 31,276 (9.1%)
Reads written (passing filters): 343,183 (100.0%)Total basepairs processed: 34,318,300 bp
Quality-trimmed: 2,815,627 bp (8.2%)
Total written (filtered): 30,713,243 bp (89.5%)=== Adapter 1 ===Sequence: CTGTCTCTTATA; Type: regular 3'; Length: 12; Trimmed: 31276 times.No. of allowed errors:
0-9 bp: 0; 10-12 bp: 1Bases preceding removed adapters:A: 17.2%C: 45.5%G: 19.7%T: 17.6%none/other: 0.0%Overview of removed sequences
length count expect max.err error counts
3 6021 5362.2 0 6021
4 1325 1340.6 0 1325
5 542 335.1 0 542
6 372 83.8 0 372
7 358 20.9 0 358
8 348 5.2 0 348
9 291 1.3 0 283 8
10 386 0.3 1 281 105
11 384 0.1 1 305 79
12 490 0.0 1 387 103
13 388 0.0 1 331 57
14 512 0.0 1 406 106
15 371 0.0 1 323 48
16 392 0.0 1 307 85
17 449 0.0 1 370 79
18 354 0.0 1 272 82
19 517 0.0 1 422 95
20 440 0.0 1 371 69
21 380 0.0 1 294 86
22 310 0.0 1 249 61
23 220 0.0 1 199 21
24 291 0.0 1 255 36
25 604 0.0 1 510 94
26 370 0.0 1 306 64
27 489 0.0 1 411 78
28 314 0.0 1 265 49
29 600 0.0 1 491 109
30 432 0.0 1 382 50
31 1108 0.0 1 954 154
32 361 0.0 1 306 55
33 501 0.0 1 418 83
34 509 0.0 1 421 88
35 548 0.0 1 472 76
36 411 0.0 1 346 65
37 665 0.0 1 507 158
38 1168 0.0 1 1053 115
39 2363 0.0 1 2233 130
40 276 0.0 1 235 41
41 537 0.0 1 506 31
42 278 0.0 1 249 29
43 452 0.0 1 428 24
44 368 0.0 1 344 24
45 60 0.0 1 53 7
46 74 0.0 1 65 9
47 129 0.0 1 122 7
48 225 0.0 1 200 25
49 366 0.0 1 346 20
50 163 0.0 1 146 17
51 43 0.0 1 40 3
52 26 0.0 1 20 6
53 79 0.0 1 63 16
54 14 0.0 1 12 2
55 80 0.0 1 61 19
56 35 0.0 1 22 13
57 152 0.0 1 146 6
58 184 0.0 1 179 5
59 121 0.0 1 114 7
60 242 0.0 1 227 15
61 796 0.0 1 756 40
62 146 0.0 1 134 12
63 64 0.0 1 62 2
64 146 0.0 1 134 12
65 66 0.0 1 59 7
66 20 0.0 1 18 2
67 104 0.0 1 85 19
68 65 0.0 1 58 7
69 16 0.0 1 11 5
70 11 0.0 1 10 1
71 11 0.0 1 9 2
72 19 0.0 1 13 6
73 17 0.0 1 14 3
74 40 0.0 1 27 13
75 21 0.0 1 14 7
76 9 0.0 1 8 1
77 18 0.0 1 15 3
78 13 0.0 1 10 3
79 16 0.0 1 10 6
80 11 0.0 1 9 2
81 9 0.0 1 3 6
82 14 0.0 1 14
83 13 0.0 1 12 1
84 17 0.0 1 15 2
85 33 0.0 1 30 3
86 17 0.0 1 16 1
87 20 0.0 1 20
88 5 0.0 1 5
89 13 0.0 1 13
90 6 0.0 1 5 1
91 7 0.0 1 6 1
92 13 0.0 1 2 11
95 1 0.0 1 0 1
96 1 0.0 1 0 1
97 7 0.0 1 1 6
100 3 0.0 1 0 3
5.比对 align索引文件和质控好的测序数据进行比对
下载参考基因组 下载已经建立好索引的基因组
在全新服务器配置转录组测序数据处理环境
查看下载的基因组是否正确 查看下载内容时候有误
md5sum检查完整性 查看gtf文件是否完整
md5sum *.gz >md5.txt
cat md5.txt
md5sum -c md5.txt
下载索引文件
Hisat2官网上人类基因组索引的下载 - 简书
wget -c
在全新服务器配置转录组测序数据处理环境
对基因组文件解压缩 去掉gz后缀
ls *gz |xargs gunzip
RNA-seq(5):序列比对:Hisat2 - 简书
对索引文件解压缩
$ cd reference/index
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
# 解压得到两个目录,hg19和mm10
$ tar -zxvf *.tar.gz
得到8个索引
基因组注释文件(GFF,GTF)下载的五种方法_白墨石的博客-CSDN博客_基因组注释文件
hg38的gtf文件下载
genecode中参考基因组的名字 更新很快!
新建脚本来运行 制备文件准备工作
489 ls |grep _1.fq.gz490 ls |grep _1.fq.gz >gz1491 ls |grep _2.fq.gz >gz2492 paste gz1 gz2 >file_for_align493 cat file_for_align
新建脚本来运行 失败
vim align.shcat file_for_align |while read id
doarr=${id}fq1=${arr[0]}fq2=${arr[1]}nohup sh -c " hisat2 -p 2 -x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome -1 ${fq1} -2 ${fq2} 2>${id%%_*}.log | samtools sort -@ 2 -o ${id%%_*}.bam " & done
联合多人的代码之后,成功!
ls |grep .fq.gz|cut -d "_" -f 1|
while read id; do nohup sh -c " hisat2 -p 2
-x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome
-1 ${id}_1_val_1.fq.gz -2 ${id}_1_val_1.fq.gz 2>${id%%_*}.log |
samtools sort -@ 2 -o ${id%%_*}.bam " & done
RNA-seq(5):序列比对:Hisat2 - 简书 别人的代码
#启动miniconda3环境(hisat2所在的环境)
$ source ~/miniconda3/bin/activate
#进入data目录
$cd /mnt/f/rna_seq/aligned
(base) kelly@DESKTOP-MRA1M1F:/mnt/f/rna_seq/aligned$# 小鼠和人是分开各自比对自己的index
# 人的比对
$ for ((i=56;i<=58;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/hg19/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam ;done
# 小鼠比对
$ for ((i=59;i<=62;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/mm10/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam; done
#结果一共得到7个sam文件
genome指的是这里的genome.x.ht2的basename
4.定量 featurecounts
featurecounts的使用说明 - 简书
gtf=~/pipeline/download/rnaseq/00ref/genom_file/gencode.v41.annotation.gtfnohup featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o all.id.txt *bam 1>counts.id.log 2>&1 &
reads计数原理及featureCounts统计counts后的cpm和tpm计算 - 简书
第四次考核 Jimmy 学徒考核 Linux安装软件 rnaseq上游分析-2 ascp kingfisher数据下载ena Linux高速下载 Linux下载网页内容相关推荐
- Linux内核--网络栈实现分析(二)--数据包的传递过程--转
转载地址http://blog.csdn.net/yming0221/article/details/7492423 作者:闫明 本文分析基于Linux Kernel 1.2.13 注:标题中的&qu ...
- linux安装软件的几种方法
一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...
- dpkg安装软件流程_详解linux安装软件的几种方法
一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...
- Linux安装软件时缺少依赖包的简单较完美解决方法!
Linux安装软件时缺少依赖包的简单较完美解决方法! 参考文章: (1)Linux安装软件时缺少依赖包的简单较完美解决方法! (2)https://www.cnblogs.com/xiaommvik/ ...
- kail linux安装软件提示“无法定位软件包”解决方法
kail linux安装软件提示"无法定位软件包"解决方法 参考文章: (1)kail linux安装软件提示"无法定位软件包"解决方法 (2)https:// ...
- linux安装软件时/usr/lib/python2.7/site-packages/urlgrabber/grabber.py文件异常
linux安装软件时,经常出现以下异常信息 Traceback (most recent call last):File "/usr/libexec/urlgrabber-ext-down& ...
- linux系统安装软件报错,Linux安装软件时报错解决方法
提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示: E: Could not ...
- Linux系统安装时报错,Linux安装软件时报错解决方法
提示 Could not get lock /var/lib/dpkg/lock 报错? 有些小伙伴在使用 apt 包管理器更新或安装软件时,可能会遇到过诸如以下的错误提示:E: Could not ...
- linux安装软件时Stuck at 0% [waiting for headers]错误
linux安装软件时出现Stuck at 0% [waiting for headers]错误,网络能正常链接但是无法下载. 解决方案: 在终端里输入如下命令 sudo apt-get clean 之 ...
最新文章
- 模仿Hibernate的逆向工程_java版_源码下载
- matlab最大化函数,求助,最大化一个函数
- MongoDB修改删除数据
- 使用pipeline的函数
- 第一个OpenGL程序
- 湖湘杯 | Misc Wp
- C#窗体控件-按钮控件Button
- python模块管理工具,Python的包管理工具
- spring data jpa 的 in 查询 Specification 实现
- html写界面,C++|Qt后台处理业务(后台登录例子JavaScript给Qt提供数据)
- PHP中MySQL、MySQLi和PDO的用法和区别
- 辗转相除法(欧几里得算法)求解最大公约数、最小公倍数
- 228 Summary Ranges 汇总区间
- 用treeview遍历文件夹(vb)
- logistic regression_【科研加油站】SPSS操作之有序Logistic回归的详细教程
- win10系统如何解除端口占用
- GCC和C99标准中inline
- 【C语言进阶】C语言实现通讯录(简易版)
- K线技术指标实现详解—ENE
- 干货!基于语义生成概率的无监督常识问答方法——清华CoAI小组牛艺霖
热门文章
- 2018年全国多校算法寒假训练营练习比赛(第二场) F.德玛西亚万岁(状压动归)
- 常用排序算法复杂度分析
- 运营亚马逊店铺的前期准备
- while my guitar gently weeps
- Hibernate基础(by cju)
- 怎么调整Word中编号和文字中间的空格距离?
- 用Python制作一个颜值打分器,看看你女盆友们颜值多少分
- 阅读笔记 PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
- 罕见类加载冲突问题:LinkageError
- Win10 2004版如何删除小娜Cortana