在R中使用Primer3和NCBI-BLAST进行高通量引物设计

无论是芯片实验还是深度测序，高通量数据分析后都需要进行实验验证，其中PCR是必不可少的。PCR引物设计方法和软件很多，选用哪种完全取决于个人习惯和好恶，没有对错，唯一标准就是能否完成实验。这里我们用R语言整合Primer3和NCBI-BLAST进行批量引物设计。

1 Primer3 使用简介

Primer3 是PCR引物设计软件，Debian下可以直接使用新立得查找安装或者用apt-get安装。Windows下安装需要编译，如果不想或者不能自己编译就安装EMBOSS，它帮你搞好了，在安装目录下可以找到 primer3_core.exe 和 primer32_core.exe 。发表论文可以引用下面文献：

Untergrasser A, Cutcutache I, Koressaar T, Ye J, Faircloth BC, Remm M, Rozen SG (2012) Primer3 - new capabilities and interfaces. Nucleic Acids Research40(15):e115
Koressaar T, Remm M (2007) Enhancements and modifications of primer design program Primer3Bioinformatics 23(10):1289-91

1.1 Primer3 命令行参数

命令行相当简单：

primer3_core 参数们

参数都是可选的，包括：

参数	含义
-format_output	产生易于人读的输出结果，否则产生易于机读输出（用于编程）
-io_version=n	n为3或4（默认），n=3表示兼容低版本
-p3_settings_file=<file_path>	指定p3的设置文件，用于全局参数设置
-echo_settings_file	回显p3设置文件的内容
-strict_tags	要求严格的标签
-output=<file_path>	指定结果输出文件
-error=<file_path>	指定错误信息保存的文件名
input_file	包含序列相关引物设计详细信息的文件

1.2 Primer3参数设置文件

Primer3引物设计的一些详细参数通过“标签”进行设置。与序列相关的标签名称以“SEQUENCE”开头，与引物相关的标签以“PRIMER”开头。PRIMER标签可以用于所有模板，所以又称为全局标签。标签使用 p3_settings_file 和 input_file 文件设置。

p3_settings_file 的格式为：

Primer3 File - http://primer3.sourceforge.net
P3_FILE_TYPE=settings
全局标签名=参数值
=

前两行和最后的等号是必需的。标签设置行可以有很多，无顺序，但每个标签的设置内容必需在一行内。 p3_settings_file 只能设置 PRIMER_XXX 等全局标签。

input_file 的格式为：

标签名=参数值
=

对于绝大多数的任务来说 SEQUENCE_TEMPLATE （模板序列）是必需的参数。最后的等号也必需，表示一个序列的参数设定结束。一个 input_file 可以设置很多序列的标签，按上面的格式重复即可。多序列任务还应该设置序列标识 SEQUENCE_ID 标签。 input_file 也可以设置 PRIMER_XXX 类标签。

标签的具体设置请参考Primer3的使用帮助。

NCBI BLAST 就不用多说了，安装也简单，在引物设计结束前进行BLAST以保证引物的基因特异性。

2 高通量引物设计

下面的R代码包含引物设计的几个步骤：

读取FASTA格式的模板序列文件
设置Primer3引物设计的参数并产生引物对（参数主要针对qPCR实验，产物长度70-120bp，其他参数请看 p3.para 变量内容）
解析Primer3输出结果
对引物进行本地BLAST比对
解析BLAST输出结果
筛选引物并以CSV文件输出

library(tcltk)
library(Biostrings)
#* 读取FASTA格式序列
seqs.fasta.file <- tk_choose.files(default = "~//", multi = FALSE, caption = "Sequence file")
seqs <- readDNAStringSet(seqs.fasta.file)
seqs.path <- dirname(seqs.fasta.file)
#* 设置Primer3参数文件 p3_settings_file
p3.paras <- list(PRIMER_TASK="generic",PRIMER_NUM_RETURN=1000,PRIMER_DNA_CONC=500,PRIMER_DNTP_CONC=0.8,PRIMER_SALT_CORRECTIONS=1,PRIMER_SALT_MONOVALENT=50,PRIMER_SALT_DIVALENT=1.5,PRIMER_MAX_END_GC=2,PRIMER_MIN_GC=35,PRIMER_MAX_GC=65,PRIMER_MIN_TM=58,PRIMER_MAX_TM=64,PRIMER_OPT_TM=60,PRIMER_MIN_SIZE=18,PRIMER_MAX_SIZE=26,PRIMER_OPT_SIZE=20,PRIMER_PAIR_MAX_DIFF_TM=2,PRIMER_PRODUCT_SIZE_RANGE="70-120",PRIMER_PICK_ANYWAY=1)
p3.paras <- paste(names(p3.paras), '=', p3.paras, sep='')
p3.paras <- c("Primer3 File - http://primer3.sourceforge.net","P3_FILE_TYPE=settings",p3.paras,"=")
p3.settings.file <- file.path(seqs.path, "p3.settings.file")
writeLines(p3.paras, p3.settings.file)
tmpfiles <- p3.settings.file
#* 设置Primer3参数文件 input_file
seq.ids <- paste("SEQUENCE_ID=", names(seqs), sep='')
seq.templates <- paste("SEQUENCE_TEMPLATE=", as.character(seqs), sep='')
content.input.file <- paste(seq.ids, seq.templates, '=', sep="\n")
input.file <- file.path(seqs.path, "p3.input.file")
writeLines(content.input.file, input.file)
tmpfiles <- c(tmpfiles, input.file)
#* 运行 Primer3 获取引物
output.file <- file.path(seqs.path, "p3.temp1")
p3.settings <- paste("-p3_settings_file=", p3.settings.file, sep='')
p3.output <- paste("-output=", output.file, sep='')
cmd <- paste("primer3_core", p3.settings, p3.output, input.file)
system(cmd)
tmpfiles <- c(tmpfiles, output.file)
#* 解析 Primer3 输出文件
#  下面只保留了引物名称、序列和TM值，需要更多参数请自己设置
p3.results <- readLines(output.file)
group.start <- grep("SEQUENCE_ID", p3.results)
group.end <- c(group.start[-1]-1, length(p3.results))
seq.ids <- names(seqs)
for(i in 1:length(seq.ids)){sel <- group.start[i]:group.end[i]p3.results[sel] <- paste(seq.ids[i], p3.results[sel], sep="_")
}
writeLines(p3.results, output.file)
primers.seq <- p3.results[grep("(LEFT|RIGHT)_[0-9]+_SEQUENCE=", p3.results)]
primers.name <- gsub("(.+)_PRIMER(_[^=]+)_SEQUENCE.*", "\\1\\2", primers.seq)
primers.name <- gsub("LEFT", "L", primers.name)
primers.name <- gsub("RIGHT", "R", primers.name)
primers.seq <- gsub(".+=(.+)", "\\1", primers.seq)
primers.tm <- p3.results[grep("(LEFT|RIGHT)_[0-9]+_TM=", p3.results)]
primers.tm <- gsub(".+=(.+)", "\\1", primers.tm)
primers <- data.frame(name=primers.name, seq=primers.seq, TM=primers.tm)
#* BLAST 分析，输出便于程序解析的 m8 格式
blast.in <- file.path(seqs.path, "blast.in")
xxx <- paste(">", primers.name, sep='')
xxx <- paste(xxx, primers.seq, sep="\n")
writeLines(xxx, blast.in)
rm(xxx)
tmpfiles <- c(tmpfiles, blast.in)
blast.db <- tk_choose.files(default = "~//", multi = FALSE, caption = "BLAST database")
blast.db <- sub("(.+)\\.[^\\.]+", "\\1", blast.db)
blast.out <- file.path(seqs.path, "blast.out")
cmd <- paste("blastall -p blastn -e 10000 -F F -m 8 -a 4 -i",blast.in, "-o", blast.out, "-d", blast.db)
system(cmd)
tmpfiles <- c(tmpfiles, blast.out)
#* 解析 BALST 输出结果。 m8 结果共有12列，分别为：
# 1. Query id
# 2. Subject id
# 3. % identity
# 4. alignment length
# 5. mismatches
# 6. gap openings
# 7. q.start
# 8. q.end
# 9. s.start
# 10. s.end
# 11. e-value
# 12. bit score
# 这里我们仅要求 q.start=1, q.end=引物长度 的比对结果有且仅有一个，即目标序列的匹配
blast.result <- read.table(blast.out, stringsAsFactors = FALSE)[,c(1,7,8)]
sel <- blast.result[,2]==1
blast.result <- blast.result[sel,]
primers.n <- length(primers.name)
sel <- rep(FALSE, primers.n)
for(i in 1:primers.n){sel.sub <- blast.result[,1]==primers.name[i]blast.sub <- blast.result[sel.sub,3]max.qend <- max(blast.sub)blast.sub <- blast.sub[blast.sub==max.qend]if(length(blast.sub)==1 & max.qend==nchar(primers.seq[i]))sel[i] <- TRUE
}
primers <- primers[sel,]
#* 删除临时文件，输出结果
file.remove(tmpfiles)
result.file <- file.path(seqs.path, "primer3.results.csv")
write.csv(primers, result.file, quote=FALSE, row.names=FALSE)

Author: ZGUANG@LZU

Created: 2013-07-10 三 18:42

Emacs 24.3.1 (Org mode 8.0.5)

Validate XHTML 1.0