文章目录

准备数据
用VEP注释VCF文件
- 安装VEP
- - 测试
  - - Linux安装perl DBD-mysql驱动
- 下载VEP cache缓存
- Download the VEP plugins
- Copy the Wildtype plugin provided with the pVACseq package to the folder with the other VEP plugins
- run VEP

pVACseq
A cancer immunotherapy pipeline for identifying and prioritizing neoantigens from a list of tumor mutations.
一种癌症免疫治疗用于从肿瘤突变列表中识别和优先选择新抗原的方法。
pVACseq是一种结合肿瘤突变和表达数据(DNA-和RNA-Seq)，通过癌症测序(cancer Sequencing, pVACseq)识别个性化变异抗原的癌症免疫治疗管道。它通过使用大量的平行序列数据来预测肿瘤特异性突变多肽(新抗原)，从而使癌症免疫治疗研究成为可能。它被用于检查点治疗反应的研究，以及为个性化癌症疫苗和过继T细胞治疗确定靶点。有关更多的一般信息，请参见发表在《基因组医学》杂志上的手稿。

准备数据

vcf源文件
接下来对VCF file进行处理

用VEP注释VCF文件

安装VEP

git clone https://github.com/Ensembl/VEP_plugins.git

提示ｇｉｔ没有此命令时，要先进行ｇｉｔ的安装

sudo apt install git

安装过程报错，根据提示，运行

sudo dpkg --configure -a

然后继续报错，提示没有安装　ｗｐｓ－ｏｆｆｉｃｅ

sudo apt-get update&&sudo apt-get dist-upgrade -y##更新安装包源
apt-get update
sudo apt install git
###安装好ｇｉｔ之后再下载git clone https://github.com/Ensembl/ensembl-vep.git
###安装
cd ensembl-vep
perl INSTALL.pl

然后报错，提示没有ＤＥＩ模块，继续安装ＤＢＩ模块

#安装前需要先联上线，并且要取得root权限
perl　-MCPAN　-e　shell
#获得帮助　
cpan>h　
#列出CPAN上所有模块的列表　
cpan>m　
#根据关键字在CPAN上查找某个模块：
cpan[1]> i /scws/
#安装模块　
cpan>install　DBI　
#自动完成DBI模块从下载到安装的全过程
#退出　
cpan>q

ＤＢＩ模块安装完成后，重新运行：

perl INSTALL.pl

运行之后，后面继续报错，提示ERROR: Shared Bio::DB:HTS library not found
修改之后运行

sudo perl INSTALL.pl --NO_HTSLIB

测试

./vep -i examples/homo_sapiens_GRCh38.vcf --cache

报错：
failed: Can’t locate DBD/mysql.pm
然后找到解决办法：

Linux安装perl DBD-mysql驱动

步骤如下：

wget http://www.cpan.org/modules/by-module/DBD/DBD-mysql-4.048.tar.gz
tar xzvf DBD-mysql-4.048.tar.gz
cd DBD-mysql-4.048
perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config
##提示mysql_config的路径要正确，如果不正确解决办法如下：
sudo cpan -f DBD::mysql
sudo apt-get install libmysqlclient-dev
sudo apt-get install libdbd-mysql-perl
##解决之后在安装
make
sudo make install

安装DBD：：mysql模块之后在运行测试：

./vep -i examples/homo_sapiens_GRCh38.vcf --cache

测试之后结果！附图

然后提示没有ＶＥＰ　ｃａｃｈｅ，所以按照下面步骤下载ｖｅｐ　ｃａｃｈｅ并且安装插件，重新测试，测试成功！！！

下载VEP cache缓存

上面安装VEP之后，然后接下来还需要安装vep cache
We recommend the use of the VEP cache for your annotation. The VEP cache can be downloaded following these VEP cache installation instructions. Please ensure that the Ensembl cache version matches the reference build and Ensembl version used in other parts of your analysis (e.g. for RNA-seq gene/transcript abundance estimation).

cd $HOME/.vep
##文件太大，用断点续传
sudo axel -n 20 ftp://ftp.ensembl.org/pub/release-96/variation/indexed_vep_cache/homo_sapiens_vep_96_GRCh38.tar.gz
tar xzf homo_sapiens_vep_96_GRCh38.tar.gz

Download the VEP plugins

git clone https://github.com/Ensembl/VEP_plugins.git

Copy the Wildtype plugin provided with the pVACseq package to the folder with the other VEP plugins

conda activate py35
# pvacseq install_vep_plugin <VEP plugins directory>,如下：
pvacseq install_vep_plugin /home/gml/software/VEP_plugins

以上四步，安装好了VEP，然后运行VEP。

run VEP

配置环境变量之后，可以直接运行ｖｅｐ。
example VEP command:

vep \
--input_file <input VCF> --output_file <output VCF> \
--format vcf --vcf --symbol --terms SO --tsl\
--hgvs --fasta <reference build fasta file location> \
--offline --cache [--dir_cache <VEP cache directory>] \
--plugin Downstream --plugin Wildtype \
[--dir_plugins <VEP_plugins directory>] [--pick] [--transcript_version]

提示插件找不到，，
然后根据提示，在目标目录下拷贝需要的插件过去，即可。
然后在运行。
command:

vep \
--input_file /home/gml/work/pvacseq/sample.vcf \
--output_file /home/gml/work/pvacseq/output.vcf \
--format vcf --vcf --symbol --terms SO --tsl \
--hgvs --fasta /home/gml/work/hg19/hg19.fa \
--offline --cache \
--plugin Downstream --plugin Wildtype

pvacseq数据分析示例之准备数据，用VEP注释vcffile相关推荐

python 住区数据_Python实现的北京积分落户数据分析示例
本文实例讲述了Python实现的北京积分落户数据分析.分享给大家供大家参考,具体如下: 北京积分落户状况获取数据(爬虫/文件下载)-> 分析 (维度-指标) 从公司维度分析不同公司对落户人数指 ...
命名管道 win7未响应_大数据分析Python建立分析数据管道
如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...
数据分析第二篇：数据特征分析（统计量分析）
对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度.离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很 ...
大数据分析R语言tidyverse数据清洗工具教程
凌乱的数据集无处不在.如果要分析数据,不可避免地需要清理数据.在大数据分析R语言tidyverse数据清洗工具教程中,我们将研究如何使用R和一些漂亮的tidyverse工具来做到这一点. 该tidyv ...
《数据分析变革：大数据时代精准决策之道》一2.2 为大数据做好准备
本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第2章,第2.2节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...
《数据分析变革：大数据时代精准决策之道》一导读
前言数据分析变革:大数据时代精准决策之道正如19世纪的制造业所经历的那样,如今的分析领域也需要经受一场"工业革命".当下的分析流程多以一种像手工艺式的方式创建,需要花费很多心思 ...
《数据分析变革：大数据时代精准决策之道》一第1章了解运营型分析
本节书摘来异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者: [美]Bill Franks(比尔•弗兰克斯)译者: 张建辉 , 车皓阳 , 刘静如 , 范欢 ...
7.5 程序示例--PCA for 数据可视化-机器学习笔记-斯坦福吴恩达教授
程序示例–PCA for 数据可视化我们有一张小鸟的图片,这是一个三通道彩色图像: 我们将图片的像素按颜色进行聚类,并在三维空间观察聚类成果: 似乎在三维空间可视化不是那么直观,借助于PCA,我们将 ...
《数据分析变革：大数据时代精准决策之道》一第1章了解运营型分析1.1 定义运营型分析...
本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...
《数据分析变革：大数据时代精准决策之道》一第一部分变革已然开始
本节书摘来异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者: [美]Bill Franks(比尔•弗兰克斯)译者: 张建辉 , 车皓阳 , 刘静如 , 范欢 ...

pvacseq数据分析示例之准备数据，用VEP注释vcffile