文章目录

  • 准备数据
  • 用VEP注释VCF文件
    • 安装VEP
      • 测试
        • Linux安装perl DBD-mysql驱动
    • 下载VEP cache缓存
    • Download the VEP plugins
    • Copy the Wildtype plugin provided with the pVACseq package to the folder with the other VEP plugins
    • run VEP

pVACseq
A cancer immunotherapy pipeline for identifying and prioritizing neoantigens from a list of tumor mutations.
一种癌症免疫治疗用于从肿瘤突变列表中识别和优先选择新抗原的方法。
pVACseq是一种结合肿瘤突变和表达数据(DNA-和RNA-Seq),通过癌症测序(cancer Sequencing, pVACseq)识别个性化变异抗原的癌症免疫治疗管道。它通过使用大量的平行序列数据来预测肿瘤特异性突变多肽(新抗原),从而使癌症免疫治疗研究成为可能。它被用于检查点治疗反应的研究,以及为个性化癌症疫苗和过继T细胞治疗确定靶点。有关更多的一般信息,请参见发表在《基因组医学》杂志上的手稿。

准备数据

vcf源文件
接下来对VCF file进行处理

用VEP注释VCF文件

安装VEP

git clone https://github.com/Ensembl/VEP_plugins.git

提示git没有此命令时,要先进行git的安装

sudo apt install git

安装过程报错,根据提示,运行

sudo dpkg --configure -a

然后继续报错,提示没有安装 wps-office

sudo apt-get update&&sudo apt-get dist-upgrade -y##更新安装包源
apt-get update
sudo apt install git
###安装好git之后再下载git clone https://github.com/Ensembl/ensembl-vep.git
###安装
cd ensembl-vep
perl INSTALL.pl

然后报错,提示没有DEI模块,继续安装DBI模块

#安装前需要先联上线,并且要取得root权限
perl -MCPAN -e shell
#获得帮助 
cpan>h 
#列出CPAN上所有模块的列表 
cpan>m 
#根据关键字在CPAN上查找某个模块:
cpan[1]> i /scws/
#安装模块 
cpan>install DBI 
#自动完成DBI模块从下载到安装的全过程
#退出 
cpan>q 

DBI模块安装完成后,重新运行:

perl INSTALL.pl

运行之后,后面继续报错,提示ERROR: Shared Bio::DB:HTS library not found
修改之后运行

sudo perl INSTALL.pl --NO_HTSLIB

测试

./vep -i examples/homo_sapiens_GRCh38.vcf --cache

报错:
failed: Can’t locate DBD/mysql.pm
然后找到解决办法:

Linux安装perl DBD-mysql驱动

步骤如下:

wget http://www.cpan.org/modules/by-module/DBD/DBD-mysql-4.048.tar.gz
tar xzvf DBD-mysql-4.048.tar.gz
cd DBD-mysql-4.048
perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config
##提示mysql_config的路径要正确,如果不正确解决办法如下:
sudo cpan -f DBD::mysql
sudo apt-get install libmysqlclient-dev
sudo apt-get install libdbd-mysql-perl
##解决之后在安装
make
sudo make install

安装DBD::mysql模块之后在运行测试:

./vep -i examples/homo_sapiens_GRCh38.vcf --cache

测试之后结果!附图

然后提示没有VEP cache,所以按照下面步骤下载vep cache并且安装插件,重新测试,测试成功!!!

下载VEP cache缓存

上面安装VEP之后,然后接下来还需要安装vep cache
We recommend the use of the VEP cache for your annotation. The VEP cache can be downloaded following these VEP cache installation instructions. Please ensure that the Ensembl cache version matches the reference build and Ensembl version used in other parts of your analysis (e.g. for RNA-seq gene/transcript abundance estimation).

cd $HOME/.vep
##文件太大,用断点续传
sudo axel -n 20 ftp://ftp.ensembl.org/pub/release-96/variation/indexed_vep_cache/homo_sapiens_vep_96_GRCh38.tar.gz
tar xzf homo_sapiens_vep_96_GRCh38.tar.gz

Download the VEP plugins

git clone https://github.com/Ensembl/VEP_plugins.git

Copy the Wildtype plugin provided with the pVACseq package to the folder with the other VEP plugins

conda activate py35
# pvacseq install_vep_plugin <VEP plugins directory>,如下:
pvacseq install_vep_plugin /home/gml/software/VEP_plugins

以上四步,安装好了VEP,然后运行VEP。

run VEP

配置环境变量之后,可以直接运行vep。
example VEP command:

vep \
--input_file <input VCF> --output_file <output VCF> \
--format vcf --vcf --symbol --terms SO --tsl\
--hgvs --fasta <reference build fasta file location> \
--offline --cache [--dir_cache <VEP cache directory>] \
--plugin Downstream --plugin Wildtype \
[--dir_plugins <VEP_plugins directory>] [--pick] [--transcript_version]


提示插件找不到,,
然后根据提示,在目标目录下拷贝需要的插件过去,即可。
然后在运行。
command:

vep \
--input_file /home/gml/work/pvacseq/sample.vcf \
--output_file /home/gml/work/pvacseq/output.vcf \
--format vcf --vcf --symbol --terms SO --tsl \
--hgvs --fasta /home/gml/work/hg19/hg19.fa \
--offline --cache \
--plugin Downstream --plugin Wildtype

pvacseq数据分析示例之准备数据,用VEP注释vcffile相关推荐

  1. python 住区数据_Python实现的北京积分落户数据分析示例

    本文实例讲述了Python实现的北京积分落户数据分析.分享给大家供大家参考,具体如下: 北京积分落户状况 获取数据(爬虫/文件下载)-> 分析 (维度-指标) 从公司维度分析不同公司对落户人数指 ...

  2. 命名管道 win7未响应_大数据分析Python建立分析数据管道

    如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...

  3. 数据分析 第二篇:数据特征分析(统计量分析)

    对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度.离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很 ...

  4. 大数据分析R语言tidyverse数据清洗工具教程

    凌乱的数据集无处不在.如果要分析数据,不可避免地需要清理数据.在大数据分析R语言tidyverse数据清洗工具教程中,我们将研究如何使用R和一些漂亮的tidyverse工具来做到这一点. 该tidyv ...

  5. 《数据分析变革:大数据时代精准决策之道》一2.2 为大数据做好准备

    本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第2章,第2.2节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...

  6. 《数据分析变革:大数据时代精准决策之道》一导读

    前言 数据分析变革:大数据时代精准决策之道 正如19世纪的制造业所经历的那样,如今的分析领域也需要经受一场"工业革命".当下的分析流程多以一种像手工艺式的方式创建,需要花费很多心思 ...

  7. 《数据分析变革:大数据时代精准决策之道》一第1章 了解运营型分析

    本节书摘来异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者: [美]Bill Franks(比尔•弗兰克斯)译者: 张建辉 , 车皓阳 , 刘静如 , 范欢 ...

  8. 7.5 程序示例--PCA for 数据可视化-机器学习笔记-斯坦福吴恩达教授

    程序示例–PCA for 数据可视化 我们有一张小鸟的图片,这是一个三通道彩色图像: 我们将图片的像素按颜色进行聚类,并在三维空间观察聚类成果: 似乎在三维空间可视化不是那么直观,借助于PCA,我们将 ...

  9. 《数据分析变革:大数据时代精准决策之道》一第1章 了解运营型分析1.1 定义运营型分析...

    本节书摘来自异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者[美]Bill Franks(比尔•弗兰克斯),更多章节内容可以访问云栖社区"异步社区 ...

  10. 《数据分析变革:大数据时代精准决策之道》一第一部分 变革已然开始

    本节书摘来异步社区<数据分析变革:大数据时代精准决策之道>一书中的第1章,第1.1节,作者: [美]Bill Franks(比尔•弗兰克斯)译者: 张建辉 , 车皓阳 , 刘静如 , 范欢 ...

最新文章

  1. c语言实现天气预报步骤,一份天气预报的制作历程
  2. Linux fork()一个进程内核态的变化
  3. 计算机原理的进位输入是什么,进位控制实验计算机组成原理实验报告
  4. OpenCASCADE绘制测试线束:拓扑命令之曲线和曲面拓扑
  5. 【51NOD - 1523】 非回文(dfs)
  6. Bitmap存储入门
  7. C语言有某程序入口,C语言入门 — 程序入口
  8. AD 画板知识 mil和mm换算(硬件每日一题)
  9. python是一门胶水语言_python为什么叫胶水语言
  10. factoryreset恢复出厂设置测试
  11. nginx配置ssl证书
  12. 【评测】常用免疫细胞培养基
  13. 在WEB项目中调用QQ通讯组件打开QQ聊天界面
  14. 2019 NLP大全:论文、博客、教程、工程进展全梳理(长文预警)
  15. 元数据看板的初步设计思路
  16. [读史思考] 魏王真的被张仪忽悠瘸了吗?
  17. Android模拟器的安装、连接和操作
  18. P3975 [TJOI2015]弦论
  19. 2022年贵州省高新技术企业认定奖励补贴及申报条件
  20. linux hba查看,各操作系统查看HBA和WWN的方法

热门文章

  1. (1)pytorch 实现 minist手写数据集(cpu/gpu)版本
  2. 微信小程序-视频教程-链接地址
  3. 基于用户的协同过滤推荐算法(整合)
  4. MySQL 数据库索引优化项目实战
  5. (亲测有效)解决keil5编译出现的L6002U问题
  6. C++独立游戏存档模块设计
  7. png图像保存为yuv格式以及yuv格式转为png
  8. 微信 红包 服务器架构,微信红包数据库架构演变.pdf
  9. mysql分组求和_mysql 行转列,对列的分组求和,对行求和
  10. 【单片机项目实训】51单片机电子秤(语音播报版)