生信自学笔记(五)计分矩阵的实例
氨基酸替换矩阵
PAM 替换矩阵
PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个 PAM 就是一个进化的变异单位, 即 1% 的氨基酸改变,但这并不意味 100 次 PAM 后,每个氨基酸都发生变化,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸。
PAM 矩阵中的每个元素表示在指定的进化间隔期间通过一系列一个或多个点接受的突变将该行的氨基酸替换为该列的氨基酸的可能性。 不同的 PAM 矩阵对应于蛋白质序列进化中的不同时间间隔。
要制作这样一个矩阵,我们首先需要观察替换事件,得到一个可观测或可接受点突变矩阵 A(accepted point mutation matrix),AijAijA_{ij}的含义是氨基酸 i 被氨基酸 j 替换的经验次数。
由 A 可以进一步获得突变概率矩阵 M(mutation probability matrix),MijMijM_{ij}的含义是氨基酸 i 被氨基酸 j 替换的经验频率。
将可观测突变百分率即 PAM 作为一种时间度量单位,1PAM 代表 100 个氨基酸多肽链中预计发生一次替换所需的时间。将突变概率矩阵 M 进行 250 次方处理后获得的 PAM250 矩阵,对于研究远源蛋白质之间的进化关系是一个合适的时间单位。PAMnPAMnPAM_n的含义是,一个包含了一百个氨基酸的多肽序列经历了一段时间的进化,在这段时间内,发生了 n 次氨基酸替换事件。
由此,可以进一步定义相对概率矩阵和对数概率矩阵。
BLOSUM 替换矩阵
BLOSUM 矩阵是一种在生物信息学中用于序列对比的氨基酸 j} 替换矩阵。BLOSUM 是 “blocks substitution matrix” 的缩写。它是目前常用的一种氨基酸替换矩阵。BLOSUM 矩阵最早由 Steven Henikoff. 和 J.G Henikoff 在他们的论文中被提出。其中,他们从 BLOCKS 数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数来计算矩阵中的分值。与 PAM 打分矩阵相比,BLOSUM 打分矩阵的内容皆由观察得出。
提取 Prosite 数据库中 504 个家族的 2 万多蛋白质序列(含 1961 个 Blocks【高度保守区】),合并其中相似性≥62% 的序列
计算过程:
fijfijf_{ij}为序列联配中氨基酸 i 和 j 对的数量。
某种氨基酸对的所占比例或者说是出现频率 qij=fij/∑i,jfijqij=fij/∑i,jfijq_{ij}=f_{ij}/\sum\limits_{i,j} f_{ij}
每种氨基酸出现的期望频率 pi=qii+12∑i≠jqijpi=qii+12∑i≠jqijp_{i}=q_{ii}+\frac{1}{2}\sum\limits_{i\neq j } q_{ij}
(1212\frac{1}{2}的出现是因为当两条蛋白质序列出现了 ij 相互配对的情况时,对特定的一条序列来说,它恰好分得 i 的概率只有一半)计算氨基酸对出现的期望频率
eij={p2i2pipji=ji != j eij={pi2i=j2pipji != je_{ij}= \begin{cases} p_i^2& \text{i=j}\\ 2p_ip_j& \text{i != j } \end{cases}
(2 出现是因为对于任意的 ij 对来说,有两种情况,即 i 被分到了 a 序列和 i 被分到了 b 序列)
- BLOSUM 矩阵元素定义为 sij=2log2(qij/eij)sij=2log2(qij/eij)s_{ij} = 2log_2(q_{ij}/e_{ij}),即出现频率比期望频率。
位置特异性计分矩阵(PSSM)
样例
AGGCTT
AAGCTA
AAACTT
TAACTA
AGACTT
构建过程如下:
生信自学笔记(五)计分矩阵的实例相关推荐
- 生信自学笔记(九)智慧的长者与多序列联配之clustal全局联配算法
要不,还是先讲个黑暗的小故事吧. 国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着. "这可不行,这么多人,东西哪够分 ...
- 生信自学笔记(十二):基因组序列与基因预测
基因组 在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列. 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DN ...
- 生信自学笔记(二)生物信息
基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...
- 生信分析学习笔记:(2)GO KEGG分析
生信分析学习笔记:(2)GO KEGG分析 介绍 教程 1.富集分析 (Over-Representation Analysis ) 2.GSEA(Gene Set Enrichment Analys ...
- 生信入门(五)——使用DESeq2进行RNA-seq数据分析
生信入门(五)--使用DESeq2进行RNA-seq数据分析 文章目录 生信入门(五)--使用DESeq2进行RNA-seq数据分析 四.探索性数据分析 1.简单EDA 2.EDA 的数据转换 3.主 ...
- 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库
原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...
- **生信自学记录1——获取Fastq格式的反向互补序列**
` 生信自学记录1--获取Fastq格式的反向互补序列 总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...
- 生信学习笔记:fastp质控处理生成的report结果解读
文章目录 前言 raw data 和 fastq文件 reads Q20和Q30 N值 Adapters Duplication Insert fastp report summary Adapter ...
- Ubuntu 20.0.4 linux生信服务器笔记
系统硬盘挂载情况 $ sudo root # df -h查看硬件raid信息 # lspci |grep -i raid 17:00.0 RAID bus controller: Broadcom / ...
最新文章
- python 设置开机自动启动 .py 文件
- 查看自己的Android studio 版本
- 【经验总结】VS2010下建立MFC程序
- 据廖雪峰python3教程----python学习第十三天
- Angular JS (2)
- 上海计算机和金融专业,姚明:我将去上海交大读书 选择计算机金融专业
- POI API 创建Excel 文档
- Linux高级编程--06.进程概述
- Firewalld防火墙转换成Iptables
- JavaScript基础简单入门
- 策划通不过,不是老板的错
- js 调用摄像头拍照
- 教你免费白嫖各大知名互联网公司的「文字转语音、语音转文字」服务!
- 从绘制 圆形(circle)说开
- ILOG Gantt 3.0 注册机
- 一键部署开箱即用的代理服务器,解决 SAP UI5 应用开发过程中访问远端 OData 服务的跨域问题试读版
- 基本ACL和高级ACL
- 一篇快速入门各程序员都在使用的Typora的基础教程(20分钟快速掌握)
- 嵌入式计算机分类,嵌入式系统的分类
- (转)PMBOK/CMM/CMMI/OPM3