生信自学笔记（五）计分矩阵的实例

氨基酸替换矩阵

PAM 替换矩阵

PAM（Point Accepted Multation) 是基于进化的点突变模型产生的，如果两种氨基酸替换频繁，说明自然界接受这种替换，那么这对氨基酸替换得分就高。一个 PAM 就是一个进化的变异单位, 即 1% 的氨基酸改变，但这并不意味 100 次 PAM 后，每个氨基酸都发生变化，因为其中一些位置可能会经过多次突变，甚至可能会变回到原来的氨基酸。

PAM 矩阵中的每个元素表示在指定的进化间隔期间通过一系列一个或多个点接受的突变将该行的氨基酸替换为该列的氨基酸的可能性。不同的 PAM 矩阵对应于蛋白质序列进化中的不同时间间隔。

要制作这样一个矩阵，我们首先需要观察替换事件，得到一个可观测或可接受点突变矩阵 A（accepted point mutation matrix），AijAijA_{ij}的含义是氨基酸 i 被氨基酸 j 替换的经验次数。

由 A 可以进一步获得突变概率矩阵 M（mutation probability matrix），MijMijM_{ij}的含义是氨基酸 i 被氨基酸 j 替换的经验频率。

将可观测突变百分率即 PAM 作为一种时间度量单位，1PAM 代表 100 个氨基酸多肽链中预计发生一次替换所需的时间。将突变概率矩阵 M 进行 250 次方处理后获得的 PAM250 矩阵，对于研究远源蛋白质之间的进化关系是一个合适的时间单位。PAMnPAMnPAM_n的含义是，一个包含了一百个氨基酸的多肽序列经历了一段时间的进化，在这段时间内，发生了 n 次氨基酸替换事件。

由此，可以进一步定义相对概率矩阵和对数概率矩阵。

BLOSUM 替换矩阵

BLOSUM 矩阵是一种在生物信息学中用于序列对比的氨基酸 j} 替换矩阵。BLOSUM 是 “blocks substitution matrix” 的缩写。它是目前常用的一种氨基酸替换矩阵。BLOSUM 矩阵最早由 Steven Henikoff. 和 J.G Henikoff 在他们的论文中被提出。其中，他们从 BLOCKS 数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数来计算矩阵中的分值。与 PAM 打分矩阵相比，BLOSUM 打分矩阵的内容皆由观察得出。

提取 Prosite 数据库中 504 个家族的 2 万多蛋白质序列（含 1961 个 Blocks【高度保守区】），合并其中相似性≥62% 的序列

计算过程：

fijfijf_{ij}为序列联配中氨基酸 i 和 j 对的数量。
某种氨基酸对的所占比例或者说是出现频率 qij=fij/∑i,jfijqij=fij/∑i,jfijq_{ij}=f_{ij}/\sum\limits_{i,j} f_{ij}
每种氨基酸出现的期望频率 pi=qii+12∑i≠jqijpi=qii+12∑i≠jqijp_{i}=q_{ii}+\frac{1}{2}\sum\limits_{i\neq j } q_{ij}
（1212\frac{1}{2}的出现是因为当两条蛋白质序列出现了 ij 相互配对的情况时，对特定的一条序列来说，它恰好分得 i 的概率只有一半）
计算氨基酸对出现的期望频率

eij={p2i2pipji=ji != j eij={pi2i=j2pipji != j

e_{ij}= \begin{cases} p_i^2& \text{i=j}\\ 2p_ip_j& \text{i != j } \end{cases}

（2 出现是因为对于任意的 ij 对来说，有两种情况，即 i 被分到了 a 序列和 i 被分到了 b 序列）

BLOSUM 矩阵元素定义为 sij=2log2(qij/eij)sij=2log2(qij/eij)s_{ij} = 2log_2(q_{ij}/e_{ij})，即出现频率比期望频率。

位置特异性计分矩阵（PSSM）

样例
AGGCTT
AAGCTA
AAACTT
TAACTA
AGACTT

构建过程如下：