1 引入

1.1 题目

2017：蛋白质翻译修饰位点的多特征预测 (Mutli-features predction of protein translational modification sites)

1.2 概述

翻译后修饰 (Post translational modification, PTM) 在生物加工中起着重要作用。潜在的翻译后修饰由中心位点和相邻的氨基酸残基组成，它们是基本的蛋白质序列残基，有助于发挥它们的生物学功能，且有助于理解作为蛋白质设计和药物设计基础的分子机制。现有的修饰位点预测算法往往存在稳定性和准确性较低等不足。
本文结合了蛋白质的物理、化学、统计和生物学特性，提出了一种新的框架来预测蛋白质的翻译后修饰位点。调用多层神经网络和支持向量机来预测具有所选特征的潜在修饰位点，这些特征包括氨基酸残基的组成、蛋白质片段的E-H描述以及AAIndex数据库中的几个属性。考虑到可能的冗余信息，在处理步骤中引入了特征选择。实验结果表明，所提方法能够提高该分类问题的准确率。

1.3 Bib

@article{Bao:2017:14531460,
author      =  {Wen Zheng Bao and Chang-An Yuan and You Hua Zhang and Kyungsook Han and Asoke K Nandi and Barry Honig and De-Shuang Huang},
title       =  {Mutli-features prediction of protein translational modification sites},
journal     =  {{IEEE}/{ACM} Transactions on Computational Biology and Bioinformatics},
volume      =  {15},
number      =  {5},
pages       =  {1453--1460},
year        =  {2017},
doi         =  {10.1109/TCBB.2017.2752703}
}

2 方法

2.1 数据集

蛋白质的功能决定于蛋白质的空间构象。因此，蛋白质片段的空间结构可能有助于分析并找出潜在修饰位点的特征。
实验数据集是PTM预测领域的基准数据集：
1）蛋白质翻译后修饰领域的著名数据库CPLM。该数据库包含2500多个作为正样本的赖氨酸琥珀酰化位点和 24000个作为负样本的非琥珀酰化位点，已从896个蛋白质序列中提取。上述所有蛋白质片段和多肽序列均来自UniProt，这是生物信息学领域著名的蛋白质数据库。它已被用于酶特异性 (ES) 以及蛋白质-蛋白质结合位点 (PPB) 的研究。
2）用于预测蛋白质序列中多种K-PTM类型的修饰位点的框架，其包含6394个潜在修饰位点，这些位点被视为来自 27元组肽的样。有1750个样本不属于四种K-PTM类型中的任何一种，3895个样本属于一种K-PTM，740个样本属于两种PTM类型，9个样本属于三种PTM类型，而所有四种类型都没有。
3）翻译后修饰片段数据集。三个物种的赖氨酸乙酰化位点数据集，包括智人、小家鼠和酿酒酵母，来自多个来源，包括 PhosphoSite、UniProtKB/Swiss-Prot、UbiProt 和 SCUD，这些都是蛋白质组学领域的知名数据库。由于泛素似乎在一定程度上附着在蛋白质的赖氨酸残基上。因此，我们在工作中仅考虑了上述三个物种中的赖氨酸泛素化。原始数据集包括11547 个涵盖不同物种的蛋白质序列；在这些序列中，超过8000个来自H.sapiens，大约3300个来自M.musculus，超过4500个来自S.cerevisiae。去除3种样品的冗余蛋白片段后，提取到3种样品的多个样品，其中分别为6323份H.sapiens样品、2342份M.musculus样品和7863份S.cerevisiaes样品。之后，从三个物种的每个数据集中随机选择20个蛋白质形成独立的测试集，其余的 6303、2322和7843个蛋白质分别用于构建训练集。

2.2 特征选择

一般来说，蛋白质特征的种类可以达到4万多。这些各种类型的特征，包括氨基酸组成模型 (AAC) 假氨基酸组成模型 (PseAAC) 和蛋白质特征的其他相关信息[26]。然而，这些特征很难满足有效和准确描述预测的修饰位点和相邻氨基酸残基之间相互作用的需要。因此，本文引入了一个典型的、特殊的特征，它具有描述蛋白质肽段的能力。
首先，当涉及到氨基酸残基的组成时，生物信息学和计算生物学领域的许多研究人员通常利用蛋白质序列的统计信息。这些特征仅描述了统计方面潜在的修改段。当然，在这类特征集中，关键特征的选择可能被视为一项艰巨的任务。
发现有20种氨基酸残基在3类特殊结构元素：螺旋、链和螺旋中具有被吞噬的趋势。这些功能选自PSIPRED。 PSIPRED的开发人员尝试用神经网络技术预测蛋白质序列中的特殊趋势。
有效地考虑α\alphaα螺旋和β\betaβ链的分布，我们用E-H序列描述表示预测的蛋白质片段。下表包含E-H描述的几个特征。从上述特征中，基本特征和新特征都可以描述预测修改段的E和H类型的统计信息。由于上述所有特征都包含一些冗余信息和噪声。因此，选择的特征如下表。

最流行和最知名的氨基酸特征索引是AAindex，它是一个数字索引的网站数据库，包括氨基酸残基的各种生物学、物理和化学性质以及其他形式的蛋白质序列的特征。同时，AAindex 包含三种蛋白质特性信息：AAindex1、AAindex2 和AAindex3 [27-29]。因此，本研究采用了几种氨基酸的特征。

论文阅读 (56)：Mutli-features Predction of Protein Translational Modification Sites (任务)相关推荐

【论文阅读】Learning Spatiotemporal Features with 3D Convolutional Networks
[论文阅读]Learning Spatiotemporal Features with 3D Convolutional Networks 这是一篇15年ICCV的论文,本篇论文提出的C3D卷积网络是 ...
【论文阅读】investigation of different skeleton features for cnn-based 3D action recognition
[论文阅读]investigation of different skeleton features for cnn-based 3D action recognition 这篇论文主要实验了在使用 ...
视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks
论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院来源:ICCV2015 代码: ...
Learning Deep Features for Discriminative Localization -CAM方法帮助若监督学习研究实现物体定位论文阅读笔记
作者:18届会长cyl 时期: 2020-9-11 论文<Learning Deep Features for Discriminative Localization> 期刊:2016CV ...
【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门]（7）
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](7) Into the Weeds Other types of grap ...
YOLOv4论文阅读（附原文翻译）
YOLOv4论文阅读(附原文翻译) 论文阅读论文翻译 Abstract摘要 1.Introduction 引言 2.Related work相关工作 2.1.Object detection mod ...
深度学习论文阅读目标检测篇（三）：Faster R-CNN《 Towards Real-Time Object Detection with Region Proposal Networks》
深度学习论文阅读目标检测篇(三):Faster R-CNN< Towards Real-Time Object Detection with Region Proposal Networks&g ...
深度学习论文阅读目标检测篇（七）中英对照版：YOLOv4《Optimal Speed and Accuracy of Object Detection》
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...
深度学习论文阅读图像分类篇（五）：ResNet《Deep Residual Learning for Image Recognition》
深度学习论文阅读图像分类篇(五):ResNet<Deep Residual Learning for Image Recognition> Abstract 摘要 1. Introduct ...

论文阅读 (56)：Mutli-features Predction of Protein Translational Modification Sites (任务)

文章目录