Identifying Antioxidant Proteins by Using Optimal Dipeptide Compositions论文笔记

原文链接
发表于Interdisciplinary Sciences-Computational Life Sciences 2016。

Motivation

抗氧化蛋白是细胞缓解外来辐射伤害的一种重要的蛋白质,对维持人体细胞健康有很大的意义。
按照文中所说,抗氧化蛋白对抗辐射物质的机理简单来说就是对自由基中间体(radical intermediates)贡献一个电子,来防止自由基的中间体在生物体内形成链式反应。自由基是指化合物的分子在光热等外界条件下,共价键发生均裂而形成的具有不成对电子的原子或基团。(自由基百度百科)。
本篇文章主要的目的是利用机器学习算法去分析组成抗氧化蛋白的肽的结构,主要的contribution如下:

  1. 首先使用feature selector在序列中提取重要的特征。
  2. 使用SVM算法去解析了肽的结构,即序列的结构,performance不错。
  3. 以SVM算法为引擎,构建了一个tool web,称为AodPred。

算法即评价指标

数据集

数据集的源头为UniProt database,CD-HIT项目消除了该数据库中相似度>60%的样本。我们这次的数据集总共包含1552个正样本和253个负样本。

特征表示方法

一般来说,我们的蛋白质都由以下20中氨基酸组成:

简单特征表示方法

经过调研,蛋白质最常用的氨基酸有20种,最简单的方法即为把一个蛋白质序列表示为一个20纬的特征向量:

其中,fif_{i}fi​表示的是编号为iii的氨基酸在该蛋白序列中的频率。
考虑到氨基酸在蛋白质序列中的排列顺序,是蛋白质生物功能的基础。

G-gap 特征表示方法

本文,或者说绝大多数做蛋白质序列检测的论文,都使用的是g-gap这样的特征编码方式。g-gap特征编码可以总结为一下步骤:

  1. 假设我们的蛋白质序列共有NNN种不同的碱基对,两两组合过后,就有N×NN\times NN×N个pairs。
  2. 针对于每一个氨基酸序列,我们把中间间隔为g−1g-1g−1的碱基两两组合起来成为pairs。例如,对于序列ABCDEABCDEABCDE,ggg为2,则我们的组合后的序列为{AC,BD,CE}\{ AC,BD,CE \}{AC,BD,CE}。
  3. 对于每一个氨基酸序列,我们按照前面所说的方法利用频率对特征进行编码,最后得到一个N×NN \times NN×N的向量。

Identifying Antioxidant Proteins by Using Optimal Dipeptide Compositions论文笔记相关推荐

  1. 论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu

    论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu 原文链接 I ...

  2. 【论文笔记】YOLOv4: Optimal Speed and Accuracy of Object Detection

    简介: 笔者原本计划接着解读一篇有关NAS的文章的,奈何今天YOLOv4突然闪亮登场,经不住诱惑,那篇有关NAS的文章就只能后面再写了.好了,废话不多说,进入正题. 论文链接 代码链接 本文链接 前言 ...

  3. Improved detection of DNA-binding proteins via compression technology on PSSM information论文笔记

    论文题目:Improved detection of DNA-binding proteins via compression technology on PSSM information 通过PSS ...

  4. 论文笔记--InfGCN: Identifying influential nodes in complex networks with graph convolutional networks

    目录 0 摘要 1 小白基础知识补充: 2 Introduction 3 Deep learning model(InfGCN) 3.1 构造邻居网络 3.2 基于图卷积神经网络的模型 3.2.1 输 ...

  5. 论文笔记 | 基于深度学习的乳腺转移瘤识别(Deep Learning for Identifying Metastatic Breast Cancer)

    论文阅读笔记:原文链接 摘要 生物医学图像国际研讨会(International Symposium on Biomedical Imaging,ISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转 ...

  6. 论文笔记-YOLOv4: Optimal Speed and Accuracy of Object Detection

    论文地址:https://arxiv.org/pdf/2004.10934v1.pdf code:https://github.com/AlexeyAB/darknet. 摘要 有大量的技巧可以提高C ...

  7. 2019_KDD_Social Recommendation with Optimal Limited Attention

    [论文阅读笔记]2019_KDD_Social Recommendation with Optimal Limited Attention 论文下载地址: https://doi.org/10.114 ...

  8. 影像匹配代码,论文:Remote sensing image matching featured by the optimal entropy classification

    影像匹配代码 最近发表了一篇论文,现在将论文代码进行分享,希望对您的研究有帮助,禁止用于商业用途. 欢迎各位前辈,同行使用本文算法进行对比.参考. 如果有任何建议,问题.疑问,请联系我,我会尽快答复. ...

  9. 2021蛋白组学研究常用数据库汇总整理

    蛋白质组学产生于20世纪90年代,是以生物体的全部或部分蛋白为研究对象,研究一个生物.一个细胞(组织)或基因组的蛋白质的变化规律的一门学科. 蛋白质组学能够在整体水平上研究蛋白质的表达.调控的水平和规 ...

  10. 2019_WSDM_Social Attentional Memory Network Modeling Aspect- and Friend-level Differences in Recomme

    [论文阅读笔记]2019_WSDM_Social Attentional Memory Network Modeling Aspect- and Friend-level Differences in ...

最新文章

  1. nginx 学习笔记(2) nginx新手入门
  2. 10个节省时间和改善工作流的Git技巧
  3. Kafka万亿级消息实战干货~持续更新中
  4. exls导入数据库 php_建站程序推荐:开源免费的PHP在线模拟考试系统PHPEMS可商用...
  5. java in list,Java 8流过滤:IN子句
  6. hbase动态更改行键设计_nosql – HBase行键设计,用于单调递增键
  7. Java疯狂讲义读书笔记第五章
  8. 摄像头和机械臂的手眼标定
  9. virtualxposed使用教程_VirtualXposed框架虚拟机——无需root体验xposed框架
  10. 压力测试~一套完整的压力测试项目文档
  11. 计算机视觉技术学习路线(3D视觉)
  12. ftp 工具 绿色,这6款ftp 工具 绿色是站长们不可或缺的必备工具
  13. NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型
  14. TM-30 计算软件 (Excel图表显示版本)
  15. echarts 添加百分号
  16. channel error; protocol method: #method<channel.close>(reply-code=406, reply-text=PRECONDITION_FAILE
  17. Lingke: A Fine-grained Multi-turn Chatbot for Customer Service
  18. 初中计算机函数的使用教案,初中《函数的使用》说课稿
  19. FastDFS+Nginx安装配置
  20. (实验一)十进制整数的原反补移码实现

热门文章

  1. 【华为机试真题 Python实现】黑板上的数字涂颜色【2022 Q1 Q2 |100分】
  2. 显性测试数据全对的WA之uva355(已AC)
  3. java编写猜词游戏
  4. Tomcat 的部署+虚拟主机的配置
  5. 微信 html5 声音,Html5-video ,播放视频有声音无画面(微信H5页面)
  6. 【虹科技术分享】如何测试 DNS 服务器:DNS 性能和响应时间测试
  7. 实战分布式之电商高并发秒杀
  8. 微信会员卡系统怎么开通,微信会员卡开发,会员管理系统,CSS :first-line 伪元素
  9. matlab中四阶龙格库塔算法、欧拉算法和改进的欧拉算法的总结
  10. 屠神-官方正版折扣端全面评测报告