蛋白质的数据预处理个人笔记(2)

相互作用残基对的定义

两个蛋白质的两个残基之间的欧几里德距离小于等于6 Å(埃格斯特朗,1 Å = 0.1奈米),则认为这两个残基之间有相互作用。根据这个定义,得到12138个阳性样本(相互作用的残基对)和5,522,852个阴性样本(非相互作用的残基对)

相对可及表面积(rASA)、残基的深度、突出指数、疏水性和半球氨基酸组成。最后,我们将上述所有特征结合起来,得到70维的节点特征。边的特征由平均原子距离和两个残基之间的夹角组成

节点特征

  • 相对可及表面积(rASA):使用STRIDE计算给定蛋白质结构的相对可及表面积(rASA)(STRIDE:基于原子坐标的蛋白质二级结构自动分配算法),范德瓦尔斯作用面的表面积,实际操作中会用一个小球通过范德瓦尔斯作用在残基附近滚动一遍,取球心包络面的面积

  • 残基深度RD:残基深度定义为残基到蛋白质表面的最小距离,并且使用MSMS计算。MSMS将残基深度值归一化。rASA和RD 连接形成单一的表面曝光特征向量,用x_a表示。我们发现残基深度在残基相互作用预测中具有与rASA中互补的信息

  • 半球形氨基酸组成(HSAAC):这个特征捕获了残基侧链和侧链相反方向上的氨基酸组成。某一方向上的氨基酸组成定义为特定氨基酸在该方向上与感兴趣的残基8.0 a˚的最小原子距离阈值内出现的次数。因此,HSAAC结合了表面可及性和残基附近的氨基酸组成。

    将这两个方向的氨基酸组成向量归一化得到单位范数,得到HSAAC-u和HSAAC-d,再将两者串联得到HSAAC。我们利用Biopython 计算HSAAC。

  • 突出指数(CX):非氢原子的突出指数被定义为半径为10.0 a˚、以该原子为中心的球体的体积占该原子的体积的比例.单残基的突出指数是一个六维向量,由残基中所有原子的突出值的平均值、标准差、最大值和最小值以及其侧链原子的突出值的平均值和标准差组成。这个向量的每个元素都被归一化,其范围从0到1。

  • 疏水性:PSAIA作为工具,得到的疏水性程度会被Normalize到0~1上

边的特征

  • 平均原子距离:特征数:1(仅标量距离),两个残基各原子的平均距离。距离计算出来以后会被高斯函数挤压到0~1

  • 两个残基之间的夹角:对一个残基,根据其alpha碳、羧基碳、羧基氧的位置可以定义出一个单位向量。于是对两个残基,可以由此定义出方位角,最后再/2Pi化到0~1即可

位置特异性打分矩阵(PSSM)和位置特定频率矩阵(PSFM)

PSSM通过序列相似性比对生成,将氨基酸的保守性信息包含在矩阵中

位置特定评分矩阵( PSSM)和位置特定频率矩阵(PSFM)反映了基于进化信息的蛋白质链特定位置残基的保守性,采用滑动窗口的方法用PSIBLAST对NCBI NR数据库进行3次迭代,e值设置为0.001得到PSSM和PSFM,最后得到一个3 × 40的矩阵

来自博客:https://blog.csdn.net/CBB_FT/article/details/124623766

  • 生成PSSM矩阵

生成序列文件

在UniPort网页中搜索蛋白质名称,并从中下载包含序列等信息的fasta文件,只读取其中的序列并生成单独的序列文件。(在使用BLAST软件生成PSSM时,文件中只能包含一条序列)

下载与安装BLAST

构建BLAST本地数据库

生成PSSM

只能包含一条序列)

下载与安装BLAST

构建BLAST本地数据库

生成PSSM

Python实现批量生成PSSM矩阵

蛋白质的数据预处理个人笔记(2)相关推荐

  1. 【机器学习】Scikit-Learn数据预处理文档翻译+笔记记录 - 1

    翻译本文档,系统学习以下数据的预处理方式. 原文档地址:https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing ...

  2. python实现序列数据预处理_Python笔记:序列处理函数

    len() : 返回字符串长度 a = "123456789" len(a) 1 2 a="123456789" len(a) 返回 9 ,即为a字符串的长度 ...

  3. 【R】【课程笔记】04+05 数据预处理+收益率计算

    本文是课程<数据科学与金融计算>第4-5章的学习笔记,主要介绍金融数据处理.收益率计算和R与C++调用,用于知识点总结和代码练习,Q&A为问题及解决方案. 往期回顾: 博文 内容 ...

  4. Python数据分析入门笔记4——数据预处理之重复值

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  5. Python数据分析入门笔记5——数据预处理之异常值

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  6. 数据挖掘学习笔记-数据预处理部分(一)

    数据挖掘笔记-数据预处理部分(一) 数据预处理-年数据部分 设置索引与标记 异常值与缺失值处理 股票行为标记 归一化 onehot特征编码 数据预处理-日数据部分 导入数据与标记 缺失数据处理 数据简 ...

  7. Python数据分析入门笔记9——数据预处理案例综合练习(男篮女篮运动员)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  8. 深度学习笔记8 数据预处理

    数据预处理标准流程 自然灰度图像 (1)灰度图像具有平稳特性,对每个数据样本分别做均值消减(即减去直流分量)--每个图像块,计算平均像素值,并将图像每个像素点减去均值.每个图像块有一个不同的均值. x ...

  9. 【数据挖掘笔记三】数据预处理

    3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...

最新文章

  1. 【翻译自mos文章】怎么正确的计算一个ip地址的subnet id?
  2. 【求解】未定义的析构函数
  3. java 年份对应的中国生肖
  4. pyqt5生成py的文件为什么是c 语言,如何使用PyQt5在python中创建文件对话框
  5. (49)移动端开发之流式布局(百分比布局)
  6. win10怎么设置默认浏览器_vscode如何设置默认打开的浏览器为Chrome?
  7. 手握14万,博越是最佳选?这车配钢炮动力,可双屏互动,不香?
  8. 【转】Javascript 的词法作用域、调用对象和闭包
  9. Linux Vim替换字符串的方法总结
  10. 计算机专业ppt,计算机专业职业生涯规划PPT(11页)
  11. 计算机五笔是什么时候学的吗,电脑五笔输入法怎么学
  12. 快速给网站加一个赞赏码功能
  13. stm32 uv5打开uv4工程错误
  14. mac原生壁纸,拿走不谢!
  15. 区块链基础知识与关键技术解析
  16. 阿雪的学习记录|解决Linux下PPPoE拨号上网不稳定的问题
  17. Linux 下 QT 安卓开发环境搭建
  18. 寒假程序翻译1.27
  19. 相关词挖掘-下拉词挖掘免费工具-用户都在相关搜索的关键词挖掘
  20. ofbiz 中文文档

热门文章

  1. 拜个晚年,祝大家晚年快乐
  2. 针对大众点评网上商铺评论字体替换反爬的反反爬
  3. TGA图像文件格式分析
  4. hosts文件及域名解析过程
  5. [软件渲染器入门]五-平面着色和高氏着色
  6. 什么是pv?如何计算公司每天的浏览量?
  7. 除了加班、掉头发,程序员还在承受些什么?
  8. 安装ROS、gazebo、PX4基础细节及offboard控制
  9. 走进Linux操作系统世界
  10. Linux Glibc幽灵漏洞紧急修补方案【转】