K-mer特征提取one-hot编码

定义K-mer函数,把序列转换成密码子形式

def Kmers_funct(seq): X = [None]*len(seq)    #若数据只有一个序列,可不用此定义for i in range(len(seq)):  #若数据只有一个序列,可不用此循环a = seq[i]t=0l=[]for index in range(len(a)):t=a[index:index+3]if (len(t))==3:l.append(t)X[i] = lreturn np.array(X)  #具体看返回需要,也可直接:return X

调用Kmers_funct函数

X = Kmers_funct(x)

数据去重复

lists_X = np.unique(X)  #去除重复数据
print(lists_X)  #去除重复数据后的数据
print(len(lists_X))  #去除重复数据后的数据长度

将Kmers_funct提取后的数据编码为one-hot

def encode_matrix(seq_matrix):seq_X = [None]*len(seq_matrix)  #若数据只有一个序列,可不用此定义for j in range(len(seq_matrix)):  #若数据只有一个序列,可不用此循环data = seq_matrix[j]ind_to_char = lists_X# 定义字符到整数的映射char_to_int = dict((c, i) for i, c in enumerate(ind_to_char))  #枚举int_to_char = dict((i, c) for i, c in enumerate(ind_to_char))#整数编码integer_encoded = [char_to_int[char] for char in data]#one-hot编码onehot_encoded = list()for value in integer_encoded:letter = [0 for _ in range(len(ind_to_char))]  #one-hot编码长度=去除重复后所剩余数据的个数letter[value] = 1onehot_encoded.append(letter)seq_X[j] = onehot_encodedreturn seq_X

K-mer特征提取one-hot编码相关推荐

  1. java 工具类-判断是否是K码,是否是灵图编码

    场景: 应用系统需要判断字符串是否是k码/灵图编码 /*** 是否是灵图编码** @param code* @return*/public static boolean isMCode(String ...

  2. DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架

    目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...

  3. LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器

    Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系. <特色> 以前用于预测lncRNA亚细胞定位 ...

  4. Golomb及指数哥伦布编码原理介绍及实现

    2017年的第一篇博文. 本文主要有以下三部分内容: 介绍了Golomb编码,及其两个变种:Golomb-Rice和Exp-Golomb的基本原理 C++实现了一个简单的BitStream库,能够方便 ...

  5. 数据结构源码笔记(C语言):Huffman树字符编码

    #include <stdio.h> #include<string.h> #define N 10 /*待编码字符的个数,即树中叶结点的最大个数*/ #define M 2* ...

  6. 多时隙编码aloha(MuSCA)与编码时隙aloha(CSA)协议分析

    协议分析 CSA和MuSCA是CRDSA和IRSA的一种推广形式,主要是通过在协议中引入了编码.分割过程来实现对CRDSA中冗余度的消除,从而达到提高吞吐量的目的. 对CRDSA和IRSA的分析介绍在 ...

  7. k均值的损失函数_机器学习:手撕 cross-entropy 损失函数

    1.前言 cross-entropy loss function 是在机器学习中比较常见的一种损失函数.在不同的深度学习框架中,均有相关的实现.但实现的细节有很多区别.本文尝试理解下 cross-en ...

  8. 基于C语言的JPEG编码代码详解

    一.基于C语言的JPEG编码代码详解 #include <stdio.h> #include <stdlib.h> #include <string.h>#prag ...

  9. 5GNR中PDCCH的polar编码

    5GNR中在DCI比特收集和大小对齐后,进行CRC添加,然后再用RNTI值加扰,接下来就是polar编码. 首先进行交织,按照38212 5.3.1.1中的交织方式对编码输入比特序列进行交织.(所谓交 ...

  10. ICCV 2021 | 视觉Transformer中的相对位置编码

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:将门创投 相对位置编码(RelativePosition Encoding)能够显式地对Tran ...

最新文章

  1. fragment中的onCreateView和onViewCreated的区别和
  2. Visual Studio 中粗略的代码行数统计
  3. Java 中的四种引用类型
  4. 【php7扩展开发二】全局变量
  5. python多列排序
  6. oracle11gr2架构图,Oracle 11g R2 体系结构
  7. JavaScript中forEach、for-in、for-of循环的比较
  8. php面向对象受保护,php面向对象二之封装,protected ,public,private权限管理
  9. C# 设置DateTime类型的变量值等于Null
  10. java中如何切割图片_Java 切割图片代码
  11. android toast_Android Toast
  12. python控制屏幕亮度_使用Python脚本更改显示器亮度
  13. 项目管理10大知识领域和47个过程的思维导图
  14. Xshell暴漏内网端口
  15. CentOS7.6 无网络环境安装MySQL5.7.x
  16. 2022-05-25 postgres中的并发控制的可重复读
  17. VanillaNet:极简主义在深度学习中的力量
  18. .net core 拼音转换,简繁转换,数字读法,货币读法
  19. WordPress自适应多功能图片主题CX-UDY
  20. 好用的外汇行情分析软件,让交易不再难

热门文章

  1. 图像工作回顾之六:视频质量诊断
  2. k8s 1.23 及keda 2.7.1 安装测试
  3. Enterprise Architect安装使用
  4. 云点域名-(域名解析、域名转向、二级域名、动态域名)的功能介绍
  5. huge形式_Linux hugepage使用与实现
  6. 电脑中病毒所有html文件,文件夹全部变成exe文件该怎么办?电脑中了kiss病毒的两种解决办法...
  7. 手机号归属地 mysql脚本_手机号码归属地能否取消? 这些热点问题,工信部回复了...
  8. 有哪些在家健身的软件?Mac健身软件推荐
  9. 大一到大二的总结与感想
  10. 读后感:救黑熊重要,还是救助失学儿童重要?