K-mer特征提取one-hot编码
K-mer特征提取one-hot编码
定义K-mer函数,把序列转换成密码子形式
def Kmers_funct(seq): X = [None]*len(seq) #若数据只有一个序列,可不用此定义for i in range(len(seq)): #若数据只有一个序列,可不用此循环a = seq[i]t=0l=[]for index in range(len(a)):t=a[index:index+3]if (len(t))==3:l.append(t)X[i] = lreturn np.array(X) #具体看返回需要,也可直接:return X
调用Kmers_funct函数
X = Kmers_funct(x)
数据去重复
lists_X = np.unique(X) #去除重复数据
print(lists_X) #去除重复数据后的数据
print(len(lists_X)) #去除重复数据后的数据长度
将Kmers_funct提取后的数据编码为one-hot
def encode_matrix(seq_matrix):seq_X = [None]*len(seq_matrix) #若数据只有一个序列,可不用此定义for j in range(len(seq_matrix)): #若数据只有一个序列,可不用此循环data = seq_matrix[j]ind_to_char = lists_X# 定义字符到整数的映射char_to_int = dict((c, i) for i, c in enumerate(ind_to_char)) #枚举int_to_char = dict((i, c) for i, c in enumerate(ind_to_char))#整数编码integer_encoded = [char_to_int[char] for char in data]#one-hot编码onehot_encoded = list()for value in integer_encoded:letter = [0 for _ in range(len(ind_to_char))] #one-hot编码长度=去除重复后所剩余数据的个数letter[value] = 1onehot_encoded.append(letter)seq_X[j] = onehot_encodedreturn seq_X
K-mer特征提取one-hot编码相关推荐
- java 工具类-判断是否是K码,是否是灵图编码
场景: 应用系统需要判断字符串是否是k码/灵图编码 /*** 是否是灵图编码** @param code* @return*/public static boolean isMCode(String ...
- DeepLncLoc:一种基于子序列嵌入的长非编码RNA亚细胞定位预测的深度学习框架
目录 摘要 结果: 可用性: 1.介绍 2.方法 2.1数据集 2.2仅使用 k-mer 特征编码 rna 序列的局限性 2.3. 随后嵌入 2.4. 网络架构 2.5评估指标 2.6实施细节 3.结 ...
- LncLocator 2.0:具有可解释深度学习的长链非编码RNA的细胞特异性亚细胞定位预测器
Motivation:长链非编码RNA ( lncRNA )通常以组织特异性的方式表达,lncRNA的亚细胞定位取决于它们表达的组织或细胞系. <特色> 以前用于预测lncRNA亚细胞定位 ...
- Golomb及指数哥伦布编码原理介绍及实现
2017年的第一篇博文. 本文主要有以下三部分内容: 介绍了Golomb编码,及其两个变种:Golomb-Rice和Exp-Golomb的基本原理 C++实现了一个简单的BitStream库,能够方便 ...
- 数据结构源码笔记(C语言):Huffman树字符编码
#include <stdio.h> #include<string.h> #define N 10 /*待编码字符的个数,即树中叶结点的最大个数*/ #define M 2* ...
- 多时隙编码aloha(MuSCA)与编码时隙aloha(CSA)协议分析
协议分析 CSA和MuSCA是CRDSA和IRSA的一种推广形式,主要是通过在协议中引入了编码.分割过程来实现对CRDSA中冗余度的消除,从而达到提高吞吐量的目的. 对CRDSA和IRSA的分析介绍在 ...
- k均值的损失函数_机器学习:手撕 cross-entropy 损失函数
1.前言 cross-entropy loss function 是在机器学习中比较常见的一种损失函数.在不同的深度学习框架中,均有相关的实现.但实现的细节有很多区别.本文尝试理解下 cross-en ...
- 基于C语言的JPEG编码代码详解
一.基于C语言的JPEG编码代码详解 #include <stdio.h> #include <stdlib.h> #include <string.h>#prag ...
- 5GNR中PDCCH的polar编码
5GNR中在DCI比特收集和大小对齐后,进行CRC添加,然后再用RNTI值加扰,接下来就是polar编码. 首先进行交织,按照38212 5.3.1.1中的交织方式对编码输入比特序列进行交织.(所谓交 ...
- ICCV 2021 | 视觉Transformer中的相对位置编码
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:将门创投 相对位置编码(RelativePosition Encoding)能够显式地对Tran ...
最新文章
- fragment中的onCreateView和onViewCreated的区别和
- Visual Studio 中粗略的代码行数统计
- Java 中的四种引用类型
- 【php7扩展开发二】全局变量
- python多列排序
- oracle11gr2架构图,Oracle 11g R2 体系结构
- JavaScript中forEach、for-in、for-of循环的比较
- php面向对象受保护,php面向对象二之封装,protected ,public,private权限管理
- C# 设置DateTime类型的变量值等于Null
- java中如何切割图片_Java 切割图片代码
- android toast_Android Toast
- python控制屏幕亮度_使用Python脚本更改显示器亮度
- 项目管理10大知识领域和47个过程的思维导图
- Xshell暴漏内网端口
- CentOS7.6 无网络环境安装MySQL5.7.x
- 2022-05-25 postgres中的并发控制的可重复读
- VanillaNet:极简主义在深度学习中的力量
- .net core 拼音转换,简繁转换,数字读法,货币读法
- WordPress自适应多功能图片主题CX-UDY
- 好用的外汇行情分析软件,让交易不再难
热门文章
- 图像工作回顾之六:视频质量诊断
- k8s 1.23 及keda 2.7.1 安装测试
- Enterprise Architect安装使用
- 云点域名-(域名解析、域名转向、二级域名、动态域名)的功能介绍
- huge形式_Linux hugepage使用与实现
- 电脑中病毒所有html文件,文件夹全部变成exe文件该怎么办?电脑中了kiss病毒的两种解决办法...
- 手机号归属地 mysql脚本_手机号码归属地能否取消? 这些热点问题,工信部回复了...
- 有哪些在家健身的软件?Mac健身软件推荐
- 大一到大二的总结与感想
- 读后感:救黑熊重要,还是救助失学儿童重要?