您所在位置:网站首页 > 海量文档

&nbsp>&nbsp高等教育&nbsp>&nbsp生物学

数学建模DNA序列分类模型(终稿).doc32页

本文档一共被下载:次,您可全文免费在线阅读后下载本文档。

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

2.该文档所得收入(下载+内容+预览三)归上传者、原创者。

3.登录后可充值,立即自动返金币,充值渠道很便利

DNA序列分类模型

DNA序列分类模型

摘要

本文分析了已知类别的人工DNA序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工DNA序列和自然序列进行分类,根据分类效果选出了较优模型。

首先对数据进行预处理,得到人工DNA序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析A、B两类的差异,得到合适的特征判定条件对未知类别的DNA序列进行分类。计算人工DNA序列的特征量,给出各序列的统计数据。

其次用聚类分析延拓模型进行分类。用A、B两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号1-20人工DNA序列的特征向量,计算两两之间的Lance和Williams距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的A、B两类,建立了聚类分析延拓模型。再对选取的特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。

再次用马尔可夫模型进行分类。将DNA序列看成是马尔可夫链,求出编号1-10和11-20人工DNA序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵1和2,再利用矩阵1和2分别求出编号1-20中任一条DNA序列出现的概率,选择较大的一个作为该DNA序列的分类,建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号21-40人工DNA序列和182条自然序列进行分类,得到最终结果。

最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:

编号21-40人工DNA序列中属于A类的样品编号为:22,23,25,27,29, 30,34,35,36,37,39;属于B类的样品编号为:21,24,26,28,31,32,33,38,40。

182条自然序列中,属于B类的样品编号为:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余为A类。

关键词 DNA序列分类 聚类分析延拓法 Lance和Williams距离 马尔可夫法

一、问题重述

1.1题目背景

(1)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。

(2)这本 “天书”是由4个字符A,T,C,G按一定顺序排成的无间隔的长约30亿的序列,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。

(3)为解读这部“天书”,首先要研究DNA全序列具有什么结构,以及由这4个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重要的课题。

1.2题目信息

(1)DNA序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。

(2)在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。

(3)利用统计的方法还发现序列的某些片段之间具有相关性。

这些发现说明DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。

1.3题目要求

(1)有20个已知类别的人工制造的DNA序列(见附件1),其中序列标号1—10 为A类,11-20为B类。从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。

(2)用(1)中的分类方法对另外20个未标明类别的人工序列(见附件1,标号21—40)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A类或B类,无法分类的不写入)。

要求详细描述所选的分类方法,给出计算程序。若论文中部分地使用了现成的分类方法,应将方法名称准确注明。

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名:

验证码:

匿名?

发表评论

dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc相关推荐

  1. 【LSSVM分类】基于matlab灰狼算法优化LSSVM分类(多输入多分类)【含Matlab源码 1558期】

    ⛄一.获取代码方式 获取代码方式1: 完整代码已上传我的资源:[LSSVM分类]基于matlab灰狼算法优化LSSVM分类(多输入多分类)[含Matlab源码 1558期] 获取代码方式2: 付费专栏 ...

  2. matlab球落点的数学建模,MATLAB数学建模:智能优化算法-人工鱼群算法

    MATLAB 数学建模: 人工鱼群算法 1. 基本原理 人工鱼群算法是一种受鱼群聚集规律而启发的优化算法. 在人工鱼群算法中, 我们假定鱼群的活动行为分为: 觅食行为, 群聚行为, 追随行为和随机行为 ...

  3. matlab 数学库,matlab数学函数库

    (n) 求 n 的阶乘 如何用 matlab 配方 没有发现 matlab 有这一命令,不过我们可以调用 maple 的命令,调用方法如下: 首先加载 maple 中的 student 函数库,加载. ...

  4. matlab数学运算规则,matlab数学运算基础

    matlab数学运算基础 MATLAB 数学运算基础 1/10 MATLAB 数学运算基础 目录 1 数据表示方法 2 矩阵的赋值 3 向量的赋值 4 用矩阵元素组成新矩阵 附:矩阵赋值中的标点符号 ...

  5. 基于matlab的正交幅度调制系统,基于matlab多进制正交幅度调制系统的仿真终稿.doc...

    基于matlab多进制正交幅度调制系统的仿真终稿 通信系统综合设计与实践 题目基于Matlab的多进制正交幅度调制系统的仿真 院(系)名称信院通信系 专业名称通信工程 学生姓名 学生学号 指导教师 2 ...

  6. dna序列分类数学建模matlab,数学建模常用的分析法及其MATLAB实现

    [toc] 介绍 本篇分别有主成分分析,层次分析,聚类分析,因子分析的简单介绍以及在MATLAB(2018a)上使用的简单介绍 ( 附源码 ) 主成分分析 主成分分析-百度百科 简单讲:主成分分析就是 ...

  7. 数学建模 matlab 数据建模基础

    一.数据的获取 1.从Excel中读取数据 (1)xlsread函数 :从EXCEL读入数据到MATLAB中. 例如: a = xlsread('D:\adc.xlsx',1,'A1:D2') 其中, ...

  8. 线性规划问题的数学建模matlab,数学建模讲座之三——利用Matlab求解线性规划问题(linprog函数).ppt...

    数学建模讲座之三--利用Matlab求解线性规划问题(linprog函数) 利用Matlab求解线性规划问题 线性规划是一种优化方法,Matlab优化工具箱中有现成函数linprog对如下式描述的LP ...

  9. 基金使用计划 数学建模 matlab,数学建模论文-基金使用计划

    数学建模论文-基金使用计划 题 目 基金使用计划摘要本文研究了关于基金使用计划的问题,主要目的在于设计资金的合理安排方法,实现在一定条件下,使用有限的资金合理投资,达到最大的利润.并且我们建立了相应的 ...

最新文章

  1. Java Web项目结构
  2. [转]Webkit内核探究【2】——Webkit CSS实现
  3. activemenu怎么拼 vue_Vue-el-menu使用,点击按钮跳转指定页面
  4. 【转】常用的工业测量坐标系
  5. 按值传递时 php必须复制值,PHP笔试题汇总
  6. python如何自定义函数_python如何自定义函数_后端开发
  7. 中国电信学院c语言题库,电脑题库试题精编版.doc
  8. 新技术层出不穷,一入前端深似海!
  9. 微软提出VLMo:用“模态混合专家”进行统一的视觉语言预训练!即将开源!
  10. 协同过滤算法的几篇文章PFM/svd/ svd++
  11. C++ boost 正则表达式用法
  12. esp8266开发入门教程(基于Arduino)——编程基础介绍
  13. 大牛解密阿里云直播技术平台
  14. Ubuntu下运行免安装Redis及Redis开机自动启动配置
  15. 世纪安图参加2014地理信息开发者大会
  16. DirectX11 模板测试
  17. slice扩容机制分析
  18. 华为1220s配置url过滤,规范员工上网行为
  19. 聚合支付行业的2019年终总结大会!细品,你细品~
  20. 汽车功能安全 - 危险分析和风险评估

热门文章

  1. 决策树的生成—ID3算法
  2. 关于车载TBox的功能认知
  3. 496849-46-8,H-Tyr-cyclo(-D-Dab-Arg-Phe-Phe-D-Trp-Lys-Thr-Phe)
  4. Winseeing外贸软件如何提高仓储物流管理水平
  5. 易课寄在线购课系统开发笔记(三十一)--登录注册页面实现
  6. 计算机专业在桂林好找工作吗,没学历桂林工作好找吗 没学历在桂林能干嘛
  7. linux下版图设计,Linux系统安装及全定制版图设计基础.ppt
  8. 国内WiFi模组厂商盘点及发展分析
  9. rancher rke 集群恢复
  10. MPLS基本原理讲解