北京大学生物信息学(9)第二代基因组测序技术
如何预测一个遗传变异的功能及其对表型的变化
https://www.bilibili.com/video/BV13t411G7oh?p=26

常见的二代测序技术包括

基因组的装配
有参比对和无参比对

在比对的过程中存在的问题

比对的过程中,机器的耗时 和正确性

那么常见的比对的第三方方法主要包括Bowtie 和BWA、MAQ以及SOAP 都可以用于序列的比对。
通过构建索引的方法,能够大大的减小比对的时间,这种 方法主要是利用seeding 的过程来降低整体的比对。


遗传变异的来源
父母遗传
从头突变
体细胞突变

常见的突变
染色体倍数变异(21三体综合征、唐氏综合症)
染色体结构的变异
染色体拷贝数的变异
短片段的插入和缺失
单核苷酸变异
突变
多态性(变异超过1%或者5%)
变异 是突变和多态性的统称。


插入缺失导致的结构
在编码区可导致读码框的移动以及费读码框的迁移。

单核苷酸变异带来的结果
缺失突变

SNV 的突变,并不一定全引起病变

如何通过遗传变异来预测表型

遗传变异功能的预测

常见的突变数据库
Swiss-port、OMIM 以及HGMD以及db SNP千人基因组

如何判断一个突变是中性突变还是疾病相关的突变?
对表型的影响,从表象到分子机制的挖掘
即个体的病变

动物模型的验证
细胞水平细胞形态功能的改变

蛋白功能的改变
蛋白结构的改变

蛋白序列的改变

GWAS 中研究出来的突变,主要位于非编码区

早期的通过替换矩阵来分析遗传变异

SIFT 算法基于保守性原则,重要的蛋白质的在多个物种中是保守的。因此在这些的蛋白质中的突变,将会更可能的导致疾病的发生。


SIFT 的操作流程
第一步寻找相似的序列
第二步选择序列相似性高的序列(90%)
第三步 获得所选序列的多重比对结结果


经常用的准确性的评估

另一个的多态性表型预测的工具PolyPhen
它主要是基于序列和结构的预测改变对蛋白的功能的影响,因此它是主要基于多序列比对和蛋白质的三维结构


polyphen 的操作步骤

后来进行改进得到了新的版本2,基于机器学习的方法,而非经验的方法。使用的方法链接https://cloud.tencent.com/developer/article/1626445

高和魏lab 的开发工具

基于支持向量机SVM 进行分类的
第一步也是寻找感兴趣的蛋白是否有三维结构(无的话,通过SWISS-MODEL进行同源建模)

对于蛋白质建模的过程中,对于比对上的位点和骨架结构进行确定,没有比对上的位点和氨基酸改变了的位点需要通过能量最小方程来确定。

同源建模

高lab 软件的属性确定

考虑单个氨基酸周围的微环境,变异的氨基酸周围的10个氨基酸(20个原始的氨基酸的数目有多少个)


不同的半径预测的结果的准确性不同,当为13埃米的时候,预测结果最好。

第二个序列特点
变异位点附近功最近的功能性位点之间的距离。

第三个特点是无序区

多个研究发现,蛋白质的无序区的产生与多种疾病的发生有关。

氨基酸的替换也将会导致氢键数目的改变。氢键的电荷数目

蛋白质的其他的属性

突变对蛋白的跨膜区域的影响和突变对Bata聚集的影响以及来自HLA 家族的SAPs

对所有的数据的feature 进行统计,然后通过特征选择,然后选择对蛋白质结构和功能表影响最大的几个特征,再用SVM 的5倍交叉验证的方法进行验证。获得准确度和精确度。
5倍交叉模型,随机分5份,取其中一份,在剩下的4份理预测评估,进行5次循环。

通过SVM 后,可以得到准确度和特异性

准确度的评估


Angelina 所获得的突变BRAC1具有强的家族治病史。

北京大学生物信息学(9)第二代基因组测序技术相关推荐

  1. 四代 DNA 测序技术简述*

    四代 DNA 测序技术简述 姚亭秀 (北京市第八十中学 北京 100102) 摘要 DNA 测序技术是现代分子生物学研究中最常用的技术,极大推动了生物学的发展.从 20世纪 70 年代至今,DNA 测 ...

  2. 【Android 逆向】加壳技术简介 ( 动态加载 | 第一代加壳技术 - DEX 整体加固 | 第二代加壳技术 - 函数抽取 | 第三代加壳技术 - VMP / Dex2C | 动态库加壳技术 )

    文章目录 一.动态加载 二.第一代加壳技术 ( DEX 整体加固 ) 三.第二代加壳技术 ( 函数抽取 ) 四.第三代加壳技术 ( Java 函数 -> Native 函数 ) 五.so 动态库 ...

  3. 三代基因组测序技术原理简介

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! [写在前 ...

  4. HiFi全基因组测序技术与实例|HiFi基因组组装软件推荐

    HIFI技术的简介 HiFi reads(High fidelity reads) 是Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列,一般采用CCS(Circular Conse ...

  5. 北京大学生物信息学-第五周-新一代测序(NGS) 回帖 BWT算法

    新一代测序 Read: A short DNA fragment which is read out by sequencer. 读:由测序仪读出的短DNA片段. DNA序列+质量信息->FAS ...

  6. 复杂基因组测序技术研究进展

    基因组是所有生命遗传物质的集合,为生命行使生物学功能提供指导,基因组中的碱基序列信息记录着生命进化的历史.因而,基因组序列的完整解析可极大促进基因功能研究,更为物种相互作用和基因组比较等生命科学研究提 ...

  7. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  8. 北京大学生物信息学学习(7)NGS 分析

    第二代基因组测序 深度测序产生的FASTQ 数据 Q值会通过转化表编码成ASCI码保存在FASTQ数据中 通过质量信息,常将质量分数小于20,即错误概率大于0.01 的碱基认为是不可靠的,如果这样的剪 ...

  9. 学习全基因组测序数据分析1:测序技术

    本文转载自微信公众号解螺旋的矿工,作者为黄树嘉,已获得授权.黄树嘉写了WGS系列的文章,堪称教科书级别的生物信息学习材料.虽然本平台只关注宏基因组领域,但此系列文章知识体系完善.干货满满,是值得每位专 ...

最新文章

  1. Java异常信息处理类
  2. YUI Grid CSS的优雅设计(转)
  3. 黑苹果挂载不了分区_让黑苹果变得更完美——BCM94532HMB无线蓝牙接力完美驱动!...
  4. “全人类的知识宝藏”维基百科迎来了20岁的生日!
  5. 解决CUDA driver version is insufficient for CUDA runtime version
  6. 由于找不到appvisvsubsystems32.dll_ftp软件搜索不到,ftp软件搜索不到的2种原因
  7. Unreal Engine 4 —— 适用于FPS游戏的勾边后期效果
  8. 永辉发布元宵数据:汤圆销售明显提升,多个民生产品增长超150%
  9. 逗号分割符--字段中含逗号等情况的解析方法Java实现
  10. django进阶02websocket
  11. Stack Overflow监控系统内部架构初探
  12. 如何把握软件产品的质量
  13. 使用showInputDialog显示输入框
  14. iptables应用
  15. roboware studio教程_2.2.RoboWare Studio安装及使用
  16. 平均随机一致性指标表MATLAB,AHP法中平均随机一致性指标的算法及MATLAB实现.pdf...
  17. (35)zabbix Event acknowledgment事件确认
  18. c编译动态库和静态库流程
  19. Python_Turtle绘制心形线(采用函数描点法绘制)(turtle实现)【2021-10-15】
  20. PowerDesigner菜单翻译

热门文章

  1. JavaWeb--用户注册登录案例
  2. c语言 老鼠乘法,c语言-老鼠走迷宫逐步理解
  3. python人工智能方向怎么学_如何学习人工智能
  4. UML图学习之五 序列图(顺序图)和协作图
  5. Petya and Strings
  6. 外包公司值不值得去?外包公司的面试特点
  7. Jenkins集成Sonar(3/3)- 安装SonarQube Scanner进行扫描(离线安装)
  8. transact-sql的语法规则
  9. 业务单据堆积如山?如何提升会计做账效率?
  10. svg上传服务器无法显示,让WordPress支持上传SVG格式图片并显示在媒体库中的方法...