• .fai:提供随机访问fasta/fastq文件的接口

    • fai的格式:以\t分割,fasta 5列,fastq 6列.

      • NAME Name of this reference sequence

      • LENGTH Total length of this reference sequence, in bases

      • OFFSET Offset in the FASTA/FASTQ file of this sequence's first base

      • LINEBASES The number of bases on each line

      • LINEWIDTH The number of bytes in each line, including the newline

      • QUALOFFSET Offset of sequence's first quality within the FASTQ file

    • 要注意的问题:

      fasta/q 的这些file的要求:

      • 除了最后一行其他的行一定是一致的长度。(但是允许这样的情况:有的拼接起来的文件可能会有:一个“>”的行长一致,例如30;不同的">"开始的序列行长不一样,有的“30”or“14”,但是只要内部一致都是允许的,见下面的举例)
      • 要注意换行符的一致性:unix/windows/linux 一定要统一
      • Name:取名的原则,">"后非空格之后的第一个单词

    e.g.

    • fasta:

      fasta file的内容:

      >one
      ATGCATGCATGCATGCATGCATGCATGCAT
      GCATGCATGCATGCATGCATGCATGCATGC
      ATGCAT
      >two another chromosome
      ATGCATGCATGCAT
      GCATGCATGCATGC
      

      Unix下:

      one   66  5   30  31
      two 28  98  14  15
      # 66 —> 整个序列的长度(不加换行符)
      # 5
      # 30 -> 不计算换行符一行的长度
      # 31 -> 加上换行符一行的长度# 98 -> 第一个字符从0计算,并且考虑所有的换行符长度98 = (01234)5 + 31 + 31 + 6 + 24 再加一个1
      # 14 -> 两个seq长度可以不一样
      

      Windows下:

      one    66  6   30  32
      two 28  103 14  16# 32 windows下换行符是两个
      # 103 每一行多加一个换行符 103 = 98 + 5
      
    • fastq:

      @fastq1
      ATGCATGCATGCATGCATGCATGCATGCAT
      GCATGCATGCATGCATGCATGCATGCATGC
      ATGCAT
      +
      FFFA@@FFFFFFFFFFHHB:::@BFFFFGG
      HIHIIIIIIIIIIIIIIIIIIIIIIIFFFF
      8011<<
      @fastq2
      ATGCATGCATGCAT
      GCATGCATGCATGC
      +
      IIA94445EEII==
      =>IIIIIIIIICCC
      

      unix only:

      fastq1    66  8   30  31  79
      fastq2  28  156 14  15  188# fastq1 —— 从@后记名
      # 8 —— 7个字符+1个换行符
      # 79 —— F对应的起始位置 7 + 31 + 31 + 7 + 2 = 78(最后一个换行符的尾巴,F开始就是79)# 156 —— 79[F - 110[H - 141[8 - 148[@ - 156[A
      # 188 —— 156 - 171[G - 186[+ - 188[I
      
    • usage

      nohup samtools faidx -f GRCh38.p13.genome.chr25_withlambda.fa &
      # -f fastq的输入
      # 记得查看.fa的具体格式,这个格式不是fastq是fasta……head GRCh38.p13.genome.chr25_withlambda.fa.fai
      chr1    248956422       8       60      61
      chr2    242193529       253105712       60      61
      chr3    198295559       499335808       60      61
      chr4    190214555       700936301       60      61
      chr5    181538259       894321107       60      61
      

利用.fai   格式转换成 .bed 格式

# length.bed
awk '{print $1, 0, $2}' GRCh38.p13.genome.chr25_withlambda.fa.fai | sed -e 's/ /\t/g' > filename

参考:

samtools faidx输出的fai文件格式解析 | fasta转bed | fasta to bed_weixin_33894640的博客-CSDN博客

faidx(5) manual page

.fai 文件格式解读相关推荐

  1. Flash CS5 XFL文件格式解读

    Flash CS5 XFL文件格式解读 [来源: | 作者:Lee Brimelow | 时间:2010-05-04 | 点击: 731 | 收藏本文  [大 中 小]]     5uflash文章摘 ...

  2. 符合OpenDRIVE规范的xodr文件格式解读(1) ——road部分

    以OpenDRIVE 1.5M为例,一个符合OpenDRIVE规范的xodr文件,可以分为如下这6大部分:文件头.道路.交通灯控制器.交叉口.交叉口组.车站.其中最最重要.内容最多的是道路部分,次重要 ...

  3. PST文件格式解读--PST文件的逻辑结构

    PST 文件是 OUTLOOK 个人文件夹文件,它是独立的.结构化的二进制文件,不需要任何的外部依赖.每一个PST文件代表一个消息存储器message store,包含有任意层次结构的文件对象Fold ...

  4. GTF/GFF文件格式解读和转换

    GFF文件 全程为gerneral feature format,这种格式主要用来注释基因组. 从Ensembel 导出的GFF文件实例,一共有9列,中间用tab键分开. 1.seq_id: 序列编号 ...

  5. NGS基础 - GTF/GFF文件格式解读和转换

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  6. cache.config配置文件解读

    这个是cdn配置缓存策略的文件,可以改变指定对象或是对象集的缓存参数cacheing paremeters 该文件默认存放在/usr/local/etc/trafficserver/,它定义了Traf ...

  7. FLV文件格式(Z)(转载)

    刚才在看一些关于demux的东西,在处理flv格式的文件的时候,由于自己对flv文件的格式不了解,所以就比较云头转向,正好看到了一篇讲述flv文件格式的文章,写的比较明白,所以就转过来了.O(∩_∩) ...

  8. 基因组浏览器IGV的安装和图形解读

    IGV (Itegrative Genomics Viewer)是一款功能强大的综合性基因组学可视化工具,能够将基因组的变异情况进行可视化,因此广泛应用于基因组学的研究中.IGV的开发得到了美国国立癌 ...

  9. 你想要的生信知识全在这——生信宝典目录 (181202)

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  10. 二代三代转录组测序分析实战班

    本文原创"生信宝典"公众号,作者陈同. 转录组大家都很熟悉了,我们之前也有几篇介绍: 转录组分析的正确姿势 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版) ...

最新文章

  1. kvm虚拟机vnc配置
  2. mongodb 用户 设计_MongoDB 是什么?看完你就知道了
  3. 我妈今年 70 岁,受不了Windows蓝屏,用了 21 年的 Linux!YYDS!
  4. 文巾解题 9 回文数
  5. 十、LINQ查询之延迟执行
  6. phpSysInfo监测服务器
  7. 【LogStash】logstash marking url as dead 问题解决
  8. (一)人工智能与机器语言翻译简介
  9. keras + tensorflow —— 文本处理
  10. Python 标准库 —— urllib(下载进度)
  11. NTP漏洞可致Windows系统触发DoS
  12. AHOI2018训练日程(3.10~4.12)
  13. Golang sha256 加密,PHP hash_hmac(‘sha256‘, $string, $key)加密,Js CryptoJS.HmacSHA256(string, key) 加密
  14. c语言王者荣耀程序代码,王者荣耀:张大仙直言C语言上手并不难,玩家:张工程师成了?...
  15. 那些C++牛人的博客
  16. 【终极】文件夹隐藏方法,彻底隐藏文件夹的方法!显示隐藏的文件也看不到
  17. (matlab)地震数据频谱分析-频谱图代码
  18. Minecraft Mod开发环境搭建 | Minecraft 1.15.2 | Forge 31.1.0
  19. 微信小程序---简约音乐播放器
  20. steam好友网络无法连接

热门文章

  1. 常微分齐次方程的规范化通解
  2. 涉密打印机与设密计算机之间采用,涉密打印机与涉密计算机之间 - 作业在线问答...
  3. java动物继承_java 编码实现动物世界的继承关系:动物(Animal)属性:名称(name)具有行为:吃(eat)、睡觉(sleep)...
  4. 前端用到的单词(读音+意思)
  5. 用python代码实现一个简单的FSA(有限状态自动机)
  6. 中年危机也许只是个幻觉
  7. idea下的新建的index.jsp访问不到404
  8. 关于手机常见音频POP音产生的原因以及解决思路(一)——耳机插入与拔出
  9. 修复图片音频全新升级带特效喝酒神器小游戏微信小程序源码下载-多种游戏支持流量主
  10. 操作系统1-6章作业