.fai 文件格式解读
.fai:提供随机访问fasta/fastq文件的接口
fai的格式:以\t分割,fasta 5列,fastq 6列.
NAME Name of this reference sequence
LENGTH Total length of this reference sequence, in bases
OFFSET Offset in the FASTA/FASTQ file of this sequence's first base
LINEBASES The number of bases on each line
LINEWIDTH The number of bytes in each line, including the newline
QUALOFFSET Offset of sequence's first quality within the FASTQ file
要注意的问题:
fasta/q 的这些file的要求:
- 除了最后一行其他的行一定是一致的长度。(但是允许这样的情况:有的拼接起来的文件可能会有:一个“>”的行长一致,例如30;不同的">"开始的序列行长不一样,有的“30”or“14”,但是只要内部一致都是允许的,见下面的举例)
- 要注意换行符的一致性:unix/windows/linux 一定要统一
- Name:取名的原则,">"后非空格之后的第一个单词
e.g.
fasta:
fasta file的内容:
>one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chromosome ATGCATGCATGCAT GCATGCATGCATGC
Unix下:
one 66 5 30 31 two 28 98 14 15 # 66 —> 整个序列的长度(不加换行符) # 5 # 30 -> 不计算换行符一行的长度 # 31 -> 加上换行符一行的长度# 98 -> 第一个字符从0计算,并且考虑所有的换行符长度98 = (01234)5 + 31 + 31 + 6 + 24 再加一个1 # 14 -> 两个seq长度可以不一样
Windows下:
one 66 6 30 32 two 28 103 14 16# 32 windows下换行符是两个 # 103 每一行多加一个换行符 103 = 98 + 5
fastq:
@fastq1 ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT + FFFA@@FFFFFFFFFFHHB:::@BFFFFGG HIHIIIIIIIIIIIIIIIIIIIIIIIFFFF 8011<< @fastq2 ATGCATGCATGCAT GCATGCATGCATGC + IIA94445EEII== =>IIIIIIIIICCC
unix only:
fastq1 66 8 30 31 79 fastq2 28 156 14 15 188# fastq1 —— 从@后记名 # 8 —— 7个字符+1个换行符 # 79 —— F对应的起始位置 7 + 31 + 31 + 7 + 2 = 78(最后一个换行符的尾巴,F开始就是79)# 156 —— 79[F - 110[H - 141[8 - 148[@ - 156[A # 188 —— 156 - 171[G - 186[+ - 188[I
usage
nohup samtools faidx -f GRCh38.p13.genome.chr25_withlambda.fa & # -f fastq的输入 # 记得查看.fa的具体格式,这个格式不是fastq是fasta……head GRCh38.p13.genome.chr25_withlambda.fa.fai chr1 248956422 8 60 61 chr2 242193529 253105712 60 61 chr3 198295559 499335808 60 61 chr4 190214555 700936301 60 61 chr5 181538259 894321107 60 61
利用.fai 格式转换成 .bed 格式
# length.bed
awk '{print $1, 0, $2}' GRCh38.p13.genome.chr25_withlambda.fa.fai | sed -e 's/ /\t/g' > filename
参考:
samtools faidx输出的fai文件格式解析 | fasta转bed | fasta to bed_weixin_33894640的博客-CSDN博客
faidx(5) manual page
.fai 文件格式解读相关推荐
- Flash CS5 XFL文件格式解读
Flash CS5 XFL文件格式解读 [来源: | 作者:Lee Brimelow | 时间:2010-05-04 | 点击: 731 | 收藏本文 [大 中 小]] 5uflash文章摘 ...
- 符合OpenDRIVE规范的xodr文件格式解读(1) ——road部分
以OpenDRIVE 1.5M为例,一个符合OpenDRIVE规范的xodr文件,可以分为如下这6大部分:文件头.道路.交通灯控制器.交叉口.交叉口组.车站.其中最最重要.内容最多的是道路部分,次重要 ...
- PST文件格式解读--PST文件的逻辑结构
PST 文件是 OUTLOOK 个人文件夹文件,它是独立的.结构化的二进制文件,不需要任何的外部依赖.每一个PST文件代表一个消息存储器message store,包含有任意层次结构的文件对象Fold ...
- GTF/GFF文件格式解读和转换
GFF文件 全程为gerneral feature format,这种格式主要用来注释基因组. 从Ensembel 导出的GFF文件实例,一共有9列,中间用tab键分开. 1.seq_id: 序列编号 ...
- NGS基础 - GTF/GFF文件格式解读和转换
生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...
- cache.config配置文件解读
这个是cdn配置缓存策略的文件,可以改变指定对象或是对象集的缓存参数cacheing paremeters 该文件默认存放在/usr/local/etc/trafficserver/,它定义了Traf ...
- FLV文件格式(Z)(转载)
刚才在看一些关于demux的东西,在处理flv格式的文件的时候,由于自己对flv文件的格式不了解,所以就比较云头转向,正好看到了一篇讲述flv文件格式的文章,写的比较明白,所以就转过来了.O(∩_∩) ...
- 基因组浏览器IGV的安装和图形解读
IGV (Itegrative Genomics Viewer)是一款功能强大的综合性基因组学可视化工具,能够将基因组的变异情况进行可视化,因此广泛应用于基因组学的研究中.IGV的开发得到了美国国立癌 ...
- 你想要的生信知识全在这——生信宝典目录 (181202)
生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...
- 二代三代转录组测序分析实战班
本文原创"生信宝典"公众号,作者陈同. 转录组大家都很熟悉了,我们之前也有几篇介绍: 转录组分析的正确姿势 39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版) ...
最新文章
- kvm虚拟机vnc配置
- mongodb 用户 设计_MongoDB 是什么?看完你就知道了
- 我妈今年 70 岁,受不了Windows蓝屏,用了 21 年的 Linux!YYDS!
- 文巾解题 9 回文数
- 十、LINQ查询之延迟执行
- phpSysInfo监测服务器
- 【LogStash】logstash marking url as dead 问题解决
- (一)人工智能与机器语言翻译简介
- keras + tensorflow —— 文本处理
- Python 标准库 —— urllib(下载进度)
- NTP漏洞可致Windows系统触发DoS
- AHOI2018训练日程(3.10~4.12)
- Golang sha256 加密,PHP hash_hmac(‘sha256‘, $string, $key)加密,Js CryptoJS.HmacSHA256(string, key) 加密
- c语言王者荣耀程序代码,王者荣耀:张大仙直言C语言上手并不难,玩家:张工程师成了?...
- 那些C++牛人的博客
- 【终极】文件夹隐藏方法,彻底隐藏文件夹的方法!显示隐藏的文件也看不到
- (matlab)地震数据频谱分析-频谱图代码
- Minecraft Mod开发环境搭建 | Minecraft 1.15.2 | Forge 31.1.0
- 微信小程序---简约音乐播放器
- steam好友网络无法连接
热门文章
- 常微分齐次方程的规范化通解
- 涉密打印机与设密计算机之间采用,涉密打印机与涉密计算机之间 - 作业在线问答...
- java动物继承_java 编码实现动物世界的继承关系:动物(Animal)属性:名称(name)具有行为:吃(eat)、睡觉(sleep)...
- 前端用到的单词(读音+意思)
- 用python代码实现一个简单的FSA(有限状态自动机)
- 中年危机也许只是个幻觉
- idea下的新建的index.jsp访问不到404
- 关于手机常见音频POP音产生的原因以及解决思路(一)——耳机插入与拔出
- 修复图片音频全新升级带特效喝酒神器小游戏微信小程序源码下载-多种游戏支持流量主
- 操作系统1-6章作业