UCSC_2bit基因组格式ToFASTA格式
twoBitToFa
在UCSC下载小鼠的mm10版本基因组数据时没有找到.fa文件,发现了一个mm10.2bit文件,估计是把基因组序列存成了二进制文件,翻看文件说明:
mm10.2bit - contains the complete mouse/mm10 genome sequence in the 2bit file format. Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case. The utility program, twoBitToFa (available from the kent src tree), can be used to extract .fa file(s) from this file.
A pre-compiled version of the command line tool can be found at:
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/ (重点划线,总之UCSC给出了解决方法)
See also:
http://genome.ucsc.edu/admin/git.html
http://genome.ucsc.edu/admin/jk-install.html
下载twoBitToFa
chmod +x twoBitToFa
export PATH=$PATH:/home/xxx/lustre1/software/twoBit2Fa
source ~/.bashrc
运行twoBitToFa
============================= twoBitToFa==================================
twoBitToFa - Convert all or part of .2bit file to fasta
usage:
twoBitToFa input.2bit output.fa
options:
-seq=name Restrict this to just one sequence.
-start=X Start at given position in sequence (zero-based).
-end=X End at given position in sequence (non-inclusive).
-seqList=file File containing list of the desired sequence names
in the format seqSpec[:start-end], e.g. chr1 or chr1:0-189
where coordinates are half-open zero-based, i.e. [start,end).
-noMask Convert sequence to all upper case.
-bpt=index.bpt Use bpt index instead of built-in one.
-bed=input.bed Grab sequences specified by input.bed. Will exclude introns.
-bedPos With -bed, use chrom:start-end as the fasta ID in output.fa.
-udcDir=/dir/to/cache Place to put cache for remote bigBed/bigWigs.
Sequence and range may also be specified as part of the input
file name using the syntax:
/path/input.2bit:name
or
/path/input.2bit:name
or
/path/input.2bit:name:start-end
twoBitToFa input.2bit output.fa
UCSC_2bit基因组格式ToFASTA格式相关推荐
- 基因组序列genbank格式和fasta格式批量下载
from Bio import Entrez,SeqIO import csv# 参数设置 Entrez.email = "example@163.com" Entrez.tool ...
- Oracle 默认时间格式 Date格式转换
默认时间格式: 1.Oracle的日期格式 Oracle缺省的时间格式即时间数据的显示形式,与所使用的字符集有关.一般显示年月日,而不显示时分秒. 例如,使用us7ascii字符集(或者是其他的英语字 ...
- ML之FE:基于FE特征工程对RentListingInquries数据集进行预处理并导出为三种格式文件(csv格式/txt格式/libsvm稀疏txt格式)
ML之FE:基于FE特征工程对RentListingInquries数据集进行预处理并导出为三种格式文件(csv格式/txt格式/libsvm稀疏txt格式) 目录 输出结果 设计思路 核心代码 输出 ...
- oracle jpg格式导出,格式记RAW,另存或导出就是JPG格式,就这么很简单
我是踩一脚摄影,自封的摄影"自学成才"榜样,对于初学者的你来说,这里肯定有你想看的东西. 昨天从RAW格式聊到了JPG格式,今天咱们再来多聊几句JPG吧! JPG有的也写成JPEG ...
- 如何储存图片方法jpg格式png格式#ps教程#ps抠图
如何储存图片方法jpg格式png格式#ps教程#ps抠图
- 谷歌地球倾斜模型3Dtiles格式cesium格式一键导入查看
谷歌地球倾斜模型3Dtiles格式cesium格式一键导入查看 台湾省倾斜模型ceisum 3Dtiles格式谷歌地球谷歌地 大家好我是谷谷GIS的开发者,为大家分享一下这个台湾省的,倾斜模型3Dti ...
- python 实现文件的批量压缩为.zip格式+.zip格式文件的解析
python 实现文件的批量压缩为.zip格式+.zip格式文件的解析 python 实现文件的批量压缩为.zip格式 Python解析.zip文件的常见函数 python 实现文件的批量压缩为.zi ...
- Adobe欲统一相机RAW格式的格式——DNG数码负片
Adobe欲统一相机RAW格式的格式--DNG(Digital Nagetive 数码负片) RAW的原意就是"未经加工".可以理解为:RAW图像就是CMOS或者CCD图像感应器将 ...
- Adobe欲统一相机RAW格式的格式——DNG数码负片_我是亲民_新浪博客
Adobe欲统一相机RAW格式的格式--DNG(Digital Nagetive 数码负片) RAW的原意就是"未经加工".可以理解为:RAW图像就是CMOS或者CCD图像感应器将 ...
- 订单格式:格式:YYYYMMDD+6位序列,后6位是固定的6位数实现
订单格式:格式:YYYYMMDD+6位序列,后6位是固定的6位数,新增一条自动+1,高位补0的实现 示例:20160101000001 String date = new SimpleDateForm ...
最新文章
- 领导者必须学会做的十件事情
- linux的备份命令详解,docker备份linux系统的命令详解
- c语言,如何产生随机数
- 带入gRPC:gRPC Streaming, Client and Server
- C++:52---多重继承
- MTU(Maximum Transmission Unit),最大传输单元
- CSS3边框图片、边框阴影、文本阴影
- 真不一样了!苹果iPhone 14外形提前曝光:采用“打孔+药丸”的设计
- 【每日算法Day 106】打家劫舍系列最后一弹,撑住你就赢了!
- Spark之键值RDD转换(转载)
- SQL教程及学习 我选择了《SQL必知必会》
- android studio打包h5,Android Studio打包生成APK教程
- 如何判断函数极值点与拐点
- 嵌入式软件工程师学习路线图
- python爬虫:批量下载qq空间里的照片(二)
- 必杀VI、VIM编辑器命令
- ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException 解决方案【SOLVED】
- putty linux上安装及使用
- 给你的亲人一个科技感满满的生日祝福吧
- 前端-Excel在线预览