含有>多少行

练习1:
1.人类Y染色体上有多少个基因呢?
2.在Y染色体的注释文件中有第三列哪些类型呢?
3.匹配exon 的行,然后反向输出
4.匹配CDS 或者UTR 的行
5.查找example.fq文件包含@ 的行并统计
6.查找example.fq文件以@ 开头的行并统计

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |cut -f 3|headzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |head

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep "gene"|head 

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep "^gene"|head 

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep -w "gene"|sort|uniq|wc -lzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep -w "gene"|sort|uniq

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep -w "gene"|sort|wc -lzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep -w "gene"|wc -l

 1.人类Y染色体上有多少个基因呢?

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz| cut -f 3| grep -w  'gene'| wc -l

已知Homo这个文件就是Y染色体的gff3文件,我们先进行解压缩观看,即使用zcat这一命令,而后使用 head -30查看一下大致内容,注意不要直接zcat,通过了解gff3文件的格式,得知第三列为为类型,我们需要先通过cut这一命令取第三列(-f)的内容,而后通过grep这一命令筛选gene这一关键词,需要注意的是,如果不加上参数约束,pseudogene也会被筛选出来,因此需要加上 -w 这一次参数,最后使用wc统计即可。

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep "^gene"|sort|uniq -c

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|cut -f 3|grep -v "#"|grep -w "gene"|sort|uniq -c

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|head

看有多少个 注释文件

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|grep '#'

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|grep -v '#'|head

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|grep -v '#'|less -SN

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz|grep -v '#'|head -1

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |cut -f 3|headzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |head

2.在Y染色体的注释文件中有第三列哪些类型呢? 

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |sort|uniq -c

前期步骤同上,不过在取完第三列之后,先用sort查看一下,发现里面有很多以#号开头的内容,因此我们需要先反选带有#号的内容,使用-v参数即可,

为了只显示类型,我们先sort后uniq,即可显示具体的类型,使用-c参数即可显示出现的次数。

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |sort|uniq -c|sortzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |sort|uniq -c|sort -k 1

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3|grep -v "#" |sort|uniq -c|sort  -n -k 1

3.匹配exon 的行,然后反向输出 

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |grep "exon"|less -SNzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |grep -v "exon"|less -SN

4.匹配CDS 或者UTR 的行

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |grep -e 'CDS' -e 'UTR'|less -SN

zcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |grep -E 'CDS|UTR'|less -SNzcat Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz |grep 'CDS\|UTR'|less -SN

5.查找example.fq文件包含@ 的行并统计

cat example.fq|head

cat example.fq|grep '@'|wc -1cat example.fq|grep -c '@'

cat example.fq|grep -c '^@'cat example.fq|grep -v '^@'|less -SN

cat example.fq|wc -1cat example.fq|grep '^@'|grep -v '@ERR'|less -SN

cat example.fq|grep '^@'|grep -v -n '@ERR'|less -SN

生物信息学常见数据格式 • fasta • fastq • gff/gtf 练习题相关推荐

  1. 生物信息学常见数据格式 • fasta • fastq • gff/gtf

    一.fasta fasta 是一种基于文本用于表示核酸序列或多肽序列的格式.其中核酸或氨基酸均以单 个字母来表示,且允许在序列前添加序列名及注释 特征: 2行, id行和序列行. id行以" ...

  2. 生信分析过程中这些常见文件(fastq/bed/gtf/sam/bam/wig)的格式以及查看方式你都知道吗?

    生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式.在分析的过程中还会有众多中间文件的生成,如bed.bed12. ...

  3. 数据格式_初识生信常见数据格式知多少?

    ?点击上方蓝字把我们设为星标吧✴ 前言 刚刚踏入生信圈的你,有没有因为各种数据格式而困惑过?比如基因组Fasta序列,又或者二代测序的Fastq数据.这些数据有哪些特点?又有哪些日常操作是生信小白必须 ...

  4. NGS基础---Fasta/Fastq格式记录

    Fasta/Fastq格式记录 时间:2020-10-21 生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件.通过wiki和网上资料,对这两种格式进行说明和记录. 1. ...

  5. GFF/GTF简介及格式转换

    最近做转录组的比对时,在建立索引过程中,遇见一个问题,就是我从ncbi下载的序列文件和gtf文件中,染色体命名规则竟然不一样,但序列文件和gff文件染色体命名规则是一样的,具体来说:序列文件和GFF文 ...

  6. 生信必会格式:Fasta Fastq 简介及转换

    文章目录 前言 FASTA 例子:血红蛋白α的核酸和蛋白质序列 FASTQ FASTA FASTQ 对比 FASTQ 转为 FASTA 使用基本的命令:sed.paste.awk 使用现有工具:Bio ...

  7. 常用生物信息学格式介绍(fasta、fastq、gff2、gtf(gff2.5)、gff3、bed、sam、bam、vcf)

    前言 在各个行业都是有行业标准的,这样才能统一规范而方便后面的分析,在生物信息学领域中主要是各种大量序列数据.注释数据等,这些都是有特定的格式去表示,下面列举几种常见的格式.了解这些是进行后续生物信息 ...

  8. 生物信息数据格式:gff,gtf格式

    文章目录 gff 示例 gtf 示例 gff和gtf的区别 gff GFF(General Feature Format)是一种用来描述基因组特征的文件,现在我们所使用的大部分都是第三版(gff3). ...

  9. fq,fa,fna,ffn,faa都是什么鬼,与fasta,fastq格式有什么关系?终于1分钟搞懂了

    fasta与fastq的区别: fasta格式(格式缩写为fa)是一种存储核酸或氨基酸序列的文本格式 ,允许在序列前定义名称和编写注释. 已成为生物信息学的标准格式,格式简单,多种文本处理工具和 Py ...

最新文章

  1. 正睿 2018 提高组十连测 Day4 T3 碳
  2. Windows 10 PowerCL 使用 VMwme-PowerCLI安装说明
  3. javascript---》arguments对象
  4. vue教程4:自定义组件的使用
  5. xml.etree ElementTree简介
  6. 无聊写的一个PHP Socket类
  7. .net中调用exchange服务器发邮件
  8. Nginx记录客户端POST过来的具体信息
  9. 这个城市的外卖小哥注意了!必须穿上特定马甲 违反交规逃逸将被追罚
  10. Ubuntu系统使用罗技鼠标
  11. Java数据结构和算法---程序员常用10种算法
  12. Base64原理和转换会变大33%左右的原因
  13. MongoDB复制集同步慢问题分析
  14. Android------APP FPS测试
  15. ListView分页操作
  16. 从ToC到ToB,疫情给我们的影响是什么?
  17. 36. 有效的数独(技巧)
  18. 应届生web前端面试题_前端开发应届生面试指南(含各大公司具体指南及面试真题)...
  19. Qt5给Excel添加批注
  20. Unity Chan 试玩

热门文章

  1. python的类型化_显式类型化的Python版本?
  2. ICCV2021旷视研究院入选9篇paper介绍(检测+点云+图像配准等)
  3. 总结 | 相机标定的基本原理与改进方法
  4. RDKit:化学指纹(Chemical Fingerprinting)
  5. 64位Ubuntu上编译32位程序
  6. php写网页6,基于ThinkPHP6+AdminLTE框架开发的响应式企业网站CMS系统PHP源码,ThinkPHP6开发的后台权限管理系统...
  7. centos7虚拟机网桥模式不通_CentOS7虚拟机桥接设置及问题
  8. python文本分类评价指标 top1如何计算_使用paddlehub自定义任务,具体是自定义文本分类任务中的评价指标时按照官方文档的方法做了之后报错了,请问应该如何解决?...
  9. 深扒:一个司机如何潜入机房偷数据…
  10. 生物信息学 Python 入门之源码安装