Linux_20题

一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

mkdir -p 1/2/3/4/5/6/7/8/9

tree

.

└── 1

└── 2

└── 3

└── 4

└── 5

└── 6

└── 7

└── 8

└── 9

二、在创建好的文件夹下面,比如我的是/Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt

touch 1/2/3/4/5/6/7/8/9/me.txt

tree 1/2/3/4/5/6/7/8/9/

1/2/3/4/5/6/7/8/9/

└── me.txt

三、在文本文件 me.txt 里面输入内容:

Go to: http://www.biotrainee.com/

I love bioinfomatics.

And you ?

vim 1/2/3/4/5/6/7/8/9/me.txt

I #切换到insert模式

Go to: [http://www.biotrainee.com/](http://www.biotrainee.com/)

I love bioinfomatics.

And you ?

Esc #返回主界面

:wq #保存退出

cat 1/2/3/4/5/6/7/8/9/me.txt

Go to: http://www.biotrainee.com/

I love bioinfomatics.

And you ?

四、删除上面创建的文件夹1/2/3/4/5/6/7/8/9 及文本文件me.txt

rm -rf 1

五、在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir -p folder_{1..5}/folder_{1..5}

ls */

folder_1/:

folder_1 folder_2 folder_3 folder_4 folder_5

folder_2/:

folder_1 folder_2 folder_3 folder_4 folder_5

folder_3/:

folder_1 folder_2 folder_3 folder_4 folder_5

folder_4/:

folder_1 folder_2 folder_3 folder_4 folder_5

folder_5/:

folder_1 folder_2 folder_3 folder_4 folder_5

六、在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。

for i in `echo folder_{1..5} folder_{1..5}/folder_{1..5}`

do

echo Hello World! > $i/me.txt

done

ls */*

folder_1/me.txt folder_3/me.txt folder_5/me.txt

folder_2/me.txt folder_4/me.txt

folder_1/folder_1:

me.txt

folder_1/folder_2:

me.txt

folder_1/folder_3:

me.txt

folder_1/folder_4:

me.txt

folder_1/folder_5:

me.txt

...

七,再次删除掉前面几个步骤建立的文件夹及文件

rm -rf folder_*

wget -c http://www.biotrainee.com/jmzeng/igv/test.bed

grep -n 'H3K4me3' test.bed

8:chr1 9810 10438 ID=SRX387603;Name=H3K4me3%20(@%20HMLE);Title=GSM1280527: %20HMLE%20Twist3D%20H3K4me3%20rep2%3B%20Homo%20sapiens%3B%20ChIP-Seq;Cell%20grou p=Breast;
source_name=HMLE_Twist3D_H3K4me3;cell%20type=human%20mammary%20epit helial%20cells;transfected%20with=Twist1;culture%20type=sphere;chip%20antibody=H 3K4me3;chip%20antibody%20vendor=Millipore; 222 . 9810 10438 0 ,226,255

wc -l test.bed

10

wget -c http://www.biotrainee.com/jmzeng/rmDuplicate.zip

unzip rmDuplicate.zip

tree rmDuplicate

rmDuplicate

├── picard

│ ├── paired

│ │ ├── readme.txt

│ │ ├── tmp.header

│ │ ├── tmp.MarkDuplicates.log

│ │ ├── tmp.metrics

│ │ ├── tmp.rmdup.bai

│ │ ├── tmp.rmdup.bam

│ │ ├── tmp.sam

│ │ └── tmp.sorted.bam

│ └── single

│ ├── readme.txt

│ ├── tmp.header

│ ├── tmp.MarkDuplicates.log

│ ├── tmp.metrics

│ ├── tmp.rmdup.bai

│ ├── tmp.rmdup.bam

│ ├── tmp.sam

│ └── tmp.sorted.bam

└── samtools

├── paired

│ ├── readme.txt

│ ├── tmp.header

│ ├── tmp.rmdup.bam

│ ├── tmp.rmdup.vcf.gz

│ ├── tmp.sam

│ ├── tmp.sorted.bam

│ └── tmp.sorted.vcf.gz

└── single

├── readme.txt

├── tmp.header

├── tmp.rmdup.bam

├── tmp.rmdup.vcf.gz

├── tmp.sam

├── tmp.sorted.bam

└── tmp.sorted.vcf.gz

十、打开第九题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。

cd rmDuplicate/samtools/single

less -SN tmp.sam #查看sam文件

samtools view tmp.sorted.bam | less -SN #查看bam文件

bam是sam的二进制格式文件,可以节约存储空间

十一、安装 samtools 软件

conda activate rna

conda install -y samtools

十二、打开 后缀为BAM 的文件,找到产生该文件的命令。提示一下命令是:

/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp

第十题答案中有如何查看bam文件

samtools view -bS tmp.sam > tmp.bam

[E::sam_parse1] missing SAM header

[W::sam_read1] Parse error at line 1

[main_samview] truncated file. #报错说sam文件没有头

ls -lh

total 80K

-rw-rw-r-- 1 yanke13 yanke13 355 Nov 12 2016 readme.txt

-rw-rw-r-- 1 yanke13 yanke13 71 Aug 21 20:38 tmp.bam

-rw-rw-r-- 1 yanke13 yanke13 17K Nov 12 2016 tmp.header #文件夹中含有头文件:每行以@开头

-rw-rw-r-- 1 yanke13 yanke13 8.8K Nov 12 2016 tmp.rmdup.bam

-rw-rw-r-- 1 yanke13 yanke13 4.8K Nov 12 2016 tmp.rmdup.vcf.gz

-rw-rw-r-- 1 yanke13 yanke13 12K Nov 12 2016 tmp.sam

-rw-rw-r-- 1 yanke13 yanke13 11K Nov 12 2016 tmp.sorted.bam

-rw-rw-r-- 1 yanke13 yanke13 4.8K Nov 12 2016 tmp.sorted.vcf.gz

cat tmp.header tmp.sam > tmp.total.sam #将tmp.sam文件的头文件tmp.header加上

samtools view -bS tmp.total.sam > tmp.bam

ls -lh

total 116K

-rw-rw-r-- 1 yanke13 yanke13 355 Nov 12 2016 readme.txt

-rw-rw-r-- 1 yanke13 yanke13 9.8K Aug 21 20:33 tmp.bam

-rw-rw-r-- 1 yanke13 yanke13 17K Nov 12 2016 tmp.header

-rw-rw-r-- 1 yanke13 yanke13 8.8K Nov 12 2016 tmp.rmdup.bam

-rw-rw-r-- 1 yanke13 yanke13 4.8K Nov 12 2016 tmp.rmdup.vcf.gz

-rw-rw-r-- 1 yanke13 yanke13 12K Nov 12 2016 tmp.sam

-rw-rw-r-- 1 yanke13 yanke13 11K Nov 12 2016 tmp.sorted.bam

-rw-rw-r-- 1 yanke13 yanke13 4.8K Nov 12 2016 tmp.sorted.vcf.gz

-rw-rw-r-- 1 yanke13 yanke13 28K Aug 21 20:32 tmp.total.sam

十三、根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

亲,您的这个文件夹已经不在了

zcat gencode.v29.annotation.gtf.gz | grep -v '^#' | cut -f 1 | sort | uniq -c #用一个找到的gtf文件做类似的工作

250524 chr1

99843 chr10

167540 chr11

159530 chr12

42767 chr13

96124 chr14

100426 chr15

130878 chr16

171137 chr17

48848 chr18

168227 chr19

204338 chr2

61485 chr20

29652 chr21

59764 chr22

172809 chr3

108328 chr4

120515 chr5

124117 chr6

130671 chr7

98583 chr8

97204 chr9

143 chrM

89500 chrX

9064 chrY

zcat gencode.v29.annotation.gtf.gz | grep -v '^#' | cut -f 1 | sort | uniq -c | wc -l #查看上一个输出文件的行数就知道是多少条chr了

25

十四、上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数。

samtools view tmp.bam | cut -f 2 | sort | uniq -c

29 0

24 16

十五、重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计

samtools view tmp.sorted.bam | cut -f 2 | sort | uniq -c

8 147

3 163

1 323

1 353

1 371

1 387

1 433

3 83

2 97

9 99

wget -c http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip

unzip sickle-results.zip

tree sickle-results

sickle-results

├── command.txt

├── single_tmp_fastqc.html

├── single_tmp_fastqc.zip

├── test1_fastqc.html

├── test1_fastqc.zip

├── test2_fastqc.html

├── test2_fastqc.zip

├── trimmed_output_file1_fastqc.html

├── trimmed_output_file1_fastqc.zip

├── trimmed_output_file2_fastqc.html

└── trimmed_output_file2_fastqc.zip

0 directories, 11 files

十七、解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?

cd sickle-results/

unzip single_tmp_fastqc.zip

cd single_tmp_fastqc

cat fastqc_data.txt | grep '^>>' | wc -l

24

十八、下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。

wget -c http://www.biotrainee.com/jmzeng/tmp/hg38.tss

grep 'NM_000546' hg38.tss

NM_000546 chr17 7685550 7689550 1

grep 'NM_001126112' hg38.tss

NM_001126112 chr17 7685550 7689550 1

... #还有很多对应的ID

十九、解析hg38.tss 文件,统计每条染色体的基因个数。

cat hg38.tss | cut -f2 | sort | uniq -c

二十、解析hg38.tss 文件,统计NM和NR开头的熟练,了解NM和NR开头的含义。

grep '^NM' hg38.tss | wc -l

51064

grep '^NR' hg38.tss | wc -l

15954

NM开头表示转录产物序列,成熟的mRNA序列

NR开头表示非编码的转录子序列,包括RNAs,假基因转子等

生信技能树linux虚拟机,2019-08-21生信技能树Linux20题相关推荐

  1. 生信技能树linux虚拟机,科学网—Windows10安装Linux子系统Ubuntu 20.04LTS,轻松使用生信软件,效率秒杀虚拟机 - 刘永鑫的博文...

    很多优秀的生物信息学软件,如QIIME.QIIME 2.LEfSe等没有Windows版,而使用VirutalBox虚拟机不仅效率低,而且挂载外部硬盘和使用中也经常遇到各种问题,配置和使用详见 - 扩 ...

  2. 【2019.08.21】2019杭电多校第十场

    补题地址:http://acm.hdu.edu.cn/listproblem.php?vol=58 题号:6691-6701 1001: 1002: 1003:✅ 1004: 1005:✅ 1006: ...

  3. 2019.08.21【NOIP提高组】模拟 B 组 dfs、最小生成树+二分、dp+计算几何、floyed+dfs、spfa

    文章目录 0 最小比例(ratio) 1 软件公司(company) 2 空间航行(warp) 3 摧 毁 巴士站(bus) 0 最小比例(ratio) 图中共有N个点的完全图,每条边都有权值,每个点 ...

  4. 2019.9.11Linux学习笔记——Linux虚拟机联网

    工作中需要使用Linux系统进行编程,所以选择使用VMware安装Linux虚拟机,选择安装的Linux虚拟机版本为CentOS 7 64位版本. 联网步骤: 安装完虚拟机之后,需要连接网络,主要步骤 ...

  5. 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  6. WPS Office 2019 for Linux(WPS 2019 文字操作指引)

    目录 第一章 WPS Office 2019 for Linux新体验 1.1.公共功能 1.1.1.WPS浏览器 1.1.2.输出为PDF 1.1.3.输出为OFD 1.1.4.输出为图片 1.2. ...

  7. gsm基于linux程序,基于嵌入式Linux下GSM模块的短信收发系统设计

    摘要:移动通信中的短消息业务以其方便.可靠和价廉得到了广泛应用,本文在嵌入式Linux系统中,通过西门子MC35模块,实现了短信收发系统,该系统采用PDU短信模式,能支持中文短信.程序设计采用异步事件 ...

  8. 国产信创Linux桌面系统比较:软件包格式及软件管理、桌面环境及桌面应用

    信创产业中,操作系统开始整合,基本上集中在银河麒麟V10和UOS2,很多朋友问到各种国产信创Linux系统的区别和比较.因此结合前期写的几篇文章,对这个问题再进行了整理.以龙芯CPU为例,比较包括lo ...

  9. windows10下载linux虚拟机,实践系列之 win10专业版安装Linux虚拟机

    写在最前面的话 年底的时候入手了一台win10系统的台式机,本来就是打算用来玩玩游戏.看看电影啥的,但是吧一场[甲冠]让我只能选择在家远程办公了.我的一个朋友因为需要安装虚拟机,找到我问了一下细节.我 ...

  10. 一文弄懂Linux虚拟机网络配置

    文章目录 计算机网路基础 网络连接模式 Bridged(桥接模式) NAT(地址转换模式) Host-Only(仅主机模式) Linux常用网络相关命令 ifconfig:配置网络接口 ping:测试 ...

最新文章

  1. R语言grep函数和grepl函数字符匹配实战
  2. retinaface onnx
  3. 数字数据fzu 2120 数字排列
  4. docker 添加端口映射_Docker快速搭建PHP开发环境详细教程
  5. Android View 的滑动
  6. ubuntu 14.04 登录 界面 root
  7. CSS快速学习2:选择符权重和字体类属性
  8. Android中libs目录下armeabi和armeabi-v7a的区别
  9. 微服务升级_SpringCloud Alibaba工作笔记0013---SpringCloud Alibaba简介
  10. ASP.NET----web用户控件
  11. 在线计算CAN波特率参数
  12. php 自动换行,php imagettftext 规定宽度内自动换行
  13. 利用VBB仿真——实现24小时电子钟
  14. 【菜鸡的LeetCode答案】【C#】7.反转整数
  15. c语言 桌面下雪程序,[Lazarus]使用Lazarus编写的桌面下雪小程序
  16. java中string是什么意思_java中string什么意思
  17. 易基因|动物发育过程中顺式调控区域的活性DNA去甲基化早于脊椎动物起源:重磅研究
  18. 【非常重要】运行supervisorctl错误提示【FATAL或BACKOFF 】Exited too quickly (process log may have details)问题总结
  19. 深度探索JFR - JFR详细介绍与生产问题定位落地 - 3. 各种Event详细说明与JVM调优策略(3)
  20. 物联网技术练习题(二)——多选题与简答题

热门文章

  1. android 手机设备刷新dns
  2. 小伙用C++搞定远程桌面监控系统,轻松拿下12家offer!
  3. C++ | Qt编译DLL
  4. 计算机毕业设计JAVA‘大学生心理健康咨询管理系统mybatis+源码+调试部署+系统+数据库+lw
  5. 01 Go实战仿百度云盘课程介绍
  6. 图书管理系统数据库设计实验报告
  7. web前端设计与开发,css段落首行缩进2字符怎么设置
  8. 〖Python 数据库开发实战 - MySQL篇⑤〗- 为大家推荐几款经典的数据库可视化工具
  9. 默纳克系统服务器怎么查故障,默纳克查历史故障
  10. USB转RS485/RS422接线说明