1.获取开始和结束行号

cat GCA_000001405.15_GRCh38_full_analysis_set.fna |grep -i -n '>'

2.提取chr14

cat GCA_000001405.15_GRCh38_full_analysis_set.fna |head -32835035|tail -1529197 >GRCH38ch14.fasta

3.整理:

hadoop@Mcnode2:~/cloud/adam/xubo/data/test20160310/GRCH38chr14$ ll -h
total 104M
drwxrwxr-x 2 hadoop hadoop 4.0K  6月  7 20:50 ./
drwxrwxr-x 8 hadoop hadoop 4.0K  6月  7 20:50 ../
-rw-rw-r-- 1 hadoop hadoop 104M  6月  7 20:49 GRCH38chr14.fasta

4.构建BWA索引:

hadoop@Master:~/xubo/data/GRCH38chr14$ bwa index GRCH38chr14.fasta
[bwa_index] Pack FASTA... 1.18 sec
[bwa_index] Construct BWT for the packed sequence...
[BWTIncCreate] textLength=214087436, availableWord=27063796
[BWTIncConstructFromPacked] 10 iterations done. 44642828 characters processed.
[BWTIncConstructFromPacked] 20 iterations done. 82473580 characters processed.
[BWTIncConstructFromPacked] 30 iterations done. 116093612 characters processed.
[BWTIncConstructFromPacked] 40 iterations done. 145971148 characters processed.
[BWTIncConstructFromPacked] 50 iterations done. 172522364 characters processed.
[BWTIncConstructFromPacked] 60 iterations done. 196117116 characters processed.
[bwt_gen] Finished constructing BWT in 69 iterations.
[bwa_index] 90.98 seconds elapse.
[bwa_index] Update BWT... 0.73 sec
[bwa_index] Pack forward-only FASTA... 0.81 sec
[bwa_index] Construct SA from BWT and Occ... 26.56 sec
[main] Version: 0.7.13-r1126
[main] CMD: bwa index GRCH38chr14.fasta
[main] Real time: 123.991 sec; CPU: 120.265 sec

5.查看:

hadoop@Master:~/xubo/data/GRCH38chr14$ samtools tview fq2.sorted.bam GRCH38chr14.fasta

add到20160530的ppt中

Dbsnp:
>gi|568815584|ref|NC_000014.9|:64442077-64442178 Homo sapiens chromosome 14, GRCh38.p7 Primary AssemblyTGGCCCGTTTGCCAACATCGCACATGGCAATTCCTCCATCATTGCAGACCGGATCGCACTCAAGCTTGTTGGCCCAGAAGGGTTTGTAGGTTAGTGTTTTTT
GRCH38 从64442127开始:
GGATCGCACTCAAGCTTGTTGGCCCAGAAGGGTTTGTAGGTTAGTGTTTTTTGCAAAACCAGTGAATA
往两边:
CGTTTGCCAACATCGCACATGGCAATTCCTCCATCATTGCAGACCGGATCGCACTCAAGCTTGTTGGCCCAGAAGGGTTTGTAGGTTAGTGTTTTTTGCAAAACCAGTGAAT
Dbsnp和GRCH中一致

参考

【1】https://github.com/xubo245/AdamLearning
【2】https://github.com/bigdatagenomics/adam/
【3】https://github.com/xubo245/SparkLearning
【4】http://spark.apache.org
【5】http://stackoverflow.com/questions/28166667/how-to-pass-d-parameter-or-environment-variable-to-spark-job
【6】http://stackoverflow.com/questions/28840438/how-to-override-sparks-log4j-properties-per-driver

研究成果:

【1】 [BIBM] Bo Xu, Changlong Li, Hang Zhuang, Jiali Wang, Qingfeng Wang, Chao Wang, and Xuehai Zhou, "Distributed Gene Clinical Decision Support System Based on Cloud Computing", in IEEE International Conference on Bioinformatics and Biomedicine. (BIBM 2017, CCF B)
【2】 [IEEE CLOUD] Bo Xu, Changlong Li, Hang Zhuang, Jiali Wang, Qingfeng Wang, Xuehai Zhou. Efficient Distributed Smith-Waterman Algorithm Based on Apache Spark (CLOUD 2017, CCF-C).
【3】 [CCGrid] Bo Xu, Changlong Li, Hang Zhuang, Jiali Wang, Qingfeng Wang, Jinhong Zhou, Xuehai Zhou. DSA: Scalable Distributed Sequence Alignment System Using SIMD Instructions. (CCGrid 2017, CCF-C).
【4】more: https://github.com/xubo245/Publications

Help

If you have any questions or suggestions, please write it in the issue of this project or send an e-mail to me: xubo245@mail.ustc.edu.cn
Wechat: xu601450868
QQ: 601450868

基因数据处理71之GRCH38 的chr14提取相关推荐

  1. 基因数据处理5之GRCH38数据源和查看信息

    数据源: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucs ...

  2. 基因数据处理8之BWA_MEM小数据集处理(成功)

    基因数据处理8之BWA_MEM小数据集处理 环境:ubuntu14.04 6G内存 参考基因:GRCH38 来源请参考[1] 1.fastq数据:SRR003161.fastq 的头20行,即5条re ...

  3. 基因数据处理1之mapping_to_cram

    基因数据处理1之mapping_to_cram 参考资料: A Worked Example Obtain some public data We will use the first 100,000 ...

  4. 基因数据处理123之SSW代码不正确,到时比SparkSW时间长

    更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 由于要生成新的score matrix:blosum50,第一次使用静态方法,直接传给align,到时每 ...

  5. 基因数据处理12之samtool的tview来查看sam的匹配文件

    基因数据处理12之samtool的tview来查看sam的匹配文件 具体的之前有文章讲过:http://blog.csdn.net/xubo245/article/details/50836185 记 ...

  6. 基因数据处理118之SSW运行

    更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW是一个更快的SW算法,并且提供了c语言lib和java的调用 代码: https://github ...

  7. 基因数据处理120之scala调用SSW在linux下运行

    更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 先有java提供转换,使用jni调用c 然后scala调用java 2.代码: 2.1 java: pa ...

  8. 基因数据处理122之SSW和SparkSW评分不一致,query为Q9

    更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 RT,但是顺序一致 2.代码: hadoop@Master:~/disk2/xubo/project/a ...

  9. 基因数据处理121之SSW的score matrix调整,使得与SparkSW评分一致

    更多代码请见:https://github.com/xubo245 基因数据处理系列 1.解释 SSW的评分矩阵是128*128的,是按char的int值来进行计算的.而blosum50是蛋白质的,而 ...

最新文章

  1. 小马智行Pony.ai 2020校招正式开启
  2. Python数据库的连接
  3. flexible.js淘宝移动端rem自适应用法
  4. 如何腾出计算机内存,电脑C盘又飘红?教你这样清理内存,可以轻松腾出大量空间...
  5. (6)DFS(深度优先搜索算法):n皇后问题
  6. 真的假的?LiFi或将取代WiFi
  7. C++map关联容器2.0
  8. 《软件工程》实训报告
  9. 能否将一个网址(如QQ空间网址),打包成APK,然后别人下载APK安装到手机后,点击进入这个网址?
  10. MySQL中GA、RC、Alpha的区别
  11. 个人所得税年度应纳税额抵扣-云服务器ECS入门-考试题及答案-申报更正流程
  12. db,dbc,dbm
  13. 好程序员Python学习路线分享Linux和数据库部分
  14. 【数据结构】什么是堆
  15. 使用 WordPress快速个人建站指南
  16. 【项目总结】电厂安全培训管理系统总结
  17. el-dialog再次打开时v-distpicker省市区清除
  18. 通信电源专业技术交流
  19. 和平精英修改服务器内存,和平精英:更新占用内存太多,玩家手机顶不住,一招教你解决!...
  20. java实现模拟消灭星星(控制台版)

热门文章

  1. Mysql数据库存储过程基本语法讲解
  2. POI解析文档内容(txt,doc,docx,xls,xlsx,ppt,pdf)
  3. 推荐怀念的软件EDiary(电子日记本)新版发布
  4. 可牛影像全新拍照功能使用教程
  5. SecureCRT 64位安装与破解
  6. 计算机网络 王道论坛1
  7. Python基础-48-文本处理(逗号分隔值CSV)
  8. 6秒内找出一百万条IP数据的地理位置
  9. 数据分析 | Pandas 200道练习题,每日10道题,学完必成大神(2)
  10. 《乔布斯传》读书笔记