生信学习过程中遇到的问题
前言:记录在自学生信过程中所遇到的一些问题,如何去解决的。希望我的经验可以对他人有帮助。
注意:不要复制代码,因软件版本更新等问题,命令会变化的。重点学习怎么去解决问题。
一:执行zcat cz2_1.fq.gz,屏幕出现了群魔乱舞,想要恢复到正常的命令行模式下。
1、直接终止正在运行的程序,使用ctrl+c。
2、让程序进入后台运行,使用ctrl+z,进行暂停程序。
jobs -1 看看后台的程序
bg 1 后台运行刚刚暂停的程序
二:在使用bwa建立index后,align总是出现各种问题,弄了一个多星期。
尝试更新bwa,使用bowtie2
错误提示:none of --samples-file, --ploidy or --ploidy-file given, assuming all sites are diploid
内存不够 ,加上-t 参数就可以了。
bwa mem -t 2 zs.index/zs.ref.fasta cz2_1.fq.gz cz2_1.fq.gz >cz2.sam
三:利用bwa建立index遇到的问题
错误提示:
使用的错误命令是:
解决办法:
遇到这种情况,改用bowtie2了。
Bowtie2也遇到这种问题,那就不是软件的问题了,而是操作的问题。
Bowtie2的解决办法是: index文件是 ~/reference/index/bwa/hg19/hg19.index
注意最后一个是文件 hg19.index ,hg19文件夹里面是建好的index文件,最后一个文件是index五个文件的共同前缀。
四、GATK 下载之后无法运行的问题。
只出现这个,没有下文了。
看生信技能树中讲到这个命令是可以运行的,gatk版本也是4.0,那是哪里出问题了呢?看看说明:java必须要在1.8以上,我的只有1.7,找到原因了。
那就是 更新java到1.8就可以了。
简要介绍:下载java-解压-修改PATH。
gatk4.0 运行命令:gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" FixMateInformation 就可以试试。
五、用bowtie2建立hg38的index。
问题是:下载hg38的参考基因组,发现有十几个文件 ,怎么建立index呢?
这里首先理解为什么需要建立index,我的理解是,index就像书本的目录一样,让软件快速定位识别出有用的信息。
参考网上的教程,使用命令老是出错。
一般建立index应该是一个文件的,hg38解压之后大约3G,如果是多个文件,你只需要带有chr这样的,chr1\chr2\chr3.fa.gz类型的,不要其他的。
cat chr?.gz >hg38.fa.gz 合并成一个文件。3G
bowtie2-build hg38.fa.gz ./ 注意,这里的bowtie2-build 没有空格的
六、fastq格式的文件整体成了一行,如何将一行划分为多行?
正常数据如下:
我的:
是的,它已经成了一团浆糊了。
怎么把他们分开呢,我使用的shell命令。
1.sed 's/\+/\n\+\n/g' cz253_1.fq >cz253_1.fq.sed
2.sed 's/@/\n@/g' cz253_1.fq.sed >cz253_1.fq.sed2
3.sed 's/ACACAAATTC/\nACACAAATTC/g' cz253_1.fq.sed2 >cz253_1.fq.sed3
重点是sed命令。
生信学习过程中遇到的问题相关推荐
- 生存曲线 p值 python_超详细讲解生信SCI中的生存曲线作图,不看后悔系列
原标题:超详细讲解生信SCI中的生存曲线作图,不看后悔系列 在线及个性化精美Kaplan-Meier生存曲线的绘制 大家好,我是阿琛.俗话说,是骡子是马拉出来溜溜.在肿瘤研究中,一个基因的研究价值高不 ...
- 生信分析用python还是r_生信分析中常用的R语句
一.前言 好难受,今天的R崩了.昨天才安装的包怎么报错了.为啥我装了这个包没反应,什么鬼怎么又乱码了.这玩泥巴(╯‵□′)╯︵┻━┻ 不行要佛系生活,好久没写简书了,还是来整理下代码吧┬-┬ノ('-' ...
- 生信分析中常见的变异类型
SNP:single nucleotide polymorphism.单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替换.插入或缺失)所引起的多态性. InDel:Insertion/ ...
- 有没有人带?这些都是学习生信的一大助力!
经常能看到某人5篇SCI! 某实验室10篇SCI! 科研学习过程中,一年多篇文章的人是如何保持科研创新能力的? 及时关注学界动态,高效获取优质资源非常重要. 但是大量的科研资讯,热点也层出不穷,那么作 ...
- 免费Linux系统和生信宝典原创学习教程
生物信息的学习离不开Linux系统,不管自己写命令处理数据,还是使用现有的工具.Linux对我们来讲最重要的是它强大的命令行功能,可以快速.批量.灵活的处理数据的提取.统计和整理等耗时耗力的重复性工作 ...
- 生信分析之R语言常用R包一步下载
系列文章目录 生信分析第一步:R语言基础应用以及数据前处理 文章目录 R包下载 使用GEOquery包下载原始数据 芯片数据读取 GEOquery 下载并读取数据 提取GEO表达矩阵 提取GEO注释信 ...
- 生信基础(三)——统计分析工具R语言
原创: hxj7 关键词:R; 统计; 美图 作为一个生信er,光会处理文本数据是不够的,还要能进行统计分析.作为一个开源软件,R在统计社区"大行其道",在生信分析人员中更是&qu ...
- 生信入门:序列比对之blast在线和本地使用
主要内容 1 背景 2 在线blast 3 本地blast 3.1 老版本blast 3.2 新版本blast 背景 序列比对(Sequence Alignment)的基本问题是比较两个或两个以上序列 ...
- 生信分析(1):单变量+多变量COX分析
从TCGA上下载数据库和临床数据之后,往往需要进行COX分析,一般的分析思路是先进行单变量,在进行多变量的分析.然而,当关注的基因比较多是,手动输入就会比较麻烦.接下来介绍一种利用循环的方法,快速的对 ...
最新文章
- 在CheckBox中,仅仅允许选择一项
- django报错is not a registered tag library. Must be one of
- 使用WakeLock将Android应用程序保持后台唤醒
- 零基础如何学习SAP BI模块
- 【课题总结】OpenCV 抠图项目实战(12)源程序代码
- 为中国本土NGINX用户和开发者提供技能升级的考试认证平台
- 2021,软件测试的出路在哪里?
- Thinking with Joins
- 微信小程序使用 wxparse 解析 iframe腾讯视频
- IE浏览器自带打印控件WebBrowser
- 增值税怎么用计算机算,增值税计算器
- Nginx配置ssl自签名证书
- React Native 中使用图标
- 几种最常见的网站盈利模式分析
- TVP5147调试经验
- PdfSharp -- 根据PDF模板导出PDF
- 网络唤醒 php,php远程网络唤醒计算机及WOL唤醒魔术包格式原理
- Android通知——Notification
- C语言试题115之两个乒乓球队进行比赛,各出三人。甲队为 a,b,c 三人,乙队为 x,y,z 三人。已抽签决定 比赛名单。有人向队员打听比赛的名单。a 说他不和 x 比,c 说他不和 x,z 比,请
- Git之新建分支命令
热门文章
- Velodyne VLP16 接入ros系统
- 钉钉运用php技术流程图,钉钉操作流程图
- 广州“1中心3平台”智能交通大数据体系实践
- [Windows] 4k对齐(无损对齐) [ 技术分享 ]
- 中国大学MOOC《程序设计入门——C语言》翁恺————答案分享
- 贝叶斯法则-预测未来
- Manifold 安装无线网卡Intel7260
- 基于51单片机的车速里程表项目设计
- NodeJS深度探秘:通过爬虫用例展示callback hell的处理方法以及高并发编程的几个有效模式
- ERROR:asyncio:Exception in callback <TaskStepMethWrapper object