配置ascp代理高速下载sra数据
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
#然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
#将aspera软件加入环境变量,并激活
echo ‘export PATH=~/.aspera/connect/bin:$PATH’ >> ~/.bashrc
source ~/.bashrc
#最后检查ascp是不是能用了
ascp --help
当ascp安装成功后,prefetch就会将下载方式从https转移到fasp,加速数据下载,如果不成功,则尝试打开33001端口

开启服务器33001端口
检查防火墙搞清楚你的防火墙是iptables还是firewall还是别的什么
如果是firewall
$ sudo firewall-cmd --zone=public --add-port=33001/tcp --permanent
$ sudo firewall-cmd --reload
如果是iptables
$ sudo iptables -I INPUT -p tcp --dport 33001 -j ACCEPT
$ sudo service iptables save

#下载代码
下载sra-tools
直接下载二进制可执行文件,解压完后必须执行 vdb-config --interactive使命令生效。

wkd=/home/huguang/single-cell/MCC
cd $wkd/raw
#for patient 2586-4
cat >SRR_Acc_List-2586-4.txt
SRR7722937
SRR7722938
SRR7722939
SRR7722940
SRR7722941
SRR7722942cat SRR_Acc_List-2586-4.txt |while read i
do prefetch $i -O `pwd` && echo "** ${i}.sra done **"
done

另外,还可通过MEBL-EBI网站下载

ascp -QT -l 300m -P33001 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/srr/SRR772/009/SRR7722939 ./

单细胞数据下载完成后,利用cell ranger软件分析,一般需要两个输入文件,其中一个是测序reads,另一个是UMI+Barcode文件,那么只生成一个文件是不够的,因此可以换个参数

使用另外一个参数–split-files来替代–split-3 ,就可以生成三个文件,其中第一个文件的所有序列都是8bp,第二个文件都是26bp,第三个文件都是91bp,初步判断,第三个文件是测序reads。

单细胞转录组数据和普通的bulk转录组还是不太一样,bulk结果一般就是R1、R2,很容易区分;10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。

文章使用的是10X Genomics 3’ Chromium v2.0 平台,那么就看一下它的帮助手册(https://assets.ctfassets.net/an68im79xiti/1CnKSfa7taoQwIEe0WaA4m/8635b2c9ee86c022e731b6fb2e13fed2/CG000080_10x_Technical_Note_Base_Composition_SC3_v2_RevB.pdf )

先大概了解一下10X文库组成:

其中Read2:98那里的星号表示这个长度不是固定的,可以调整,比如文章中患者P2586-4的Read2长度就是98,而患者9245-3的Read2长度是91

然后看看测序时每个run cycle做了什么事:
利用illumina边合成变测序(sequencing by synthesis ,SBS),每一个cycle都是一个碱基,因此用cycle数可以表示测序长度

首先,1-26个cycle就是测序得到了26个碱基,先是16个Barcode碱基,然后是10个UMI碱基;

然后,27-34这8个cycle得到了8个碱基,就是i7的sample index;

最后35-132个cycle得到了98个碱基,就是转录本reads

看下Read1、i7 index、Read2的碱基分布:

可以看到转录本read前端有20多bp质量是存在波动的,因为5’端的前几个碱基为随机引物序列,存在一定的偏好性

另外,index和barcode有什么区别,为什么用两个fq文件进行区分?
找到10X官方给出的一个解答:https://kb.10xgenomics.com/hc/en-us/articles/115002777072-How-do-I-demultiplex-by-sample-index-and-barcode-

i7 sample index是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。当然可以自己指定index,但更多情况下会使用10X公司提供的index序列(bundled index sets),针对不同项目使用的index也是不同的。不过共性就是:96孔板的每个孔中都加入了4种不同的index oligos混合(详见:https://kb.10xgenomics.com/hc/en-us/articles/218168503-What-oligos-are-in-my-sample-index-)。

它的作用就是在CellRanger的mkfastq 功能中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起,表示同一个样本
GEO的数据记录了index信息

Barcode 是10X特有的,用来区分GEMs,也就是对细胞做了一个标记。一般在拆分混养测序数据(demultiplexing)这个过程后进行操作,当然这也很符合原文的操作

UMI的作用呢?
它是为处理PCR 扩增偏差而生

首先,不管是bulk RNA还是scRNA,都需要进行PCR扩增,但是不可避免有一些转录本会被扩增太多次,超过了真实表达量。当起始文库大小很小时(比如单细胞数据),就需要更多次的PCR过程,这个次数越多,引入的误差就越大

UMI就是Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,结果可以计数不同的UMI,最终统计mRNA的数量。

那么这三个文件的名称需要修改吗?
我认为是需要修改的,因为命名太模糊,不容易指定文件进行下游分析。然后看到官网给出的解答:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/2.0/using/fastq-input#wrongname ,也的确说需要修改

那么怎么改?
肯定要批量处理,就利用下载SRA的SRR ID好了

#比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz
#依次类推,将原来_2的改成R1,将_3改成R2
cat SRR_Acc_List-9245-3.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.gz ${i}_S1_L001_R2_001.fastq.gz);done

参考https://mp.weixin.qq.com/s/fP8f4HboMM7m2Nd7AIljlg

单细胞测序数据下载和预处理相关推荐

  1. Nature methods | Alevin-fry, 一种高效准确的单细胞测序数据预处理工具

    随着单细胞以及单核测序(single-cell and single-nucleus RNA-sequencing)的快速发展以及逐渐普及,越来越多的单细胞测序数据集在近几年不断的出现.这些数据集不仅 ...

  2. 读取单细胞测序数据时出现错误 Error in readMM(file = matrix.loc) : file is not a MatrixMarket file

    下面我们来介绍一个单细胞数据读取的时候出现的错误: Error in readMM(file = matrix.loc) : file is not a MatrixMarket file In ad ...

  3. 关于文献中二代测序数据下载(NCBI)的问题

    关于文献中二代测序数据下载(NCBI)的问题 现在二代测序用于生物学研究非常广泛,大部分文章的序列会上传到Sequence Read Archive(SRA)上,这东西也属于NCBI数据库中的吧,我理 ...

  4. 基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

    细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态 ...

  5. 单细胞测序数据的降维方法及细胞亚型鉴定聚类方法总结

    图1.细胞亚型的鉴定及分析(Stegle et al. NATURE REVIEWS | GENETICS, 2015) 随着单细胞测序技术的发展,每个研究或实验中测定的细胞数量在显著增加.现在很多单 ...

  6. R语言导入单细胞测序数据并分析

    我可以建议您使用 Bioconductor 包来导入和分析单细胞测序数据.Bioconductor 是一个开源软件包,专门用于生物信息学中的数据挖掘和分析.它可以与 R 语言紧密集成,可以轻松处理大量 ...

  7. Sentinel-2数据下载及预处理

    Sentinel-2数据下载及预处理 Sentinel-2简介: 欧空局(ESA)仅发布了哨兵2号(S2)的L1C级多光谱数据(MSI),L1C级数据是经过几何精校正的正射影像,并没有进行辐射定标和大 ...

  8. NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据

    NCBI/BIG测序数据下载---通过Aspera下载拟南芥T2T原始数据 1. Linux下载安装Aspera软件 2. 下载NCBI中SRR数据 (`目前NCBI上不能用ascp下载sra数据,其 ...

  9. 单细胞测序数据的降维方法及细胞亚型的鉴定聚类方法总结

    图1.细胞亚型的鉴定及分析(Stegle et al. NATURE REVIEWS | GENETICS, 2015) 随着单细胞测序技术的发展,每个研究或实验中测定的细胞数量在显著增加.现在很多单 ...

  10. GEO数据库中单细胞测序数据下载

    首先GEO数据库是收集基因表达的数据库 一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号. 用户 ...

最新文章

  1. python print怎么用_python print用法是什么
  2. python输出csv文件-更高效的Python CSV文件导出
  3. Linux安装GitLib
  4. C语言实现的ABCI
  5. 让你不再害怕指针-摘自:无名
  6. 反射学习系列3-反射实例应用
  7. JMeter事务控制器(Transaction controller)
  8. etlgr是什么服务器_ETL是指什么 - 金融行业 - ITPUB论坛-中国专业的IT技术社区
  9. HDU 1213 How Many Tables【并查集】
  10. 助你成为嵌入式高手的100多个软硬件开源项目
  11. 高级考题_理论干货最最直观的词云分布,带你一次看清天大考题端倪!
  12. 【注意力机制】SENet(Squeeze-and-Excitation Networks)详解
  13. 共享代码库,为何总被程序员弃用?
  14. Oracle 11gR2 RAC TNS-12542: TNS:address already in use 故障一例
  15. 第七章实验报告(数组实验)
  16. Eigen3卸载与安装
  17. 关于各式竞赛书籍的点评
  18. 阿里云漏洞修复 RHSA-2019:0109-Important: perl secur
  19. web点播VOD m3u8播放识别为live流 播放几个.ts切片停止播放 排错
  20. 中央电视台最常用的 100 首经典背景乐曲(视频制作音乐推荐) 2009-05-12 17:31:47

热门文章

  1. 【PhpSelenium】2.基本使用
  2. 加入飞桨特殊兴趣小组(PPSIG),点亮AI时代的梦想
  3. 计算机显示器分辨率,现在电脑的主流显示器的分辨率一般是多大?
  4. 给IT新人的15个建议:苦逼程序员的辛酸反省与总结!
  5. 红米手机停在机器人这里_红米开不了机,开机画面一直显示一个米兔机器人在修理的画面...
  6. VR/AR/MR/CR/XR概念及应用
  7. 『幸运 9 点』IVR游戏商业计划书(转)
  8. php 双竖线,范数介绍,数字两边双竖线
  9. Python 打新股,我建议你这么来操作!
  10. 刍议当代大学生恋爱观