上传RNA 您所在的位置:网站首页 怎么上传序列到NCBI 上传RNA

上传RNA

2023-09-20 02:08| 来源: 网络整理| 查看: 265

2022年10月17日

第五次上传:

首先申请project,拿到ID;

其次申请sample,填入project ID;【批量申请的时候,有一点注意,除了一些特定列外,其他的列属性不能完全一样(最少有一列是ID),这里我就是在disease_stage这里填了ID】

*sample_name sample_title bioproject_accession *organism *isolate *age *biomaterial_provider *sex *tissue cell_line cell_subtype cell_type culture_collection dev_stage disease disease_stage7Ala_D60_BO_2 HCO_7Ala_1 PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS 7Ala_D60_BO_2UE_D60_BO_2 HCO_Control_1 PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS UE_D60_BO_27Ala_D60_BO_3 HCO_7Ala_2 PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS 7Ala_D60_BO_3UE_D60_BO_3 HCO_Control_2 PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS UE_D60_BO_3UE_HBSO_KL119 HBSO_Control PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS UE_HBSO_KL1197Ala_HBSO_KL120 HBSO_7Ala PRJNA891126 Homo sapiens UE02302 Day 60 Elly Ngan Male Organoids UE02302 Organoids Organoids Day 60 CCHS 7Ala_HBSO_KL120

最后申请SRA,上传raw fastq,填入project ID和sample ID;

表的前面就是copy刚申请好的biosample的ID,后面主要就是填fastq的filename,10x的file不多,每个sample所需的fastq列在后面就行。

ascp上传脚本可以参照下面

建一个上传文件夹 ln -s建立软链接 ls * copy指定fastq files到biosample ascp for上传 全部上传完毕后让NCBI自我检索 等待NCBI将fastq转为SRA,即可完成最终上传

 

2022年04月07日

第四次上传数据,用原来的方法,一切都很快。

注意:

如果不是特别重要的数据,建议还是上传了立即release,否则还得单独写email去release。 多个fastq最好下载meta文件到本地,filename要拓展一下,否则后果很严重,很多fastq会被直接忽略。 顺序一定要对,先申请bioproject,然后biosample(关联一下),最后申请SRA(也要关联),一定要下载SRA meta的文件,拓展filename。 关于多物种还是单物种,要考虑好,因为提交后修改就很难了。

2021年11月29日

第三次上传数据,主要难点:

先申请BioSample,一个样本就是一个BioSample,可以在build-in的table里填,非常简单; 填fastq的时候,需要在本地excel里填,一行最多可填256个,而且paired fastq必须在一行【一行必须有独特的library name】; 然后用ascp的命令行上传,记得写一个循环; 其他:filezilla只能上传目录,不能直接上传文件;

2021年08月05日

第二次上传数据,步骤梳理:

登陆https://submit.ncbi.nlm.nih.gov/subs/sra/ 先申请BioProject - 关联申请BioSample 审核较快 再申请BioSample - 填写批量申请表(单独申请在样本多时很麻烦),需要填入BioProject,审核较慢~3h 在集群里找到原始fastq数据 - 构建fastq目录结构 最后提交SRA - 填表[Each file must be listed in the SRA metadata table you uploaded.],参考历史记录,输入fastq文件名,然后用ascp上传,有命令指引

最终上传数据时有问题,显示远程服务器磁盘空间不足【偶尔】网站上显示是NCBI问题,过几天再看看。

Session Stop (Error: Disk write failed (server), Disk write failed) Aug. 2nd: Unexpected issues are currently delaying Sequence Read Archive (SRA) submissions and you may experience processing delays or not be able to complete your submission. NCBI is working to resolve this as soon as possible.

确实是网站的问题,等一下就好了。

 

因为网络经常中断,但是可以断点续传,所以写个循环即可。

for i in {1..100} do echo $i ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/aspera.openssh -QT -l10m -k1 -d ~/project/scRNA-seq/rawData/upload.data.to.ncbi/geo_submission_2021Aug5 [email protected]:uploads/***@gmail.*** done

 

数据上传失败怎么办?

Your file(s) did not upload successfully due to FTP transfer issues or file compression issues. Please re-compress your file and try again using Aspera (recommended) or FTP transfer. Be sure to use the same file names:

  

没法登陆删除文件,覆盖也不好使,最终还是改了个文件夹名,重新上传了。 

也可以参考:“我的数据上传NCBI又报错了...” “攻略拿去!” 

 

这次传了6000多个文件,有4个文件传输出了问题,显然不可能全部重传。

通过发邮件最终解决了问题,只需要新建一个文件夹,然后把失败的文件传上去即可,选择的时候选那个新文件夹即可。

 

 

 

SRA - NCBI

example - NCBI

要发文章了,审稿时编辑肯定会要求你上传NGS测序数据。

一般数据都是放在集群,不可能放在个人电脑上,因为有的数据大的吓人(几个T)。

所以我们就建一个文件夹,然后把所有需要的fastq文件链接到这个文件夹就行了(copy太慢,也太占空间)。

接下来,NCBI账号申请好了,那就可以直接上传了,用aspera来上传。

 

参考: 

原始数据极速上传NCBI SRA教程 - 比较全面,基本照着做就好了

使用Aspera从EBI或NCBI下载基因组数据 - 补充aspera的使用方法  

Tutorial: How to upload your data to the evil Sequence Read Archive (SRA)? - 英文版的,写的比较规范

 

你需要下载的是一个叫aspera connect的软件,aspera系列软件太多,别下错了。

这个奇葩的软件必须要到Linux浏览器里才能有下载链接出现,所以你得有一个Ubuntu系统。下载好了之后再传到集群上。

注意有个密钥(-i 选项)需要从ncbi上下载,最终上传页面上有。

 

NCBI上传数据到SRA,一切都比较顺利,只是需要你自己收集一些信息,填一些表。

 

这不是问题,要理解NCBI的数据管理架构!!!

 

但是我却遇到了一个天大的问题,直接花费了了我一晚上来解决,所以一定要耐心的看NCBi的错误提示啊。

Your table upload failed because multiple BioSamples cannot have identical attributes

就是在你填样品表时,除了一些必备列之外,其他列的信息不能完全一样!!!

所以我最终的解决方案就是,把样品名(肯定不一样)copy到某一列;或者直接在某一列填1累加的数字,防止重复。

如果你不好好看报错的话,真的是不知道这一步到底错在哪里。而且大部分老师的样品就是样品名不同,其他的信息都一样,所以看网上求助的人还是很多的,百度基本没有正确的答案。

 

 

之前的教程有误,现在系统的更正一遍。

1. 注册NCBI账号,https://www.ncbi.nlm.nih.gov/

打开首页,有个大大的submit图标,注册好,然后sign in。

选择自己要submit的项目:

GenBank:一些组装好的序列,如基因组DNA,各种RNA Sequence Read Archive (SRA):所有的raw data只能上传到这里 TSA:Submit computationally assembled, transcribed RNA sequences after submitting unassembled reads to SRA. GEO:Submit RNA-seq, ChIP-seq, and other types of gene expression and epigenomics datasets. 也就是我们常用的基因表达数据,这里可以上传处理后的数据,如count和TPM,FPKM等 BioProject & BioSample:这是NCBI的核心组织架构,一篇文章就是一个BioProject,一个project里可以包含多个BioSample

推荐:在上传所有数据前,先建立BioSample条目,然后创建BioProject,将它们组织起来。【这里只是创建空的条目,后面再传raw data到SRA的时候可以链接到一起】

如下就是最终的架构:

 

 

我们再看个案例:

https://www.ncbi.nlm.nih.gov/bioproject/PRJNA558807

这里就是一篇NC上的文章,所有数据都放在一个project里,项目名字就是文章名字,介绍就是文章摘要。

Sequence data

SRA Experiments 12

Publications

PubMed 1 PMC 1

Other datasets

BioSample 12 GEO DataSets 1

 

SRA数据上传操作细节:

这里不建议通过GEO上传raw data,直接去SRA数据库。

不要用ftp,除非你的网速和机器十分优秀和稳定,否则建议用aspera。【我用ftp就一直被ncbi拒绝连接】

构建好project喝sample之后,填好sra中fastq与sample的对应关系就可以开始上传了。

注意:填表的时候一个biosample最多只能有256个fastq文件,如果超过了就必须分批上传。【一个biosample可以有多行,但是library必须不同,以作区别】

 

~/.aspera/connect/bin/ascp -i /home/you/.aspera/connect/aspera.openssh -QT -l3m -k1 -d /home/you/project/scRNA-seq/rawData/your.dir/geo_submission_2020Mar30 your.address_from_ncbi

可以用nohup放在后台运行,  

 

关于文件收集:

建一个文件夹,如geo_submission_2020Mar30 找到之前流程的file list文件,绝对地址不要老是变 构建超链接,放入子文件夹 筛选出特定的样本文件 cut -f2 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30 cut -f3 all.csv -d, | xargs -I{} ln -s {} ./geo_submission_2020Mar30

  

 

关于处理后文件的上传(基因表达谱):

案例:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE144980

 

不管再大的项目,流程熟了,基本半个工作日就可以完成数据的上传,然后看网速,等全部upload了就可以一键submit。【我限速3M,大概3个小时可以传5G的数据】

NCBI的数据管理架构非常值得学习。

 

 

ftp的代码:

open ftp-private.ncbi.nlm.nih.gov ncftp -u geoftp ftp-private.ncbi.nlm.nih.gov cd uploads/ellylab_0zSn02Ma lcd /home/lizhixin/project/scRNA-seq/rawData/SAG_HCO.upload.ncbi put -R geo_submission_2020Mar30

  



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有