宏基因组数据提交GSA实操手册 | 您所在的位置:网站首页 › xlsx样本模板 › 宏基因组数据提交GSA实操手册 |
文章目录
GSA简介开始前准备:注册/登陆新建BioProject数据上传批量提交样本信息01 提交者信息02 基本信息03 样本类型04 样本属性05 元数据信息实验样品信息测序样品信息
06 文件上传07概况信息
常见问题数据上传速度上传Clean data还是Raw data上传宏基因组数据是否要去除宿主
猜你喜欢写在后面
GSA简介
GSA是Genome Sequence Archive的缩写,即基因组序列存档,由中科院基因组所主办。 网址:http://gsa.big.ac.cn/ 之前介绍过NCBI提交测序数据,- 原始数据极速上传NCBI SRA教程,还有 中国核酸数据库GSA数据提交指南。 这些教程太过于笼统,对于特定类型数据的信息填写大家还有很多困惑。 因为,我们带来了微生物组领域最常用的扩增子和宏基因组数据提交教程。 16S扩增子数据提交GSA实操手册—发表文章前必备技能今天为大家推荐由中科院基因组所创办的国内大数据中心GSA的宏基因组数据提交实例。 网址:http://gsa.big.ac.cn/ 全中文界面,被Nature、Science和Cell等顶级杂志全面认可。可实现全自动化数据提交,无人值守,有问题邮箱和QQ群技术支持。 联系方式:[email protected];QQ群:548170081 开始前准备:注册/登陆访问:http://gsa.big.ac.cn/ ,第一次使用请先点击菜单栏右侧的 Register ,按提示注册一个新用户。 一定要记清楚你的 用户名 和 密码,成功后重新访问主页 点击 Login 登陆。 登陆成功,右上角会显示 Welcome, XXX 新建BioProject主页 http://gsa.big.ac.cn/ 点击主页面中的“提交”——访问 http://gsa.big.ac.cn/ ,使用组内帐号登陆 Login,点击提交可看到历史提供GSA记录。新项目要建新BioProect。 http://bigd.big.ac.cn/gsub/submit/bioproject/list 必须的信息主要是提交者个人基本信息,还有项目的名称、基金和简介等。 如下为一个示例的项目信息供参考: 项目标题: Human gut microbiome 涉及领域: Medical 项目说明: Human gut microbiota relation with cancer 数据类型:Metagenome 和 Metagenomic assembly 样品范围:Enviroment一般提交后马上可获得项目编号,如PRJCA00xxxx这种格式,请记录好,马上要用,文章里也要写。 注:一篇文章中一般有一个项目号,但一个项目可以有多种类型、多批次的数据,即可以包括下次不同批次的GSA。 数据上传使用Filezilla登陆 submit.big.ac.cn ,帐号和密码同网站注册账号,登陆 Filezill新建站点填写内容:主机、账号和密码 登陆成功后,上传数据至GSA目录中(最好每批数据建一个子目录,再把左侧数据选中后右键上传或托入右侧) 批量提交样本信息主页 http://gsa.big.ac.cn/ 提交 —— 新建GSA批量提交 01 提交者信息默认会自动填写你注册时预留的信息,可直接点击保存并进入下一项 发布日期默认选择 审核通过后即可发布(推荐) 阅读下方声明请后,选择I accept it. 填写样本标题和描述,如下示例 标题:A simple metagenome project for pipeline test 描述:Shotgun metagenome of human gut microbiota. Two groups include normal and caner. Each group has 6 individuals.项目编号可以选择你之前创建的BioProject。 点击保存并进入下一项 03 样本类型选择Metagenome,有人类肠道(human-gut)、土壤(soil)和水(water)三大类。我们选择human=gut 注:不是以上三类,属于其它,选择Metagenome/Environmental Sample (GSC MIMS unsupported) 点击保存并进入下一项 04 样本属性下载 BioSample批量提交模板文件 MetagenomeMIMS.me_human-gut.cn.xlsx,也有示例文件e.g.MetagenomeMIMS.me_human-gut.cn.xlsx供参考(注:这个模板是人类扩增子的模板,对于宏基因组参考意义不大)。 注:模板经常更新,请以官网为准,本次提供的文件仅供参考。 主要填写的字段介绍,详见e.g.MetagenomeMIMS.me_human-gut.cn.xlsx表格中的Description页面有比较详细的中文简介:可以只读星红色的必填部分
下面是一些我的个人经验 *sample_name: 样品名,推荐字母开头,字母和数据组合的名称,且必须唯一,详见 样品命名 注意事项 实例教程。*public_description:填写样本的详细描述,重点突出你的实验分组信息,比如我们实验是分为2组,每组有6个个体,这些分类和个体描述是重点。如“Gut microbiota from cancer patient 1”*project_accession填写;即本项目注册的项目编号 PRJCA00xxxx*sample title;可以是样本名的全称描述。如"Shotgun metagenomic sequencing of human fecal C1。*organism:物种,单一物种要填拉丁名,我们研究肠道宏基因组是多物种,填写human gut metagenome*host:宿主来源,添宿主的拉丁名,如人类填写Homo sapiens*collection_date:采样时间,年月日格式,如2014/8/1*geographic_location:采样地点,国家:省/市,如China: Beijing*latitude_longitude:经纬度,最好采样的时间用手机指南指定位下,格式到小数点后两位分,如:39.91 N 116.34 E。百度地图中——开放平台——坐标拾取器,可显示目标的经纬度。*env_broad_scale: 样本生存大环境的描述,如人类肠道填写“digestive tract enviroment”,土壤就填 soil*env_local_scale:添加对样本有因果影响的小环境描述,支持多个词用逗号分隔,此处填“Intestinal”*environment_medium:样本中包含的物质,此处填“fecal material”其它非必须选项可如实填写即可,没有可不填
填写并保存好Excel样本信息后(MetagenomeMIMS.me_human-gut.cn.xlsx),点击请选择文件选择样本信息文件,然后点上传,然后再点击 校验。没问题会提示Checked OK
如果校验失败,请参考error.txt报告和参考的模板修改,直到通过校验。 点击保存并进入下一项 05 元数据信息下载 元数据 提交模板文件 GSA_Template.cn.xlsx,也有示例文件e.g.GSA_Template.cn.xlsx供参考(不过这个示例是m6A转录组测序数据,不是扩增子或宏基因组,参考意义不大) 包括Experiment(实验样品)和Run(测序样品,一个实验样品可能有多个测序样品)两页: 实验样品信息下面是官方描述可以读一下实验样本信息的填写说明。再往下有我的填写经验指南:
填写说明,请阅读: 下有是我的填写经验: ID: R1, R2, …,不够的按顺序补,多余的删除。12个样删除R12后面的行*Run title:与Experiment title 一致。注:存在一个Experiemnt有多个Run的情况,在宏基因组中很常见,如一个样本需要300GB的数据,可能需要几个文库分别建库测序才能获得目标数据量。*BioProject accession: 同上project_accession*Experiment accession,复制自Experiment页第一列*Run data file type: 选择 fastq*File name 1: 如命令 ls|grep '_1.' 获得左端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)MD5 checksum 1: 在命令行 用md5sum *_1.fq.gz 计算左端数据md5值,并按Alt矩形选择数据粘贴入表格即可File name 2: 如 ls|grep '_2.' 获得右端序列文件名,并复制填入表(默认按字母顺序,需要确定样本已经按名称排序才能对应)MD5 checksum 2: 在命令行用 md5sum *_2.fq.gz 计算右端数据md5值,并按Alt矩形选择数据粘贴入表格即可获取文件名列表 和 计算md5sum值和过程。注意文件名和顺序。
填写并保存好Excel样本信息后,点击请选择文件选择样本信息文件,然后点上传,校验。没问题会提示Checked OK 点击保存并进入下一项 06 文件上传我们之前已经通过Filezilla的FTP方式上传了文件,此处什么也不用操作。 点击保存并进入下一项即可。 如果提示 “离开此网站”,点击“离开”即可。 07概况信息展示提交项目的基本信息,最后阅读确定。有问题可以点击上方的各步数字按扭跳转修改。 下面是每个样本的信息,没问题点击 提交。 大功告成。 注:宏基因组一般几G-几十G要等1-2天,数据检查通过后才会分配GSA编号。 文件校验需要时间,上TB级别的数据,可能校验需要几周。而且过大的文件也容易报错,如果归档失败,请及时联系数据中心工作人员处理。如果自己文件有问题,需要删除损坏的文件重新上传。 常见问题 数据上传速度我使用GSA上传数据,推荐使用Filezilla的FTP模式,支持断点续传,速度非常快。建义在教育网、科技网环境下使用,最快可达40 MB/S,即一般千兆网速的速度(代宽是由你的网络供应商决定的),和移动硬盘往电脑上复制飞一般的感觉。 如果你的数据特别多,而且传输速度也不快,可以联系GSA的邮箱或QQ(见主页),应该可以邮寄硬盘的。在北京,离基因组所不远可以亲自去现场复制。 上传Clean data还是Raw data一般公司返回的数据,分有clean data和raw data两类,区别是raw data是下机按index拆分的原始数据,clean data是去除建库引物、接头污染和低质量后的序列。公司一般是按clean data收费的,而用户推荐直接使用 clean data开展下游分析。clean data 去掉的都是垃圾,raw data一般情况下真的没什么用,即浪费空间,又增长传输时间。除非你发现clean data中有问题,需要自己设置规则重新过滤,才需要使用raw data。 结论:一般只使用或上传clean data即可。 上传宏基因组数据是否要去除宿主关于这个问题,答案是都可以。但人类最好要去除宿主在上传,因为有个人隐私的问题。 对于宿主污染特别高的宏基因组样本,如阴道液、皮肤、口腔、植物根或叶相关等。也建议去除宿主后再上传。 举个简单的例子,研究叶片的宏基因组,微生物含量仅为0.2%。你想获得6 Gb的宏基因组数据,如果叶片不进行微生物富集实验,则需要测序 6 / 0.2% = 3000 Gb的数据,一是成本过高,二是数据上传也是极耗时的。这种情况非常推荐你过滤宿主基因组相关序列,仅上传非宿主部分的宏基因组即可。 猜你喜欢 10000+: 菌群分析 宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑系列教程:微生物组入门 Biostar 微生物组 宏基因组专业技能:生信宝典 学术图表 高分文章 不可或缺的人一文读懂:宏基因组 寄生虫益处 进化树必备技能:提问 搜索 Endnote文献阅读 热心肠 SemanticScholar Geenmedical扩增子分析:图表解读 分析流程 统计绘图16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun在线工具:16S预测培养基 生信绘图科研经验:云笔记 云协作 公众号编程模板: Shell R Perl生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘 写在后面为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。 学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组” 点击阅读原文,跳转最新文章目录阅读 https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA |
CopyRight 2018-2019 实验室设备网 版权所有 |