实用干货 | 您所在的位置:网站首页 › gtf文件和gff3 › 实用干货 |
原标题:实用干货 | 10x 单细胞构建自定义参考基因组 导语 10x genomics 为人类和小鼠提供了预先构建好的参考基因组,以便与Cell Ranger一起使用。研究人员可以为其他物种制作定制的参考基因组,或者将感兴趣的定制标记基因添加到参考中,例如GFP。以下教程概述了使用cellranger mkref 命令构建自定义参考基因组引用的步骤。 01 查找输入文件本教程遵循用于为人类和小鼠创建 10x 基因组学预构建参考的相同步骤。首先,找到您物种的参考基因组 FASTA 和 GTF 文件。我们建议从 Ensembl 数据库中获得,来自 Ensembl 的 GTF 文件包含可选的标签,使过滤变得容易。如果您感兴趣的物种无法从 Ensembl 获得,则来自其他来源的 GTF 和 FASTA 文件也可以。请注意,GTF 文件是必需的,而 GFF 文件不受支持。 本教程为斑马鱼 Danio rerio 生成自定义参考基因组。 打开 Ensembl 网站的基因注释部分,然后单击下载 GTF 链接。这会将您带到一个 FTP 站点,其中包含可用的 GTF 文件列表。选择名为 Danio_rerio.GRCz11.105.gtf.gz 的文件。这是该物种的GTF注释文件。Ensembl 中的所有物种都有类似的文件可供下载。 右键单击链接以复制地址,将 URL 粘贴到命令行中,然后使用以下命令下载: wget http://ftp.ensembl.org/pub/release-105/gtf/danio_rerio/Danio_rerio.GRCz 11.105.gtf.gz 使用以下命令解压缩文件: gunzip Danio_rerio.GRCz11.105.gtf.gz 接下来,返回 Danio rerio 的 Ensembl 页面,然后单击下载 FASTA 以访问包含多种类型的 FASTA 文件的 FTP 站点。选择目录以访问包含基因组文件的目录。下载包含基因组中所有染色体的 FASTA 文件。右键单击链接以复制地址。将 URL 粘贴到命令行中,然后使用以下命令下载: wget http://ftp.ensembl.org/pub/release-105/fasta/danio_rerio/dna/Danio_reri o.GRCz11.dna.primary_assembly.fa.gz 使用以下命令解压缩文件: gunzip Danio_rerio.GRCz11.dna.primary_assembly.fa.gz 02 过滤GTFGTF 文件中包含非 polyA 转录本的注释信息,一些基因碱基序列与蛋白编码基因碱基序列重叠,由于注释信息的重叠,从而造成了读段比对到多个基因上(multi-mapped)。这种情况下,不会对这些多重比对的读段进行计数。为此,我们需要移除 gtf 中这些转录本的注释信息。最小的 GTF 文件只需要包含蛋白质编码基因的外显子特征。设置命令: 展开全文 03 构建参考基因组现在,已经准备好了所需的基因组 FASTA 和筛选的 GTF 文件,可以开始构建参考基因组了,命令如下: 运行该命令,这可能需要几个小时,具体取决于您的系统,在服务器上运行肯需要1-2小时。得到的结果如下: 04 向FASTA和GTF添加标记基因在某些情况下,公开可用的 GTF 和 FASTA 文件将不包含给定样本中表达的某些基因的信息。在本示例中,将常见的标记基因绿色荧光蛋白(GFP)添加到参考基因组中。 在示本例中,我们使用 GenBank 的完整GFP序列。下面的序列是从 5' 到 3',以蓝色突出显示的序列是未翻译区域 (UTR): 在 FASTA 序列的标题中有特殊字符,可能造成下游分析报错,修改 GFP_orig.fa 文件的 title 命名为 GFP. fa: cat GFP_orig.fa|sed s/L29345\.\1\ Aequorea\ victoria\ green\-fluorescent\protein\ \(GFP\)\ mRNA\,\ complete\ cds/GFP/ > GFP.fa 查看序列长度: cat GFP.fa|grep -v "^>"|tr -d"\n"|wc -c 此命令的结果显示有 922 个碱基。 现在,使用以下命令为 GFP 创建自定义 GTF注释文件。 echo -e 'GFP\tunknown\texon\t1\t922\t.\t+\t.\tgene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";' > GFP.gtf 查看 GFP . gtf 文件:cat GFP . gtf GFP unknown exon 1922 . + . gene_id "GFP"; tra nscript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding"; 然后将 GFP.fa 的碱基序列添加到斑马鱼的参考基因组中。首先,复制一份 FASTA 文件,原来的文件保持不变。 cp Danio_rerio.GRCz11.dna.primary_assembly.fa Danio_rerio.GRCz11.dna.primary _assembly_GFP.fa 然后,将 GFP.fa 加到文件的末尾。 cat GFP.fa >> Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa 查看是否添加成功: grep">" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa 输出类似于以下内容: 查看基因组中 contigs 数量,994个 grep -c "^>" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa 将 GFP 的注释信息添加到参考基因组的注释信息中: 使用以下命令检查文件: tail Danio_rerio.GRCz11.105.filtered.GFP.gtf 输出类似于以下内容,GTF 条目作为文件的最后一行: MT RefSeq start_codon 15308 15310 . + 0 gene_id "ENSDARG00000063924"; gene_version "3"; transcript_id "ENSDART00000093 625"; transcript_version "3"; exon_number "1"; gene_name "mt-cyb"; gene_sour ce "RefSeq"; gene_biotype "protein_coding"; transcript_name "mt-cyb-201"; tr anscript_source "RefSeq"; transcript_biotype "protein_coding"; GFP unknown exon 1 922 . + . gene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding"; 将构建好的文件作为输入文件,运行 cellranger mkref 添加标记基因的参考基因组就构建好了。 参考资料: https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_mr#marker 文案 | 刘静 封面配图源于网络 侵删 返回搜狐,查看更多 责任编辑: |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |