实用干货 您所在的位置:网站首页 gtf文件和gff3 实用干货

实用干货

2023-04-25 23:07| 来源: 网络整理| 查看: 265

原标题:实用干货 | 10x 单细胞构建自定义参考基因组

导语

10x genomics 为人类和小鼠提供了预先构建好的参考基因组,以便与Cell Ranger一起使用。研究人员可以为其他物种制作定制的参考基因组,或者将感兴趣的定制标记基因添加到参考中,例如GFP。以下教程概述了使用cellranger mkref 命令构建自定义参考基因组引用的步骤。

01 查找输入文件

本教程遵循用于为人类和小鼠创建 10x 基因组学预构建参考的相同步骤。首先,找到您物种的参考基因组 FASTA 和 GTF 文件。我们建议从 Ensembl 数据库中获得,来自 Ensembl 的 GTF 文件包含可选的标签,使过滤变得容易。如果您感兴趣的物种无法从 Ensembl 获得,则来自其他来源的 GTF 和 FASTA 文件也可以。请注意,GTF 文件是必需的,而 GFF 文件不受支持。

本教程为斑马鱼 Danio rerio 生成自定义参考基因组。

打开 Ensembl 网站的基因注释部分,然后单击下载 GTF 链接。这会将您带到一个 FTP 站点,其中包含可用的 GTF 文件列表。选择名为 Danio_rerio.GRCz11.105.gtf.gz 的文件。这是该物种的GTF注释文件。Ensembl 中的所有物种都有类似的文件可供下载。

右键单击链接以复制地址,将 URL 粘贴到命令行中,然后使用以下命令下载:

wget http://ftp.ensembl.org/pub/release-105/gtf/danio_rerio/Danio_rerio.GRCz 11.105.gtf.gz

使用以下命令解压缩文件:

gunzip Danio_rerio.GRCz11.105.gtf.gz

接下来,返回 Danio rerio 的 Ensembl 页面,然后单击下载 FASTA 以访问包含多种类型的 FASTA 文件的 FTP 站点。选择目录以访问包含基因组文件的目录。下载包含基因组中所有染色体的 FASTA 文件。右键单击链接以复制地址。将 URL 粘贴到命令行中,然后使用以下命令下载:

wget http://ftp.ensembl.org/pub/release-105/fasta/danio_rerio/dna/Danio_reri o.GRCz11.dna.primary_assembly.fa.gz

使用以下命令解压缩文件:

gunzip Danio_rerio.GRCz11.dna.primary_assembly.fa.gz

02 过滤GTF

GTF 文件中包含非 polyA 转录本的注释信息,一些基因碱基序列与蛋白编码基因碱基序列重叠,由于注释信息的重叠,从而造成了读段比对到多个基因上(multi-mapped)。这种情况下,不会对这些多重比对的读段进行计数。为此,我们需要移除 gtf 中这些转录本的注释信息。最小的 GTF 文件只需要包含蛋白质编码基因的外显子特征。设置命令:

展开全文 03 构建参考基因组

现在,已经准备好了所需的基因组 FASTA 和筛选的 GTF 文件,可以开始构建参考基因组了,命令如下:

运行该命令,这可能需要几个小时,具体取决于您的系统,在服务器上运行肯需要1-2小时。得到的结果如下:

04 向FASTA和GTF添加标记基因

在某些情况下,公开可用的 GTF 和 FASTA 文件将不包含给定样本中表达的某些基因的信息。在本示例中,将常见的标记基因绿色荧光蛋白(GFP)添加到参考基因组中。

在示本例中,我们使用 GenBank 的完整GFP序列。下面的序列是从 5' 到 3',以蓝色突出显示的序列是未翻译区域 (UTR):

在 FASTA 序列的标题中有特殊字符,可能造成下游分析报错,修改 GFP_orig.fa 文件的 title 命名为 GFP. fa:

cat GFP_orig.fa|sed s/L29345\.\1\ Aequorea\ victoria\ green\-fluorescent\protein\ \(GFP\)\ mRNA\,\ complete\ cds/GFP/ > GFP.fa

查看序列长度:

cat GFP.fa|grep -v "^>"|tr -d"\n"|wc -c

此命令的结果显示有 922 个碱基。

现在,使用以下命令为 GFP 创建自定义 GTF注释文件。

echo -e 'GFP\tunknown\texon\t1\t922\t.\t+\t.\tgene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";' > GFP.gtf

查看 GFP . gtf 文件:cat GFP . gtf

GFP unknown exon 1922 . + . gene_id "GFP"; tra nscript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";

然后将 GFP.fa 的碱基序列添加到斑马鱼的参考基因组中。首先,复制一份 FASTA 文件,原来的文件保持不变。

cp Danio_rerio.GRCz11.dna.primary_assembly.fa Danio_rerio.GRCz11.dna.primary _assembly_GFP.fa

然后,将 GFP.fa 加到文件的末尾。

cat GFP.fa >> Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

查看是否添加成功:

grep">" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

输出类似于以下内容:

查看基因组中 contigs 数量,994个

grep -c "^>" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

将 GFP 的注释信息添加到参考基因组的注释信息中:

使用以下命令检查文件:

tail Danio_rerio.GRCz11.105.filtered.GFP.gtf

输出类似于以下内容,GTF 条目作为文件的最后一行:

MT RefSeq start_codon 15308 15310 . + 0 gene_id "ENSDARG00000063924"; gene_version "3"; transcript_id "ENSDART00000093 625"; transcript_version "3"; exon_number "1"; gene_name "mt-cyb"; gene_sour ce "RefSeq"; gene_biotype "protein_coding"; transcript_name "mt-cyb-201"; tr anscript_source "RefSeq"; transcript_biotype "protein_coding";

GFP unknown exon 1 922 . + . gene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";

将构建好的文件作为输入文件,运行 cellranger mkref

添加标记基因的参考基因组就构建好了。

参考资料:

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_mr#marker

文案 | 刘静

封面配图源于网络 侵删

返回搜狐,查看更多

责任编辑:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有