实用干货

2023-04-25 23:07| 来源: 网络整理| 查看: 265

原标题：实用干货 | 10x 单细胞构建自定义参考基因组

导语

10x genomics 为人类和小鼠提供了预先构建好的参考基因组，以便与Cell Ranger一起使用。研究人员可以为其他物种制作定制的参考基因组，或者将感兴趣的定制标记基因添加到参考中，例如GFP。以下教程概述了使用cellranger mkref 命令构建自定义参考基因组引用的步骤。

01 查找输入文件

本教程遵循用于为人类和小鼠创建 10x 基因组学预构建参考的相同步骤。首先，找到您物种的参考基因组 FASTA 和 GTF 文件。我们建议从 Ensembl 数据库中获得，来自 Ensembl 的 GTF 文件包含可选的标签，使过滤变得容易。如果您感兴趣的物种无法从 Ensembl 获得，则来自其他来源的 GTF 和 FASTA 文件也可以。请注意，GTF 文件是必需的，而 GFF 文件不受支持。

本教程为斑马鱼 Danio rerio 生成自定义参考基因组。

打开 Ensembl 网站的基因注释部分，然后单击下载 GTF 链接。这会将您带到一个 FTP 站点，其中包含可用的 GTF 文件列表。选择名为 Danio_rerio.GRCz11.105.gtf.gz 的文件。这是该物种的GTF注释文件。Ensembl 中的所有物种都有类似的文件可供下载。

右键单击链接以复制地址，将 URL 粘贴到命令行中，然后使用以下命令下载：

wget http://ftp.ensembl.org/pub/release-105/gtf/danio_rerio/Danio_rerio.GRCz 11.105.gtf.gz

使用以下命令解压缩文件：

gunzip Danio_rerio.GRCz11.105.gtf.gz

接下来，返回 Danio rerio 的 Ensembl 页面，然后单击下载 FASTA 以访问包含多种类型的 FASTA 文件的 FTP 站点。选择目录以访问包含基因组文件的目录。下载包含基因组中所有染色体的 FASTA 文件。右键单击链接以复制地址。将 URL 粘贴到命令行中，然后使用以下命令下载：

wget http://ftp.ensembl.org/pub/release-105/fasta/danio_rerio/dna/Danio_reri o.GRCz11.dna.primary_assembly.fa.gz

使用以下命令解压缩文件：

gunzip Danio_rerio.GRCz11.dna.primary_assembly.fa.gz

02 过滤GTF

GTF 文件中包含非 polyA 转录本的注释信息，一些基因碱基序列与蛋白编码基因碱基序列重叠，由于注释信息的重叠，从而造成了读段比对到多个基因上（multi-mapped）。这种情况下，不会对这些多重比对的读段进行计数。为此，我们需要移除 gtf 中这些转录本的注释信息。最小的 GTF 文件只需要包含蛋白质编码基因的外显子特征。设置命令：

展开全文 03 构建参考基因组

现在，已经准备好了所需的基因组 FASTA 和筛选的 GTF 文件，可以开始构建参考基因组了，命令如下：

运行该命令，这可能需要几个小时，具体取决于您的系统，在服务器上运行肯需要1-2小时。得到的结果如下：

04 向FASTA和GTF添加标记基因

在某些情况下，公开可用的 GTF 和 FASTA 文件将不包含给定样本中表达的某些基因的信息。在本示例中，将常见的标记基因绿色荧光蛋白（GFP）添加到参考基因组中。

在示本例中，我们使用 GenBank 的完整GFP序列。下面的序列是从 5' 到 3'，以蓝色突出显示的序列是未翻译区域（UTR）：

在 FASTA 序列的标题中有特殊字符，可能造成下游分析报错，修改 GFP_orig.fa 文件的 title 命名为 GFP. fa：

cat GFP_orig.fa|sed s/L29345\.\1\ Aequorea\ victoria\ green\-fluorescent\protein\ \(GFP\)\ mRNA\,\ complete\ cds/GFP/ > GFP.fa

查看序列长度：

cat GFP.fa|grep -v "^>"|tr -d"\n"|wc -c

此命令的结果显示有 922 个碱基。

现在，使用以下命令为 GFP 创建自定义 GTF注释文件。

echo -e 'GFP\tunknown\texon\t1\t922\t.\t+\t.\tgene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";' > GFP.gtf

查看 GFP . gtf 文件：cat GFP . gtf

GFP unknown exon 1922 . + . gene_id "GFP"; tra nscript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";

然后将 GFP.fa 的碱基序列添加到斑马鱼的参考基因组中。首先，复制一份 FASTA 文件，原来的文件保持不变。

cp Danio_rerio.GRCz11.dna.primary_assembly.fa Danio_rerio.GRCz11.dna.primary _assembly_GFP.fa

然后，将 GFP.fa 加到文件的末尾。

cat GFP.fa >> Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

查看是否添加成功：

grep">" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

输出类似于以下内容：

查看基因组中 contigs 数量，994个

grep -c "^>" Danio_rerio.GRCz11.dna.primary_assembly_GFP.fa

将 GFP 的注释信息添加到参考基因组的注释信息中：

使用以下命令检查文件：

tail Danio_rerio.GRCz11.105.filtered.GFP.gtf

输出类似于以下内容，GTF 条目作为文件的最后一行：

MT RefSeq start_codon 15308 15310 . + 0 gene_id "ENSDARG00000063924"; gene_version "3"; transcript_id "ENSDART00000093 625"; transcript_version "3"; exon_number "1"; gene_name "mt-cyb"; gene_sour ce "RefSeq"; gene_biotype "protein_coding"; transcript_name "mt-cyb-201"; tr anscript_source "RefSeq"; transcript_biotype "protein_coding";

GFP unknown exon 1 922 . + . gene_id "GFP"; transcript_id "GFP"; gene_name "GFP"; gene_biotype "protein_coding";

将构建好的文件作为输入文件，运行 cellranger mkref

添加标记基因的参考基因组就构建好了。

参考资料：

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_mr#marker

文案 | 刘静

封面配图源于网络侵删

返回搜狐，查看更多

责任编辑：

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章