Nature Communications

您所在的位置:网站首页 scRNA-seq技术原理 Nature Communications

Nature Communications

2024-07-16 06:30:21| 来源: 网络整理| 查看: 265

作者 | 戴迟迟 编辑 | 戴迟迟 校对 | 李仲深

今天给大家介绍美国加利福尼亚大学Jingyi Jessica Li教授等人发表在Nature Communications上的一篇文章 “An accurate and robust imputation method scImpute for single-cell RNA-seq data” 。新兴的单细胞RNA测序 (scRNA-seq) 技术能够在单细胞水平研究转录组学情况。但是ScRNA-seq数据分析由于过多的零计数而变得复杂,也就是所谓的“dropout”事件,这是由于单个细胞内测序的mRNA量过少。 本文提出了scImpute,一种统计方法,可以准确而可靠地估算出scRNA-seq数据中的“dropout”。 scImpute自动识别可能的“dropout”,并且仅对这些值执行插补,而不会对其余数据引入新的偏差。scImpute还可以检测离群细胞并将其排除在插补之外。根据在模拟的和真实的人类和小鼠scRNA-seq数据中进行评估,表明scImpute是一种有效的工具,可识别可能的“dropout”,增强细胞亚群的聚集,提高差异表达分析的准确性,并有助于基因表达动力学的研究。

一、研究背景

批量细胞RNA测序 (bulk RNA-seq) 技术已广泛用于转录组分析,以研究转录结构,剪接模式以及基因和转录本表达水平。但是,重要的是要考虑特定于细胞的转录组格局,以解决生物学问题,在批量RNA序列中,无法解决细胞异质性,因为可变表达基因的信号将在整个细胞中被平均。幸运的是,单细胞RNA测序 (scRNA-seq) 技术现在正在成为捕获整个转录组细胞间变异性的强大工具。 scRNA-seq数据的一个重要特征是“dropout”现象,即在一个细胞中以中等表达水平观察到一个基因,而在另一细胞中未检测到该基因。通常,这是由于单个细胞中的mRNA含量低而发生的,因此在某些细胞中进行测序时可能无法检测到真正表达的转录本。

本文为scRNA-seq数据提出了一种新的插补方法scImpute,以同时确定哪些值受数据中的“dropout”事件影响,并且仅对“dropout”条目执行插补。为了实现这一目标,scImpute首先根据混合模型学习每个基因在每个细胞中的“dropout”概率。接下来,scImpute通过借用其他相似细胞中相同基因的信息来插补细胞中的“dropout”值 (图1)。

二、模型与方法

对于每个细胞类别k中的基因i,其表达值与一个随机变量

有关:

其中

是基因i在细胞类别k中的“dropout”率,

为Gamma分布的参数,

是Normal分布的参数。随后使用期望最大化来估算上述参数,其估计值被定义为

。因此,细胞j中的基因i的“dropout”概率

为:

在插补过程中,对于每个细胞j,本文将所有基因划分为两组:

代表需要插补的基因;

代表有精确表达的基因,其中t为阈值。插补过程就是使用B中的基因插补A中的基因:

图1. scImpute的插补流程

三、实验结果

3.1 scImpute恢复受“dropout”影响的基因表达

本实验使用三个示例来说明scImpute在插补基因表达中的功效。

第一,本实验证明scImpute恢复了ERCC spike-in转录本的真实表达,特别是受“dropout”事件影响的低丰度转录本。ERCC钉蛋白是具有已知浓度的合成RNA分子,可作为真实表达水平的标准,因此可以将插补的表达值读数计数与其进行比较,以进行准确性评估。数据集包含来自小鼠体感皮层区域的3005个细胞。插补后,这57个转录本的读数计数与其真实浓度之间的中等相关性从0.92增加到0.95,最小相关性从0.81增加到0.89。读数计数和真实浓度在每个细胞中也表现出更强的线性关系 (图2)。

图2. scImpute可改善ERCC RNA转录本的“dropout”

其次,本实验证明scImpute正确插补了已分为三个细胞周期阶段 (G1,G2M和S) 的182个胚胎干细胞 (ESC) 中的892个带注释的细胞周期基因的“dropout”值。已知这些基因调节细胞周期,并预期在细胞周期的不同阶段具有非零表达。插补之前,细胞周期基因原始计数的22.5%为零,这很可能是由于“dropout”造成的。插补后,校正了大部分的“dropout”值,并揭示了这些基因在细胞周期中的真实动态。插补后的计数也更好地代表了这些细胞周期基因的真实生物学变异 (图3)。

图3. 9个细胞周期基因表达值计数的小提琴图

最后,本实验使用模拟研究来说明scImpute在增强细胞类型识别中的功效。实验模拟了三种细胞类型c1,c2和c3的表达数据,每种类别具有50个细胞,而20,000个基因中的810个真正地被差异表达 (DE)。尽管当将主成分分析 (PCA)应用于完整数据时,这三种单细胞类型可以清晰地被区分,但它们在原始数据中的分离度会有所下降,并伴有“dropout”事件。基于前两个主成分 (PC) 计算的群集内平方和从完整数据中的94增加到原始数据中的2646。但是,在应用scImpute之后,阐明了150个细胞之间的关系。MAGIC和SAVER这两种方法也能够区分这三种细胞类型,但是MAGIC引入了人工信号,这些信号大大改变了数据,从而改变了PCA结果,而SAVER仅比原始数据稍微改善了聚类结果 (图4)。另外,“dropout”事件掩盖了差异模式,因此增加了检测DE基因的难度。scImpute插补后的数据导致不同细胞类型的上调基因之间的对比更加清晰,而MAGIC和SAVER插补后的数据无法恢复这种模式 (图4)。实验还评估了“dropout”率的普遍性如何影响scImpute的性能。不出所料,随着“dropout”率的降低,基于插补后数据的DE分析的准确性得到了提高。

图4. scImpute校正“dropout”值并帮助定义模拟数据中细胞的身份

3.2 scImpute改进了对细胞亚群的鉴定

为了证明scImpute协助识别细胞亚群的能力,本实验将scImpute应用于两个真实的scRNA-seq数据集。第一个是小鼠植入前胚胎的较小数据集。它包含来自10个发育阶段的268个scRNA-seq图谱。部分由于“dropout”事件的缘故,原始计数矩阵中70.0%的读取计数为零。为了说明这种缺失现象,本文在补充材料中绘制了两个16-细胞阶段细胞的读取计数的log读数。即使这两个细胞来自同一阶段,许多表达的基因中只有一个计数为零。通过scImpute插补的数据可以缓解此问题,并且两个细胞之间的Pearson相关性从0.72增加到0.82。

本实验通过研究前两个PC的聚类精度来比较插补结果。尽管有可能将主要的开发阶段与原始数据区分开,但是通过scImpute插补得出的插补数据会输出更紧凑的簇 (图5)。MAGIC给出了清晰的发育阶段模式,但是由于许多处于同一阶段的细胞前两个PC中的得分几乎相同,因此具有丢失生物学上有意义的变异的高风险。scImpute是唯一能够检测离群细胞的方法。然后,实验还在前两个PC上比较频谱聚类算法的聚类结果。由于真正的簇标签包括胚胎发育中的几个子阶段,因此使用不同数量的簇,k = 6、8、10、12和14。通过四种不同的方法对结果进行评估:调整后的Rand指数 (ARI),Jaccard指数,标准化互信息 (NMI) 和纯度。所有这四个量度都表明,与不进行插补,通过MAGIC或SAVER进行插补相比,scImpute得到最佳的聚类结果。该结果表明,scImpute通过在scRNA-seq数据中插补“dropout”值来改善细胞亚群的聚集。

图5. scImpute改善了小鼠胚胎细胞中的细胞亚群

本实验还将scImpute应用于基于高通量液滴系统生成的大型数据集。数据集包含9种免疫细胞类型的4500种外周血单核细胞 (PBMC),每种类型有500个细胞。在原始数据中,92.6%的读取计数为零。如果通过t-SNE降维,则细胞毒性和初始的细胞毒性T细胞会聚在一起,而其他四种类型的T细胞不会分开。经过scImpute的插补后,将细胞毒性 (标记11) 和初始细胞毒性T细胞 (标记8) 分为两组,现在可以将初始T细胞 (标记5) 和记忆T细胞 (标记3) 与其余的T细胞区分开来 (图6)。该证据显示,尽管缺少细胞类型信息,scImpute仍具有很强的识别细胞亚群的能力。另一方面,MAGIC不能改善相同类型的细胞聚类,并且SAVER运行时间过长。经scImpute插补后,单核细胞被分为一个大簇和两个小簇,实验发现这三个簇揭示了两个典型基因的动力学:FCER1A在单核细胞分化为树突状细胞的过程中积累,S100A8的表达在人类单核细胞子集之间存在差异 (图6)。大簇 (标签10) 的特征在于S100A8的高表达和FCER1A的中等表达;其中一个小簇 (标签1) 同时具有S100A8和FCER1A的高表达水平,而在另一个小簇 (标签2) 中,FCER1A大多不表达。实验还研究了调节/记忆/辅助T细胞的三个簇 (标签6、9和12)。这三个簇由八个潜在的标记基因 (ACTG1,ATP5C1,CCT8,CIRBP,DUSP1,FLNA,FOS和GAPDH) 表达支持:同一簇中的细胞具有相似的表达模式。这个例子表明,scImpute提供了发现新的细胞亚群及其标记基因的机会。

图6. scImpute可帮助识别PBMC数据集中的细胞亚群

四、总结

本文提出了一种统计方法scImpute,以解决在scRNA-seq数据中普遍存在的“dropout”事件。 scImpute专注于插补“dropout”基因的缺失表达值,同时大程度保留不受“dropout”事件影响基因的表达水平。因此,scImpute可以减少因scRNA-seq引起的技术变异,并更好地代表了细胞间的生物学变异,同时还避免了在插补过程中引入过多的偏倚。对模拟和真实数据的综合研究表明,与原始scRNA-seq数据相比,scImpute插补的数据可以更好地显示细胞类型同一性,并获得更准确的DE分析结果。除上述描述的实验外,此文还设计了许多其他有借鉴意义的验证实验,感兴趣的读者可以下载原文以及其补充材料来进行阅读。

代码

https://github.com/Vivianstats/scImpute

参考文献

Wei V L , Li J J . An accurate and robust imputation method scImpute for single-cell RNA-seq data[J]. Nature Communications, 2018, 9(1):997.



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭