实验记录10: 用Monocle进行伪时间分析 您所在的位置:网站首页 monocle轨迹分析 实验记录10: 用Monocle进行伪时间分析

实验记录10: 用Monocle进行伪时间分析

2023-08-16 04:48| 来源: 网络整理| 查看: 265

概要

本文主要讨论Seurat对象导入到Monocle中直接进行分析的可行性,分两种情况: ①经过数据清洗、标准化和聚类的Seurat对象导入 ②未经过任何处理的Seurat对象导入

以下先进行Monocle包的简单介绍,再分这两种情况进行尝试。

为什么要分这两种情况进行尝试?

Seurat包中也有将数据标准化的步骤,作者的建议是在Monocle中要再次进行标准化,但是他自己也没有尝试过,所以不确定会怎么样。 Seurat包中有个ScaleData的命令,目的是去除测序产生的批次效应和技术噪音,但对于我们的数据(按不同时间缺血处理的脾脏,根据锥虫感染小鼠的时间进行测序),我们要观察的就是这些不同时间批次之间的差别,有可能这个命令会将这个差别掩盖了。因此如果直接输入已经聚类好的Seurat对象,也许会出现问题。 关于Monocle

http://cole-trapnell-lab.github.io/monocle-release/

【Introduction】 Monocle介绍了使用RNA-Seq进行单细胞轨迹分析的策略,能够将细胞按照模拟的时间顺序进行排列,显示它们的发展轨迹如细胞分化等生物学过程。Monocle从数据中用无监督或半监督学习获得这个轨迹。

无监督:利用Monocle的自己一套工具或Seurat生成一个基因列表 半监督:通过自身的知识积累人为输入一些认为重要的基因

Monocle不是通过实验将细胞纯化为离散状态,而是使用算法来学习每个细胞必须经历的基因表达变化的序列,作为动态生物过程的一部分。一旦它了解了基因表达变化的整体“轨迹”,Monocle就可以将每个细胞放置在轨迹中的适当位置。然后,可以使用Monocle的差异分析工具包来查找在轨迹过程中受到调控的基因。如果该过程有多个结果,Monocle将重建“分支”轨迹。这些分支对应于细胞“决策”,Monocle提供了强大的工具来识别受其影响的基因并参与制作它们。网站中也提供了分析分支的方法。Monocle依靠Reversed Graph Embedding的机器学习技术来构建单细胞轨迹。

除了构建单细胞轨迹之外,它还能够做差异表达分析和聚类来揭示重要的基因和细胞。这与Seurat的功能相似。

【Workflow以及与Seurat的异同】

①创建CellDataSet对象(下简称CDS对象) 若要创建新的CDS对象,则需要整理出3个输入文件(基因-细胞表达矩阵、细胞-细胞特征注释矩阵、基因-基因特征注释矩阵),但方便的是,Monocle支持从Seurat中直接导入对象,通过importCDS命令实现。 在创建之后,也会进行数据过滤和标准化,不同的是Seurat是基于作图的方法去筛选掉异常的细胞,而Monocle的过滤方法则是根据表达数据的数学关系来实现。 上限:10^{\frac{lgX}{n}}+2sd×lgX 下限:10^{\frac{lgX}{n}}-2sd×lgX 其中X为基因表达总数, n 为细胞数,sd为表达水平方差 大概就是以一个大致的细胞表达水平为基准,表达量太高的跟太低的去除掉。

②通过已知的Marker基因分类细胞 方法一:通过一些现有的生物/医学知识手动赋予它们细胞名,将这些细胞分为几大类,然后再聚类细胞。 方法二:与Seurat包的分类细胞方法类似,筛选出差异表达基因用于聚类,然后再根据每一个cluster的marker赋予细胞名。

③聚类细胞 采用的也是t-SNE算法。

④将细胞按照伪时间的顺序排列在轨迹上

Step1:选择输入基因用于机器学习 这个过程称为feature selection(特征选择),这些基因对轨迹的形状有着最重要的影响。我们应该要选择的是最能反映细胞状态的基因。 如果直接通过Seurat输出的一些重要的基因(比如每个cluster中的高FC值基因)作为输入对象的话就能够实现一个“无监督”分析。或者也可以利用生物学知识手动选择一些重要的基因进行“半监督”分析。 Step2:数据降维 利用Reversed graph embedding算法将数据降维。 相对于PCA来说这个算法更能够反应数据的内部结构(据monocle网站说是这样) Step3:将细胞按照伪时间排序 这个过程称为manifold learning(流形学习)。Monocle利用轨迹来描述细胞如何从一个状态转换到另一个状态。得到的是一个树状图,树的根部或树干表示的是细胞最初的状态(如果有的话),随着细胞的变化就沿着分叉树枝发展。一个细胞的伪时间值(pseudotime value)为它的位置沿着树枝到根部的距离。

⑤差异表达分析 还没细看

情况①:经过清洗、标准化和聚类的Seurat对象导入 spleen An object of class seurat in project 10X_spleen 15655 genes across 1940 samples. clustered_spleen_monocle


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有