万字长文带你手把手完成一个单细胞转录组文献 图表复现(GSE123837) 您所在的位置:网站首页 蛋白质组学文献复现 万字长文带你手把手完成一个单细胞转录组文献 图表复现(GSE123837)

万字长文带你手把手完成一个单细胞转录组文献 图表复现(GSE123837)

2024-07-10 13:56| 来源: 网络整理| 查看: 265

做完jimmy老师最优秀的学徒,我居然好久没有做复现任务了,好多函数都忘了。。 趁此机会(2021-07暑期时间)好好复习一下,fighting!

前言

数据来源[1]于细胞学万能老二的期刊《nature cell biology》的一篇文章《Transcriptional diversity and bioenergetic shift in human breast cancer metastasis revealed by single-cell RNA sequencing》[2],提到了乳腺癌转移过程中的mitochondrial oxidative phosphorylation (OXPHOS) 通路激活问题。

同时作者上传了自己的code到github https://github.com/lawsonlab/Single_Cell_Metastasis/blob/master/Single_Cell_Classifier.R,文章总共有1707个细胞,经过筛选后剩下1119个细胞:

作者这里用的是seurat 2.1,但是现在更新到4了=-=

数据下载预处理

作者上传的数据已经是FPKM处理好的,可以看到是3个样品,这里我直接下的raw文件进行合并操作

代码语言:javascript复制

因为有1707个文件,实在太多=--=,先去吃饭了

结果报错

有2个问题:

1.发现不应该用rbind,应该用cbind=-= 浪费了好多时间2.有一个样本最后一行没有2行,作者传失误了?删去就好啦

代码语言:javascript复制质控代码语言:javascript复制

文中是1119,有可能是上一步id转换已经粗暴的去掉了=-=

所以需要查看gencode的gtf,查看核糖体基因

代码语言:javascript复制代码语言:javascript复制

结果还是不对,原文是3个数据集分开处理的。明天我再试试分开,结果是否一致=-=

这里不写循环的原因是因为分组的编号不一样,并且作者已经做好基因注释

H1

代码语言:javascript复制

H1还剩下246个cells

H2

结果h2的读取,遇到了日期基因=-=,作者传的文件还是挺多坑的,需要去除掉这些日期基因

代码语言:javascript复制

可以看到,与h1相比,少了28个基因,因为这28个因为作者的疏忽变成日期基因了

代码语言:javascript复制

h2分组的时候可以看到有12个cells命名跟之前的明明不一致,这个只能回到gse的网页去查看所属分组

发现是M,所以全部算作M

代码语言:javascript复制

H2还剩下396个细胞

H10

代码语言:javascript复制

同样需要去查看命名

代码语言:javascript复制

剩下470个cells

小结

总共三个样本最后所剩cell数为1112,与原文1119也是有所差异,与自己直接进行三个样本放在一起id转换也是有所差异。所以个人觉得原因如下

1.作者自己上传H2数据混入了日期基因,导致H2少了28个基因的表达,所以自己分样本结果比原文少2.不能粗暴的基因id转换,因为会去除很多基因,例如线粒体基因=-= 作者把60155个基因全部进行了注释,所以以后做单细胞,最好是通过gtf基因注释

合并

下面是合并3个sc,这里与文章有所不同,因为文章用的是seurat2,现在3可以直接多数据通过anchor合并了,所以结果也许也会不同=--=

这里作者用cell cycle作为batch effects,所以需要去除影响

代码语言:javascript复制差异分析

通过作者给的阈值 logfc>0.25|p



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有