万字长文带你手把手完成一个单细胞转录组文献 图表复现(GSE123837) | 您所在的位置:网站首页 › 蛋白质组学文献复现 › 万字长文带你手把手完成一个单细胞转录组文献 图表复现(GSE123837) |
做完jimmy老师最优秀的学徒,我居然好久没有做复现任务了,好多函数都忘了。。 趁此机会(2021-07暑期时间)好好复习一下,fighting! 前言数据来源[1]于细胞学万能老二的期刊《nature cell biology》的一篇文章《Transcriptional diversity and bioenergetic shift in human breast cancer metastasis revealed by single-cell RNA sequencing》[2],提到了乳腺癌转移过程中的mitochondrial oxidative phosphorylation (OXPHOS) 通路激活问题。 同时作者上传了自己的code到github https://github.com/lawsonlab/Single_Cell_Metastasis/blob/master/Single_Cell_Classifier.R,文章总共有1707个细胞,经过筛选后剩下1119个细胞: ![]() 作者这里用的是seurat 2.1,但是现在更新到4了=-= ![]() 数据下载预处理 作者上传的数据已经是FPKM处理好的,可以看到是3个样品,这里我直接下的raw文件进行合并操作 ![]() 因为有1707个文件,实在太多=--=,先去吃饭了 结果报错 ![]() 有2个问题: 1.发现不应该用rbind,应该用cbind=-= 浪费了好多时间2.有一个样本最后一行没有2行,作者传失误了?删去就好啦 ![]() 文中是1119,有可能是上一步id转换已经粗暴的去掉了=-= ![]() ![]() 所以需要查看gencode的gtf,查看核糖体基因 代码语言:javascript复制代码语言:javascript复制![]() ![]() 结果还是不对,原文是3个数据集分开处理的。明天我再试试分开,结果是否一致=-= ![]() 这里不写循环的原因是因为分组的编号不一样,并且作者已经做好基因注释 H1 代码语言:javascript复制H1还剩下246个cells ![]() ![]() H2 结果h2的读取,遇到了日期基因=-=,作者传的文件还是挺多坑的,需要去除掉这些日期基因 代码语言:javascript复制可以看到,与h1相比,少了28个基因,因为这28个因为作者的疏忽变成日期基因了 代码语言:javascript复制h2分组的时候可以看到有12个cells命名跟之前的明明不一致,这个只能回到gse的网页去查看所属分组 ![]() 发现是M,所以全部算作M 代码语言:javascript复制H2还剩下396个细胞 ![]() ![]() H10 代码语言:javascript复制同样需要去查看命名 代码语言:javascript复制剩下470个cells ![]() ![]() 小结 总共三个样本最后所剩cell数为1112,与原文1119也是有所差异,与自己直接进行三个样本放在一起id转换也是有所差异。所以个人觉得原因如下 1.作者自己上传H2数据混入了日期基因,导致H2少了28个基因的表达,所以自己分样本结果比原文少2.不能粗暴的基因id转换,因为会去除很多基因,例如线粒体基因=-= 作者把60155个基因全部进行了注释,所以以后做单细胞,最好是通过gtf基因注释 合并下面是合并3个sc,这里与文章有所不同,因为文章用的是seurat2,现在3可以直接多数据通过anchor合并了,所以结果也许也会不同=--= 这里作者用cell cycle作为batch effects,所以需要去除影响 ![]() 通过作者给的阈值 logfc>0.25|p |
CopyRight 2018-2019 实验室设备网 版权所有 |