单/多个基因在组间同时展示的多种选择:分组小提琴图、分组/分面柱状图、单基因蜂群点图拼图绘制 您所在的位置:网站首页 基因表达量图和标准差差差得很多 单/多个基因在组间同时展示的多种选择:分组小提琴图、分组/分面柱状图、单基因蜂群点图拼图绘制

单/多个基因在组间同时展示的多种选择:分组小提琴图、分组/分面柱状图、单基因蜂群点图拼图绘制

2024-07-06 02:36| 来源: 网络整理| 查看: 265

这是ggplot2可视化专题的第二个实例操作

【ggplot2的基本思路见前文总论】:基于ggplot2的RNA-seq转录组可视化:总述和分文目录

【ggplot2绘图具体策略第一篇】:测序结果概览:基因表达量rank瀑布图,高密度表达相关性散点图,注释特定基因及errorbar的表达相关性散点图绘制

【ggplot2绘图具体策略第三篇】:配对样本基因表达趋势:优化前后的散点连线图+拼图绘制

在我们获得转录组的测序结果并进行数据处理-差异分析一整套流程后,我们不仅关注整个转录组的表达趋势,还包括了特定基因在不同处理组/特征间的表达情况。这时依旧是各类ggplot2统计图的主场。

本文将要介绍的图表类型展示如下:包括分组小提琴图(B)、分组(A)/分面柱状图(C)、单基因蜂群点图拼图(D)。想必大家都知道这些图表在生物医学文献中半壁江山的地位。用R-ggplot2来绘制它们,简单明了美观,也不需要对数据进行跨平台保存读取,可谓方便。

the panels that we are going to draw in this figure

我们依旧使用通过第一、二篇介绍的整合好并差异分析过的TCGA白种人LUSC肺鳞癌mRNA-seq转录组表达数据。

数据获取

基于第一篇文章从TCGA数据库下载并整合清洗高通量肿瘤表达谱-临床性状数据,我们下载并清洗TCGA数据库中white人种的LUSC肺鳞癌mRNA-seq转录组counts数据和FPKM数据。

随后根据第二篇文章TCGA数据整合后进行DESeq2差异表达分析和基于R的多种可视化对counts数据进行了基于DESeq2的差异分析。

现在假设我们已经获得: (样本1到344为cancer,345到386为normal) (1)resSigAll: the subset object generated by DESeq2 containing info about all differentially expressed genes. (2)clinical_trait: the data frame containing submitter_id and tumor_stage of selected TCGA LUSC samples. It will be used for grouping. (3)condition_table: the data frame defining the sample_type and recording the TCGA_IDs and submitter_id of each TCGA sample. It will be used for grouping. (4)expr_vst: vst transformed normalized counts matrix of genes and samples generated by DESeq2. It is the raw material of downstream visualization.

需要R包

ggplot2 (作图),reshape2包 (对数据框格式进行转制),ggsignif (统计学注释包),ggbeeswarm (蜂群图作图包),customLayout,和gridExtra(用于ggplot2对象拼图)。

install.packages('ggplot2') install.packages('reshape2') install.packages('ggsignif') install.packages('ggbeeswarm') install.packages('customLayout') install.packages('gridExtra') library('ggplot2') library('reshape2') library('ggsignif') library('ggbeeswarm') library('customLayout') library('gridExtra') 1. 分组柱状图

假设现在我们关注一个目的基因在normal和cancer组间的表达分布,且希望看到每组内不同LUSC tumor stages间该基因的表达变化情况。(因为normal组也是来自于患者的癌旁组织,所以也可以分组)

则绘图需要: (1)normal/cancer分组以及组内tumor stage亚组(x轴分组依据) (2)亚组的vst counts均值(y轴,因为作柱状图,不需要每个散点的信息) (3)亚组的vst counts标准差(errorbar)

我们随机从差异基因中选取一个基因作为可视化对象。自定义函数,输入stage i/stageii/>= stage iii可通过clinical_trait和condition_table dataframe分别匹配相应的normal和cancer样本,并分别计算均值和标准差。最后汇总得到

set.seed(10) gene_chosen


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有