GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理) 您所在的位置:网站首页 差异表达数据分析 GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理)

GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理)

2024-02-07 14:00| 来源: 网络整理| 查看: 265

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

离群值处理

删除 低表达基因

函数归一化,矫正差异

数据标准化—log2处理

 完整代码

上节围绕着探针ID和基因名称做了一些清洗工作,还做了重复值检查,空值删除操作。

#查看重复值 table(duplicated(matrix$Gene.Symbol)) #去掉缺失值 matrix_na = na.omit(matrix) #基因名称为空删除 matrix_final = matrix_na[matrix_na$Gene.Symbol != "",] 离群值处理

用于处理异常值,将超出一定范围的值替换为中位数,以减少异常值对后续分析的影响。

#数据离群处理 #处理极端值 #定义向量极端值处理函数 #用于处理异常值,将超出一定范围的值替换为中位数,以减少异常值对后续分析的影响。 dljdz=function(x) { DOWNB=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25)) UPB=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25)) x[which(xUPB)]=quantile(x,0.5) return(x) } #第一列设置为行名 matrix_leave=matrix_final boxplot(matrix_leave,outline=FALSE, notch=T, las=2) ##出箱线图 dim(matrix_leave) #处理离群值 matrix_leave_res=apply(matrix_leave,2,dljdz) boxplot(matrix_leave_res,outline=FALSE, notch=T, las=2) ##出箱线图 dim(matrix_leave_res) 删除 低表达基因

方案1 :仅去除在所有样本里表达量都为零的基因(或者平均值小于1)

方案2:仅保留在一半(50%,75%...自己选择)以上样本里表达的基因

#删除 低表达基因 #仅去除在所有样本里表达量都为零的基因(平均值小于1) # 计算基因表达矩阵的平均值 gene_avg


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有