GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理) | 您所在的位置:网站首页 › 差异表达数据分析 › GEO生信数据挖掘(四)数据清洗(离群值处理、低表达基因、归一化、log2处理) |
检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例 目录 离群值处理 删除 低表达基因 函数归一化,矫正差异 数据标准化—log2处理 完整代码 上节围绕着探针ID和基因名称做了一些清洗工作,还做了重复值检查,空值删除操作。 #查看重复值 table(duplicated(matrix$Gene.Symbol)) #去掉缺失值 matrix_na = na.omit(matrix) #基因名称为空删除 matrix_final = matrix_na[matrix_na$Gene.Symbol != "",] 离群值处理用于处理异常值,将超出一定范围的值替换为中位数,以减少异常值对后续分析的影响。 #数据离群处理 #处理极端值 #定义向量极端值处理函数 #用于处理异常值,将超出一定范围的值替换为中位数,以减少异常值对后续分析的影响。 dljdz=function(x) { DOWNB=quantile(x,0.25)-1.5*(quantile(x,0.75)-quantile(x,0.25)) UPB=quantile(x,0.75)+1.5*(quantile(x,0.75)-quantile(x,0.25)) x[which(xUPB)]=quantile(x,0.5) return(x) } #第一列设置为行名 matrix_leave=matrix_final boxplot(matrix_leave,outline=FALSE, notch=T, las=2) ##出箱线图 dim(matrix_leave) #处理离群值 matrix_leave_res=apply(matrix_leave,2,dljdz) boxplot(matrix_leave_res,outline=FALSE, notch=T, las=2) ##出箱线图 dim(matrix_leave_res) 删除 低表达基因方案1 :仅去除在所有样本里表达量都为零的基因(或者平均值小于1) 方案2:仅保留在一半(50%,75%...自己选择)以上样本里表达的基因 #删除 低表达基因 #仅去除在所有样本里表达量都为零的基因(平均值小于1) # 计算基因表达矩阵的平均值 gene_avg |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |