大数据能力提升项目｜学生成果展系列之二

#大数据能力提升项目｜学生成果展系列之二| 来源: 网络整理| 查看: 265

导读

为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。

回首2022年，清华大学大数据能力提升项目取得了丰硕的成果，同学们将课程中学到的数据思维和技能成功地应用在本专业的学习和科研中，在看到数据科学魅力的同时，也将自己打造成为了交叉复合型的创新型人才。下面让我们通过来自8个院系的10位同学代表一起领略他们的风采吧！

儿童听力损失相关生物信息学研究

听力损失是最常见的感觉障碍之一，中国每年至少有2万名新生聋儿出生，如果不进行干预，将造成巨大的社会和经济负担。听力损失按照程度分类，可分为轻度、中度、重度和极重度。根据侧别，可分为左侧、右侧和双侧听力损失。根据性质，可分为传导性、感音神经性、混合性听力损失和特殊类型“听神经病”。对听力损失程度的判断有两种方法，一是根据ABR阈值机器判断，二是根据ABR阈值人工判断。对听力损失性质的判断则是根据DPOAE、声导抗，进行人工判断。

我们的数据集为2011年1月至2021年6月于北京同仁医院儿童听力门诊采集的就诊信息。研究目标为明确新生儿听力损失检出率、听力损失程度和听力损失性质分布，进行多因素回归分析及相关性分析，并将机器学习模型应用于儿童听力损失临床诊断中。

我们采用Python语言编程，对原始数据进行了读取、整理与统计，并对各类信息进行赋值。对数据按照年龄、性别、来源、地区和高危因素进行了简单统计，对数据有了基础了解。

对听力损失检出率进行统计分析。

根据机器判断结果，计算了总体听力损失检出比例，其中总体就诊患儿听力损失检出率达到55.79%。通过对不同筛查来源患儿的听力损失检出比例进行对比发现，社区、产科复筛来源的听力损失检出率高，而托幼院所来源的明显偏低。我们统计了各年度就诊患儿听力损失检出率，除第一年和最后一年的就诊例数较少，其余年份的总体听力损失检出率都在50%—64%。双耳听力损失检出率总体呈下降趋势，单耳听力损失检出率占比总体呈上升趋势。我们将首诊筛查结果与根据ABR阈值机器判断结果进行对比，发现有首诊筛查结果的共754例，其中400例ABR测试异常，异常率高达53.05%。

对听力损失程度进行统计。

对机器判断与人工判断结果进行对比，发现两种结果的相同点为：听力损失程度分布均表现为轻度>中度>极重度>重度。双耳听力损失数目高于单耳听力损失数目。不同点在于，人工判断结果与机器判断结果相比，双耳正常增多4例，单耳听力损失减少15例，双耳听力损失增多11例。不同筛查来源的听力损失程度分布显示：产科复筛来源的就诊患儿例数多，听力损失率高，是重要的来源途径。而社区来源的就诊患儿双耳极重度、双耳中度占比较大，总体听力损失率最高。这可能提示社区来源需加强转诊、随访。

对听力损失性质分布的统计。

人工判断结果显示，听力损失总耳数占比为感音神经性>传导性>混合性>听神经病。双耳异常总耳数占比>单耳异常总耳数占比，尤其体现在感音神经性耳聋上。

对数据进行回归分析。

首先是各因素与机器判断结果的分析。我们首先考虑不同因素对机器判断结果的影响，进行卡方检验。最终的结果显示，影响机器判断结果的显著因素共13项。

由于就诊患儿的诊断结果可以视为一个典型的二分类问题。因此可将影响因素纳入二分类非条件逻辑回归模型进行多因素分析，同时对自变量进行Z检验。将p值阈值设为0.05，得到对机器判断结果有显著相关性的因素有7项。

在逻辑回归分析的基础上，进一步尝试使用机器学习的方法对机器判断结果进行分类。使用逻辑回归函数和训练函数，对数据进行逻辑回归的二分类。数据训练集和测试集的比例为4：1。得到的模型预测准确度为65.44%，效果并不理想。

不同于逻辑回归算法，决策树分类过程不依赖领域知识。我们使用决策树模型来对数据分类。由此得到的模型预测准确度为58.45%，结果同样不够理想。

对人工判断结果采用同样的流程进行研究。

卡方检验显示，筛查来源、就诊年龄、高危因素里的颅面形态畸形、NICU住院超过5天共4种因素对人工判断结果的影响具有统计学意义，这些因素同样是影响机器判断结果的显著因素。逻辑回归分析结果显示：对人工判断结果有显著相关性的因素有4项，其中首诊筛查来源、高危因素里的黄疸与机器判断结果有显著相关性。

进一步尝试使用机器学习的方法对人工判断结果进行分类。得到的逻辑回归模型准确度为98%。决策树模型准确度为95.34%，都表现出比较理想的分类效果。这也意味着，我们可以通过就诊患儿的信息，用机器学习来预测就诊患儿的听力损失情况，预测结果与人工判断结果具有极高的一致性。

我们的研究有以下四点主要结论：

1.产科筛查的重要性。

2.机器判断和人工判断的一致性高。

3.感音神经性听力损失占比最大，双耳异常占比大。

4.可通过机器学习获得较好的人工判断结果预测，这为大数据预测辅助人工判断描绘了美好前景。

此次实践我巩固提升了大数据理论知识，并将其运用于解决实际问题。在实践过程中实现了团队合作和学科交叉，撰写了报告《儿童听力损失相关生物信息学研究》，并最终获得了2021年“清华大学大数据能力提升项目”实践课优秀团队奖。目前，本团队也在与北京市同仁医院继续就该项目合作，将成果转化为学术论文。

编辑：文婧

校对：程安乐

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章