【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象? 您所在的位置:网站首页 IDEA是什么算法 【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象?

【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象?

2023-03-17 10:13| 来源: 网络整理| 查看: 265

1.过拟合

定义:过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集新数据上的表现较差。

2.欠拟合

定义:欠拟合是指模型在训练和预测时表现都不好的情况,反映到评估指标上,就是模型在训练集测试集上的表现都不好。

3.过拟合和欠拟合图像

在这里插入图片描述

4.降低过拟合风险的方法

1)降低模型复杂度: 数据较少时,模型过于复杂是产生过拟合的主要因素。适当降低模型复杂度可以避免模型拟合过多的采样噪声。例如:在神经网络模型中减少网络层数、神经元个数;在决策树模型中降低树的深度、进行剪枝等。

2)从数据入手,获取更多的数据: 使用更多的训练数据是解决过拟合问题最有效的手段。因为更多的样本能够让模型学习到更多更有效的特征,减少噪声的影响。

3)正则化方法: 给模型的参数加上一定的正则约束,避免权值过大带来过拟合风险。

4)集成学习方法: 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。

5.降低欠拟合风险的方法

1)添加新特征: 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘“上下文特征”、“ID类特征”、“组合特征”等新的特征,往往能够取得更好的效果。在深度学习潮流中,有很多模型可以帮助完成特征工程,如:因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。

2)增加模型复杂度: 简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力。例如:在线性模型中添加高此项,在神经网络模型中增加网络层数或神经元个数。

3)减小正则化系数: 正则化是用来放置过拟合的,当模型出现欠拟合现象时,需要针对性减小正则化系数。

6.相关面试题

题目: 以下可以有效解决过拟合的方法是:()

A.增加样本数量

B.通过特征选择减少特征数量

C.训练更多的迭代次数

D.采用正则化方法

答案: ABD

解析: 过拟合是指模型在训练集上的表现很好,但在测试集和新数据上的表现较差。 A.增加样本数量:可以让模型学习到更多更有效地特征,减少噪声的影响。 B.通过特征选择减少特征数量:可以减少不必要的特征,提高泛化能力。 D.采用正则化方法:给模型的参数加上一定的正则约束,避免权值过大带来过拟合风险。

题目: 在机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:()

A.样本数量太少

B.样本数量过多

C.模型太复杂

D.模型太简单

答案: AC

解析: A.样本太少,学习到的有效特征少,噪声影响大,导致泛化能力差。 C.模型太复杂,会拟合过多的采样噪声,导致过拟合。

题目: 当发现机器学习模型过拟合时,以下操作正确的是:() A.降低特征维度 B.增加样本数量 C.添加正则项 D.增加特征维度

答案: ABC



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有