【机器学习算法面试题】五.在模型评估过程中，过拟合和欠拟合具体是指什么现象？

2023-03-17 10:13| 来源: 网络整理| 查看: 265

1.过拟合

定义：过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现较差。

2.欠拟合

定义：欠拟合是指模型在训练和预测时表现都不好的情况，反映到评估指标上，就是模型在训练集和测试集上的表现都不好。

3.过拟合和欠拟合图像

在这里插入图片描述

4.降低过拟合风险的方法

1）降低模型复杂度： 数据较少时，模型过于复杂是产生过拟合的主要因素。适当降低模型复杂度可以避免模型拟合过多的采样噪声。例如：在神经网络模型中减少网络层数、神经元个数；在决策树模型中降低树的深度、进行剪枝等。

2）从数据入手，获取更多的数据： 使用更多的训练数据是解决过拟合问题最有效的手段。因为更多的样本能够让模型学习到更多更有效的特征，减少噪声的影响。

3）正则化方法： 给模型的参数加上一定的正则约束，避免权值过大带来过拟合风险。

4）集成学习方法： 集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。

5.降低欠拟合风险的方法

1）添加新特征： 当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合。通过挖掘“上下文特征”、“ID类特征”、“组合特征”等新的特征，往往能够取得更好的效果。在深度学习潮流中，有很多模型可以帮助完成特征工程，如：因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。

2）增加模型复杂度： 简单模型的学习能力较差，通过增加模型的复杂度可以使模型拥有更强的拟合能力。例如：在线性模型中添加高此项，在神经网络模型中增加网络层数或神经元个数。

3）减小正则化系数： 正则化是用来放置过拟合的，当模型出现欠拟合现象时，需要针对性减小正则化系数。

6.相关面试题

题目： 以下可以有效解决过拟合的方法是：（）

A.增加样本数量

B.通过特征选择减少特征数量

C.训练更多的迭代次数

D.采用正则化方法

答案： ABD

解析： 过拟合是指模型在训练集上的表现很好，但在测试集和新数据上的表现较差。 A.增加样本数量：可以让模型学习到更多更有效地特征，减少噪声的影响。 B.通过特征选择减少特征数量：可以减少不必要的特征，提高泛化能力。 D.采用正则化方法：给模型的参数加上一定的正则约束，避免权值过大带来过拟合风险。

题目： 在机器学习中，如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大，对于产生这种现象以下说法正确的是：（）

A.样本数量太少

B.样本数量过多

C.模型太复杂

D.模型太简单

答案： AC

解析： A.样本太少，学习到的有效特征少，噪声影响大，导致泛化能力差。 C.模型太复杂，会拟合过多的采样噪声，导致过拟合。

题目： 当发现机器学习模型过拟合时，以下操作正确的是：（） A.降低特征维度 B.增加样本数量 C.添加正则项 D.增加特征维度

答案： ABC

【本文地址】

公司简介

联系我们