【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象? | 您所在的位置:网站首页 › IDEA是什么算法 › 【机器学习算法面试题】五.在模型评估过程中,过拟合和欠拟合具体是指什么现象? |
1.过拟合 定义:过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。 2.欠拟合定义:欠拟合是指模型在训练和预测时表现都不好的情况,反映到评估指标上,就是模型在训练集和测试集上的表现都不好。 3.过拟合和欠拟合图像1)降低模型复杂度: 数据较少时,模型过于复杂是产生过拟合的主要因素。适当降低模型复杂度可以避免模型拟合过多的采样噪声。例如:在神经网络模型中减少网络层数、神经元个数;在决策树模型中降低树的深度、进行剪枝等。 2)从数据入手,获取更多的数据: 使用更多的训练数据是解决过拟合问题最有效的手段。因为更多的样本能够让模型学习到更多更有效的特征,减少噪声的影响。 3)正则化方法: 给模型的参数加上一定的正则约束,避免权值过大带来过拟合风险。 4)集成学习方法: 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。 5.降低欠拟合风险的方法1)添加新特征: 当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合。通过挖掘“上下文特征”、“ID类特征”、“组合特征”等新的特征,往往能够取得更好的效果。在深度学习潮流中,有很多模型可以帮助完成特征工程,如:因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。 2)增加模型复杂度: 简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力。例如:在线性模型中添加高此项,在神经网络模型中增加网络层数或神经元个数。 3)减小正则化系数: 正则化是用来放置过拟合的,当模型出现欠拟合现象时,需要针对性减小正则化系数。 6.相关面试题题目: 以下可以有效解决过拟合的方法是:() A.增加样本数量 B.通过特征选择减少特征数量 C.训练更多的迭代次数 D.采用正则化方法 答案: ABD 解析: 过拟合是指模型在训练集上的表现很好,但在测试集和新数据上的表现较差。 A.增加样本数量:可以让模型学习到更多更有效地特征,减少噪声的影响。 B.通过特征选择减少特征数量:可以减少不必要的特征,提高泛化能力。 D.采用正则化方法:给模型的参数加上一定的正则约束,避免权值过大带来过拟合风险。 题目: 在机器学习中,如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大,对于产生这种现象以下说法正确的是:() A.样本数量太少 B.样本数量过多 C.模型太复杂 D.模型太简单 答案: AC 解析: A.样本太少,学习到的有效特征少,噪声影响大,导致泛化能力差。 C.模型太复杂,会拟合过多的采样噪声,导致过拟合。 题目: 当发现机器学习模型过拟合时,以下操作正确的是:() A.降低特征维度 B.增加样本数量 C.添加正则项 D.增加特征维度 答案: ABC |
CopyRight 2018-2019 实验室设备网 版权所有 |