成人数据集报告(kNN、决策树、朴素贝叶斯) |
您所在的位置:网站首页 › 正楷字难写吗 › 成人数据集报告(kNN、决策树、朴素贝叶斯) |
1.问题描述
根据人口普查数据预测某个人收入是否超过5万美元/年,借此可以用来进行一些产品的推广。 2.数据准备与处理数据集包含14个属性,分别是:年龄、工作类别、final weight、教育、教育数量、婚姻状况、职业、关系、种族、性别、资本收益、资本损失、每周小时数、国籍。其中,年龄、final weight、教育数量、资本收益、资本损失和每周小时数是数值标签,其余是标称标签。 数据集的实例数量为500个,用来测试的数据实例数量为32个。 因为数据集的每一条数据属性太多,为了便于测试和增加准确度,将存在相关性的数据属性保留其中一个属性。例如,教育与教育数量存在正相关,将教育数量摒弃,工作类别与每周小时数存在相关性,将每周小时数舍弃。 该数据集中不存在缺失项,所以不需要进行数据的填充。为使kNN、决策树和朴素贝叶斯三种算法适用该数据集,选择“工作类别”、“教育”、“婚姻状况”、“职业”、“关系”、“种族”、“性别”和“国籍”8个属性的数据用于决策树和朴素贝叶斯的训练;选择“年龄”、“final weight”、“教育数量”、“资本收益”、“资本损失”和“每周小时数”6个属性数据用于kNN的训练。 进行kNN处理时,因为“final weight”的数值比其他属性数值大太多,所以对进行训练的6个属性进行归一化处理: kNN: 记录训练样本集中每一数据与所属分类的对应关系,输入预测数据的新数据后,将新数据的每个特征与训练样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的前k个分类标签,选择k个最相似数据中出现次数最多的分类,作为新数据分类。判断相似度采用欧式距离的计算方法,设数据有 d越小,则两个数据的相似度越大。 决策树: 根据信息增益的大小,每次选择信息增益最大的特征对数据集进行划分。 设训练数据集位D,|D|表示其样本容量,即样本个数。设有K个类 (1)计算数据集D的经验熵H(D) (2)计算特征A对数据集D的经验条件熵H(D|A) (3)计算信息增益 本次预测数据中每组包含4个特征,先选出4个特征中信息增益最大的特征作为第一个决策点,之后再从剩下的3个特征中选出信息增益最大的作为第二个决策点,直到每一个特征都作为决策点,算法结束。 朴素贝叶斯: 贝叶斯公式: 代入该数据集表示为: 该数据集的特征为选取的8个属性值,类别为“>50K”和“
kNN结果: 测试数据为32组 k=3时:正确率为87.5% k=4时:正确率为87.5% … k=19时:正确率为87.5% 决策树结果: 测试数据为32组 正确率为96.875% 朴素贝叶斯结果: 测试数据为32组 正确率为93.75% 6.总结在进行kNN训练时,k值的变化并没有引起正确率的变化。检查测试数据分类的结果,发现所有进行测试的数据全部分类到’ |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |