一文看懂分类特征(附5种编码方式+优缺点)

您所在的位置:网站首页 越住越富的5种房子特征是什么 一文看懂分类特征(附5种编码方式+优缺点)

一文看懂分类特征(附5种编码方式+优缺点)

2024-07-12 07:37:53| 来源: 网络整理| 查看: 265

HomeAI 知识库特征工程 分类特征 文章目录

https://easyai.tech/wp-content/uploads/2022/08/39995-2021-03-30-typefeature.png

分类特征是重要的一类特征。分类特征是离散的,非连续的。

本文将针对小型分类和大型分类介绍5种主流的编码方式。以及各自的优缺点。

 

什么是分类(类别)特征?

分类特征是用来表示分类的,他不像数值类特征是连续的,分类特征是离散的。

比如:

性别 城市 颜色 IP地址 用户的账号ID

https://easyai.tech/wp-content/uploads/2022/08/d2797-2021-03-30-lisan.png

有些分类特征也是数值,比如账号ID,IP地址。但是这些数值并不是连续的。

连续的数字是数值类特征,离散的数字是分类特征。

关于连续和离散的解释可以看看这篇文章:《关于连续和离散的理解》

小型分类特征的编码方式

https://easyai.tech/wp-content/uploads/2022/08/5345c-2021-03-30-small-data.png

自然数编码/序列编码-Ordinal Encoding

某些分类本来就有一定的排序,这种情况下就可以使用简单的自然数编码。

例如学位:

学士-0

硕士-1

博士-2

独热编码-One-Hot Encoding

对于城市、颜色、品牌、材质…这些特征就不适合用自然数编码,因为这些特征是没有排序关系的。

使用独热编码可以让不同的分类处在「平等的地位」,不会因为数值的大小而对分类造成影响。

例如颜色分类(假设只有3种颜色):

红色-100

黄色-010

蓝色-001

跟独热编码类似还有「虚拟编码-Dummy Encoding」和「效果编码-Effect Encoding」。

实现方式比较相似,不过有一些略微的差别,并且适用在不同的场景。

感兴趣的可以看看这篇文章:

《虚拟变量和独热编码的区别》

《赋值方法:效应编码》

大型分类特征的编码方式

https://easyai.tech/wp-content/uploads/2022/08/f340a-2021-03-30-big-data.png

目标编码-Target Encoding

目标编码是表示分类列的一种非常有效的方法,并且仅占用一个特征空间,也称为均值编码。该列中的每个值都被该类别的平均目标值替代。这可以更直接地表示分类变量和目标变量之间的关系。

目标编码的扩展阅读:《目标编码简介》

散列编码-Hash encoding

散列函数也是大家常听到的哈希函数。散列函数是一个确定性函数,它映射一个潜在的无界整数到有限整数范围[1,m]。

假如有一个分类有1万个值,如果使用独热编码,编码会非常长。而使用了散列编码,不管分类有多少不同的值,都会转换成长度固定的编码。

分箱计数-Bin-Counting

分箱计数的思维有点复杂:他不是用分类变量的值作为特征,而是使用目标变量取这个值的条件概率。

换句话说,我们不对分类变量的值进行编码,而是要计算分类变量值与要预测的目标变量之间的相关统计量。

不同编码的优缺点总结 独热编码-One-Hot Encoding

优点:

容易实现 分类很精确 可用于在线学习

缺点:

计算效率不高 不能适应可增长的类别 只适用于线性模型 对于大数据集,需要大规模的分布式优化 散列编码-Hash encoding

优点:

容易实现 模型训练成本更低 容易适应新类别 容易处理稀有类 可用于在线学习

缺点:

只适合线性模型或核方法 散列后的特征无法解释 精确度难以保证 分箱计数-Bin-Counting

优点:

训练阶段的计算负担最小 可用于基于树的模型 容易适应新的类别 可使用back-off方法或最小计数图处理稀有类 可解释

缺点:

需要历史数据 需要延迟更新,不完全适合在线学习 很可能导致数据泄露

上面内容摘自:《精通特征工程》

总结

分类特征是离散的特征,数值类特征是连续的。

对于小型分类,常用的编码方式有:

自然数编码/序列编码-Ordinal Encoding 独热编码-One-Hot Encoding 虚拟编码-Dummy Encoding 效果编码-Effect Encoding

对于大型分类,常用的编码方式有:

目标编码-Target Encoding 散列编码-Hash encoding 分箱计数-Bin-Counting

相关文章推荐:

《机器学习之类别特征处理》

《特征工程(四): 类别特征》

2021年3月30日 by 打不死的小强 Updated: 2022年8月16日

特征工程 分箱计数, 分类特征, 序列编码, 散列编码, 独热编码, 目标编码

Thanks for your rating!

You have already rated this article

An error occured, please try again later

Was This Article Helpful?


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭