【数据科学】7种数据类型：思考机器学习数据类型的更好方法

您所在的位置：网站首页 › 结构化方法有哪些类型的 › 【数据科学】7种数据类型：思考机器学习数据类型的更好方法

【数据科学】7种数据类型：思考机器学习数据类型的更好方法

2024-07-13 04:58| 来源: 网络整理| 查看: 265

目前的状态

史蒂文斯的测量类型学

7种机器学习的主要数据类型

1.无用的

2.形同虚设

3.序数

4.二进制

5.计数

6.时间

7.间隔

这些是正确的七个类别吗？

我如何记住这7种数据类型？

更新2018年12月7日：

我将如何记住这7个 - 制作11 - 数据类型？

我应该传播有关7种数据类型的信息吗？

在本文中，我为机器学习从业者提出了一种更有用的数据分类分类：7种数据类型。

有关机器学习的编码，插补和特征工程的在线课程，教程和文章通常将数据视为分类或数字。二进制和时间序列数据有时会被调出，偶尔会有一个术语序数潜入对话中。但是，需要一个更加精细的框架来提供更丰富的通用词典，用于思考和交流机器学习中的数据。

我在本文中提出的框架应该引导从业者，尤其是新的从业者，更快地开发出更好的模型。有7种数据类型可供参考，我们都应该能够更快地评估和讨论可用的编码选项和插补策略。

目前的状态

在机器学习领域，数据几乎总是分为两组：数字和分类。

数字数据用于表示由数字（浮点或整数）表示的任何内容。分类数据通常表示其他所有内容，特别是通常会调出离散的标记组。这两个主要分组 - 数字和分类 - 使用不一致，并没有提供关于如何操纵数据的方向。

通常需要将数据放入数字形式以供机器学习算法使用数据进行预测。在机器学习指南中，分类字符串数据通常是一个热编码（也就是虚编码）。Dan Becker在Kaggle的机器学习教程系列中将其称为“分类数据的标准方法” 。

通常在教程中，假设所有以数字形式到达的数据都可以按原样使用，并且所有字符串数据都需要一个热编码。虽然许多教程确实深入研究了数据类型（例如专门处理时间，二进制或文本数据），但这些更深入的潜水通常不是以系统的方式完成的。事实上，我没有找到基于像本文提出的分类法转换数据的明确指南。如果您了解此类数据科学资源，请在评论中分享:)

在研究生院接受社会科学方法和统计学培训后，我开始学习机器学习，我发现很少有关于序数数据的讨论。例如，我不断发现自己试图找出以字符串形式编码和估算序数量表数据的最佳方法，以及数字形式的名义（真正分类）数据。如果没有清晰一致的数据类型类别，则需要花费更多时间。

7种数据类型的灵感来自史蒂文的测量量表类型以及我自己对机器学习模型需要特别考虑的数据类型的观察。在介绍7种数据类型之前，让我们首先看一下使用中的测量尺度以及它们的来源。

史蒂文斯的测量类型学

在20世纪60年代，哈佛心理学家斯坦利史密斯史蒂文斯为数据创建了四个测量尺度：比率，间隔，序数和名义。

比率（值与有意义的零值之间的等间距 - 均值有意义）间隔（值之间的空格相等，但没有有意义的零值 - 意思是有意义的）序数（第一，第二，第三个值，但第一个和第二个之间的空间不等，第二个和第三个 - 中位数有意义）标称（不同类别之间没有数字关系 - 平均值和中位数没有意义）

史蒂文的类型学变得非常受欢迎，尤其是在社会科学领域。从那时起，其他研究人员进一步扩大了规模（Mosteller和Tukey）的数量，包括多达十个类别（克里斯曼）。尽管如此，史蒂文的类型学已经在社会科学中占据了统治地位，偶尔在数据科学中被引用（例如这里），尽管在许多情况下没有提供明确的指导。

其他机器学习和数据科学从业者以各种方式采用了史蒂文的部分类型，从而产生了各种命名法。例如，Hastie，Tibshirani和Friedman在The Statistical of Statistical Learning 2nd Ed。在一个例子中，将比率和间隔组合成定量，并将序数和分类分开（第504页）。其他地方Hastie等。人。将序数称为有序分类变量，将分类变量称为定性，离散或因子（第10页）。傻瓜数据统计打破了类型数据转换数值，序数，和分类 -结块比与间隔下的数值。DataCamp是指本教程中的连续，序数和标称数据类型。

统计中偶尔出现的分类是离散变量和连续变量之间的分类。离散数据具有不同的值，而连续数据在一个范围内具有无限数量的潜在值。

但通常在机器学习中，数字和分类是你会看到的分歧（例如这里）。流行的Pandas图书馆将可选的Category dtype中的序数和名义数据整合在一起。总的来说，当前机器学习数据类型的词汇是不一致和令人困惑的。目前尚不清楚的是学习缓慢。可以做些什么来改善事情？

7种机器学习的主要数据类型

尽管在机器学习中改进数据类型的词汇似乎是一个大胆的目标，但我希望本文将提供一个有用的群组分类，以便为数据科学家提供更多可操作的步骤。通过提供明确的类别，我希望能够帮助我的同事，特别是新手，更快地构建模型并发现改进模型性能的新选项。

我建议对机器学习从业者最有用的7种数据类型的以下分类：

无用形同虚设二进制序数词计数时间间隔

1.无用的

无用数据是唯一的离散数据，与结果变量没有潜在关系。无用的功能具有高基数。一个例子是随机生成的银行帐号。

这对于机器学习来说毫无用处，但有点酷

如果某个要素包含没有顺序且无意义的唯一值，则该要素无用，在拟合模型时无需包含该要素。

2.形同虚设

标称数据由离散值组成，不同类别之间没有数字关系 - 平均值和中位数无意义。动物物种就是一个例子。例如，猪不高于鸟，低于鱼。

名义数据：动物群

国籍是名义数据的另一个例子。有没有数字顺序的组成员资格 - 法语，墨西哥语或日语本身并不意味着有序关系。

您可以对名称功能进行热编码或散列。不要对它们进行序数编码，因为这些组之间的关系不能简化为单调函数。值的赋值将是随机的。

3.序数

序数数据是可以排序或排序的离散整数。一个明确的特征是任何两个数字之间的距离是未知的。

例如，第一和第二之间的距离可以与第二和第三之间的距离不同。想想10k比赛。获胜者可能跑30:00分钟，第二名可能跑30:01分钟，第三名可能跑400：00分钟。没有时间数据，我们不知道等级之间的相对距离。

从广义上讲，序数数据可以用三种方式之一编码。可以假设它足够接近间隔数据，在值之间具有相对相等的大小，以便对其进行处理。社会科学家一直用Likert量表做出这个假设。例如，从1到7的比例，1是极不可能的，4不可能也不可能，7极有可能，你有多大可能推荐这部电影给朋友？这里可以合理地假设3和4之间的差异以及6和7之间的差异是相似的。

第二种选择是将有序数据视为名义数据，其中每个类别与任何其他类别无关。在这种情况下可以使用单热编码或类似方案。

将在未来的文章中更详细地探讨的第三个选项类似于反向Helmert编码，可用于编码值之间的各种潜在幅度。

将序数数据分类是有价值的，因为它是自己的数据类型。

4、二进制

二进制数据是离散数据，只能是两个类别中的一个 - 是或否，1或0，关闭或打开等。二进制可以被认为是序数，标称，计数或间隔数据的特殊情况。

二进制数据是机器学习分类问题中非常常见的结果变量。例如，我们可能想要创建一个监督学习模型来预测肿瘤是恶性的还是良性的。

二进制数据很常见，在考虑您的数据时也属于自己的类别。

5.计数

计数数据是离散的整数数据 - 这里没有负数。计数数据通常具有许多小值，例如零和一。

计数数据通常遵循泊松分布。

从随机数绘制的泊松分布

计数数据通常与间隔数据类似地处理，但它足够独特且足够广泛，值得拥有自己的类别。

6.时间

时间数据是循环的，重复的连续数据形式。相关时间功能可以是任何时段 - 每日，每周，每月，每年等。

时间序列数据通常需要进行一些争论和操作来创建具有可能对您的模型有意义的时段的要素。Pandas python库的设计考虑了时间数据。财务和营销数据通常具有在模型中捕获非常重要的时间组件

缺少时间数据通常使用适合季节性或每日数据的独特方法填充（例如SARIMAX）。时间序列数据绝对值得在其独立的心理桶中思考。

7.间隔

区间数据在数字之间具有相等的间隔，并不代表时间模式。例子包括百分比，温度和收入。

区间数据是最精确的测量尺度数据，非常常见。尽管每个值都是离散数，例如3.1英里，但对于机器学习目的而言，它是否是连续的标度（例如，可能无限小的测量尺寸）并不重要，也不管是否存在绝对零值。

区间数据通常很容易使用，但您可能需要创建分档来减少范围的数量。

虽然许多经验丰富的机器学习从业者确实会在实践中对这些标签所描述的某些类型的数据进行不同的思考，但缺乏对该领域的明确分类。我认为使用上面的分类法可以帮助人们更快地评估编码，输入和分析数据的选项。

请注意，这七个类别中的大多数都可以以大多数形式显示在原始数据中。我们不是在谈论float64 vs bool：Python类型或（Numpy或Pandas dtype）与这里讨论的数据类型不同。

这些是正确的七个类别吗？

类型被发明有争议:)

在构建7种数据类型时，我问自己，从区间数据中分离计数数据是否真的有用。最后，我认为这是因为文本数据是计数数据的常见形式，因为计数数据确实有一些常见的不同统计方法。

类似地，二进制数据可以被视为所有较高规模类型的子类型。尽管如此，二进制数据在机器学习中非常普遍，二进制结果变量具有一些潜在的机器学习算法，而其他多分类任务则没有。您也不需要采取额外的步骤来编码二进制数据。

如果您提倡不同的分类，请在评论中这样做。

我如何记住这7种数据类型？无用形同虚设二进制序数词计数时间间隔

更新2018年12月7日：

在花了更多时间深入学习并考虑读者评论之后，我会添加四种更具体的数据类型，以使机器学习的总有用数据类型达到11。

8.图像

9.视频

10.音频

11.文字

这四种数据类型具有独特的特性和为其构建的库特性。我认为机器学习的数据类型的综合分类需要包含它们。

如果您提倡不同的分类，请在评论中这样做。

我将如何记住这7个 - 制作11 - 数据类型？无用形同虚设二进制序数词计数时间间隔图片视频音频文本

从9个行星助记符中获取提示，让我们制作一个助记符来帮助记住7种数据类型。

丑陋的吵闹的倭黑猩猩和老猫取冰？

要么

幸福吵闹的男孩经常无法接受指导

要么

在New Beds Old Cows下

你可以做得更好:)提出你自己的助记符并在评论中分享。

我应该传播有关7种数据类型的信息吗？

当然。

在本文中，我提出了将数据类型分类为七个类别之一的案例，以便为数据科学中的数据思考和沟通创建更加一致的词典。这些类别在考虑编码选项和插补策略方面具有实际应用，我将在以后的文章中探讨。

当我们都使用相同的术语来表示同样的事情时，我们节省了学习和转移知识的时间。听起来不是很棒吗？如果您同意请分享和鼓掌。谢谢阅读。

原文：https://towardsdatascience.com/7-data-types-a-better-way-to-think-about-data-types-for-machine-learning-939fae99a689

【本文地址】

公司简介

联系我们