特征提取、转换和选择 您所在的位置:网站首页 特征选择与特征组合的区别 特征提取、转换和选择

特征提取、转换和选择

2024-07-13 05:26| 来源: 网络整理| 查看: 265

一、特征提取 1.1、TF-IDF 1.2、Word2Vec 1.3、 计数向量器 二、特征转换

  在机器学习中,数据处理是一件比较繁琐的事情,需要对原有特征做多种处理,如类型转换、标准化特征、新增衍生特征等等,需要耗费大量的时间和精力编写处理程序, Spark ML包中提供了很多现成转换器,例如:StringIndexer、IndexToString、OneHotEncoder、VectorIndexer,它们提供了十分方便的特征转换功能,这些转换器类都位于org.apache.spark.ml.feature包下。

2.1、分词器 2.2、 移除停用词 2.3、 n-gram 2.4、 二值化 2.5、 主成分分析 2.6、 多项式展开 2.7、 离散余弦变换 2.8、 字符串-索引变换 2.9、 索引-字符串变换 2.10 独热编码(OneHotEncoder (Deprecated since 2.3.0)) 2.11 向量-索引变换(VectorIndexer) 2.12 交互式 2.13、 归一化、规范化、正则化 正则化规范化(StandardScaler)最大值-最小值缩放最大值-绝对值缩放 2.14、 离散化重组 2.15、 元素乘积 2.16、 SQL转换器 2.17、 向量汇编(VectorAssembler) 2.18、 分位数离散化 三、特征选择

  特征选择(Feature Selection)是从特征向量中选择那些更有效的特征,组成新的、更简单有效的特征向量的过程。它在数据分析中常用使用,尤其在高维数据分析中,可以剔除冗余或影响不大的特征,提升模型的性能。

3.1、 向量机 3.2、 R公式 3.3、 卡方特征选择


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有