有哪些文本表示模型？它们各有什么优缺点？

2024-07-12 14:52| 来源: 网络整理| 查看: 265

机器学习各种资料涉及到的知识，在我不理解和认为不对的地方做了补充和修改，若有错误欢迎指教！

文本是一类非常重要的非结构化数据，如何表示文本数据一直是机器学习领域的一个重要研究方向。

词袋模型和N-gram模型

主题模型：主题模型用于从文本库中发现有代表性的主题（得到每个主题上面词的分布特性），并且能够计算出每篇文章的主题分布。

词嵌入（word embedding）与深度学习模型词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间（通常K=50 ~ 300 维）上的一个稠密向量（ DenseVector ) 。尺维空间的每一维也可以看作一个隐含的主题，只不过不像主题模型中的主题那样直观。由于词嵌入将每个词映射成一个维的向量，如果一篇文档有N 个词，就可以用一个 n * k 维的矩阵来表示这篇文档，但是这样的表示过于底层。在实际应用中，如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中，通常很难得到令人满意的结果。因此，还需要在此基础之上加工出更高层的特征。在传统的浅层机器学习模型中，一个好的特征工程往往可以带来算法效果的显著提升。而深度学习模型正好为我们提供了一种自动地进行特征工程的方式，模型中的每个隐层都可以认为对应着不同抽象层次的特征。从这个角度来讲，深度学习模型能够打败浅层模型也就顺理成章了。卷积神经网络和循环神经网络的结构在文本表示中取得了很好的效果，主要是由于它们能够更好地对文本进行建模，抽取出一些高层的语义特征。与全连接的网络结构相比，卷积神经网络和循环神经网络一方面很好地抓住了文本的特性，另一方面又减少了网络中待学习的参数，提高了训练速度，并且降低了过拟合的风险。

Word2Vect是如何工作的？它和LDA有什么区别与联系？

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

Word2Vect的实现还是不简单的，对其和LDA的区别，有个大概的了解，主要研究方向不是这个，就先放一放，先看重点的。

【本文地址】

公司简介

联系我们