LDA主题模型的困惑度随主题数的增加而增大，并没有随主题数的增加产生抛物线或者减小，这是什么原因？

2023-04-07 20:55| 来源: 网络整理| 查看: 265

1.ldamodel.log_perplexity()

①不看文档，简直血坑！！！！！！！！！！！命令不返回困惑度perplexity，如果想要计算困惑度应该用：

perplexity = np.exp2(-(ldamodel.log_perplexity()) perplexity = 2**-(ldamodel.log_perplexity())#或者这个

②使用上述代码，如果正常的话，则会得到随着主题数k增加而减小的perplexity曲线。但是我却得到了随主题数增加，一直递增的困惑度曲线图(在有限的k值范围内)，甚至当我把k值设置到80，100，150时困惑度仍然没有减小，大概如下图。（下面两个不是我的实验图，但情况一模一样）

心情大概是下雨天摸电线杆，我人麻了呀。为此，我搜索到了以下问题

https://www.zhihu.com/question/32286630/answer/181200595 https://groups.google.com/g/gensim/c/TpuYRxhyIOc https://groups.google.com/g/gensim/c/iK692kdShi4

有人也在自己的数据集上，得到了和我一样的结果，然而在斯坦福NLPToolkit数据集上却正常。有回答说，是因为ldamodel.log_perplexity()需要传入和训练时不同的测试集corpus，然而提问者尝试后发现并没什么用（我也一样）。

令人疑惑，因此换选CoherenceModel().get_coherence()，主题一致性指标。

【本文地址】

公司简介

联系我们