如何评价2020 数学建模美赛 C 题？

2023-03-28 20:22| 来源: 网络整理| 查看: 265

不请自来，上学的时候玩过一年数模竞赛，国家赛和国际赛都拿了二等奖好像（时间过了有些年，不知道这两年数模还是不是原来的玩法。不过当年我就愿意做C题，开放性好，拓展性强，得奖的也是做C题来着~）。

因为没看数据，所以勉强一答。

不建议上来就上深度学习。

深度学习说实话，用的不好感觉很没技术含量。就是调调参数，根本解释不了什么规律性东西。拿一个深度学习的结果交上去，人家是说这个深度模型比较牛，还是你的数据挖掘做的好呢？

首先，既然涉及评论，NLP没跑了，肯定要上个文本的情感分类（这个可以用基于深度神经网络的工具包。不知道数据如何表现，是否需要自己做文本情感分类，还是数据已经提供了情感词，可以对每条评价直接分类。如果是后者，那工作就简单多了。另外，有同学提醒了，情感分类得分一般都是0，-1，1，其实可以直接根据情感词表进行扫描，用词频一定程度上代表得分，这样做起来更简单而且评分也可更加细致。）星级评价是否跟文本情感有关？有什么关系？

但这里有个问题，如果按照情感词词频去打分，那么情感词的强烈度怎么考虑？（love>like？不同词语的强烈程度不同）

如果从NLP这个角度深入思考就有点扯远了，这道题目应该不需要。把情感作为一个基本分值就行。

通过文本情感分类商品评价，这个数据应该可以挖掘一下。比如后续评价和之前评价的关联，和其他因素的关联。

既然是时序数据，初步想法可以考虑试试马尔可夫过程。转移概率矩阵是否可以显示顾客评价对下一时刻的评价的影响？

另外，可以尝试用概率分布函数去拟合一下数据。比如按照正常来想，如果所有顾客不看评论的购买，购买行为应该近似服从泊松分布（评论数据也同理）。这样你也许会看出一些东西。

做数据挖掘，基础的统计分析，数据的直观表现一定要做。

不要忽视基本统计学工具，比如假设检验，极大似然估计这些。因为大多数时候，这些工具可以提供很好的视角，甚至提供一些进一步分析的思路。

识别潜在重要特征：重点考虑结合贝叶斯算法。因为产品特征有一些是共性特征，所以要把先验概率去掉，用贝叶斯的思想处理也许会有很好的结果。

也可以用apriori做一做关联规则挖掘。虽然不起眼，结果可能也不如深度，但是解释性比较强。

最后，数模一定要自己做哈，毕竟三天三晚，找外援有点来不及呢~

补充说明：

看到有小朋友问用什么软件，这个，大家做了这么久数模，应该固定的习惯用软件吧，临时改或者学有点来不及呢。

一般的统计分析，SPSS就够用，画图好看可以考虑Tableau（弄点热气球图，花里胡哨的吸引评委眼光），专业学术论文图一般可以用Prism。很多论文图都是用这个软件出的，比excel的图看着专业（当然，也可能是我excel用的不好）

跑模型，我的习惯是matlab，工具包超多，代码特别易懂，方便又快捷。如果上tensorflow的包，祈祷你们队里有人已经配置好了环境，python也有点基础吧。

PS：请不要再私信具体用哪个包，怎么操作了。。。你干脆把我吸收进你的队里得了~

那些想玩玩数学建模，还不会用matlab\python\r任何一个的同学，我建议你补补课，看看书啥的，明年你还有机会~

【本文地址】

公司简介

联系我们