阿里「通义千问」大模型的能力如何？内测体验如何？

您所在的位置：网站首页 › 阿里智能3610 › 阿里「通义千问」大模型的能力如何？内测体验如何？

阿里「通义千问」大模型的能力如何？内测体验如何？

#阿里「通义千问」大模型的能力如何？内测体验如何？| 来源: 网络整理| 查看: 265

阿里云也发布了自己的大模型，名为通义千问，发布得还是比较低调的，没有开盛大的发布会，就发了一篇文章官宣而已，但我所在的几个群还是有挺多讨论的，大家最好奇的是通义千问的能力是什么一个水平，能否和ChatGPT媲美？好不容易拿到内测码的我赶紧连夜测试，顺便还拉上了国内的文心一言一起对比，好让大家感受。

通义千问进来之后，一个输入框让你输入任何文字。我试了下，看起来并不是多模态的模型。也就是说，目前模型的输入和输出都是文字。

不过也没所谓，现在ChatGPT也还没完全使用多模态GPT-4。那我们对比下这几个模型的文生文能力吧。

从最简单的问答题考起。

第一题：常识题

问题是：暨大在哪

ChatGPT的回答：

但答案是错的。暨大在浙江没有校区。这个地址看起来是浙大附近。

而文心一言的回答靠谱多了（虽然漏了珠海和深圳校区）

通义千问的回答如何？

看起来是正确的，虽然不够详细。

总体来说，在关于国内的一些知识问答题，ChatGPT的回答还是经常有错误的。

这一题回答的满意度：文心一言>通义千问>ChatGPT

第二题：数学题

问题是：动物园里有鸵鸟和长颈鹿共70只，其中鸵鸟的脚比长颈鹿多80只，那么鸵鸟有多少只，长颈鹿有多少只？

ChatGPT的回答如下

可以说是完美的回答了。

文心一言的回答如下：

虽然回答对了，但是这个计算过程着实跳了很多步。写到答卷上得扣分。

而通义千问的回答就让人捏一把汗了，不仅解答过程不清晰，连答案都错了

当然，对于大语言模型来说，同样的问题再问一次答案有可能不一样。于是我点了「重新生成」。下面为第二次生成的结果，答案总算正确了，但这个计算过程是错的。

在数学题理解方面，通义千问确实还是欠缺了点。希望后续版本能改进。

这一题回答的满意度：ChatGPT>文心一言>通义千问

第三题：角色扮演类

先来个问题：现在你是天猫电商部的一位数据分析师。你需要给我列一份数据分析报告的提纲，300字内，来分析上次电商大促的效果不如预期的可能原因。

ChatGPT给出的结果

文心一言给出的结果

通义千问给出的结果

从我个人角度而言，我认为ChatGPT给出的提纲内容更详实，其次是通义千问，有对比，有总结，条理性比文心一言的好一点点。

我们换个角色。这次我们让大模型扮演HR。

问题是：现在你是公司的HR，公司财政遇到困难不得不裁员，如果让你去通知被裁的员工，你应该如何安抚他们？

让我们看看AI面对这种难题，会如何应付。

首先是ChatGPT：

其次是文心一言：

然后是通义千问：

三个模型都表现出了一定的人文关怀。总体来说，ChatGPT和通义千问回答会更好一点。

这一轮回答满意度：ChatGPT≈通义千问>文心一言

总的来说，ChatGPT在角色扮演类的成绩最好，通义千问和文心一言旗鼓相当吧。

第四题：文章生成类

首先先问问AI：2023年，AIGC（人工智能生成内容）的创业机会都有哪些？

ChatGPT的回答如下：

文心一言回答如下

通义千问回答如下：

看起来都不错，这局难分胜负。

来点有难度的吧。我们让AI来帮我写一首七言藏头诗，每句的第一个字组成：桔了个仔

ChatGPT的结果如下，还是挺有意境的，而且最后一个字基本押韵。真没想到ChatGPT在写中文诗方面效果这么好。

文心一言的回答感觉有点生硬，也没有押韵。

通义千问的写的诗和ChatGPT的风格一样，有种惆怅的风格，且第一三句和第二四句的最后一个字基本押韵。

这一轮回答满意度：通义千问≈ChatGPT>文心一言

让我们试另一个问题。万一我们摸鱼太多，工作未完成，周报怎么糊弄过去？（当然，这是不好的）

问题是：我是一个程序员，我这周什么工作都没做，帮我写个工作报告看起来我做了很多事情。

ChatGPT的回答，可谓是老实人了。

而文心一言的回答，感觉像是老油条。

而通义千问的回答，恰到好处。

说实话，老板不傻，无论用多好的AI生成的报告，老板看一眼就知道你有没干活了。由于过度摸鱼是不值得提倡的，这里就不给他们打分了，这个问题仅仅是为了展示其文本生成效果，并非鼓励大家只摸鱼不干活。

第五题：代码类

首先写个斐波那契数列，看看这种基本的题目，三者表现得如何。

写个斐波那契数列的函数，python实现。

ChatGPT给出的回答，挺好的。

文心一言的答案，也不错，虽然没ChatGPT的简洁。

通义千问给出的回答，有两个方法，不过认真一看，好像两个方法都一样，有点画蛇添足。

总体来说，没啥问题。

下面我们让AI写代码计算平方根，python实现。同时在这里，我们也测试其上下文衔接能力。

ChatGPT的答案：

下面是文心一言的回答，并没有回答我的问题。

通义千问的答案。

虽然看起来是对的，但我想考察它们的真正实力，于是我又追问：

如果你不允许使用math内置的函数，怎么实现

ChatGPT的回答如下，回答得很棒，还有测试用例。

而通义千问就有点狡猾了，用其他库。

于是我继续追问：

到这里就把通义千问问倒了，嘿嘿。

总结下这两道题回答的满意度：ChatGPT>通义千问>文心一言。

总结

虽然我在每个题目后面都做个了回答满意度排序，但仅仅代表对回答的满意度，而不能也不敢代表模型的真实水平，所以这个回答就不评价哪个模型比哪个模型好了，免得有拉踩谁的意思，读者可以自己去测试下。而且对于大语言模型来说，同样的问题可能会给出不一样的答案，所以读者在复现本回答里面的问题时，未必能得出同样的结论。因此这里就不去评价谁比谁更厉害了。

写到这里，我来总结一下通义千问的优缺点吧。

首先是优势：在常识回答方面，我其实还测试了其他问题，总体来说，准确率很高，就我有限时间内的测试而言，没发现什么错误。生成文章/古诗方面的能力也是不错的，可以用于辅助日常的文本工作。

但恕我直言，不足之处也是很明显的。首先通义千问并非多模态模型，希望后续能推出多模态版本；其次，数学计算方面的能力还欠缺，估计是对题目的理解还差些，希望后续版本能提高；写代码能力，有，但不算好用，也许是数据使用权限限制导致其训练不充分导致的。

但总的来说，通义千问表现出来的可用性还是可圈可点。而且阿里AI技术方面还是有一定储备的，也是我国AI行业发展的重要力量，所以我非常期待阿里能继续提升通义千问的能力，推出可用性更强的大语言模型。

既然提到了训练不充分的问题，我想起DeepMind去年发布的一篇论文《Training Compute-Optimal Large Language Models》。这个论文最重要的一个论点是：

现在所有大语言模型都是训练不充分（undertrained）的。

用人话说，就是：现在各种大语言模型参数已经够多了，多到现有的数据根本不能喂饱它。

即使是GPT-3（这篇论文发布时还没推出ChatGPT呢），也存在训练不充分的情况。

国产大模型起步确实晚了，而且中文数据集比起英文数据集确实要少很多，因此训练不充分的情况更明显，当然，解决方案也是有的，就是翻译语料，不过翻译语料的工作量很庞大，估计得经历一段时间的数据积累。所以现在无论是文心一言，还是通义千问，都还在内测阶段，有些回答表现不如意是正常的。所以，如果大语言模型训练再充分些，也许会给我们一些不一样的惊喜。谁知道呢？

而随着越来越多公司参与这场竞赛，大模型的能力极限就会越早被push出来。虽然OpenAI领先业界其他公司，但大模型的比赛还没结束呢，大家都有很多的提升空间。期待业界把大模型的能力推向极限，看看能给我们带来多少惊喜。

最后，用让我想起算法领域那个金句，来作为本回答的结束语：

All models are wrong, but some are useful

【本文地址】

公司简介

联系我们