阿里「通义千问」大模型的能力如何?内测体验如何? 您所在的位置:网站首页 阿里智能3610 阿里「通义千问」大模型的能力如何?内测体验如何?

阿里「通义千问」大模型的能力如何?内测体验如何?

#阿里「通义千问」大模型的能力如何?内测体验如何?| 来源: 网络整理| 查看: 265

阿里云也发布了自己的大模型,名为通义千问,发布得还是比较低调的,没有开盛大的发布会,就发了一篇文章官宣而已,但我所在的几个群还是有挺多讨论的,大家最好奇的是通义千问的能力是什么一个水平,能否和ChatGPT媲美?好不容易拿到内测码的我赶紧连夜测试,顺便还拉上了国内的文心一言一起对比,好让大家感受。

通义千问进来之后,一个输入框让你输入任何文字。我试了下,看起来并不是多模态的模型。也就是说,目前模型的输入和输出都是文字。

不过也没所谓,现在ChatGPT也还没完全使用多模态GPT-4。那我们对比下这几个模型的文生文能力吧。

从最简单的问答题考起。

第一题:常识题

问题是:暨大在哪

ChatGPT的回答:

但答案是错的。暨大在浙江没有校区。这个地址看起来是浙大附近。

而文心一言的回答靠谱多了(虽然漏了珠海和深圳校区)

通义千问的回答如何?

看起来是正确的,虽然不够详细。

总体来说,在关于国内的一些知识问答题,ChatGPT的回答还是经常有错误的。

这一题回答的满意度:文心一言>通义千问>ChatGPT

第二题:数学题

问题是:动物园里有鸵鸟和长颈鹿共70只,其中鸵鸟的脚比长颈鹿多80只,那么鸵鸟有多少只,长颈鹿有多少只?

ChatGPT的回答如下

可以说是完美的回答了。

文心一言的回答如下:

虽然回答对了,但是这个计算过程着实跳了很多步。写到答卷上得扣分。

而通义千问的回答就让人捏一把汗了,不仅解答过程不清晰,连答案都错了

当然,对于大语言模型来说,同样的问题再问一次答案有可能不一样。于是我点了「重新生成」。下面为第二次生成的结果,答案总算正确了,但这个计算过程是错的。

在数学题理解方面,通义千问确实还是欠缺了点。希望后续版本能改进。

这一题回答的满意度:ChatGPT>文心一言>通义千问

第三题:角色扮演类

先来个问题:现在你是天猫电商部的一位数据分析师。你需要给我列一份数据分析报告的提纲,300字内,来分析上次电商大促的效果不如预期的可能原因。

ChatGPT给出的结果

文心一言给出的结果

通义千问给出的结果

从我个人角度而言,我认为ChatGPT给出的提纲内容更详实,其次是通义千问,有对比,有总结,条理性比文心一言的好一点点。

我们换个角色。这次我们让大模型扮演HR。

问题是:现在你是公司的HR,公司财政遇到困难不得不裁员,如果让你去通知被裁的员工,你应该如何安抚他们?

让我们看看AI面对这种难题,会如何应付。

首先是ChatGPT:

其次是文心一言:

然后是通义千问:

三个模型都表现出了一定的人文关怀。总体来说,ChatGPT和通义千问回答会更好一点。

这一轮回答满意度:ChatGPT≈通义千问>文心一言

总的来说,ChatGPT在角色扮演类的成绩最好,通义千问和文心一言旗鼓相当吧。

第四题:文章生成类

首先先问问AI:2023年,AIGC(人工智能生成内容)的创业机会都有哪些?

ChatGPT的回答如下:

文心一言回答如下

通义千问回答如下:

看起来都不错,这局难分胜负。

来点有难度的吧。我们让AI来帮我写一首七言藏头诗,每句的第一个字组成:桔了个仔

ChatGPT的结果如下,还是挺有意境的,而且最后一个字基本押韵。真没想到ChatGPT在写中文诗方面效果这么好。

文心一言的回答感觉有点生硬,也没有押韵。

通义千问的写的诗和ChatGPT的风格一样,有种惆怅的风格,且第一三句和第二四句的最后一个字基本押韵。

这一轮回答满意度:通义千问≈ChatGPT>文心一言

让我们试另一个问题。万一我们摸鱼太多,工作未完成,周报怎么糊弄过去?(当然,这是不好的)

问题是:我是一个程序员,我这周什么工作都没做,帮我写个工作报告看起来我做了很多事情。

ChatGPT的回答,可谓是老实人了。

而文心一言的回答,感觉像是老油条。

而通义千问的回答,恰到好处。

说实话,老板不傻,无论用多好的AI生成的报告,老板看一眼就知道你有没干活了。由于过度摸鱼是不值得提倡的,这里就不给他们打分了,这个问题仅仅是为了展示其文本生成效果,并非鼓励大家只摸鱼不干活。

第五题:代码类

首先写个斐波那契数列,看看这种基本的题目,三者表现得如何。

写个斐波那契数列的函数,python实现。

ChatGPT给出的回答,挺好的。

文心一言的答案,也不错,虽然没ChatGPT的简洁。

通义千问给出的回答,有两个方法,不过认真一看,好像两个方法都一样,有点画蛇添足。

总体来说,没啥问题。

下面我们让AI写代码计算平方根,python实现。同时在这里,我们也测试其上下文衔接能力。

ChatGPT的答案:

下面是文心一言的回答,并没有回答我的问题。

通义千问的答案。

虽然看起来是对的,但我想考察它们的真正实力,于是我又追问:

如果你不允许使用math内置的函数,怎么实现

ChatGPT的回答如下,回答得很棒,还有测试用例。

而通义千问就有点狡猾了,用其他库。

于是我继续追问:

到这里就把通义千问问倒了,嘿嘿。

总结下这两道题回答的满意度:ChatGPT>通义千问>文心一言。

总结

虽然我在每个题目后面都做个了回答满意度排序,但仅仅代表对回答的满意度,而不能也不敢代表模型的真实水平,所以这个回答就不评价哪个模型比哪个模型好了,免得有拉踩谁的意思,读者可以自己去测试下。而且对于大语言模型来说,同样的问题可能会给出不一样的答案,所以读者在复现本回答里面的问题时,未必能得出同样的结论。因此这里就不去评价谁比谁更厉害了。

写到这里,我来总结一下通义千问的优缺点吧。

首先是优势:在常识回答方面,我其实还测试了其他问题,总体来说,准确率很高,就我有限时间内的测试而言,没发现什么错误。生成文章/古诗方面的能力也是不错的,可以用于辅助日常的文本工作。

但恕我直言,不足之处也是很明显的。首先通义千问并非多模态模型,希望后续能推出多模态版本;其次,数学计算方面的能力还欠缺,估计是对题目的理解还差些,希望后续版本能提高;写代码能力,有,但不算好用,也许是数据使用权限限制导致其训练不充分导致的。

但总的来说,通义千问表现出来的可用性还是可圈可点。而且阿里AI技术方面还是有一定储备的,也是我国AI行业发展的重要力量,所以我非常期待阿里能继续提升通义千问的能力,推出可用性更强的大语言模型。

既然提到了训练不充分的问题,我想起DeepMind去年发布的一篇论文《Training Compute-Optimal Large Language Models》。这个论文最重要的一个论点是:

现在所有大语言模型都是训练不充分(undertrained)的。

用人话说,就是:现在各种大语言模型参数已经够多了,多到现有的数据根本不能喂饱它。

即使是GPT-3(这篇论文发布时还没推出ChatGPT呢),也存在训练不充分的情况。

国产大模型起步确实晚了,而且中文数据集比起英文数据集确实要少很多,因此训练不充分的情况更明显,当然,解决方案也是有的,就是翻译语料,不过翻译语料的工作量很庞大,估计得经历一段时间的数据积累。所以现在无论是文心一言,还是通义千问,都还在内测阶段,有些回答表现不如意是正常的。所以,如果大语言模型训练再充分些,也许会给我们一些不一样的惊喜。谁知道呢?

而随着越来越多公司参与这场竞赛,大模型的能力极限就会越早被push出来。虽然OpenAI领先业界其他公司,但大模型的比赛还没结束呢,大家都有很多的提升空间。期待业界把大模型的能力推向极限,看看能给我们带来多少惊喜。

最后,用让我想起算法领域那个金句,来作为本回答的结束语:

All models are wrong, but some are useful



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有