讯飞星火V3.5发布会刘庆峰演讲实录来了! 1月30日, 科大讯飞 正式发布 讯飞 星火认知大模型V3.5。以下为 科大讯飞 董事长刘庆峰演讲实录:尊敬的各位合作伙... 

您所在的位置:网站首页 星火创业项目视频在哪看到的 讯飞星火V3.5发布会刘庆峰演讲实录来了! 1月30日, 科大讯飞 正式发布 讯飞 星火认知大模型V3.5。以下为 科大讯飞 董事长刘庆峰演讲实录:尊敬的各位合作伙... 

讯飞星火V3.5发布会刘庆峰演讲实录来了! 1月30日, 科大讯飞 正式发布 讯飞 星火认知大模型V3.5。以下为 科大讯飞 董事长刘庆峰演讲实录:尊敬的各位合作伙... 

2024-07-17 13:38:04| 来源: 网络整理| 查看: 265

来源:雪球App,作者: 科大讯飞,(https://xueqiu.com/9233645524/277292966)

1月30日,科大讯飞正式发布讯飞星火认知大模型V3.5。

以下为科大讯飞董事长刘庆峰演讲实录:

尊敬的各位合作伙伴、媒体朋友们、现场嘉宾和线上朋友们,大家下午好,欢迎大家莅临讯飞星火V3.5升级发布会现场。

今天下午,我们将发布讯飞星火认知大模型的最新进展和典型应用,从大模型的底层能力到应用场景一一展现,同时,我们也将发布讯飞语音大模型和首个13B开源大模型。

自ChatGPT推出以来,认知大模型毫无疑问成为世界关注焦点。在过去的一年中,随着大模型技术的不断进步、应用的不断发展和生态系统的持续构建,大家越来越深刻地看到,今天的通用人工智能必将像PC和互联网的诞生一样,深刻改变人类生产生活方式。

过去一年,中国呈现出“百模大战”现状,各方都在积极进行大模型的基础研究和应用研发。经过一年的努力,究竟我们跟国际、跟美国最顶尖的技术水平相比,追平了多少、还有多少差距?已经在哪些具体领域实实在在地产生效益?今天,我们将从科大讯飞的探索中给出答案。

2022年10月7日,美国宣布了对中国人工智能训练的算力和带宽限制,从那个时候开始,中国训练大模型只能用“阉割版”的芯片。2023年10月17日,美国商务部进一步颁发了相关规定,中国连“阉割版”都买不了,对周边可能跟中国合作的国家和地区做了严格限制。而就在本月,美国商务部又进一步提出,美国公司将不能给中国人工智能企业提供算力。无论是训练还是推理,我们的算力限制越来越紧,而科大讯飞在训练讯飞星火认知大模型的第一天,就决心要做立足国产化自主可控的算力平台。

所以,去年上半年我们就跟华为成立了联合特战队。5月6日讯飞星火发布,华为特战队来到合肥进行联合研发。去年10月24日,共同打造支撑万亿参数大模型训练的国产算力平台——“飞星一号”。这个过程中,我们进行了数百次基于硬件工具和算子库的优化,进行了大量bug修订以及算子效率优化,使得“飞星一号”算力集群可以训练超大规模的通用人工智能模型。

今天我们正式发布的讯飞星火V3.5,既是科大讯飞在通用人工智能领域的核心技术和创新能力的一次展示,也是对国产算力平台能否支撑起未来大模型研发的一次非常重要的检验。

讯飞星火V3.5七大能力升级

语言理解、数学能力、语音交互能力

超GPT-4 Turbo

我很高兴地告诉大家,从10月24日发布到现在即将迎来100天,讯飞星火V3.5各项能力全面提升,不仅达到了当时的预期,而且在很多方面都带来惊喜。

根据与长三角人工智能产业链联盟、中国科学院人工智能产学研创新联盟等科研机构以及企业共同形成的通用认知智能大模型测评体系的481个维度,我们采用科学测评方法和随机动态数据对比检测,可以看到,讯飞星火V3.5的各项能力越来越逼近现在全球最好的GPT-4 Turbo水平,并且,我们已在语言理解、数学能力上超过了GPT-4 Turbo。

代码是硬碰硬的能力,也是面对工业以及连接虚拟世界和物理世界的工具,在代码上我们已经达到了GPT-4 Turbo的96%。在科研最常用的Python语言上,我们技术测试效果已经实现超过。不仅是在HumanEval的测试集上,而且也在我们真实的测试集上,证明了我们不仅在文化领域,也在硬碰硬的自然科学、工科应用中,做出了非常好的成果。另外在多模态的理解上,我们达到了GPT-4V的91%,其中语音的多模态能力已经超过GPT-4了。

以技术进步 解决真实世界刚需

如何更客观看待大模型今天的进展?大模型2018年就推出来了GPT算法,过去一年多以来,上千亿浮点参数大模型在更好的数据、更强的人机协同训练情况下,大模型的发展已经不仅是看单个原子能力,更要能以技术进步解决真实世界的刚需,要具备解决真实世界实际问题的能力。一个问题的解决,可能伴随着多项原子能力的系统性创新。从这方面来看,我们的技术到底怎么样,今天现场以及线上的朋友们将一起看到大模型如何改变世界,讯飞星火V3.5如何全新赋能万物互联时代的人机交互。

所有对话交流过程都是大模型自动用超拟人对话生成的,这是科大讯飞创业以来一直希望做到的人机完全自然对话,它可以赋能整个万物互联时代。

万物互联作为IT产业发展的第六次浪潮,已经开始进入到每个人的生活和生产之中(特别是5G时代后),但还没有达到原来预期的爆发式的产业发展情况。核心问题是,屏幕很小,离我们几米之外的情况下,交互能力如何再上一个大台阶?后台要呈现的服务内容,如何在没有屏幕的情况下更充分地展现?

这需要人机交互有“能理解会思考”的能力,这一次讯飞星火V3.5将把整个万物互联时代的人机交互推上一个全新的高度。当年,从DOS界面到Windows界面成就了微软的传奇,从键盘到触摸有了苹果的神话,这一次,全语音自然交互一定会推动整个产业出现一次新的繁荣。

刚刚我们看到的是表面的语音对话,实际上后台有多个核心关键技术——

最重要的有语义理解,必须理解完才能精准回答;指令跟随,更清楚地知道它想要做什么;多轮对话,在中间对话的过程中,大模型不仅使用自己的能力,还会自动调用外部能力,比如刚才说的“坐国产大飞机去哈尔滨”,大模型就会调用最新的知识来判断有没有相应的航班;然后是情绪感知、拟人合成,这些能力拉起了源头技术突破之后的系统性创新。

讯飞星火的语义理解目前以中文为主,在语义理解、拟人合成方面,讯飞星火V3.5已经超过了GPT-4 Turbo最新的水平,指令跟随、多轮对话、情绪感知方面还在快速跟进过程中。特别是多轮对话不到70分,有一个非常重要的原因是“飞星一号”刚刚开始运行90多天,训练时间短,而且运行过程中还有很多工具调用。但我们非常有信心,今年上半年还会有非常大的提升。

年底时,通常会有大量总结、新年展望、知识分享和学习活动,同时也会有许多机构和单位推出新产品和新服务。不论是客服、一线营运人员还是柜台人员,都需要在短时间内掌握大量新知识。但问题是,他们是否真正学到了?学到了多少?如何进行有效的检验?无论是对组织的考核,还是对个人学习自我驱动的验证,都需要采用全新的知识学习和内容创作方法,以提高工作效率。

刚刚输入的这篇文章,自动理解之后才能自动提出问题,它不光能够理解篇章的问题,还能够自动搜索扩充内容,从而更好地回答问题。输入的内容可以是一篇文章、一本书、一堆资料,它都可以学习,还可以是对于新产品、新服务、新促销方案以及面向客服的最新要求等。只要上传相关素材,它马上就可以学习、考核、验证。在知识学习和内容创作等领域,能够产生更丰富、更有用的智能体,我们可以为智能体提供底层能力。

年底绕不开的是做PPT。怎么让自己不成为“表哥”“表姐”,不在PPT这样的基础工作上耗时间,成为大家急切的需求。讯飞星火V3.5,给大家带来了全新的工具——讯飞智文。

大家刚才看到讯飞智文有三个关键功能:

一是真实应用场景做得越来越深入,刚才所有的演示操作,包括最终生成虚拟人来直接讲解PPT,都可以一键生成。在真实场景中,我们认为要让用户参与进来,进行人机共创,这既是人工智能时代的技术追求方向,也是未来将来的基本理念追求。

二是在通用能力的基础上,更有个性化,各种数据可以按需调整添加。

三是在整个生成过程中,已经不仅是根据主题一键生成PPT。讯飞智文中的文档功能还能满足企业和单位对外宣传书面材料的需求,当然也可以进一步把这些书面材料转化为PPT,更加图文并茂,加上虚拟形象来帮助讲解,能极大地提升内容学习和传播的效率。

讯飞智文目前已经在讯飞星火APP上线,直接点击星火助手中的“讯飞智文”就可以体验,也可以登陆“讯飞智文”官网使用。随着星火的能力不断提升,它的应用性、水平将不断地进步。

现在,讯飞星火APP已经成为讯飞内部最受欢迎的工具之一,我们用它来赋能知识学习和内容创作。

两个演示包含了一系列关键的大模型技术。这些原子能力包含要素抽取——没有关键的要素抽取,就不可能进行概念理解、主动提问。在回答的过程中,还有知识推理和图文生成等原子能力。这一系列能力为我们今天面对全新的知识学习和内容创作带来机遇。

我们也把这些原子能力分解出来,跟GPT-4最好的水平——GPT-4 Turbo来比较。在要素抽取和问题生成方面,讯飞星火V3.5已经实现超越,在概念理解、知识推理和图文生成方面还有差距,但也在迎头赶上,像概念理解这些非常关键的能力已经差距非常小。

此外,今天我们面临着越来越多的期望,大模型不仅是用来写诗作画的,更重要的是赋能科研、工业、民生等刚需场景,真正提升数字化时代、智能化时代的全新生产力。

在这个过程中它需要一系列的能力,在大模型的文本写作、逻辑推理、知识问答、数学代码等能力的基础上,进一步往数智化生产力方向提升。这其中,我觉得比较重要的,除逻辑推理之外,还需要把时空推理单独出来,不光是理解语言,对时间、空间也要具备概念。

数学能力是一项极为基础的技能,因为在处理时空和逻辑方面,数学是不可或缺的工具。对于大模型来说,它需要生成代码以支持各种工具,通过编程更好地连接虚拟世界和现实世界,来实现我们的逻辑推理和时空推理对它提的各种要求,包括分解出来的各种任务子集。此外,多模态能力也是在陪伴机器人、工业、家庭等各种场景中必不可少的能力。

我们可以看到讯飞星火V3.5对真实物理世界的理解,对于逻辑、方位时空的理解能力已经比原来提升了。我想,以后用星火赋能的机器人应该就不会迷路了,我们叫它去哪里,也不用非得给它一张图,直接用指令跟它说,它可以自己做计算。

我们进一步提升了讯飞星火V3.5的多模态能力,特别是多模态识别能力。当面对一张复杂的图片时,关注如何更深度地理解其相关位置关系、理解图片中的相关细节,并且如何对图像进行必要的处理。讯飞星火V3.5在各个维度的能力都有提升,对标国际最先进水平。数学能力已经超过了GPT-4 Turbo,代码能力在Python上超过了GPT-4 Turbo,多模态能力相当于GPT-4V的91%水平。

我也想特别对这个表中的分数给大家做个说明,大家看到有的比较高的分数大概在70-80分,低的分数中50-60分都还没到,事实上,因为今天的大模型还在不断的学习过程中,我们的测试非常严格,是基于真实的随机数据场景进行的,而不是针对一个预先练习过的训练集进行的。

其次,时空推理和逻辑推理方面,讯飞星火V3.5相比V3.0已经有了显著提升,尽管与GPT-4 Turbo相比还存在一些差距,但差距并不是很大。如果将其限定在特定领域,并提供专业领域的知识进行学习和训练,当它了解相对明确的应用场景后,其评分可能从40-50分提高到90多分,甚至在部分应用场景中可以保证万无一失。

所以,今天大模型具备基本底座能力,就像刚才说的,原来小朋友不认识路,现在开始,把他放在家门口能跑回家了。但把他放在一个更远的地方,他又不知道怎么问路了。大模型的能力是一步步提升的,虽然讯飞星火今天已经处于业界领先地位,但还有非常多的工作要做。

讯飞星火在作为教师助手和学生答疑助手方面已经表现得非常出色。然而,当面对一些抽象的几何数学问题时,它可能会有一些困难。尽管大模型在2018年就首次出现,但我认为2023年才是通用人工智能的真正元年,这一年大模型取得了非常迅速的进步。

随着基础能力的提升,大模型向现实世界、真实场景的刚需赋能进一步大幅提升。历来,一个新技术从概念导入,到全民关注的梦幻期,再到真正地进入刚需应用,一般都会经历泡沫破灭期。大家都觉得这个技术特别好,所有人都关注、所有资本都进入、所有创业者都围绕它找机会,最后发现没有想象中那么好。接下来,在真正坚守、看清楚的人的慢慢坚持中,大家发现其实它真的就是那么好,只不过需要时间打磨,这是新技术都必须经历的过程,这就是Gartner曲线。无论是语音合成、语音识别、机器翻译等人工智能技术,还是业界的任何一个新技术,都经历了这个过程。

通用大模型从2022年的11月30日ChatGPT推出来之后,在去年5、6月份曾经出现过一次下滑,大家觉得很兴奋,后来发现也有很多毛病。等到八九月份,迅速跨过了泡沫破灭或者说大潮低谷期,大模型重新开始“量质齐飞”,因为它满足了很多领域的刚需。为什么这么快?其中一个原因是数据训练速度的提升,模型尺寸的增加,以及将原有的创新方法与大模型相结合,带来了许多惊喜。

今天,讯飞星火V3.5一系列能力发布,证明我们达到了“量质齐飞”的关键门槛点。2024年,星火的应用一定会在越来越多的场景和领域中大放异彩。

关注讯飞星火发布历程的朋友和合作伙伴都知道,2023年5月6日、6月9日、8月15日、10月24日的四次发布会上,讯飞都发布了跟教育相关的产品和功能。通用人工智能作为一个改变人类未来生产生活方式的伟大历史进程和重大技术突破,首先要做到让每一个年轻人、每一个孩子都能站在人工智能的肩膀之上,这是我们无论做产业、做应用研究,还是从社会伦理和长期发展出发都应该做的事——让大模型赋能教育,赋能每一个孩子。

大模型要赋能真实世界必须实现软硬件一体化,必须解决现实生活中的各种应用刚需。就智慧黑板来说,无论是老师、校长、教育主管部门,还是我们的代理商,都对这个产品兴奋不已。通过大模型的多模态理解与推荐,复杂公式可以在课堂上实现快速识别,包括数学、物理、化学等科目,并且可以快速识别推荐更直观的内容。

全自然交互让老师可以从黑板前走到学生中间,摆脱黑板的方寸之地,进一步通过虚拟人辅学,为基层带来稀缺的语言教师和科普教师等,代码等内容也可以通过智慧黑板呈现出来。

此外,智慧黑板实现了智能录课,使教学过程自动记录,无需专门的录课设备和教室。这意味着整个课堂过程可以被全程记录下来,并通过语义理解自动呈现。教师可以将课程分解成主要结构和模块,使学生能够根据需要快速检索内容片段。这解决了一些常见的问题,例如学生回家后发现作业错误或某个知识点未掌握,老师可以用这个功能精准推荐知识点所对应的课堂片段给到孩子。

随着一个学期的学习,学生在复习和知识掌握方面受益匪浅。教师的知识点和学生的学习知识图谱,以及个性化教育的后台数据都得以贯穿。这也实现了教育资源的共享实现我们一直希望的 “一师一优课,一课一名师”,即每门课都有一个优秀的老师,可以在本地区或全国范围内分享。智慧黑板真正将黑板从板书工具转化为教师的人工智能助手,这些技术有可能赋能给每一个学校、每一个孩子。

大模型带来全新机会

星火语音大模型正式发布

创业之初,科大讯飞的梦想和使命就是要实现人机信息沟通无障碍,从1999年到现在25年了,讯飞的目标梦想始终未变。

在2013年,讯飞又进一步提出要让机器像人一样“能理解会思考,用人工智能建设美好世界”,所以我们承建了中国唯一的认知智能全国重点实验室,让机器具备学习推理和决策的能力,这正是认知大模型的主要工作。

讯飞在多次被极限施压的情况下,依然保持了语音核心源头技术创新,并走在了世界前列。去年在IEEE声学信号处理技术委员会主办的DCASE工业声纹的挑战赛上,继续蝉联冠军。在IWSLT国际最权威的机器口语翻译大赛上,也继续蝉联冠军。CHiME的高噪音复杂多通道多人说话的应用场景是最接近万物互联难度的国际比赛,由卡内基梅隆大学和约翰霍普金斯等大学联合组织,我们仍然蝉联全球第一。

去年,中国汽车工业创造了历史新高,产销量首次突破3000万辆,去年全年汽车整车出口491万辆,车载语音越来越被关注,越来越受重视。我们在今年1月份刚刚结束的国际车载多通道语音识别挑战赛,继续拿下全球第一。

在这个背景下,当我们在一些工业、高噪、复杂场景下获得技术进步时,整个世界、尤其是美国科学界对语音大模型的研究也开始变得非常热。去年OpenAI推出的 Whisper,颠覆了整个美国的语音研究界,超过了谷歌、微软原有的技术逻辑,这个就是大模型赋能语音的研究。

大模型对语音研究的赋能主要表现在什么地方?因为模型尺寸足够大,海量数据训练后,它可以实现更精细的模型描述、更精准的语义理解以及更统一的多任务建模,带来的直接表现就是语音合成的韵律表现力和拟人度更高了。

就像大家刚才看到的讯飞星火V3.5的对话,带来整个万物互联人机对话的全新革命。它会更像人、更生动,因为配合后台的理解能力和情感感知能力,一些语气词能够用得更准,语音识别可以进一步突破高噪、远场、多人说话这些传统的“鸡尾酒会语音识别”重大难题。

那么,多语种技术面临的最大挑战是什么?很多小语种的语料非常有限,但可以通过训练来提升它们的性能。通过在中文、英文和其他语种的语料上进行训练,对小语种一样有很大帮助。这证明了更统一的多任务建模能力的重要性,从而使大模型能够推动语音技术迈上一个全新的台阶。

在大模型时代,我们会不会被颠覆?也有人在关注我们到底能不能保持龙头地位。事实上,语音大模型就是自然语言的大模型,通过统一建模,可以输出文本,也可以输出语音。输入语音、输出文本就是语音识别,输出语音对应的语音就是翻译或者语音增强,输出文本对应语音就是合成,反正要统一训练,这就是Whisper,这就是OpenAI训练语音大模型的主要框架逻辑,但这个框架逻辑全世界都在用。

全世界都在用大模型,谁做得好?这就跟踢足球一样,谁都知道怎么踢,但是踢得像梅西一样的没几个。这个本身有技术含量,但更进一步,讯飞在语音领域的多年积累,最重要的就是语音属性解耦表征预训练。简单来说,一段语音包含了非常丰富的各种属性,有语种、有内容、有韵律、有音色、还有情绪等,我们可以通过专门的对比学习、掩码预测、自监督损失函数等方法来进行计算,最终把所有属性进行解耦,然后分别建模,大幅提升语音识别的抗噪、语音合成、小语种等能力,把这些能力结合构建了讯飞语音大模型的核心能力。

今天推出的语音大模型核心能力,不仅是把国际通用的常规语音大模型框架用好、用足、用到位,同时把讯飞多年的、独一无二的、拿了中国专利金奖的核心能力整合进去。在此基础上,“飞星一号”搭建成功,基于“飞星一号”的国产算力平台的计算资源在短短几个月迅速推出了讯飞星火语音大模型。

在首批的37个主流语种中,有13个是重点语种,24个是主要语种。根据国际语音使用覆盖面最广,以及跟国家战略最需要的前37个语种,我们推出来的星火语音大模型,已经超过了Whisper的语音大模型能力。Whisper24个主要语种的识别率为82%,而星火语音大模型达到了90%。这其中,89%左右是实用门槛,与手写识别能力开始规模化使用、语音识别能力在输入法的应用是85%到89%之间一样,在重点语种中,大家的语音识别能力达到90%,但星火语音大模型达到94%。

万物互联时代的语音交互,语音合成仅做到像人一样自然对话还不够,语音识别是打底的基础,特别是在高噪音环境下,一般拿着手机说话,没有干扰,听到的语音都不错,而放到汽车、家庭客厅或旅游等嘈杂场景中,识别能力就变得至关重要了。

第二个是多语种合成。讯飞在2019年后没有再参加国际语音合成大赛,但在之前的十四届,我们都是全球第一,我们的语音合成技术一直是走在世界前列。这一次的星火语音大模型,迅速把40个语种的平均MOS分提升了绝对值0.2%,如果MOS分5分是最好的播音员的水平,4分是普通人说话水平,这13个重点语种,星火语音大模型已经从4.3达到4.6,4.6原则上相当于各地广播电台的配音员水平了。要想给中央电视台配音,星火语音大模型只需在部分点上做一些优化就可以。此前,我们对《创新中国》的6期节目直接配音,现在我们又进一步提升了,超拟人合成已经在讯飞星火V3.5上实现应用。

我们也与ChatGPT在中文的环境下做了一个对比,ChatGPT并没有把语音合成开放出来,大家只能在对话情况下去用。可以看到在代表自然度的MOS分上,我们无论男女声都是超越(ChatGPT)的。语音合成的拟人度涉及到指令跟随、多轮对话和相关语气词的放入,在拟人度上,男声达到84分,而ChatGPT是85分,我们跟它还有一定的差距。这个差距主要是后台的通用能力与ChatGPT的微小差距导致的,而不是语音本身的。但我们在女声上,通过语音合成已经弥补了这个差距,我们比ChatGPT高4个点。

综合来看,大家如果用中英文直接对话,中文的男女声之间对话马上就能看出星火语音大模型的优势。星火语音大模型的效果继续保持了全球领先水平,令我们非常自豪。今天,星火语音大模型面向开发者正式全面开放,相信它会给整个应用带来极大提升。

搭载语音大模型,讯飞翻译机首先实现提升。时近春节,很多人考虑出国旅游,作为刚需,搭载了语音大模型的翻译机支持85个语种,可面对多语种目标客户。

比如,当你见到一个外国人,无法分辨他讲的是日语、泰语、法语、或者英语,如果你在85个语种中慢慢选择,没等你选到第三个语种,人家早就不耐烦了。能够在对话时自动地判断语种,自动调用多语种引擎帮助沟通,实现跨语种随便说,是这次星火语音大模型能力提升给翻译机带来的升级。与此同时,增强式翻译技术可以让用户在中英双语的沟通中,实现除了翻译之外的问答功能,翻译机已不仅实现纯文本到文本的翻译,它可以给你带来更丰富的帮助。

现在翻译机支持85个语种,在发布会当天,有35个语种的自动识别能力已经上线了。今年3月,我们会正式把刚才讲的增强式翻译在翻译机上上线。大家确实可以看到,它能大幅延伸翻译场景,不论是旅游景点、美食,还是到文化艺术展馆,下一步,翻译机的语言能力会大幅提升。

为什么星火不在其他硬件上线这些能力,一定要用翻译机?在要出国、要翻译的各种场景下,翻译机的专门麦克风定制可以极大提高机场、购物、餐厅各种场景下的抗噪能力,它比普通手机的效果要好很多。

另外一个原因,翻译机能满足很多手机无法触达的应用场合。去年有一个朋友给我发信息说:“我人生中买过最有价值的产品就是你们的翻译机。”原来是他出国在出海关时被拦住了,手机不能联网,他英语能力不行,最后使用翻译机沟通,顺利出关。

还有一个故事,朋友说他在国外,一个警察突然在高速上追他,他吓坏了,已经跑到郊区了网络还不行,拿出翻译机来沟通。最后警察说:“你车顶上的雪没铲,雪不铲会有危险。”

这些都是翻译机帮助解决刚需的故事。所以,大家如果在春节期间出国,建议一定要备一个翻译机。“保险式依赖”对我们是非常有用的,更何况还能带来那么多的新增功能。

除了刚才看到的产品,语音大模型还能够赋能汽车的多模态交互。汽车中的智能座舱,以及各种各样的导航、音乐控制,还有客服、家庭陪伴机器人等,大模型的多模态能力再结合语音能力,真的会使我们现在非常火爆的陪伴机器人产业往前迈进很大一步,还有像智能家居、穿戴式设备等产品。

得知星火语音大模型即将发布,近日很多客服领域的伙伴都到讯飞来看,都非常激动。今天也给大家看一个在客服领域用语音大模型的真实案例。

这样的超拟人对话和更深度的理解能力,会极大地提升后台客服的能力。它可以变成导游、导购机器人,可以变成心理咨询师、辅助问诊,以及旅游场景中各种各样的(服务人员)。全新的语音大模型会赋能整个行业,我相信万物互联时代一定会在新技术推动下加速到来,讯飞星火V3.5和语音大模型的联动会极大地推动产业升级。

打造个人应用赋能亿万用户

夯实大模型开发者第一生态

回到今天的主题,大模型的发展还是要让大家看到以应用为牵引,应用才是大模型发展的硬道理。

自去年5月6日讯飞星火V1.0发布以来,我们在各个应用方面取得了一些典型进展:第一个领域就是教育。面对人工智能时代的教育,一定要实现人人可学、处处可学、时时可学,科大讯飞AI学习机的目标正是要让每个孩子真正站在人工智能的肩膀之上。

孩子们需要一个终端。电脑或普通的pad、手机都没法兼顾做到保障信息安全、防游戏沉迷、阻拦网上不良信息以及护眼等功能,只有用学习机等专用终端才能保证内容的绿色安全。

技术要不断地进步,性能越来越强,同时要能真正地护眼。当连续看视频的时间长时会提醒;姿势不对时,也会提醒。运用AI技术,能够真正地让每个孩子站在人工智能肩膀上;用学习机这样一个随时可触达的终端,能培养孩子在通用人工智能时代的学习能力和创造力。

学习机的主要目标是在当前的学习逻辑和框架下,提高学习效率,激发学习兴趣,提升自信心。此外,它还能帮助节省时间,做好“五育并举”,培养学生综合素质,包括数学精准学、中英文作文批改、英语答疑辅学、创意绘画、口语陪练以及编程等。我们的学习机连续几年都是用户净推荐值(NPS)最高的,持续保持行业第一。很多用户会为自己的孩子购买,为老大买了一定会给老二买。去年“双11”,在大模型赋能下,我们的学习机销售量获得京东、天猫销量冠军,销售额增长了100%以上。

第二是智能办公的硬件,它们可以让工作更高效。大家知道,我们的办公本、录音笔在业界市场份额排名第一、口碑第一,也是连续几年“双11”在京东和天猫的销量冠军。

录音笔和办公本都可以实现全程录音、全程转文字,办公本可以全程留痕、即点即读,解决记不全、找不到、容易丢的问题。现在进一步用大模型赋能后,它可以实现语篇规整、做会议纪要,还可以自动写稿,极大地提高办公效率。从去年5月推出到现在为止,这两个硬件已有超过60万的用户,累计调用了后台650万次能力。

除了学习机、办公本、录音笔、翻译机这些硬件外,我们也为大家打造了更轻量随时可用的个人应用,赋能亿万用户

讯飞听见的在线服务,能将全世界各种语种的录音输入进去,转成文字。现在大模型更好地赋能转写,可以自动摘要、一键成稿。一场会议结束,既可以一键生成新闻通稿,形成广告文案、待办事项、会议纪要,还可以辅助写作。目前,已有6500万用户使用这个服务。

讯飞输入法有着1.4亿活跃用户,通过AI语音输入,表达更方便、更透彻,大模型能力帮助上下文语义理解关联,而不再是原来的首字母关联。它可以智慧表达,对输入内容进行整句联想、智能连接多种服务,赋能亿万用户。

讯飞星火有2000多万用户,很多人每天都在使用它,而且不止使用一次。我们做出来的应用,不要用了以后消耗元气,而是要让大家的工作能力变强、腾出更多时间陪伴家人,做更有创意的事,比如医学、科普、食品、科学、证券行业、物业、设计、法律、教育等领域。

去年8月15日发布的音视频创作工具——讯飞智作,给它几张图片或者告诉它要做什么广告,就可以生成一段视频。图片不够还可以补充重新画,还可以生成文案、播放虚拟人,要中文就中文,要英文就英文,要俄罗斯语就俄罗斯语。当然,也可以录一段没有配音的视频,它根据视频内容配上文字、音乐、声音。讯飞智作发布以来,已新增21万会员用户,创造了160万音视频内容,像南方电网数字传媒科技公司等公司都进行了批量化长期使用,取得非常好的成效,这意味着,有这方面需求的公司都可以得到帮助。

图文创作是去年10月24日我们推出的功能。作为一站式AIGC内容运营平台,星火内容运营大师目前为止已生成167万篇文章,服务企业数超过5000家。它可以进行选题推荐、智能写作、智能配图、一站式运营,还可以提供创意灵感,有需要修改的地方,马上能改。同时,它还可以将内容上线过程中的琐碎事情一键解决掉,已赋能百万内容生产者。

除了硬件产品、应用APP以及企业工具外,大模型一个更大的价值是开放给创业者。

短短半年,星火大模型总开发者数量已达35万,其中有22万是企业开发者,占比最多的是企业服务,其次跟教育有关,然后是客服、医疗等,都是社会的刚需和痛点。星火大模型开发者数量在业内领先,且用户口碑极好。

讯飞星火赋能千行百业

加速大模型应用价值落地

此外,我们也在加速赋能各个行业的头部企业客户,目前已有几万家。比如金融领域的交通银行、招商银行、太平洋保险等,汽车领域的广汽、奇瑞、长安、长城等,能源领域的中国石化、国家能源集团、中国绿发等,以及中国移动、华为等头部公司。

我们跟太平洋保险合作,公司团队到合肥来了两次。太平洋保险不仅要打造大模型在客户服务、办公管理、审计、展业等全方位业务场景的应用,还要建立一个数字劳动力联合实验室,打造数字劳动力在保险领域的应用标杆,从而提高保险行业一线工作人员的工作效率,让每个人的工作更具价值,还专门提出 “星火太平洋计划”来提升员工的能力。

在银行领域,科大讯飞与交通银行强强联手,利用讯飞星火的强大能力,共同开发了一系列智能应用。这些应用广泛覆盖了客服、展业、办公、研发等场景,为什么专门举这个例子?因为交通银行对代码的重视程度超出了我们的预期,正在打造银行领域代码应用的标杆。当前,讯飞星火的代码能力再次大幅提升,已经达到GPT-4 Turbo 96%的水平,内部代码设计效率提升了50%,代码生成效率提升接近40%,代码测试效率提升43%以上,讯飞星火的代码能力已经在非常多领域,被合作伙伴越用越深。

国家能源集团在煤炭、电力、运输、化工等行业都在用讯飞星火大模型给整个集团赋能。国家能源集团有94家子公司,33.1万员工,去年营收8000亿,当它要进行整个央企集团一体化联动时,如果不用大模型,很多管理逻辑和理念就落实不下去。国家能源集团甚至内部的招投标都在用大模型赋能。讯飞星火要打造央企集团一体化联动的大模型应用标杆。

奇瑞是安徽的骄傲,连续十几年是中国汽车自主品牌出口的第一名,去年收入突破了3000亿,销量188万,出口93万辆。汽车出口到讲英语、俄罗斯语、西班牙、阿拉伯语、葡萄牙语等语种的国家,都是讯飞赋能。“背靠背”的测试结果显示,讯飞的多语种能力是全世界前列的。

最近讯飞专门将大模型和语音结合,全力支撑中国汽车的全球化出海战略,现在已经不仅是语音交互,还要用大模型让汽车变得更聪明、更智能、更面向未来、更具有竞争力和吸引力,智能网联汽车一定要靠大模型做底座。中国汽车出口的多语言能力几乎都是科大讯飞提供的。

就像去年科大讯飞全球1024开发者节上,华为的轮值CEO徐直军说“我们不仅用科大讯飞的中文,我们全世界语种都是用的讯飞”。今天不仅是语音大模型进一步更新,星火大模型也会联动起来,会让赋能更透彻、更彻底。

讯飞星火全面助力中国移动“智改数转”,针对“小移管家”100多万的用户,智慧装维2亿多的用户,移动APP的10亿用户,以及5G的7亿多用户要做的5G新通话服务,中国移动跟讯飞星火全面赋能合作。今天我们还将联合发布一个非常有意思的应用,就是5G新通话商务速记。在工作通话过程中,它可以自动提炼通话关键内容、生成通话摘要、生成待办事项。

讯飞内部调研中,这是大家极为期待的功能。通话内容同步纪要,关键事项精准提炼,无需下载APP,所有手机都支持——这是中国移动利用星火给所有用户带来的新福利。

从数字劳动力到代码,从汽车出海到大型的央国企管理,再到全面赋能5G、移动APP等应用,讯飞星火针对大量行业头部用户的使用,总结出系统的方法论,并把大家的共性需求进行了提炼。

全栈自主可控的星火优化套件,可以加速企业大模型的应用价值落地。首先,无论企业用的是什么算力,讯飞星火都可以构建一个异构算力集群直接使用。通过高性能算子库、多卡高速互联、分布式存储以及高效、高算力AI芯片深度联动,讯飞星火V3.5能够形成很好的异构算力集群调度,这是科大讯飞的基本能力。

在调度平台之上加持讯飞星火通用大模型,各个行业就可以快速训练自己的行业模型。模型中的优化套件包括数据自动清洗、数据增广,你的数据不够,我自动帮你从全球找。讯飞星火有世界先进的机器翻译技术,可以自动调参、评测系统。全链条的工具链可以支撑行业大模型高效构建,训练提效90%以上。训练一个千亿左右的通用大模型,一次成本大概需要1,200万到1,500万美金,万亿的通用大模型大概需要6,000万美金,而在通用大模型上训练行业模型,成本可以降低5-10倍以上。

再进一步,各个行业使用讯飞星火通用大模型的5大场景应用优化套件,可以实现行业知识增强、企业私域知识融合、特定场景任务调优和智能体优化。什么叫智能体优化?就是讯飞星火可以让大模型自动分解企业要做的各项任务,同时快速调用最合适的工具。应用优化套件工具,用全链条工具链支持行业模型优化,再加上异构算力调度,讯飞星火能够加速企业大模型应用落地。

深度适配国产算力

星火开源大模型正式发布

在此基础上,绝大部分头部公司应用都跟讯飞深度联手,讯飞将优化套件、私有化部署提供给头部公司。现在越来越多科研院所的合作伙伴以及一部分有研究能力的企业,都跟讯飞提出:“讯飞能不能把星火做开源?”去年5月6日,讯飞星火V1.0是13B的版本,推出来至少有不下5所学校测评,认为我们都比很多号称千亿模型的效果还好,那个时候大家就希望讯飞能把模型开放出来。今天,我们对5月6日的13B版本的模型,进一步增强了数据、能力、针对应用场景的工具链,并且针对国产安全可控做了更系统性的设计,正式推出了星火的开源大模型。

其实讯飞早就有过多年的开源模型经验。当年我们做了很多中文预训练模型,包括预训练模型上的知识蒸馏框架等,在科大、清华、哈工大等很多学校都用得很好,支持它们做出了很多成果,获得了很多称赞。这一次,我们把讯飞星火V1.0针对国产生态做更深入的对接,使它不仅是一个科研模型,也能够在场景落地中做得更深,从而在开源以后能够增进学术合作,推动产业的联合创新。

这个大模型是13B的基础模型,大家都拿它做研究,精调模型做Ascend训练后基本上就能直接用了。

我们发现很多做科研的人,特别关注大模型的人设,大家希望大模型不仅能够回答正确的内容,还要回答有特点的内容,所以我们把人设定制等几个工具也开源出来。

今天讯飞星火13B的开源大模型,首先对应用场景做了更深入的优化,由于底层模型能力实力强硬,跟目前可测的同样尺寸第三方的业界领先大模型相比,星火开源大模型在文本生成、语言理解、文本改写、行业问答、机器翻译以及头脑风暴这些领域,效果都比行业要领先20%,在多项公开榜单中也名列前茅。

如今国产软硬件环境深度优化,人工智能蓬勃发展,中国大模型快速进步,引发了美国越来越多的关注,对我们的算力限制也越来越严。越来越多人希望能够在国产算力平台上做开源和科研,在这方面,讯飞在业界独树一帜。

通过单机算效提升、通信带宽利用率提升、并行训练的算法优化,从讯飞华为联合特战队开始成立,到现在能够做到90%,甚至很多专用能力方面开始超越。

另外,很多高校、企业买了讯飞原有的910A算力,讯飞针对910A也同样进行了非常好的优化,使得开源模型能够更好地站在国产软硬件环境下进行深度持续可控的发展和研究。

今天讯飞开源的13B模型,将在华为的昇思开源社区联合首发上线,欢迎大家积极下载使用,星火开源大模型也会在未来持续升级。

通用人工智能大未来刚刚开启

《星火相传》新书分享

在发布会的最后,特别感谢2023年大家给予讯飞星火认知大模型持续的关心和支持,以及提供了很多建设性意见。

站在2024年年初,我们展望全年发现,今天的中国发展通用人工智能,是势在必行的事。

第一,通用人工智能(的自主可控)既决定了产业链安全,也决定了国家安全。如果中国没有大模型,那么工业、民生、科研以及各个专用领域都会极大地落后于世界。

中国有条件成为全世界智慧涌现的第二极。虽然其他国家基本都在用英伟达、OpenAI或谷歌的算力且进步很快,但中国没法用,只能靠自己。

坦白说,在2022年的10月30日首次看到ChatGPT,很多人表示惊讶和惊艳,但也有很多人表示恐惧。到了2023年,人们才逐渐看清楚。而讯飞当时启动星火认知大模型“1 N”的专项攻关计划,就已经很清楚应该怎么干了。现在行业已经看得越来越清楚,中国在大模型时代绝不能只做应用,如果只会用开源模型做应用,那将来会随时面临“卡脖子”的威胁。

在打造通用大模型底座上,要有国家队站出来。讯飞星火在2024年,一定会在通用大模型底层能力上持续对标国际最先进水平。在小样本快速训练、多模态深度学习和训练、超复杂的深度理解中,我们目前跟GPT-4最好的水平还有差距,但我们有信心,在今年上半年赶上GPT-4目前最好水平。

同时我们也要认识到,ChatGPT也在训练4.5、5.0版本。因此要预判下一个阶段,要求越大,模型规模越大,还有很多领域的创新要同步跟进。所以我们既要有决心,坚定不移地持续对标,同时又要从算法研究上、在更小的算力上能够做出相对更优或者差不多的效果,这些都将成为讯飞2024年非常重要的研究方向。目前讯飞已经给出来一系列研究路线,我们有信心在通用大模型上持续对标,不断看齐靠近。

另外,今天的通用大模型并不一定就代表人工智能的全部未来,还有很多创新要做,比如跟脑科学的互动、跟对抗网络的深度连接,我们要做的工作非常之多,需要一整个创新生态。但是,我们一定要有勇气和信心在底层的大模型上持续对标。

今天,大模型绝不是像茶叶蛋一样不值钱。能够真正对标美国最先进技术的大模型,全中国将来没有几个,讯飞星火一定是其中之一。我们的自我期许和目标一定要走在最前面。

第二,2024年有一个非常重要的目标,就是要开始真正地让大模型“量质齐飞”,进入到各个行业应用,实现超越。

在教育、医疗、司法等很多行业,我们已经走在前列了。不光是行业应用,在很多关键技术创新联动大模型上,中国企业界和科学界也要有信心实现超越。结合科大讯飞在语音技术上的优势,星火语音大模型一推出来,我们就有信心成为全世界前列。但语言大模型并不代表全部,还有很多领域我们也有底气和自信。在行业和部分关键领域,2024年我们就能够实现超越。

另外,一定要实现自主可控平台上的生态繁荣,一定要让高楼大厦、繁荣体系建立在安全可控的平台上。我非常高兴华为跟讯飞的深度联手,寒武纪、曙光等国产生态也都在快速跟进。只要我们自己有信心,就一定能够从算法、数据、应用场景到算力,完全自主可控地构建一个繁荣的通用人工智能生态。

今天通用人工智能的大未来才刚刚开启,一定会深刻改变世界的未来,我们需要顶天立地的长期主义精神。顶天,就是希望源头核心技术在底层的大模型能力上,向国际世界最先进的能力看齐。立地,就是要能够大规模产业化,这也是科大讯飞园区从入驻第一天就立下的标签。讯飞秉持长期主义精神,坚持核心技术国际领先,大规模产业化落地。

虽然过去基本每个月都有版本升级,每两三个月就有一次版本发布,但是我们心中很清楚,还有很长的路要走。我们看到很多能力,如逻辑推理、多轮对话等,即便是国际领先的GPT-4也只有50-60分,因此还有很多工作值得我们去做。

今天讲到通用人工智能大未来的长期主义精神的时候,我特别想跟大家分享一本书,就是《星火相传》。

这本书讲述了很多科大讯飞当年创业的真实故事,但更把我的导师——科大讯飞的技术奠基人王仁华教授,从青年时代的求学到入职中国科学技术大学当老师,培养学生科研能力,扶持我们创新创业,支持我们产业发展的整个历程讲述出来了。为了写这本书,我们采访了56位中国科大的老师、校友,原“863计划”的专家,合作伙伴,还有我们实验室的师兄弟们,原汁原味、不做任何包装地展现那段历史故事。

为什么我要呈现这个历程?因为今天中国通用人工智能的状况,就跟讯飞25年前创业的时候一样,跟中国语音产业发展之初的状况无比相像。当时,中国语音技术全部由国际巨头控制,IBM的ViaVoice风靡一时,微软中国研究院首任院长李开复就是做语音的专家,英特尔在北京专门成立了语音研究院。语音学大师吴宗济先生和我的导师王仁华教授说,中国被人掐住了喉咙,因为语音是文化的基础和民族的象征。

那个时候,国内科研机构跟国外有很大差距,最好的学生全部出国。于是,我们6个在校大学生在王老师的支持和鼓励下创业了。我们说:“中文语音技术要由中国人做到最好,中文语音产业要掌握在我们自己手上。”很多人都不信,觉得我们是草台班子。

我们还是碰到了很多伯乐,比如合肥的重要领导,复星、联想旗下的投资机构等。在此基础上,讯飞一步一个脚印,亏损5年之后盈亏平衡。慢慢地,我们的中文语音做到了全世界最好,然后多语种技术、机器翻译技术、机器阅读理解技术做到了世界最好,再到今天的大模型技术也在国内领先。今天,我们都觉得,我们的语音技术如果不是保持全世界领先水平,都对不起自己,而在25年前,谁都不相信这件事。

正是因为几代人接续的长期主义之路,才有了今天,我们在如此重要的语音领域敢于对全世界说:“我们是领先的”。未来可能还会出现不断的波折、不断的新技术突破,但我们可以迅速赶上,我们有底气说:“我们在世界第一阵营”,而且有信心持续领先。今天通用人工智能面临的状况,比25年前的状态要好很多,我觉得中国一定有信心和底气能够把这件事情做成。

做成这件事情最重要的是什么?无论是高校还是企业,都需要一批像王老师这样的老师,让更多的优秀人才、青年人才有更大的舞台,以一代人的光热照拂一代人的理想,能够不断地“星火相传”。

只有这样,我们才能够把源头创新之路越走越宽。人工智能是伟大的历史进程,相信这本书能够给大家更多的启发。我们也是用这本书来致敬我们敬爱的王仁华教授80岁寿诞。

在做这本书之前,王老师并不知道我们要做这件事。我们说要写这本书,他就一个要求:原汁原味,不做任何修饰。这本书呈现给大家,首先是给我们讯飞人自己看的,也是献给对语音和人工智能技术、高校科研成果转化、中国科技创新之路感兴趣的朋友,希望能让大家有所启发,为身处通用人工智能时代的大家提振信心,找寻前行力量,在全球科技竞争中实现更高水平的自强自立。

在今天这样一个春节前的寒冬季节,我们通过这场发布会来展望,相信只要我们坚持顶天立地的产业发展路线,坚持面向未来,2024年一定可以实现星火燎原,通用人工智能能够在中国的各大领域深度广泛应用,坚持源头技术创新,大模型的底层能力一定会站上全新的台阶。

谢谢大家。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


    图片新闻

    实验室药品柜的特性有哪些
    实验室药品柜是实验室家具的重要组成部分之一,主要
    小学科学实验中有哪些教学
    计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
    实验室各种仪器原理动图讲
    1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
    高中化学常见仪器及实验装
    1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
    微生物操作主要设备和器具
    今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
    浅谈通风柜使用基本常识
     众所周知,通风柜功能中最主要的就是排气功能。在

    专题文章

      CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭