ChatGPT和大型语言模型(LLM)是什么关系? 您所在的位置:网站首页 cosername什么意思 ChatGPT和大型语言模型(LLM)是什么关系?

ChatGPT和大型语言模型(LLM)是什么关系?

2023-03-25 16:39| 来源: 网络整理| 查看: 265

chatGPT背后的技术本质上是大型语言模型(LLM)的应用。chatGPT发布的时候用的是GPT3,目前已经迭代到GPT-4.5。本文将简单总结chatGPT的大模型技术的发展历程。

大型语言模型(LLM)的定义

大型语言模型(LLM) 是由大量的参数(十亿或更多)的神经网络组成的语言模型,使用无/半监督学习对大量样本进行训练。

目前,大型语言模型(LLM)已经改变了许多领域,包括自然语言处理、计算机视觉等。作为一个通用的语言模型,其用途广泛,而非针对一项特定任务(例如情感分析、命名实体识别或数学推理)进行训练。

语言模型的发展阶段

大型语言模型的发展,大概分成了三个阶段,第一个是序列模型用于NLP任务阶段,第二,以transformer为基础形成的GPT,BERT等大语言模型。第三,以GPT-3为基础的chatGPT的发布,目前GPT-4.5已经在bing和chatGPT中逐步使用。

在2018年之前,transformer架构还未推出,语言模型通常以LSTM,RNN等为基础架构进行设计,这个时期的模型规模还称不上是大模型,但是这些序列结构的神经网络推动了NLP技术的发展,形成诸如文本生成,词性分析等越来越多的NLP中间任务。

transformer架构的推出,彻底解放了NLP的技术束缚,越来越多的NLP开始使用transformer架构,刷榜的节奏此消彼长,大规模的语言模型的效果开始展露头角,这个时期代表的LLM是GPT和后来的BERT技术,在这些LLM的背后都是由复杂的transformer架构做组成。此后的几年,无论是GPT还是BERT技术都在特定的NLP任务上获得了广泛的应用,例如语言翻译,文本生成,诗歌生成等等

2022年,openAI在GPT-3技术的基础上发布了chatGPT的应用,震惊了整个业界,大家忽然发现,原来人工智能离我们这么近。作为一名AI从业者,不得不感叹,这一天的到来很突然。

典型的大型语言模型列表

LLM 的训练计算成本很高。2020 年的一项研究估计,训练一个 15 亿参数模型的成本为 160 万美元。不是大公司很难覆盖这部分可能是沉没成本的成本。

最早的 LLM 是在拥有数十亿个单词的语料库上进行训练的。GPT的初始版本于 2018 年在BookCorpus上进行了训练,包含 7000本未发布的书籍构成。

同年,BERT在 BookCorpus 和英文维基百科的组合上进行了训练,总计 33 亿词。从那以后的几年里,LLM 的训练语料库呈数量级增长,达到了数千亿或数万亿个标记。

模型名发布时间开发者模型参数样本大小开源许可备注GPT-12018/6openAI1.17 亿~10亿 tokensMITBERT2018/10Google3.4 亿34 亿词汇Apache 2.0GPT-22019openAI15亿100 亿 tokensMITFairseq2020Meta130亿GPT-32020OpenAI1750 亿4990 亿 tokensAPI接口Megatron-Turing NLG2021/10Microsoft and Nvidia5300亿3386 亿 tokensGLaM2021/12Google1.2 万亿1.6 万亿tokensLaMDA2022/1Google1370亿1.56T 存储大小 词汇Chinchilla2022/3DeepMind700 亿1.3 万亿 tokensAlexaTM2022/11Amazon200亿1.3 万亿 tokensAPI接口LLaMA2023/2Meta650 亿1.4 万亿 tokensGPT-42023/3OpenAIpublic web AP文心大模型2023/3Baidu

*参照:Resnet50参数量:0.255亿参数,红楼梦语料约有74万tokens

总结:

虽然百度最近刚发布了文心一言大模型,但国内在该领域领域的研究与OpenAI的chatGPT比较,还有约两年的距离,Google等国外科技巨头虽然当下无法取得chatGPT类似的成绩,但是短期来看,技术差距不大。加油!!!

引用:

https://en.wikipedia.org/wiki/Large_language_model

Emergent Abilities of Large Language Models:https://arxiv.org/pdf/2206.07682.pdf

If You’re Not First, You’re Last: How AI Becomes Mission Critical

A Short Survey of Viewing Large Language Models in Legal Aspect:https://arxiv.org/pdf/2303.09136.pdf



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有