计算机行业专题研究:大模型深度复盘 科技变革加速 您所在的位置:网站首页 计算机网络分层模型 计算机行业专题研究:大模型深度复盘 科技变革加速

计算机行业专题研究:大模型深度复盘 科技变革加速

2023-05-23 01:20| 来源: 网络整理| 查看: 265

  大模型时代已来,AGI 新纪元开启      大语言模型(LLM)是在大量数据集上预训练的巨大模型,在处理各种NLP(自然语言处理)任务方面显示出了较大潜力。2017 年Transformer 编解码器架构问世后,成了今年LLM 发展的蓝图,并由此分化出编码器、编解码器和解码器三条进化路径。其中,编解码器和解码器架构目前仍在不断演进中,且解码器架构在数量上占据绝对优势。全球视角看,LLM 的典型代表是OpenAI 开发的GPT 系列模型,国内的百度、智源等也在大模型上进行了深厚的积累。在大模型的赋能下,各种垂类应用和工程实现纷纷落地,包括BloombergGPT、AutoGPT 等。LLM 或将开启通用人工智能新纪元。      溯源:从经典神经网络到Transformer 架构      深度学习可以概括为特征的抽象和结果的预测。深度学习与神经网络密不可分,主要原因是神经网络模型可以使用误差反向传播算法,较好地解决了深度学习中的贡献度分配问题。从历史发展看,神经网络诞生于1943 年提出的MP 模型,深度学习概念由Hinton 于2006 年正式提出。经过多年的发展,问世了如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等经典的深度学习算法。2017 年,Transformer 架构的出现成为了后来LLM 的基础架构,再次开启了大语言模型快速发展时期。      发展:从GPT-1 到GPT-4,开启大模型新纪元      2018 年,OpenAI 提出生成式预训练模型GPT-1,引入有监督的微调训练。      2019 年,GPT-2 以更大的参数量和多任务训练进行zero-shot 学习;2020年,GPT-3 用few-shot 代替zero-shot,并将训练参数增加到1750 亿,再次提高模型表现性能。2022 年,InstructGPT 引入基于人类反馈的强化学习,实现了更符合人类预期的模型输出。2022 年11 月,OpenAI 正式推出对话交互式模型ChatGPT,5 天时间突破了100 万用户。2023 年3 月,GPT-4问世,支持多模态输入,并能高水准完成专业考试,支持API。      延伸:国内大模型快速成长,海外大模型多维拓展大模型时代到来,模型体系与生态快速扩充,海内外企业坚定发力。受益于大模型的理解能力、推理能力、泛化能力得到充分验证,海内外企业纷纷加速大模型相关的产业布局,全面拥抱大模型时代的技术变革。1)国内:国内大模型发展起步相对较晚,ChatGPT 问世以来国内企业加速大模型研发,2023 年以百度文心、商汤日日新、讯飞星火等为代表的国产大模型相继发布,并持续推进模型迭代升级;2)海外:海外大模型发展呈现垂直落地、工程实现、模态丰富三大发展趋势,模型体系与配套的工程生态日益丰富。      产业链相关公司梳理      以GPT 为代表的大模型产业链可分为算力、模型、应用三个环节。1)算力:      包括寒武纪、景嘉微、海光信息等芯片厂商以及浪潮信息、中科曙光、工业富联等服务器厂商;2)模型:包括百度、三六零、科大讯飞、昆仑万维、商汤科技等科技企业;3)应用:2C 简单包括金山办公、科大讯飞、同花顺、万兴科技、东方财富、汉仪股份、汉王科技、萤石网络等企业;2B 简单包括泛微网络、致远互联、上海钢联、彩讯股份等企业;2C 复杂包括中望软件、索辰科技、广联达等企业;2B 复杂包括恒生电子、石基信息、科大讯飞、汉王科技、金桥信息等企业。      风险提示:宏观经济波动;大模型技术迭代不及预期;本报告内容基于客观资料整理,不构成投资建议。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有