2023年谷歌公司研究:全球搜索与移动生态巨头,转型AI+云计算 您所在的位置:网站首页 谷歌投资人有哪些公司的 2023年谷歌公司研究:全球搜索与移动生态巨头,转型AI+云计算

2023年谷歌公司研究:全球搜索与移动生态巨头,转型AI+云计算

2024-07-10 22:06| 来源: 网络整理| 查看: 265

1. 公司分析:全球搜索与移动生态公司巨头,转型 AI+云计算

1.1 公司概况:全面推进 AI+云计算转型

谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,并逐步推进“AI+云计算”建设。谷歌由 拉里·佩奇和谢尔盖·布林于 1996 年联合创立,2004 年于纳斯达克上市,2015 年,谷歌成立母公司 Alphabet, Google 成为母公司旗下最大子公司,Calico、Nest、Fiber 等成为 Google 同级子公司。谷歌(Alphabet)的业务 板块包括 Google 和 Other Bets 两部分,其中 Google 为公司的核心收入来源。Google 以广告业务为核心,辅以 云业务、应用商店、硬件产品等互联网产品与服务,具体包括 Android、Search、YouTube、Apps、Maps 和 Ads。 此外,子公司 Other Bets 业务涉及生物科技(Calico)、智能家居(Nest)、资本投资(GV)、宽带服务(Fiber)和自 动驾驶(Waymo)等领域。

发展历程方面,谷歌成立 20 余年间,由单一的搜索引擎服务公司转型为全球搜索与移动生态公司巨头,其 发展历程大致分为四个阶段。第一阶段为 1996 年-2004 年,谷歌依靠搜索引擎广告收入营收。谷歌搜索最初版 本为 BackRub 搜索引擎,利用读取网络标题并利用 PageRank 算法对搜索结果排序。2000 年,谷歌基于 BackRub, 发布 AdWords,利用广告商针对搜索结果界面定向广告投放机会的价格竞拍营收,为公司提供稳定的收入来源。 第二阶段为 2004 年-2008 年,搜索引擎业务收入来源单一且局限,谷歌开始快速收购初创公司,构建公司主营 业务框架。为寻找搜索引擎业务外新的收入增长点,谷歌于 2004 年上市后大量收购初创公司,其中包括 2005 年收购 Android 拓展移动生态业务,2006 年收购 YouTube 拓展视频广告业务,2007 年收购网络广告服务商 DoubleClick 和发布广告产品 AdSense,拓展在线广告业务。在此阶段,谷歌构建了其主要业务板块搜索和视频广告、硬件、应用商店的基础。第三阶段为 2008 年-2015 年,谷歌一方面在搜索引擎、移动生态领域快速发展, 另一方面,主攻技术的联合创始人拉里·佩奇于 2011 年重新担任 CEO,谷歌开始探索各类创新产品。具体而 言 1)谷歌潜心深入发展移动生态和搜索引擎业务,于 2008 年推出 Chrome 浏览器并开源操作系统 2)谷歌在 CEO 拉里·佩奇带领下开始尝试各种新奇的想法,比如开发自动驾驶技术、谷歌眼镜,成立生物科技公司 Calico 等尝试。第四阶段为 2015 年至今,通过四年探索,谷歌的在线广告业务和其他业务逐步成熟,开始探索 AI 和 云业务的布局。2014 年谷歌收购 DeepMind,2016 年整合谷歌云,谷歌云在公司收入中占比逐年增加,未来公 司将以“AI+云计算”作为公司新的业务增长点。

管理团队方面,公司共经历了拉里·佩奇、埃里克·施密特、拉里·佩奇和桑达尔·皮猜四任 CEO。拉里·佩 奇自 1998 年-2001 年担任公司 CEO,因投资人质疑其年龄和经验限制要求其卸任。2001-2011 年,前 Sun 和 Novell 的首席执行官埃里克·施密特担任公司 CEO,因其具有丰富的管理经验,埃里克·施密特负责公司运营,两位 联合创始人专注于技术。埃里克·施密特任职期间,谷歌实现搜索引擎公司向科技巨头的转型。2011 年-2019 年,拉里·佩奇重新成为谷歌 CEO,谷歌在在线广告业务外,不断探索云业务、生物科技、智能家居、资本投 资、宽带服务和自动驾驶等创新业务。2019 年桑达尔·皮猜任职 Alphabet 和谷歌 CEO,桑达尔·皮猜曾担任谷 歌 Android 操作系统、Chrome 浏览器等核心产品负责人,对谷歌主营业务运营具备经验。

组织架构方面,谷歌组织建构经过三次调整。上市之初,公司组织架构运行“创始人+CEO 三人共同决策& 扁平化”的组织结构,其中两位联合创始人聚焦技术,具有丰富经验的桑达尔·施密特担任 CEO 负责运营。此 时组织架构特点为:公司内部减少层级关系,以项目组形式开展工作,但项目实行申请制且项目职责不明,导 致公司管理混乱且复杂。2011 年,谷歌联合创始人拉里·佩奇(Larry Page)出任谷歌 CEO 后,简化组织框架,将 组织架构调整为“CEO+六位高级副总裁”。此阶段组织架构特点为:YouTube、搜索、广告、社交、Chrome 和移动业务等重要产品部门分别由一位高级副总裁负责,部门可独立提出产品计划,自主权提高。2015 年,因 为谷歌除主营业务外,进一步探索了自动驾驶、生物科技等多领域产品,为解决组织架构庞大和体系臃肿问题, 以及充分划分公司业务和部门职能,谷歌组建母公司 Alphabet,将核心业务归于谷歌,非核心业务拆分谷歌的 同级子公司,归于母公司 Alphabet 下。子母公司 CEO 分别由桑达尔·皮猜和拉里·佩奇担任。2019 年,谷歌 进一步简化组织架构,Alphabet 和 Google 均由桑达尔·皮猜担任 CEO。

1.2 财务分析:收入结构逐步优化,利润率保持稳定

收入结构上,广告收入是公司主要营收来源但占比逐年下滑,谷歌云营收占比逐年提高,而其他收入保持 稳定。谷歌收入结构包括广告业务、谷歌云和其他收入等,FY12- FY22,谷歌广告收入从 95%降至 80%。谷歌 云营收由 6%增至 9%,而其他收入稳定保持约 10%。费用率方面,FY21- FY22 受疫情影响、海外监管政策压制 和招聘放缓,2021 年管理费用下降,但 2022 年呈现回升态势。

2. Google Service:搜索广告处于长周期拐点,Youtube 商业化加速

2.1 Google Search:核心壁垒来自对移动端和浏览器等流量入口的布局

搜索引擎本质是排序算法,最初源自 Larry Page 和 Sergey Brin 在网站上做注释和评论的想法,并引申出创 建一个评级系统。Larry Page 提出利用网络上的链接来确定评论的可信度或兴趣,并将学术论文引用的思路迁移 至网页链接,从而在 1997 年提出 BackRub(Google 产品的前身),旨在逆向追踪链接,捕捉万维网的链接结构。 BackRub 从 Stanford 大学 CS 系主页开始,扩展至 Stanford 校内所有网站,后续扩展至校外,其最终为网页上的 每一个页面提供了排名,这些排名奠定了搜索的基础。 AltaVista 聚焦信息索引,但搜索质量不佳导致份额落后。1995 年,数字设备公司(DEC)西部实验室推 出 AltaVista,其关键设计师是路易斯·莫尼耶(Louis Monier)。搜索过程分为四个步骤:爬取所有网页、索引 信息、根据用户请求筛选出适合回答查询的页面(搜索质量),最后将结果格式化并提供给用户。Monier 主要 关注第二步骤,即爬取数百万个文档并获取数据的耗时过程。通过将该过程并行化,即同时处理多个页面,可 以及时获取所有数据,最终确定一次处理 1000 个页面为最佳数量。AltaVista 的搜索质量技术基于传统的信息检 索算法。虽然 AltaVista 在收集了全部网络内容方面具有前瞻性,但未能充分利用链接结构,导致其在搜索领域 逐渐落后。

Google引入 PageRank算法优化搜索质量,提升市场份额。Larry Page 和Segery Brin于1997年提出PageRank 算法1,通过分析链接并给网页分配一个从1到10的数值,来衡量页面在整个Web中的重要性和突出性。PageRank 不仅考虑链接的数量,还考虑链接的来源和重要性,从而有效地确定页面的权威性。PageRank 与传统的信息检 索技术相结合,如比较关键词与页面文本的匹配度,以及考虑字频、字体大小、大写、位置等因素,这些因素 被称为信号,实现搜索质量的优化。

扭转战局的关键在于 1)Google 成为雅虎搜索供应商。2000 年 6 月 26 日,谷歌与雅虎达成协议,成为雅虎的搜索引擎供应商,雅虎搜索结果页面上显示谷歌提供搜索服务的信息。通过与雅虎的合作,谷歌获得大量 用户和数据。并基于此,谷歌的索引技术得以不断改进,其服务器持有超过十亿个网页的数据。谷歌通过分析 用户的搜索行为,从日志中提取有价值的信息,使其搜索引擎成为一个学习机器,可以更好地满足用户需求。 Google 对索引技术的改进包括:i)创建 checkpointing 系统,使索引在服务器或硬盘宕机时能够保存其位 置。此外,谷歌在新系统中采用“并行处理”替代过去的“分片”,即将计算任务分割成多个计算机或处理器 进行处理(分片是将网络切分并将其分配给单独的计算机)。这两点创新提高谷歌处理索引的稳定性以及数据 处理的效率和灵活性。ii)内存中的索引系统,谷歌引入“内存中的索引”创新方法,尽可能将索引存储在计算 机实际内存中,而不是硬盘驱动器中。内存中的索引系统使得谷歌能够更快地处理更多的查询请求,提高搜索 引擎的响应速度和性能,并降低成本。

2)PageRank 算法2的改进(搜索质量提升)。Google 利用搜索日志改进搜索算法,Amit Patel 自 1999 年 加入谷歌后,持续基于日志优化算法,具体包括 a)用户行为分析:通过分析用户在搜索引擎上的行为,谷歌可 以了解用户的搜索意图、偏好和行为习惯。这些数据有助于优化搜索算法,使搜索结果更加准确和相关;b)满 意度评估:谷歌通过长点击和短点击等指标来评估用户对搜索结果的满意度。c)搜索结果个性化:通过了解用 户的搜索历史和兴趣,谷歌可以为每个用户提供更加定制化的搜索结果,提高搜索命中率;d)大规模学习:谷 歌在抓取和归档数十亿份文档和网页时,分析了哪些词语彼此相近,从而优化搜索体验。 另外,早期 PR 算法基于链接引用量和关键链接进行排序,而没有考虑网页本身内容质量以及网页内部链 接的相关性。这相比于 AltaVista 等仅仅以搜索关键词和网页关键词做匹配的效果有所改进,但仍然可能导致部 分网站堆砌关键词或链接以获取流量。2002-2003 年期间,Google 将关键词分析3、链接分析4引入 PageRank 算 法,进一步优化搜索质量。

后续 Google 在搜索引擎市场份额保持领先,并且不断优化 PR 算法实现成本和效果领先。2008 年 Google 将 CTR 引入 PR 算法,隐含假设是点击率较高的网页质量较高。此外,Google 引入用户停留时长等信号优化搜 索结果。2011-12 年 Google 推出 Penguin 和 Panda 算法,其中 Penguin 算法主要是针对垃圾网站做负向激励(降 权等),Panda 算法主要是对低质量、重复内容降权,从而间接为优质内容的网页加权。

一个重要变化是 2008 年 9 月 Google Chrome 的发布,当时市场流行的浏览器主要是 Internet Explorer(60% 市场份额)和 Firefox(20%市场份额)。IE 浏览器的成功主要依靠 1)与 Windows 系统的捆绑,大多数用户都 没有修改默认设置;2)与 Windows 系统兼容性更好,而其他外部浏览器与 Windows 系统和相关服务的兼容性 相对较差;3)由于历史原因,多数企业以 IE 浏览器为默认标准;4)微软以 Office/Windows 业务的优势向 OEM 厂商施压,迫使其采用 IE 为默认浏览器。

Google Chrome依靠更快的访问速度取得一定市场份额。Google希望推出Chrome能够与Google Docs/Gmail 等产品更好地协同,而不受 IE 等浏览器的限制。Google Chrome 的优势在于没有历史包袱, Chrome 推出前两 年主要的工作就是优化浏览器的速度5,优化用户体验,从而实现用户增长,截止 2010 年底,Google Chrome 的 市场份额达 9.88%,位居 IE(52.68%)和 Firefox(30.69%)之后。 反垄断诉讼和解撬动微软给予用户选择权,驱动 Google Chrome 获取份额。2009 年 12 月,欧盟委员会 (Europen Commission)接受微软对于给予用户浏览器选择权的承诺,该承诺下微软将允许欧洲用户选择在 Windows 系统下非 IE 浏览器进行网页浏览6,承诺生效期限为 2010 年 3 月至 2014 年 12 月。在美国及加拿大, 司法机关并未强制要求展示浏览器选择页面,而是以其他措施替代。自 2012 年 Windows 8 上线后,用户在初始 安装阶段就可以选择设置默认浏览器,选项包含 IE/Edge、Chrome、Firefox 等。

除此以外,Google 采取付费的方式获取/维持市场份额,例如 Google 会向 Apple Inc./Firefox/Samsung 等支 付高额的费用以成为其默认搜索引擎。这在一定程度上也限制了 Google Search 广告的毛利率进一步提升。 Google Chrome 拥抱开源社区,推动用户加速增长。2009 年 12 月,Google Chrome 推出 Extension 功能(插 件),2010 年 12 月,Chrome 的插件库(Extension Gallery)插件数量/主题数量分别超过 8500/1500 个,且超过 33%的用户使用Chrome 的插件和主题功能7。2010年Google发布 Chrome Web Store,2011年发布New Tab Page, 允许多任务页并行处理。Google Chrome 插件整体上提升了用户粘性。 关键转变来自于 Chrome 登陆移动端。2012 年 2 月 Google 发布适配安卓系统的 Chrome 浏览器,同年 6 月 Google 发布适配 iOS 系统的 Chrome 浏览器,并同时宣布插件开发者可以通过 Adsense 获取广告收入分成,这 一举措开启了 Google Chrome 生态的商业化,促进生态日趋繁荣。相较之下,IE 和 Firefox 在移动端的布局相对 落后,Google Chrome 在移动端的份额持续提升,至今稳定在 60%以上的水平。

Google 曾推动 Chrome Apps 更深层次地介入用户工作流,但由于强工具属性和商业化基础并不完备,最 终失败。2013 年 5 月,Google Chrome 插件后续延伸至轻量级的 Chrome Apps,相比于插件,Chrome App 介入 的程度更深,用户可以离线使用,相比于应用,Chrome App 更轻量级。总体来看,Chrome Apps 是一种介于应用和插件之间的产品(后续微信小程序的定位也大致类似)。但这类应用主要偏重工具属性,因此需要依附于 开放平台导流,且需要构建支付/广告商业化基础,否则商业化生态容易偏倚,而 Google Chrome 本身工属性较 强,类似的开放平台往往都是依托于社交等刚需基础上(详见微信小程序报告),这也不利于 Chrome Apps 的 发展。因而 2016 年 7 月 Chrome Apps 停止运营。

2.2 Google Mobile Service:生态壁垒深厚,监管压力驱动超额利润均值回归

Chrome 的份额增长很重要的驱动因素来自 Android 系统的成功,尤其考虑到移动端份额的提升。Google 对安卓的收购促使 Google 进入移动平台市场。安卓团队于 2003 年成立,最早聚焦于数码相机的操作系统,后 于 2005 年转向移动手机的操作系统开发。安卓相比于当时流行的 Symbian 等系统的差异化在于 1)开源,制造 商可以免费获取,而闭源系统授权费用门槛高,且不同设备之间的兼容性较差。2)虽然有其他开源方面,例如 德州仪器给予 Linux 的开源平台,但驱动程序等很多细节都需要制造商完成,方案的成熟度并不高。因此,安 卓的核心卖点是开源免费,且对制造商而言易用性强,无需复杂的自定义开发。 Google 收购 Android 后推动成立 OHA,抵御 Apple/Nokia 等封闭生态和系统。2007 年 11 月,Google 和 其他手机制造商、应用开发、网络运营等 34 家企业共同成立开放手机联盟(The Open Handset Alliance),从而 应对 Apple (iOS),Microsoft (Windows Phone),Nokia (Symbian),BlackBerry (BlackBerry OS)等为代表的闭源系 统和生态。而 OHA 的措施就是将 Android 系统开源且免费开放给行业,此后 HTC 等厂商陆续发布基于安卓系 统的手机,且包含了 Gmail、Google Search、Google Map 等服务,间接推动 Google 在移动端的渗透。

Android 系统份额的增长除了开放性和低门槛外,还包括 1)Google 与 Verizon,AT&T,T-Mobile 等运营 商达成合作协议,确保运营商帮助搭载 Android 系统的手机推向市场。其中,Google 2009 年 10 月与 Verizon 达成合作协议8;2010 年 1 月 AT&T 宣布将销售搭载 Android 系统的手机9;T-mobile 则于 2008 年 9 月发布搭载 搭载 Android 系统的手机。2)手机发布搭载 Android 系统的手机,包括 Samsung,,HTC,Motorola,Sony,这 些厂商大多是OHA的成员。3)GMS与Android的结合实现差异化体验,例如Google Maps,Gmail,Google Chrome, Youtube,Google Play(Android Market)等。 GMS(Google Mobile Services)对 Google 而言是软性壁垒。GMS 包含了 App 和 API 服务、认证:1)App 包含 Gmail、Google Maps、Youtube、Google Search、Google Chrome,这部分 App 预装在新手机上。未通过 Google 认证的 Android 手机无法安装和运行 GMS 相关的 Apps,也没有 Google Play Store,一些产品和服务可以通过网 址间接使用(如 Youtube 网页版),但 App 被 Google 禁止。2)更重要的是 GMS 的 API 允许开发者将 Google 的产品/服务植入 App 内,例如通过 Google 账号登录,利用 Google Maps 获取用户位置信息,通过 Google AdMob 将广告接入 App 内并实现变现。未通过认证的 Android 手机也无法通过 API 将上述 Google 组件引入 App 内。

Google Mobile Service 的发展大体分为四个阶段:1)孵化阶段(2009 年以前),GMS 早期表现为预装部 分核心 Google 服务,如 Gmail、Maps、Youtube;2)构筑开发者生态阶段(2009-2013 年),引入 AdMob、Google+、 Google Play Store 等服务,帮助开发者分发应用,搭建商业化基础设施等;3)聚焦 Play Service 完善(2014-2016 年),Google 将 Play Service 打包成 Google Play Store 并以 App 形式展现,以便于快速更新;4)服务管线扩张 和产品定位调整(2017 年至今),Google 于 2017 年将 Google Play Service 从 App 重新打散成底层模组与系统, 并引入安全服务,如 Crashlytics,Cloud Messaging。此外,Google 引入 Analytics 服务,丰富开发者运营工具。 2020 年 Google 将 Google Play Servcie 更名为 Google Mobile Service,定位调整为移动服务平台。 GMS 并非没有竞争对手,但由于先发优势,网络效应等竞争对手相继失败。GMS 的竞争对手包括 Nokia (Nokia X Platform 2014 年 2 月发布),Amazon(Fire OS 2011 年 11 月发布),Samsung(Samsung Galaxy Store 2009 年 9 月发布),Samsung(Tizen OS 2012 年 4 月发布)等,但其中较早发布的 Samsung 由于预装软件缺乏 与 Google Search 等的竞争力,市场份额没有明显突破,其他竞争者发布时 GMS 已占据主要份额,网络效应明 显。也就是说,早期 GMS 本身生态尚不成熟时凭借 Google 预装软件 Youtube、Gmail、Google Maps 等优势取 得增长,而随着引入 Play Store 以及 Admob 后开发者生态逐步成熟,网络效应构筑的壁垒更加深厚。

市场竞争的胜利为 GMS 赢得超额利润。GMS 的商业模式包括 1)授权费用,例如预装 Google App 和 API 需要支付一定的授权费用;2)通过 Google Play Store 的 APP 内购收入需要向 Google 支付 15%的分成(2021 年 6 月前为 30%10);3)GMS 会在 APP 中内置广告(非开发者设置的广告),这部分广告收入归属 Google;4) 其他,包括 GMS 收到回传的用户数据用于广告标签(非直接收入,但间接提升商业化效率),带动云服务等其 他 Google 业务收入等。根据 Google 2021 年向法院提交的文件,Google Play 2019 年产生 112 亿美元的收入,其 中毛利率 85 亿美元,经营利润 70 亿美元,对应 OPM 62.5%11。 但法律监管周期性地压制超额利润趋势。2021 年起,包括韩国、英国等在内的多国司法机构裁定 Google Play 和 Apple iOS App Store 必须开放第三方支付方式。并且 Epic 等公司起诉 Google Play Store 的分成并不合理且妨 害竞争12。这意味着对 GMS 长期维持超额利润率的期望可能是不现实的,GMS 的商业模式可能被监管重塑, 从而回归合理水平,正如 Google 在 MSFT 遭遇反垄断诉讼时快速扩张,来自监管的压力是周期性的,而当前正处于新一轮周期的起点。

2.3 Youtube:内容深度向上打开变现空间,时长向下巩固生态壁垒

Youtube 诞生与社交媒体兴起及数码相机普及的时点。Youtube 成立于 2005 年 2 月 14 日,主要聚焦视频 上传与分享。时代背景是 1)北美数码相机出货量逐步起量,意味着用户记录生活的视频内容呈现快速增长;2) 社交媒体快速兴起,用户可以通过互联网分享和传播视频内容。但当时视频分享平台包括 Metacafe、Revver、 Yahoo Video、Google Video 等集中在 2005 年前后成立,视频分享平台行业进入激烈竞争阶段。

Youtube 社交网络效应逐步显现,Google Video 受制于审核瓶颈。从 Google Trend 看,2005 年 9 月以前美 国视频市场基本处于混战,2005 年 9 月后 Youtube、Google Video、Break.com 起量,并进一步在 2006 年初分 化,Google 一举奠定优势,确定市场地位。回顾 2005 年,Google Video 聚焦 PGC,起初社区内容来源包括 NBA、 NASA 等 PGC,且用户上传内容需要经过 Google 工作人员审核,以确保内容不涉及版权风险,这种人力密集型 的模式在 UGC 内容扩张后会遇到瓶颈13。根据《Like,Comment,Subscribe》,Youtube 创始人 Steve Chen 在 2005 年夏天注意到当时爆火的社交网站 MySpace 没有视频内容,因此将 Youtube 视频内嵌于 MySpace 中,吸 引 MySpace 用户访问 Youtube14。此外,Youtube 在 2005-06 年先后增加热门页、收藏夹、评论、订阅、个人主 页等,将 Youtube 逐步转向社交平台从而形成传播关系链,UGC+强互动内容(Music/Viral Video)+社交传播 进一步助推 Youtube 走热。

Youtube 并入 Google 后快速发展后面临亏损扩大、版权诉讼等问题。2006 年 10 月 9 日,Google 宣布以 16.5 亿美元的股票收购 Youtube15。为应对与 Viacom 的版权诉讼(2007-2010),Youtube 于 2007 年底上线 Content ID 系统,基于算法识别视频内容是否涉及版权风险,版权方可选择下架侵权视频或分享视频产生的经济利益。 2008 年 3 月,Google 股价相比 2007 年秋季下跌 40%,Google 内部希望缓解 Youtube 亏损压力,因此推动 Youtube 商业化加速。商业化方面,Youtube 2007 年 5 月提出广告分成模式,按展示效果的后付费而非预先付费,Youtube 平台分成 45%,剩余部分归 Youtuber 所有16。亏损加剧的背景是与 Viacom 的版权诉讼尚未结束,Youtube 在商 业化方面不敢过于激进。Youtube 希望提升 eCPM 缓解压力,但效果不佳,最终通过将广告加载率从 5%提升至10%解决亏损问题。

随着规模化扩张 Youtube 转向算法分发,但 2010 年前后时长增长放缓。2008 年 Youtube 引入推荐算法, 但主要是比较简单的算法,例如“看过这条视频的人也在看…”等,随着深度学习的发展,推荐算法的效果逐 步提升。并且随着 Youtube 的全球化扩张,依靠本地化的编辑团队成本较高,2010 年 Youtube 决定彻底转向机 器分发。但 Youtube 2010 年时长增长放缓,引发集团层面反思,后续将多目标制度转向单一目标(观看时长), 因此长时间的视频品类受益。 外部竞争方面,Facebook 在 2010 年将视频作为优先拓展目标,Facebook Video 2010 年增长迅猛,同时依 赖 1)移动端的增长动能;2)内生视频体验由于外部链接跳转;3)Facebook 的社交关系链路传播等,Facebook Video 对 Youtube 的份额产生了负面影响。 内部因素方面,出于对 Facebook 的阻击以及连接内部生态等原因,Google 于 2011 年 6 月推出 Google+社交,并于 2012 年 1 月17强制要求新用户创建 Google+账号以使用 Youtube,但遭遇 Youtube 用户强烈的负面反馈 18,并造成了社区管理的混乱,例如 Google+的实名制政策引发 Youtube 创作者反感。

Youtube 市场份额企稳主要由于 1)Facebook 面临新兴玩家竞争,运营重心转向社交,视频分享优先级下降。 2012-13 年,Facebook 收购 Instagram,同时与 Snapchat 竞争,在视频平台方面的资源投入被分散;2)Youtube 通过排他协议(exclusive deals)绑定部分头部主播;3)2014 年 11 月推出 Youtube Red(后更名 Youtube Premium), 即无广告的付费订阅版本,巩固重度忠实用户;4)2017 年 2 月推出 Youtube TV,覆盖 PGC 内容。 但 2010 年 Youtube 转向提升用户观看时长后,Youtube 为短视频(Tiktok、Instagram Story)等留出市场空 间,导致后续的竞争格局变化。因此,2017/2020 年 Youtube 分别发布 Youtube Stories(Reels)/Youtube Shorts。 Youtube Story 与原有社区/创作者生态并不匹配。Youtube Stories(Reels)更多是受到 2013 年 Snapchat 发 布 Story 功能后增长良好,2016 年 8 月 Instagram 复制 Story 功能后 DAU 迅速增长的压力,同时平台内短时长 的娱乐内容可能被分流。Youtube Stories 发展不及预期的原因在于 1)算法倾向于长视频(拉长用户观看时长); 2)创作者更适应中长视频的制作;3)Youtube 的社区调性更注重内容质量、人设而非跟风模仿,Snapchat/Instagram等社交平台 Story 则催生了大量 meme。Youtube 最终于 2023 年 6 月 26 日关闭 Youtube Story 服务。

Youtube Shorts 的成功归功于流量支持以及吸引短视频创作者加入。2018 年以来 Tiktok 的迅速崛起迫使 Youtube 等平台重视短视频赛道,Youtube 于 2020 年 9 月在印度推出 Youtube Shorts21。不同于 Youtube Story, Youtube 为短视频单独设立了一条信息流,避免长视频短视频在同一条信息流的混同。同时,Youtube 在搜索和 推荐中强化对短视频的支持,相当于额外导流。此外,地缘政治的冲突为 Youtube 在一些地区的用户增长带来 机会。例如在印度等已经被 Tiktok 教育后的地区,在 Tiktok 面临监管不确定性时上线,从而快速完成冷启动, 结合 Youtube 原有的社区生态和平台规模,Youtube Shorts 步入业务发展的正循环。

3. Google Cloud:从技术为先转向客户中心,Gen AI 时代有望加速发 展

Google Cloud 的转型始于搜索广告业务扩张带动的基础设施建设。2000 年代初,Google 专注于其核心搜索 和广告业务,同时基础设施建设也在大幅增加。根据纽约时报22,2001 年 3 月 Google 拥有 8000 台服务器处理 每天 7000 万条网页的需求,而截止 2003 年服务器则增加至 10 万台,2006 年这一数字增长至 45 万台,同时期 微软的服务器数量约为 20 万台。而服务器、数据中心的快速扩张带动 Google 对成本优化的关注。Google 优化 成本的两项重要技术是 GFS(Google File System,后来演变为 HDFS)以及 MapReduce,前者于 2003 年提出,是一个分布式文件系统,旨在跨大型商用服务器集群提供可扩展且可靠的存储。它将文件拆分为块,并在多台 服务器上复制它们,实现并行访问和高容错率。GFS 为 Google 提供了存储架构,用于存储搜索索引和其他服务 所需的海量数据;后者于 2004 年提出24,用于在计算机集群上分布式处理大数据集。它使用“Map”步骤将计 算拆分到各个节点,并使用“Reduce”来汇总结果,实现并行处理数据能力的大幅提升。

GFS 与 MapReduce 在技术上为 Google Cloud 转型奠定基础。MapReduce 可以在数千台服务器上对数据进 行分布式处理,使 Google 能够并行计算以提高效率。GFS 为大型数据集提供了容错的分布式存储,并提供一个 易于使用的文件接口,同时在下面管理复制和故障恢复。MapReduce 和 GFS 共同使 Google 能够利用廉价的商 用硬件来解决以前无法解决的问题。构建这些核心技术使 Google 在以低成本可靠地管理复杂的分布式系统方面 获得重要经验。 2008年 Google集成此前积累技术推出 Google App Engine,试图推动 Web App生态建设。根据TechCrunch25, GAE 由 Python application servers、BigTable Database Access 和 GFS 数据存储服务组成。与 AWS 的 S3 存储、 EC2 虚拟机、SimpleDB 数据库相比,GAE 的服务是必选而非可选,这意味更低的灵活性,但服务本身的标准 化程度更高。尽管对于原生 App 也有支持,但 Google 推出 GAE 的目标是推广 Web App。

从个人履历上看,Urs Hölzle 在产品和工程上为 Google Cloud 奠定基础,但其在面向企业的商业化方面欠 缺经验和意愿30。Diane Greene 曾为 VMware 联合创始人及 CEO,其在 to B 产品的商业化方面具备丰富经验, 这有望强化 Google Cloud 在企业主心中的信誉31。Greene 上任后对 Google Cloud 的首要调整即将分散的业务团 队合并为一体,并成立 Google Cloud Platfrom,并担任 Google Cloud CEO,云业务单元将过去的工程、销售、 产品团队合并32。 Diane Greene 为 Google Cloud 带来的变化可以总结为 1)通过对业务团队架构调整强化协作,打造全栈产品 线,并于 Google 优势产品深度结合,作为对微软的回应;2)拥抱开源,具体表现为对内部项目的开源以及对 外部开源项目的兼容。大多数企业都不希望被供应商锁定,因而开源是产业趋势,Google 应当顺应趋势;3) 在大型企业客户方面取得较大突破,例如 Disney, eBay, HSBC, LATAM Airlines, LG CNS, The Home Depot, The New York Times, Schlumberger, Target(塔吉特) , Verizon, Twitter, Netflix 等客户均采用 Google 云服务,较 2016 年以前的 Spotify, Snapchat, Khan Academy 有较大突破33。4)通过战略收购扩展技术栈的覆盖,例如 Apigee34(API 管理)、API.AI35(AI 对话平台,ML 相关)、Qwiklabs36(客户培训平台)、Kaggle37(DS/ML 相关)、Bitium38 (云安全相关)、Velostrata39(迁移服务)、Cask40(大数据)等。整体上看,Diane Greene 为 Google Cloud 的 战略进行了聚焦和梳理,并推动了 Google Cloud 在企业客户心中逐步建立起品牌心智。

Greene 最终由于项目合作与 Google 价值观的分歧决定离开 Google。2018 年 Google Cloud 与美国国防部 Project Maven 的合作引发 Google 内外对于其与 Google 价值观相悖的担忧41,造成 Diane Greene 与 CEO Sundar Pichai 关系紧张,导致 Google 后续放弃了与美国国防部的项目合作续约。Diane Greene 则宣布将于 2019 年 1 月 正式卸任 Google Cloud CEO,并于 2019 年 6 月退出 Google 母公司 Alphabet 的董事会42。 Google 后续招募 Thomas Kurian 任 Google Cloud CEO,推动战略从技术驱动转向渠道、客户需求驱动。 Thomas Kurian 相比 Diane Greene,Kurian 在与大型企业的客户关系、渠道伙伴关系以及产品运营等方面具备更 丰富的经验。Kurian 加入之前,Google Cloud 的品牌形象更偏向“极客”,总是希望用 Google 的方式解决问题, 而不关注客户真正的需求43,Kurian 则将 Google Cloud 的市场策略转向关注客户需求,以及依托渠道合作伙伴 的力量。在业务/团队规模快速扩张的情况下,Kurian 还对进行人员调岗、业务流程压缩等调整,提升团队的灵 活度和执行效率,这些因素推动 Google Cloud 持续提升总体份额。

此外,Kurian 推动了组织架构的调整,核心目的是提升 Google Cloud 的灵敏度。具体措施包括提升工程 团队与 Google Cloud 及其他团队的联系紧密度49,建立行业销售团队强化专业度50,并设立客户反馈委员会 (Google Cloud Customer Advisory Board,由 Top 50 客户的 CIO 及 CTO 组成)直接倾听头部客户的反馈51。

3. LLM 大语言模型:具备充分想象力的技术趋势

3.1 研究框架:聚焦模型结构、预训练模型、下游调试、部署、推断等环节

大模型领域的研究核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。根据青源会, 大模型研究领域存在一定问题,包括同质化严重的情况,多数厂商采取类似的模型架构,例如 GPT、Bert、T5 等。由于模型架构同质化,影响模型效果的核心因素更多是工程方面的技巧、细节。总体上,大模型领域的研 究机会主要包括 1)模型结构,例如非注意力交互机制、稀疏路由结构等;2)预训练模型,例如预训练任务设 计、模型更新方法等;3)下游调试,如探索任务微调效率提升方法;4)模型部署,如统一的任务范式,通过 单一模型支撑多种任务;5)模型推断,如模型压缩、剪枝、动态路由等。我们对比不同厂商大模型研发水平也 主要参照上述框架。

3.1.1 综述:Scaling Law、Prompt Engineering 驱动 LLMs 加速发展

从技术路线上看,GPT、T5、BERT 都是基于 Transformer 架构衍生而来的。Tranformer 相对 RNN 引入 了注意力机制(Attention mechanism),实现对全局信息的利用,同时简化计算复杂度,实现对下游任务的泛化 应用。由于更简洁的模型结构设计和参数假设,Transformer 在数据抓取能力方面有所取舍,从而导致为了实现 效果提升,需要进行更大规模的数据训练,以及构建更大规模的模型,间接导致了当前模型越来越大的趋势。

根据 OpenAI 研究,预训练模型的扩大带来资源投入的指数级增长,而效果呈现线性增长的趋势,这意味 着边际投入带来的效果提升,即边际收益呈现递减的趋势,也就是给定算力等资源成本下存在参数规模的极限 值,使得 ROI 最优。另外,根据 GPT-4 技术报告,Inverse Scaling Prize 提出,在一些任务上,随着参数规模的 扩张,大模型在任务上的表现反而出现下降的情况。

然而,近年 NLP 行业下游任务的统一化趋势改变了 BERT 模型的相对优势,即学者发现可以通过改变提问 方式将分类、匹配等下游任务统一为一类问题,从而最大化模型效果,后续发展出 Prompt engineering(提示工 程)。下游任务的统一相当于帮助 Encoder/Decoder 模型规避其不擅长的任务领域。在此基础上,GPT 能够脱颖 而出更多得益于工程方面的提升而非在技术思想上创新,需要指出的是,GPT 模型采用的多数技术都是此前的 学术研究成果,就科研贡献本身,GPT 模型的提升并不多。 从技术路线上看,包括 ERNIE 在内的多数厂商选择 BERT 路线(Encoder-only),少数选择 T5 路线 (Encoder-Decoder),较少选择 GPT 路线(Decoder-only)。这种选择可以从学术影响力看出,BERT 论文的 被引用量远大于 GPT 系列论文及 T5 系列论文。事后看,当前 OpenAI 旗下 GPT 系列模型的领先得益于早期技 术选型的成功,这一成功是建立在以下基础上——GPT 的学界/业界影响力小于 BERT,导致多数厂商选择跟踪 BERT 的工作。

GPT 路线此前的影响力弱于 BERT 路线主要由于 1)Google 品牌背书;2)开源精神;3)产研结合难度。 OpenAI 旗下的 GPT 路线基于 Transformer 架构,将解码器单独取出,论文发布时间早于 BERT 论文发布时间。 但论文的业界影响力弱于 BERT,我们认为,这主要由于 Google 的品牌背书,Google 研究团队在 AI 领域的研 究积累导致业界对其研究关注度更高。另一方面,GPT 系列论文发布后,相关数据集、模型不完全开源,导致 其他研究团队很难跟进和复现其研究成果,这进一步削弱了业界/学界跟进研究的动力。最重要的是,OpenAI 团队解决问题的思路与当时业界/学界有所差异,此前研究人员更倾向于设计精细的模型结构和高效的方法,实 现相同规模下效果更优,而 GPT 引入 Few-Shot/Zero-Shot 下表现没有明显好于 Fine-tuning 下的其他模型,只是 在数据量和参数量指数提升后表现快速提升。 这里存在 2 个问题:1)线性外推的思维定式。2)业界研究的思维习惯:追求效率,聚焦更具体的问题。 首先是 1)线性外推的思维定式,多数研究团队选择优先调整模型结构和训练方法等路线的隐含假设是,规模 扩张不会对技术路线的效率产生明显影响,或者即使产生影响,但相比规模扩张带来的成本,其投入难度很难 同比扩大。例如,OpenAI 的团队在 2020 年 1 月发现模型参数规模与效果存在幂律关系,即模型参数呈指数增 长时,性能会线性增加,但 GPT-3 规模大于 BERT large 几个数量级,Zero-Shot/One-Shot 下效果也没有明显优 势。这意味着 Fine-tuned 的效率提升优于参数规模扩大所带来的影响。2022 年 1 月,Google 和 DeepMind 研究 团队发现 Fine-tuning 也存在幂律关系53,因此行业主要聚焦既定规模模型的效率提升。

Google研究推动规模竞赛加速,规模界限分别是62B和175B。2022年1月,Google团队开创了思维链(CoT) 领域研究《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,通过 prompt 中引导大模型 进行逻辑推理的方式实现性能优化,并且这种优化幅度大于此前规模提升带来的线性提升。而下一个自然的问 题则是参数规模的界限,Google 团队在 2022 年 12 月54比较了不同参数规模下直接 prompt 以及 CoT 下的表现, 得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维链。结合 GPT-3 模型规模,至少需要大 于 175B55,思维链的效果才能大于 Fine-tuned 小模型的效果。

除规模外,训练语料也可能对 CoT 能力产生较大影响。根据 Mirac Suzgun(2022)等人的研究56,基于代 码和文本数据训练的 Codex 模型在基于提示遵循任务指令、探索算法规律方面表现优于 InstructGPT 和 PaLM。 更进一步,学界/业界希望分析出具体哪一因素导致 CoT 能力产生(主要区分 fine-tuned/代码训练),因而进行 对比研究。Jason Wei在第一版论文(https://arxiv.org/pdf/2201.11903v1.pdf)提到,GPT-3 text-davinci-001在GSM8K 测试集上表现的推理能力较弱,而 text-davinci-001 是完全基于文本训练的模型。在论文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在 GSM8K 测试集上表现明显提升。而 Percy Liang 等研究57总结基于代 码训练的模型在推理能力方面强于非代码训练的模型,其测试集中平均推理能力 Codex cushman v1 位列(9/30), Codex davinci v2(1/30)。因此推理能力来自代码训练的可能性更大,代码训练对提升推理能力有明显帮助。

对齐调优方面,根据《A Survey of Large Language Models》,RLHF 等技术主要是帮助实现对齐调优 (Alignment Tuning),目前的主流目标是 Helpful、Honest、Harmless。OpenAI 团队59提出通过递归法能够实 现对长难文本的归纳总结,并指出这类方法可以进一步泛化至其他类型的任务上,实现与人类的对齐。此外, 论文指出 RL 比 SL 更有效地帮助模型对比。具体细节方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》60提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即 模型并不明确自己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于 回答(胡编乱造),而非反馈不知道61。需要指出的是,OpenAI 提出 alignment tax,即模型牺牲部分性能实现 与人的对齐。

2)另一方面,业界追求效率的思路,关注投入产出比。这种思路的本质是投入资源稀缺,要在有限的资源 投入下最大化产出。而研究思路背后是互联网公司 AI 实验室与业务部门的博弈。

纵观国内外互联网公司的 AI 研究部门,其大致经历了职能制、矩阵制、事业部制等架构,背后反映了大 厂对 AI 科研部门的不同期许和考核体制,这种激励体制也影响了 AI 科研部门的中长期发展。2013 年成立的 FAIR 采取职能制,其定义 Facebook 的 AI 部门为 FAIR + Applied Machine Learning(应用机器学习团队)+ Product Groups(产品部署团队)62。但 2018 年组织架构调整后,FAIR 转向矩阵制,即 AI 实验室同时对业务部门和技 术领导(一般是 CTO 体系)负责。2021 年底 FAIR 进一步调整,将旗下 AI 研究团队并入业务部门,转向事业 部制。从职能制向矩阵制、事业部制,考核体制上越来越接近业务,越来越远离学术影响力/前瞻研究,这种转 变大多是由于互联网公司面临营收、利润压力,业绩压力倒逼研究团队转向业务团队的“外包”,压力下部分 研究人员离开业界,重回学术界,这是过去我们看到的业界 AI 研究的循环。 大厂在大模型领域研究的落后有一定时代特征:对谷歌来说是价值观变革导致凝聚力减弱,同时创新工作 不足;对 Meta 而言是企业声誉受损导致凝聚力减弱,此外则是战略重心调整导致人员流动。以谷歌为例,2018-21 年谷歌经历了介入军事、语音监听、伦理委员会等风波,价值观或政治正确在内外部引发的争议导致研究人员 产生分歧,进而离开公司。2021 年至今一些谷歌高级研究人员离职创业、加入竞争对手等。总体上来看,谷歌 研究人员的离开主要是公司规模扩张带来价值观稀释,内部分歧管控失败导致的,另一方面大企业机制下对“创 新”的激励趋弱,部分员工离职创业或加入中小型公司,寻求更自由、追求创新的工作。 对 Meta 而言,2018 年因非法向剑桥分析泄露超 5000 万用户信息从而影响美国选举,Meta 的企业形象大幅 恶化,影响了员工对于企业的信心,导致当年大批高管及核心研究人员离职63。另外,2021 年 Meta 员工的离职 潮主要受战略变化及组织架构调整影响,由于公司战略转向 AR/VR,一些员工出于职业发展的考虑64加入其他 公司继续本领域的研究和工作。

更大的趋势在于 1)开源带来的技术扩散,头部科研院所及互联网科技公司相比中小公司/科研院所的相对 优势在缩减,这主要由于过去 AI 领域的创新主要来自方法论层面,而非工程层面,而方法论的创新更随机;2) 对大型科技企业的监管约束趋严,大多数美国互联网科技企业都是在 1990 年后成立,并受益于 20 世纪末、21 世纪初的反垄断监管,在快速发展阶段经历了经济高速增长、监管边际宽松的环境,但 2017 年以来欧盟、韩国 等对谷歌、亚马逊、Meta、苹果公司、微软等加强监管,导致大型科技公司面临较高的监管压力。

3.1.2 预训练:差异来自数据集、知识图谱、参数规模、训练策略

预训练环节的主要差异来自 1)语料,包括语料规模、语料配比;2)知识图谱的引入;3)训练策略的优 化;4)参数规模。

1)语料

ERNIE 团队在 ERNIE 1.0 时注意到引入不同种类的语料能够提升模型预测的准确率。OpenAI 团队在 GPT-3 论文中也引入大规模且多种类的训练数据。总体而言,语料多样性越充分,高质量语料占比越高,对模型的预 测准确度有帮助,但学界在这方面的定量研究仍较为稀缺,语料对于模型预测准确率的量化影响尚不明确。

2)知识图谱的引入

ERNIE 1.0 模型相比 BERT 最大的变化就是引入知识图谱,从而提升预测准确度。具体来讲,2019 年 4 月 ERNIE 团队提出基于 BERT 的改进掩码策略,1)在单词级别随机生成掩码并引导模型预测(BERT 框架, basic-level masking),2)词组级别(phrase-level masking)、实体级别(entity-level masking)随机生成掩码并 引导模型预测。通过引导模型预测词组、实体,模型训练隐性地69引入知识图谱概念。 例如:哈利波特是 J.K.罗琳写的小说。单独预测哈[MASK]波特或者 J.K.[MASK]琳情况下,模型无法学到 哈利波特和 J.K.罗琳的关系。如果把哈利波特直接 MASK 掉的话,那模型可以根据作者,就预测到小说这个实 体,实现知识的学习。

3)训练策略的优化

ERNIE 2.0 引入持续学习框架,解决知识遗忘及训练效率的问题。ERNIE 1.0 相比基础版 BERT,改变了掩 码策略(引入知识图谱)和数据结构(加入多轮对话语料),提升了模型预测准确率。此后学界讨论通过多任 务学习提升模型的预测准确率,例如微软研究团队在《Multi-Task Deep Neural Networks for Natural Language Understanding》中论证了通过在预训练模型中加入有监督的下游任务,能够优化模型在 NLU(自然语言理解) 方面的效果。因此,后续的一个思路就是通过堆叠训练任务提示模型预测准确率,但相应存在一个问题,即模 型出现学习新知识后容易遗忘旧知识,ERNIE 2.0 主要的变化就是针对这一问题提出持续学习框架,实现知识 库扩充,优化模型效果。 常规的模型训练即序列训练模式,即后一个模型训练是建立在前一个模型训练结束后,从模型参数的角度, 后一个模型训练初始参数为前一个模型,但训练结束后参数有所调整,且由于训练是基于后一个任务,其对此 前任务的预测准确率可能低于此前的训练结果。学界此前的解决思路是将多个任务同时训练,确保模型对不同 时序加入的任务等权学习,但每新增一个任务,模型都需要重新训练此前所有的任务,这对应较高的训练成本。 ERNIE 2.0 提出序列多任务学习(Sequential Multi-task Learning)模式,通过给每个任务分配 N 个训练迭代,自 动将每个任务的 N 个迭代分配到不同训练阶段,兼顾学习效果和效率,较 BERT 框架继续优化。

OpenAI 在训练策略方面并未披露细节,但结果上看 OpenAI 训练效果好于 Meta。GPT-4、InstructGPT 论 文中其透露微软为 GPT 专门构建了计算集群和训练环境,确保训练的稳定性。GPT-4 的训练环境经过多次迭代 后表现非常稳定。而根据 Susan Zhang 教授70,Meta 在 OPT-175B 模型的训练中出现了 50 多次的断点(需要回 到 Checkpoint 重启训练),下图中不同颜色代表着模型连续训练的时间。

3.1.3 下游调试、部署、推断:RHLF 仍处于技术发展的早期,潜在优化空间大

GPT 系列模型的拐点在 InstructGPT,其引入了 RHLF,对应 SFT、RM、PPO 三阶段,最终效果是 PPO 模 型预测准确度好于 SFT-175 模型。而 Anthropic 团队研究《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》指出,InstructGPT 基于较小的 RM 训练反馈并非最优的,大规模 的 RM 模型对模型性能的提升可能更好。

Anthropic 团队上述研究的副产物即在 RLHF 中模型性能提升与 RM 的关系,进而在后续研究中可以通过这 一关系估算给定性能提升目标需要多大规模的 RM,并且不同参数规模的模型性能提升曲线基本上平行的,也 就是基于 RLHF 不同规模的模型的性能极限可能不同,并且性能提升的斜率可能是近似相同的。 部署和推断在 OpenAI 论文中大多数被忽略了,仅提到微软在这方面的支持。ERNIE 在论文中提到在线蒸 馏框架,实现算力节约。

总结来看,OpenAI 在 GPT-4 训练结束后花费 6 个月左右时间进行调试和其他调整,其主要精力大体上是 放在调试上,而部署、推断等更多依赖微软和其他合作方的支持。微软/英伟达在合作声明中提到,双方基于数 万块 A100、H100 GPU 芯片,NVIDIA Quantum-2 400Gb/s InfiniBand 架构,以及 NVIDIA 企业级配套软件等构 建了基于公有云的 AI 超级计算机。此外,基于 ONNX runtime 的推理框架,模型的在线推理速度能够进一步优 化。

3.1.4 量化效果:基于公开测试集进行量化评估

学界/业界对 LLM 的评估主要是基于公开测试集的评分,例如 GPT-4 的评分情况如下,GPT-4 在绝大多数 语言评测中都大幅超越了此前的 LLM SOTA(最高分),在视觉评测中部分超越此前的 SOTA,但整体表现并 不如 GPT-4 的一骑绝尘。主要难点可能在于视觉信息、文本信息的联合训练、理解。

3.2 谷歌的竞争分析:全栈技术积累深厚,总体处于第一梯队

3.2.1 预训练环节:谷歌在训练基础设施/训练策略方面布局领先

谷歌在训练集方面不具备明显优势。在训练数据集方面,现有的大模型主要采用书籍、文章、网页等文本 数据,这些数据能够帮助大模型积累语法、文本知识、文本理解、上下文连贯逻辑等能力,而在前文“综述” 部分我们提到代码对语言模型的逻辑推理能力具备帮助,因此训练数据集的多样性较为重要,确保大模型积累 多样化的能力以便后续激活,这里的问题主要是,例如逻辑推理的培养需要一定比例的高质量代码数据,1)如 何定义高质量的数据,怎么对原始数据进行清理、去重71、标注等?2)多大比例的数据能够积累能力?就我们 的知识范围,目前学术界/业界尚未有较为公开且权威的研究能够回答上述问题,但总体而言,数据质量上论文 /书籍/百科≥代码/文章≥对话≥网页。从这一角度看,Google 在数据源方面不存在明显的优势。

谷歌在 AI 架构、芯片方面处于行业领先地位。Google 在《Pathways: Asynchronous Distributed Dataflow for ML》 提出了 Pahtways 作为新一代 AI 架构,其特点是多任务,多通道,稀疏激活。在《PaLM: Scaling Language Modeling with Pathways》中,Google 提到 Pathway 下 MFU(Model Flops Utilization)达到 46.2%,高于 GPT-2/3 在 A100/V100 集群上的利用率 35.7%/21.3%,但低于 GPT-3 基于英伟达 Megatron-A100 集群实现的利用率 52%。TPU 方面, TPU 在 MLPerf 部分场景的性能测试中表现优于 A100,其中 TPU v4 在 4096 块芯片,应用 BERT 场景下性能是 A100 的 1.15 倍左右;ResNet 场景下 TPU v4 则是 A100 性能的 1.67 倍。

大模型的训练稳定性是过去研究涉及较少的。由于小模型训练时长较短,涉及的软硬件协同面较窄,扩展 至大模型下集群出现异常或错误的概率大幅提升,相应带来模型训练的不稳定性(Training instability),以及 资源的额外耗费(一般需要回到 checkpoint 重新训练)。在训练策略上,Google 团队在 PaLM 论文中提到模型 训练过程中多次出现损失函数的突变(we observed spikes in the loss roughly 20 times during training72),而 Susan Zhang 在 Stanford 分享 OPT 模型训练过程中展示了模型训练中也出现了多次波动。

3.2.2 模型调试:谷歌在 Fine-tuning,Prompt engineering 方面领先,在 Alignment Tuning 等领 域与 OpenAI 存在差距

Google 团队在模型调试和 Prompt engineering 方面积累领先行业。在前文综述部分,我们提到谷歌团队开 创了 CoT 研究,其论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》引入 CoT Prompt, 并通过对比实验探测出模型能力涌现的界限大约是 62B 和 175B。Google 团队在 2022 年 12 月比较了不同参数 规模下直接 prompt 以及 CoT 下的表现,得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维 链。结合 GPT-3 模型规模,至少需要大于 175B,思维链的效果才能大于 Fine-tuned 小模型的效果。东京大学和 Google 团队《Large Language Models are Zero-Shot Reasoners》更进一步提出 Zero-Shot Prompting,即加入“Let’sthink step by step”可以显著的提升模型性能。 对齐调优方面,OpenAI 及 Anthropic 相对领先。OpenAI 团队79提出通过递归法能够实现对长难文本的归 纳总结,并指出这类方法可以进一步泛化至其他类型的任务上,实现与人类的对齐。此外,论文指出 RL 比 SL 更有效地帮助模型对比。具体细节方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》80提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即模型并不明确自 己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏 离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于回答(胡编乱造), 而非反馈不知道81。需要指出的是,OpenAI 提出 alignment tax,即模型牺牲部分性能实现与人的对齐。

总结来看,谷歌在大模型领域的布局是全方位的,涵盖上游芯片、分布式计算集群、深度学习框架,以及 模型训练、调试优化策略,并且在多数环节保持领先地位,OpenAI 的成功则是建立在与微软、英伟达等公司相 互合作的基础上,并且是 OpenAI 与微软是通过股权投资绑定利益关系,这意味着其他竞争者模仿的难度较大, 而就互联网平台而言,Google 在 AI 领域的积累深厚,整体并不落后于 OpenAI 的情况。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有