2023年AIGC行业应用专题报告 AI升级交互体验，虚拟人和教育应用场景广阔

2023-03-31 19:09| 来源: 网络整理| 查看: 265

核心观点：

多模态提升交互体验，多种内容输出形式有望推动虚拟人和教育场景落地。海外Midjourney、Runway推出或升级视频AIGC产品，以及阿里达摩院近期上线文本生成视频大模型，我们可以看到 AIGC技术在应用端正快速发展。从此前情感陪伴聊天机器人Glow展示了文本的单模态模型和应用，到现在已见语音、图片、视频等多种形式的内容输出，我们预计将加速虚拟人和教育领域的落地。在虚拟人和教育产业链，从海外来看，我们梳理全球头部创投公司Y Combinator在2023年投资孵化的30余个AI项目及其他AI公司，包括：Glow（情感陪伴聊天机器人）、Iliad（3D建模）、 Decoherence（基于文字与音乐生成视频）、Fabius（AI培训工具）、Tennr（AI提词器）、Texel（ AI模型和视频处理的加速器）等。

AI升级交互体验，虚拟人和教育应用场景广阔

前言走向多模态，从“数字人”到“数智人”

多模态升级交互体验，实现“数字人”向“数智人”转变。单模态以情感陪伴聊天机器人Glow为代表的“数字人”为例，其已经可以实现与真人的个性化、拟人化、智能化的聊天互动，但交互方式仍局限在文本、语音。未来，随着多模态模型的发展，虚拟人或机器人的交互方式，有望拓展至图片、音乐乃至视频，并以更贴近真人的逻辑、理解、表达能力进行交流和反馈，从而提升虚拟人在电商、直播、教育、客服、社交、文旅导览等领域的互动体验。

AI模型与应用向多模态升级迭代。Vision Transformer模型、扩散模型、BEiT模型等技术的迭代，实现了传统单模态大模型中自然语言处理能力与计算机视觉能力的结合，以及大规模自监督预训练，由此使得大模型具备了理解、处理和生成图片、音视频等多模态的能力，催生了Open AI GPT-4、谷歌PaLM-E、百度文心一言等多模态大模型。多模态模型也带动了多模态应用的诞生，涉及代码生成、文本生成、图像生成、音视频、游戏、虚拟人等领域。

前言全球知名创投YC，前瞻性投资30+AI应用项目

Y Combinator成立于2005年，为美国知名创业孵化公司，在胡润研究院发布的《 2021全球独角兽投资机构百强榜》中，位列第12位。据福布斯中国，YC目前已资助公司超3500家，包括80家独角兽公司，例如Dropbox、Airbnb、Reddit等。YC最新投资项目涉及生成式AI在生产力提效、交互场景、开发者相关领域应用。 YC 每年推出 2 期孵化计划，即 Winter Batch 和 Summer Batch ，由全球申请者中筛选出的具有发展潜力的公司组成。 YC将为入选项目提供50万美元种子轮融资、创业建议以及业内资源。在23年初 Winter Batch的210个项目中，有36个生成式AI项目，应用场景涵盖市场营销、客户服务、知识管理、数据分析、基础设施、开发者工具等。

前言虚拟人：摆脱“套皮”，解决“伪需求”问题

开发平台、交互、算力优化等虚拟人产业链布局解决需求问题，推动行业发展。通过梳理AIGC应用落地场景，我们已看到虚拟人产业链已有智能开发平台、交互升级、算法优化等方面的布局。随着 AIGC技术加深与虚拟人产业链的融合，预计有望降低虚拟人开发成本、解决“套皮”问题、交互不拟人等，从而推动虚拟人的落地和发展。虚拟人开发成本：结合AIGC的元宇宙内容开发平台，解决数字内容开发成本高、效率低的困境。解决“套皮”问题：随着多模态模型的推出，有望实现文本/语音、视频/模型等多内容模式的AI智能化产出，从而摆脱真人套皮问题。加速器减轻设备压力：语音和视觉结合的AI生成对设备需要较高，而相关算法的优化有助降低运营成本压力，实现更大规模的普及。

前言教育：AI辅助教学+虚拟人教学双线推动场景落地

我们认为教育场景的AIGC技术落地，将主要有两种模式： AI辅助真人教学：在海外的AIGC应用场景中，我们看到在销售场景，已有多种辅助工具落地，包括AI提词器、AI素材生产等，预计这些场景的AI融合有助真人教学统一或升级教学质量，多样化教学形式，也更有利于在线教育平台在降本的同时，维持商业化的能力。虚拟人教学：随着文字/语音输出的内容更加拟人，且多模态模型优化了虚拟人动作、表情僵硬等问题，虚拟人也有望落地教育场景。尤其对早教而言，交互体验升级也有望实现教学质量的统一和提升。

第一章：海外相关应用：AI聊天应用Glow和其他产业链公司

1.1、Glow：用户定义人设的AI情感陪伴聊天机器人

Glow为基于大模型的AI聊天应用，由国内人工智能创业公司MiniMax在22年11月推出，为用户提供情感陪伴、满足虚构情景想象的体验。据甲子光年，Glow上线约4个月后，目前已有约500万用户。基于用户描述，生成个性化对话机器人。Glow的基本玩法是用户在应用中创建AI机器人“智能体” ，智能体将基于用户描述的性格、人设、头像及选定的音色等，与用户开展实时沟通、互动。也可输入“参考名人” ，智能体将具备特定名人的有关知识储备。据体验，创建的“托尼斯塔克”智能体有《复仇者联盟》系列的知识储备，具备较强代入感。

1）互动对象多元，提供差异化、多样化、个性化聊天体验。用户可与自己创建的个性化智能体进行聊天互动，也可与平台内其他用户创建的智能体互动。用户可为其他用户创建的智能体补充专属设定，让相关智能体符合用户个性化需求。据观察，平台内部分智能体已与近6万个用户进行互动。 2）互动方式当前仅为文字和语音。据体验，目前Glow内智能体暂时无法反馈图片内容，但从对话内容来看，随着产品的改进，图片内容或在后续版本中引入。此外，用户也可以切换智能体的反馈，从而按照用户的偏好推进聊天。

3）互动话题多元，包含情感、虚构情景联想等。用户可以与智能体就任何话题内容进行聊天，可完成情绪反馈、对话问答、简易信息搜寻等，也可以根据特定的话题，选择关联的智能体进行聊天，例如情感、美食、虚构情景（如遭遇吸血鬼的场景）等。其中，平台官方智能体季枫和沈思前具备剧情模式，通过主动引导用户对话，来推动剧情演绎并完成任务。 4）互动记录可公开，丰富可浏览内容。Glow拥有记忆簿功能，即用户可将智能体对话的部分内容公开，供平台内其他用户浏览、评价，本质上是用户与AI共创内容，以丰富平台内的内容供给。

1.2、虚拟人生成：Runway—GEN-2发布，视频制作门槛再降低

3月20日人工智能初创公司Runway开放了新一代视频生成模型GEN-2的试用申请，能够基于文本、图片、视频等内容，为艺术家、设计师、电影制作人员提供了多样的、低门槛的生成视频方式。新增功能：第一代视频生成模型GEN-1，具备视频生成视频的能力，具体包括视频+图片生成视频、实体模型或渲染动画转为视频、修改视频中特定物体外形等；GEN-2模型新增了纯文本生成视频、文本+图片生成视频、图片生成视频的能力。

1.3、虚拟人生成：Iliad—游戏模型和图片素材生成工具

Iliad：主要服务于游戏开发公司的AI模型和图片素材生成工具。产品主要将文字生成图片、2D图片转3D图片等AIGC形式应用于游戏场景中。Iliad可以帮助游戏公司的美术人员生成效果图、3D模型和模型肌理等内容，也可以实现2D转3D的模型生成。

1.4、虚拟人生成&教材编辑：Decoherence—基于文字与音乐生成视频

Decoherence：基于文字与音乐生成视频。 Decoherence基于用户输入的关键词，以及时长、FPS 、动画效果、背景音乐等参数设置，生成动画短视频。 Decoherence能将音频信号识别为运动效果，并将图像拼接在一起以制作完整的视频。Decoherence降低了用户编辑视频的门槛，但生成的视频分辨率及时长有限、帧率不高、声音选择较少，难以满足部分高要求用户。用户需付费使用 Decoherence，月度套餐为每月30美元，可生成超过100个视频。

1.5、教材编辑：Descript—文本修改对应音频编辑

Descript：文本修改对应音频编辑。Descript可以将音频内容转录成对应的文本，用户编辑转录后的文稿时，将对应修改原始音频，包括删词、改词、补词，其中对于新添加的文本，Descript可在自动转录时生成原始音频的声音，以避免补录，并支持自动识别和分离不同的说话人。定价方面，Descript根据团队用户数和每月转录时长提供不同订阅版本。其中免费版每月有1小时转录时长；每月10小时、30小时的版本分别对应定价每月12美元、24美元。

1.6、教学辅助：Meru—对话方式提取文件中信息

Meru：对话式提取文件中数据。Meru的作用相当于为部分文件内嵌对话机器人，通过调用API将特定的文档、文件、网址等文件的信息进行提取，从而像人类一样，通过对话方式，反馈给用户个性化的相关答案，免去了用户主动搜索数据信息的过程。Meru也允许直接调用存储在Dropbox、Box 、Google Drive内的文档。 Meru已开放多种付费套餐。用户可以免费使用Meru，更高价格的付费版本将对应更多的询问次数、可调用的文件存储服务及其他增值服务等，价位在99美元/599元每月，也可定制需求。

1.7、教学辅助的替代场景：Fabius—AI销售培训工具

Fabius：AI销售培训工具。Fabius利用Gong/Chorus等软件的录音，分析销售人员在产品定位和向客户推销的做法，并提供个性化和实用的改进建议，也可以为客户对话匹配相关的销售培训课程，帮助销售团队提高销售效率和质量。销售主管也可以改进Fabius的预测，纠正其中缺少的关键步骤。

1.8、教学辅助的替代场景：Tennr—辅助销售人员的AI提词器

Tennr：辅助销售人员的AI提词器。Tennr本质为提词器，通过使用AI技术，可为销售人员和经理提供每次电话销售前的准备工作，提高交易达成的几率。例如，Tennr可根据买家关心的方面，调取销售人员过去赢得的类似交易，从而向销售人员展示业务中使用的话术，或提供与过去类似交易相关的最佳解决方案；也可以分析销售通话，提取关键信息，如买家的需求、痛点、预算和时间表。

1.9、专业知识学习：Anarchy—为第三方应用构建可调用特定API的对话机器人

Anarchy：为第三方应用构建可调用特定API的对话机器人。Anarchy本质是帮开发者客户集成外部 API以及大语言模型，让客户为自己的产品增加对话机器人的功能。Anarchy可以调用任何外部API，例如可调用谷歌地图API ，回答用户关于两地之间旅程距离的问题；或者调用股票应用了解股票股价。Anarchy的原理在于：开发者用户提供自身应用的API接口，以及对接OpenAI大语言模型的秘钥，Anarchy则提供大语言模型端点，即网页界面形式的聊天机器人，此机器人将使用API 的数据信息，借助OpenAI的能力，来回答终端用户的问题。开发者用户由此可专注于自身应用的优化，省去了寻找合适的调取大语言模型指令的工作。

1.10、算力优化：Texel—AI模型和视频处理的加速器

Texel：AI模型和视频处理的加速器。Texel能提高媒体上使用AI运算推理的效率，例如AI生成图像、视频等应用。Texel为用户提供一个可控的API，允许用户控制要激活的功能，从而加速相应的推理过程。推理过程的用时将被缩短，所需GPU内存的减少也能节约成本。据官网，Texel将使得运行速度比标准解决方案提高10倍，同时降低90%的成本。

第二章：重点企业分析

2.1、新华网：子公司布局AIGC+虚拟人，发布元宇宙系统“元卯”

新华智云是由新华网和阿里巴巴成立的合资公司。新华智云科技有限公司主要布局媒体人工智能领域，核心产品包括17年12月发布的媒体人工智能平台“媒体大脑” ，开始在媒体领域实践机器生产内容（MGC），18年6月发布的短视频智能生产平台“媒体大脑·MAGIC”，进一步推动人工智能技术在媒体、文旅、金融等领域集成化、产品化、商业化的应用。落地案例包括在18年两会期间用15秒发布关于会议的MGC视频新闻，在俄罗斯世界杯期间制作赛事播报视频。关注AIGC驱动的元宇宙系统“元卯”表现。3月22日，公司发布全国首个AIGC驱动的元宇宙系统 “元卯” ，结合AIGC模型和此前已多年实践的机器生产内容（MGC），帮助媒体、文旅、金融等企业实现元宇宙数字人、数字内容、数字场景的智能化生产，解决元宇宙内容生产成本高、效率低的问题。

2.2、蓝色光标：虚拟人将接入文心一言，涉及与OpenAI合作

虚拟人“苏小妹”等将接入百度文心一言。据投资者互动易，蓝色光标旗下元宇宙营销场景解决方案公司蓝色宇宙，将接入百度生成式对话模型文心一言，将智能对话技术应用在AIGC营销场景，包括以 “苏小妹”为代表的虚拟人驱动与实时对话能力升级，及其他商业化解决方案，例如蓝标智播、分身有术、MEME等产品的生产创造。将与OpenAI开展技术产品合作。据蓝色光标官方公众号及投资者互动易，成为中国区官方代理商后，公司将与微软开展基于OpenAI的技术产品合作，让出海客户与海外消费者更好地互动。据蓝色光标官方公众号，公司提出了与GPT-4可能的合作方式，包括驱动虚拟人的多模态个性化交互、生成NFT、打造用于营销或社交的虚拟空间。

2.3、捷成股份：参股公司世优科技旗下数字人已接入ChatGPT，具备众多应用场景

数字人已接入ChatGPT，可应用在线下展厅、直播、电商等场景。据投资者互动易，公司参股世优科技的数字人，已经接入ChatGPT，通过数字人自身的人设背景等相关数据，对其进行训练，并基于 OpenAI来训练数字人专有大脑，形成个性化模型，未来拟应用于线下展厅的AI讲解介绍数字人、线上 AI主播、AIGC快速短视频系统、智能客服、电商等多个场景。已为众多头部客户打造数字人。世优科技已经为百度、央视网、海尔集团、脑白金等头部客户定制数字人，用于品牌形象IP、智能助手等场景。其中，数字人“阿央”已经接入世优正在开发的ChatGPT微信小程序——世优数字人元宇宙。该程序可以展示排行靠前的热门问题，并通过接入ChatGPT后的世优科技数字人进行实时的内容解答。

2.4、天娱数科：将借助ChatGPT及文心一言，提升直播交互能力

旗下“MetaSurfing-元享智能云平台”接入ChatGPT，并已引入TikTok直播场景。公司旗下的虚拟人制作SaaS平台“MetaSurfing-元享智能云平台”，主要是为实现元宇宙人货场的“批量化、短周期、低成本”制作，已应用在Tik Tok跨境电商直播、虚拟主播直播互动等场景。

1）形象制作：客户通过关键词与描述，即可实时生成符合直播与内容生成的虚拟形象。 2）直播交互：该平台已经接入ChatGPT等智能机器模型，输入商品的关键词描述，就可在选定的对应的直播平台，使用选定语种，一键完成7×24小时的无人值守直播。将接入文心一言，提升虚拟人交互等能力。据公司公众号，MetaSurfing-元享智能云平台也将接入百度文心一言，将智能对话技术应用在元宇宙智能生产，及公司旗下的天妤等全体虚拟数字人，提升公司在虚拟人交互体验、数字内容制作效率、元宇宙创意空间等方面的生产能力。

2.5、天下秀：AIGC有望改善虚拟文旅、社交领域的交互体验

与新华社发布“云游中国”，探索数字人+虚拟文旅。23年1月，天下秀与新华社共同发布文旅数字化云平台“云游中国”，用户可定义自身虚拟数字人形象、购买数字藏品装扮、剧情化游览虚拟景点等。天下秀将提供AI交互及数字孪生、区块链、虚拟现实、3D引擎等技术。我们认为，新华智云AIGC驱动的元宇宙系统“元卯”发布，也有望为“云游中国”平台提供数字人、数字内容、数字场景的智能化生产，从而进一步提升用户的虚拟文旅体验。有望改善“虹宇宙”内虚拟社交体验。天下秀于21年12月内测元宇宙社交应用虹宇宙，据公司公告，截至22年6月底累计用户已超50万，用户可通过自定义虚拟形象，在平台内社交互动、收藏数字藏品等。后续AIGC的引入，有望丰富虹宇宙内的虚拟内容供给、让NPC与用户的互动更智能化，从而改善社交体验。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

【本文地址】

公司简介

联系我们