高通量媒体内容理解论坛抖音快手齐上阵，你 pick 谁

2023-04-24 21:02| 来源: 网络整理| 查看: 265

字节跳动人工智能实验室总监王长虎博士

他此次带来的内容是抖音背后一系列的计算机视觉技术，包括 AI Camera 技术、人脸检测和标定技术、人体关键点检测技术、分割技术。他分别分析了抖音在这些技术上的优势和目前面临的挑战。对于人脸检测和标定技术，他们的优势有关键毫秒级定位，在侧脸、暗光等复杂环境下算法鲁棒，这一技术的应用场景非常多，例如人脸美化，贴纸、人脸特效，眉形、美瞳、口红等的在线试妆。

随后，他谈到视频推荐以及视频理解。在视频推荐算法中，如何优化打分函数，让用户获得更好的体验，这是值得研究的重点。视频理解包括对视频分类、打标签等，面临的挑战有很多，如投稿量巨大、视频持续快速增长、覆盖范围广、产品影响大、算法要求高、问题种类多、样本极不均衡、问题区域小，解决方式也有很多，如人机耦合、多重审核机制、定制化模型。

随后他还提到大规模视频分类和标签，他举出了一些需要用技术解决的例子，如筛选出一些无意义视频、黑屏视频等。对于视频中的 OCR 技术，他表示，有些问题很难，需要能精细检测和分割。

最后，王长虎博士总结，计算机视觉技术除了在抖音上有广泛应用，还支撑着今日头条、火山小视频、西瓜视频。他表示，计算机视觉是抖音和今日头条很多产品的重要基石，希望更多老师和同学加入字节跳动公司。

快手多媒体内容理解部负责人李岩是第三位上台嘉宾，他的演讲内容是《多模态内容生成与理解》。在演讲中，他为大家介绍了快手是一家怎样的公司，以及他们为什么要研究多模态内容生成与理解技术。

快手多媒体内容理解部负责人李岩

「即使你处在偏远的山村，也有希望通过快手的作品获得更多粉丝，消除孤独感，获得更多的连接。」李岩如是说道，他举了几个典型的快手视频案例来说明。

快手有海量多模态数据，超过 70 亿条短视频数据，超过 150 亿条视频播放数据。他强调，多模态技术有两大应用，一是会改变人机交互方式，二是使得信息分发更加高效。但现在研究这样的问题还非常难，存在三大挑战，一是语义鸿沟，二是异构鸿沟（数据种类比较多），三是数据缺失（多模态数据非常难以构建）。

他表示，快手也在一直努力，希望大家能更好地记录，让每个人成为自己生活的导演，希望记录的过程能便捷、个性化、有趣、普惠。他如下几个例子：

自动字幕与智能配音。可以通过语音合成技术更好地满足记录需求，这会使记录更加便捷和有趣。随后他也详述了语音识别和合成技术，也提到目前用得比较多的深度学习技术。音乐自动生成技术。视频配乐相对来说还比较难。在视频音乐生成上涉及到非常多的技术，也有一些领域知识，如歌曲结构、歌曲速度、音乐基础要素，这可能需要研究音乐和计算机视觉的人互相配合。 Animoji。大家可以通过快手直接在安卓手机上体验，降低了用户的体验成本。目前他们的技术可以敏锐地捕捉到面部表情变化，拉低了硬件门槛。

最后他总结到，未来会有两个非常重要的方向：多模态特征对齐和多模态特征表示。他表达了如下三点展望：一是多模态会带来新的人机交互方式，二是多模态会带来新的内容形式，三是多模态急需新的算法和大型数据集。

最后一位演讲嘉宾是北航计算机学院长江学者特聘教授李波，他的演讲主题为《面向公共安全的天空地网大数据一体化处理》。

北航计算机学院长江学者特聘教授李波

网络世界中新型犯罪活动层出不穷，比如电信或网络诈骗、跨境网络攻击等。外国军机非法侵入我国海域，仅利用航天成像无法获取目标的全面画像，可以将天空地网协同应用，利用互联网得到目标的更完整信息。

李波教授提到利用天空网信息结合挖掘目标完整画像的案例，也谈到遥感图像与社交媒体融合以及美国在公共安全领域的研究与应用。

随后，他提出了几项关键科技问题：

天空地立体感知问题：空间尺度差异大，时效性差异大，视角差异大，分辨率差异大。

网络内容分析问题：网络形式多样、使用独立；网络内容繁杂；用户行为复杂，全貌模糊；行为轨迹碎片化。

天空地网数据综合应用问题：图像视频结构化描述简单；案件涉及多维度的关联分析，如时空关联、因果关联等。

天空地立体感知问题：空间尺度差异大，时效性差异大，视角差异大，分辨率差异大。

网络内容分析问题：网络形式多样、使用独立；网络内容繁杂；用户行为复杂，全貌模糊；行为轨迹碎片化。

天空地网数据综合应用问题：图像视频结构化描述简单；案件涉及多维度的关联分析，如时空关联、因果关联等。

解决思路如下：

基于时空关联的目标与事件检测

在地面上，可以利用时空结合的场景语义分割；还可以通过天空地相互引导，实现立体感知。

面向实体的跨网内容关联

这里涉及到基于关键要素的敏感内容检测。在检测的基础上，可以进一步基于相似语义和时空关联的知识学习进行知识抽取，随后基于概念属性的跨网身份关联，实现跨网知识融合。

虚实融合的一体化事件分析

实是指物理世界，虚是指网络世界。可以生成实体-动作元事件模型，结合警务知识指导的事件分析，进行公共安全事件研判。

李波教授的演讲结束之后迎来精彩的圆桌讨论环节，快手多媒体内容理解部负责人李岩、北航计算机学院长江学者特聘教授李波、字节跳动人工智能实验室总监王长虎、国家互联网应急中心张冬明纷纷上台，展开了更多对高通量媒体内容理解的探讨，现场观众也发表踊跃提问。随后，李波教授对今天的论坛做出总结，对在场观众表达了感谢。精彩的论坛就此结束，但对多媒体内容的探讨还在继续。

图：洪日昌、李岩、李波、王长虎、张冬明（从左至右）

雷锋网 AI 科技评论后续也将带来关于 CNCC 的一系列新闻，敬请关注。雷锋网返回搜狐，查看更多

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章