行业分析报告 您所在的位置:网站首页 cwl是什么意思中文 行业分析报告

行业分析报告

2023-03-24 23:04| 来源: 网络整理| 查看: 265

美团:2022美团技术年货——算法系列(430页).pdf

算法1YOLOv6:又快又准的目标检测框架开源啦1目标检测开源框架 YOLOv6 全面升级,更快更准的 2.0 版本来啦13通用目标检测开源框架 YOLOv6 在美团的量化部署实战177 次 KDDCup&Kaggle 冠军的经验分享:从多领域优化到 AutoML 框架37图神经网络训练框架的实践和探索66图技术在美团外卖下的场景化应用及探索83大规模异构图召回在美团到店推荐广告的应用102美团搜索粗排优化的探索与实践116美团外卖推荐情境化智能流量分发的实践与探索129大众点评搜索相关性技术探索与实践152美团 SemEval2022 结构化情感分析跨语言赛道冠军方法总结174检索式对话系统在美团客服场景的探索与实践188端智能在大众点评搜索重排序的应用实践216对话摘要技术在美团的探索(SIGIR)238异构广告混排在美团到店业务的探索与实践258短视频内容理解与生成技术在美团的创新实践271美团搜索中查询改写技术的探索与实践297美团内部讲座|清华大学崔鹏:因果启发的学习、推断和决策325目录NeurIPS2021 Twins:重新思考高效的视觉注意力模型设计339美团获得小样本学习榜单 FewCLUE 第一!PromptLearning 自训练实战353DSTC10 开放领域对话评估比赛冠军方法总结368KDD2022|美团技术团队精选论文解读382ACMSIGIR2022|美团技术团队精选论文解读391CVPR2022|美团技术团队精选论文解读404ACMMM&ECCV2022|美团视觉 8 篇论文揭秘内容领域的智能科技413算法2022年美团技术年货图 1-1YOLOv6 各尺寸模型与其他模型性能对比图 1-2YOLOv6 与其他模型在不同分辨率下性能对比算法2022年美团技术年货图 2Roofline Model 介绍图于是,我们基于硬件感知神经网络设计的思想,对Backbone和Neck进行了重新设计和优化。该思想基于硬件的特性、推理框架/编译框架的特点,以硬件和编译友好的结构作为设计原则,在网络构建时,综合考虑硬件计算能力、内存带宽、编译优化特性、网络表征能力等,进而获得又快又好的网络结构。对上述重新设计的两个检测部件,我们在YOLOv6中分别称为EfficientRepBackbone和Rep-PANNeck,其主要贡献点在于:引入了RepVGG4style结构。基于硬件感知思想重新设计了Backbone和Neck。RepVGG4Style结构是一种在训练时具有多分支拓扑,而在实际部署时可以等效融合为单个3x3卷积的一种可重参数化的结构(融合过程如下图3所示)。通过融合成的3x3卷积结构,可以有效利用计算密集型硬件计算能力(比如GPU),同时也可获得GPU/CPU上已经高度优化的NVIDIAcuDNN和IntelMKL编译框架的帮助。算法2022年美团技术年货都重新设计为RepBlock,其中RepBlock的第一个RepConv会做channel维度的变换和对齐。另外,我们还将原始的SPPF优化设计为更加高效的SimSPPF。图 4EfficientRep Backbone 结构图Rep-PAN:在Neck设计方面,为了让其在硬件上推理更加高效,以达到更好的精度与速度的平衡,我们基于硬件感知神经网络设计思想,为YOLOv6设计了一个更有效的特征融合网络结构。Rep-PAN基于PAN6拓扑方式,用RepBlock替换了YOLOv5中使用的CSP-Block,同时对整体Neck中的算子进行了调整,目的是在硬件上达到高效推理的同时,保持较好的多尺度特征融合能力(Rep-PAN结构图如下图5所示)。算法2022年美团技术年货图 6Efficient Decoupled Head 结构图2.3更有效的训练策略为了进一步提升检测精度,我们吸收借鉴了学术界和业界其他检测框架的先进研究进展:Anchor-free无锚范式、SimOTA标签分配策略以及SIoU边界框回归损失。Anchor-free无锚范式YOLOv6采用了更简洁的Anchor-free检测方法。由于Anchor-based 检测器需要在训练之前进行聚类分析以确定最佳Anchor集合,这会一定程度提高检测器的复杂度;同时,在一些边缘端的应用中,需要在硬件之间搬运大量检测结果的步骤,也会带来额外的延时。而Anchor-free无锚范式因其泛化能力强,解码逻辑更简单,在近几年中应用比较广泛。经过对Anchor-free的实验调研,我们发现,相较于算法2022年美团技术年货3.实验结果经过以上优化策略和改进,YOLOv6在多个不同尺寸下的模型均取得了卓越的表现。下表1展示了YOLOv6-nano的消融实验结果,从实验结果可以看出,我们自主设计的检测网络在精度和速度上都带来了很大的增益。表 1YOLOv6-nano 消融实验结果下表2展示了YOLOv6与当前主流的其他YOLO系列算法相比较的实验结果。从表格中可以看到:表 2YOLOv6 各尺寸模型性能与其他模型的比较YOLOv6-nano在COCOval上取得了35.0%AP的精度,同时在T4上算法2022年美团技术年货同时也欢迎社区同学加入我们,共同建设一个适合工业应用的更快更准的目标检测框架。5.参考文献1YOLOv5,https:/YOLO Series in 2021,https:/arxiv.org/abs/2107.084303PP-YOLOE:An evolved version of YOLO,https:/arxiv.org/abs/2203.162504RepVGG:MakingVGG-styleConvNetsGreatAgain,https:/arxiv.org/pdf/2101.036975CSPNet:ANewBackbonethatcanEnhanceLearningCapabilityofCNN,https:/arxiv.org/abs/1911.119296Pathaggregationnetworkforinstancesegmentation,https:/arxiv.org/abs/1803.015347OTA:OptimalTransportAssignmentforObjectDetection,https:/arxiv.org/abs/2103.142598ComputerArchitecture:AQuantitativeApproach9SIoULoss:MorePowerfulLearningforBoundingBoxRegression,https:/arxiv.org/abs/2205.127406.作者简介楚怡、凯衡、亦非、程孟、秦皓、一鸣、红亮、林园等,均来自美团基础研发平台/视觉智能部。算法2022年美团技术年货表 1YOLOv6 各尺寸模型与其他 YOLO 系列的性能对比结果注:YOLOv6 系列模型均在训练 300epoch 且不使用预训练模型或额外检测数据集下获得,“”表示采用了自蒸馏算法,“”表示从官方代码库对发布模型进行重新测评的指标。以上速度指标均在 T4TRT7.2环境下测试。本次版本升级,主要有以下更新:性能更强的全系列模型1.针对中大型模型(YOLOv6-M/L),设计了新主干网络CSPStackRep,它在综合性能上比上一版的SinglePath结构更具优势。2.针对不同网络,系统性地验证了各种最新策略/算法的优劣,综合精度和速度,为每类网络选择合适的方案。同时将模型整体训练时间减少了50%,极大地提升了模型的训练效率。3.引入自蒸馏思想并设计了新的学习策略,大幅提升了YOLOv6-M/L的模型精度。算法2022年美团技术年货表 2YOLOv6-S 量化方案与 PaddleSlim 应用于 YOLO 系列模型的量化效果对比注:以上速度指标均在T4TRT8.4环境下测试。对比方法为PaddleSlim30。不同之处是PaddleSlim使用YOLOv6-S1.0版本,我们的量化方案应用于2.0版本。更详尽的关于量化部署实践的相关内容,近期会在美团技术团队公众号上进行推送,敬请期待。完备的开发支持和多平台部署适配YOLOv6支持检测模型训练、评估、预测以及模型量化、蒸馏等全链路开发流程,同时支持GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、NCNN)等不同平台的部署,极大简化工程部署时的适配工作。更详细的教程指引请移步YOLOv6Github仓库Deployment的部分。相关论文1RepOptimizer:Re-parameterizingYourOptimizersratherthanArchitectures算法2022年美团技术年货图 1多分支结构重参数化过程(A)结构变化(B)参数变化(来源:2)2.量化方案实战2.1重参数化优化器YOLOv6网络中大量使用重参数化结构,在提高模型训练精度的同时能够显著降低模型部署推理延时,但也带来了模型量化部署方面的难题。对重参数化网络的直接量化一般会带来不可接受的精度损失,例如RepVGG-B12网络在ImageNet数据集上的浮点精度为78.42%,采用TensorRT后量化(PTQ)的量化模型精度则降低为54.55%。此外,由于重参数化结构在训练和部署时结构不同,因此无法直接适配现有的量化感知训练(QAT)方法,如何使用QAT方法来提高YOLOv6量化模型的精度,同样存算法2022年美团技术年货示),通过梯度掩码(GradientMask)的方式在网络训练反向传播的过程中加入先验,保证了训练精度可达到RepVGG相近的水平,而网络结构则在训练和推理阶段始终保持普通的VGG结构,这种训练方法请参考RepOpt3。该工作中提出的RepOpt-B1网络模型,在浮点精度与RepVGG-B1 基本一致的情况下,量化模型精度提升超过20%,极大地改善了重参数化网络的量化掉点问题。此外,RepOpt模型的训练速度快,内存占用也比较低。图 3RepVGG 和 RepOpt 结构示意图2.1.2RepOpt版本的PTQ我 们 实 现 了RepOpt 版 本 的YOLOv6s 网 络(YOLOv6s_repopt),达 到 了 与YOLOv6s_repvgg一致的浮点精度42.4%(300epochs),两个版本的网络结构在部署阶段保持一致。我们首先分析了YOLOv6s_repopt模型的数据分布特征。如图2所示,给出了“Rep_p4.block.0.rbr_reparam”层的特征图数值分布直方图,可以看到数值紧密分布在0,10的区间内,相比YOLOv6s_repvgg的数值分布算法2022年美团技术年货图 4RepVGG 和 RepOpt 结构的 QAT 过程示意图如图4(右)所示,对RepOpt的卷积等算子加入伪量化节点进行量化感知训练,提升量化模型精度,然后直接部署该量化模型,而不需要再进行模型融合的操作。后文,我们将给出具体的QAT算法及对模型精度的提升结果。2.2基于量化敏感度分析的部分量化YOLOv6s_repopt在PTQ后的mAP达到了40.9%,虽然比之前的35.0%有了很大的改善,但仍然有1.5%的精度损失,还无法满足业务需求。因此,我们采用了部分量化(PartialPTQ),一种使网络中的部分量化敏感层恢复浮点计算,来快速恢复量化模型精度的方法。首先需要对网络中的每一层都进行量化敏感度分析。我们在YOLOv6s-repopt网络上对常用的敏感度分析方法均方误差(MSE)、信噪比(SNR)、余弦相似度(CosineSimilarity)进行了对比测试。量化校准(calibra-tion)测试使用4个batch的数据,敏感度计算用1个batch,batch大小设置为32。测试时,每次只对一层进行量化,获取该层的激活数据后计算敏感度数值,代表了该层的量化敏感度。作为对比,我们可以直接计算网络在COCOval数据集上的mAP,使用检测精度作为该层的量化敏感度,即检测精度越高,该层敏感度越低(下文称为mAP方法)。算法2022年美团技术年货表 3使用不同量化敏感指标得到的 Top-6 敏感层及部分量化精度对比2.3基于通道蒸馏的量化感知训练至此,我们优化后的PTQ的精度达到了42.0%,进一步提高模型精度需要引入量化感知训练(QAT)。量化感知训练(QuantizationAwareTraining,QAT)可以改善PTQ量化精度损失,通过在训练过程中对卷积等算子加入伪量化操作(如图4所示),使得网络参数能更好地适应量化带来的信息损失,从而显著降低量化后的精度损失。模型蒸馏作为一种有效的提升小模型精度的方法,在QAT过程中被广泛使用,来提升量化模型的精度。以下,我们将探索针对YOLOv6网络的量化感知训练方法。2.3.1通道蒸馏传统的分类网络在蒸馏时,往往对最后一层输出的logits进行蒸馏;但是在检测网络中一般采用“特征图”蒸馏的方法,直接让学生网络(student)输出的特征图拟合教师网络(teacher)输出的特征图(一般不会选取整个特征图,而是一些感兴趣区域)。这种方法的缺陷是特征图中的每个pixel对蒸馏的损失贡献相同。我们采用了每通道分布蒸馏6,即让student输出的每个通道的分布拟合teacher输出的每个通道的分布。两种方法的区别如下图6所示:算法2022年美团技术年货如下表4所示,在PartialQAT中引入通道蒸馏方案(CW),量化精度进一步提升了0.3%。表 4Partial QAT 使用通道蒸馏提升对比3.部署时优化3.1图优化量化部署时,可以直接利用TensorRT的PTQ接口进行生成量化引擎,但是这种方法往往精度损失较大。因此,一般要先进行QAT,使量化模型精度满足业务需求,然后导出带有“Quant”、“DeQuant”节点的ONNX,最后再利用TensorRT构建量化引擎。我们发现这两种方案最终生成的图结构并不相同,导致部署模型的实际运行效率存在很大的差异,通常QAT方法生成的模型效率更低。我们在NVIDIAT4机器上对量化模型进行了对比测试(见下表5)。尽管QATINT8模型的QPS比FP16高了 27%,但是离PTQINT8还有较大差距。我们对此现象进行了细致的分析,发现原因是QAT引入的“Quant”,“DeQuant”节点打破了原有TensorRT的融合策略,导致了很多算子无法融合,从而影响了最终量化引擎的性能。在这一节中,我们以YOLOv6s_repopt为例,展示一种定位具体瓶颈的图优化方法。在量化实践中,图优化是一个很实用的手段,我们可以依法炮制,提升模型的QPS。算法2022年美团技术年货图 8permutationKernelPLC3 操作定位3.1.2图结构分析为什么QATINT8 会有大量的permutationKernelPLC3操作?我们利用trtexec和pltEngine工具,画出了PTQINT8和QATINT8的计算图,并进行了仔细的分析。下图9是其中一个子图的对比:算法2022年美团技术年货通过分析ONNX图结构,我们发现了 QATINT8 引擎中neck.reduce_layer1.conv输出为FP32,并且为两个分支保留了 quantize_scale_node的原因。因为neck.upsample1.upsample_transpose分支的输入量化scale为0.083,而neck.Rep_n3.conv1分支的输入量化scale为0.105,这两个节点输入尺度是不同的,导致neck.reduce_layer1.conv无法直接输出为INT8。可以看出,对于同一个输出,输入到多路分支后为何scale不同的,原因是右边的分支经过了concat操作,会导致输出的数据分布发生变化,再进行激活校准(ActivationCalibration)时,会得到的不同的最佳截断值(ActivaitionMax)。3.1.3图结构优化根据上面的分析,如果一个节点的输出,输入到不同的分支节点中,并且分支节点的量化scale不同,则quantize_scale_node节点无法融合,进而导致了额外的开销。如何解决这个问题?我们使用了一个简单的方法,就是强制使所有分支节点的量化scale相同(根据经验,在同一数量级上的scale可以安全合并),即直接修改QAT网络中的Quantizer节点的参数。我们整理了YOLOv6s_repopt中所有需要进行scale融合的节点(如表7所示),由于TensorRT的8bit的量化范围是-127,127,所以只需要将多路分支的ActivationAmax设为同一个值,一般取多路分支中的最大值。算法2022年美团技术年货图 11图优化后 INT8 图节点变化我们测试了经过图优化的QAT模型,QPS达到了528,性能非常接近PTQ的556,而且mAP依然保持优化前的42.1%。表 8图优化后 QPS 对比3.2线上服务优化我们在NVIDIAT4服务器上进行了端到端的吞吐测试,利用“多实例”并发处理的技术,YOLOv6s_repoptINT8QPS达到了552,相较FP16提升了 40%。我们对服务器的各项指标进行了监测,发现此时T4GPU的利用率只有95%,还有压榨空间,而16核CPU利用率已经超过了1500%,几乎满负荷运转。我们推测整个线上服务的“瓶颈”可能在CPU,而图片预处理会使用大量CPU资源。表 9服务器资源配置算法2022年美团技术年货图 13使用 DALI 后吞吐测试提升对比4.总结综上所述,本文基于YOLOv6V1.0版本,以YOLOv6s为例探讨了基于重参数化结构设计的2D检测模型的量化难点和具体方案,在模型精度基本保持的前提下,通过量化加速,提升了约40%的QPS。部署时的预处理优化则额外提升了214%,极大地提升了工业部署吞吐能力。下表列出了本文尝试的方法及叠加效果。算法2022年美团技术年货表 12YOLOv6-S V2.0 量化效果我们希望通过分享本文的实践,进一步推动最新通用目标检测算法的落地。未来,我们会和业界同行一道,探索更优的量化方案,持续提升量化精度和推理速度,助力降本增效,深化业务价值。5.参考文献1YOLOv6:又快又准的目标检测框架开源啦2RepVGG:MakingVGG-styleConvNetsGreatAgain,https:/arxiv.org/abs/2101.036973ReOpt:Re-parameterizingYourOptimizersratherthanArchitectures4SNR:https:/HeritageHealth 奖金高达三百万美元。目前,Kaggle 比赛在艾滋病研究、棋牌评级和交通预测等方面均取得了突出成果,得益于此,Kaggle 平台后来被 Google 公司收购。ACMSIGKDD(国际数据挖掘与知识发现大会,简称KDD)是数据挖掘领域的国际顶级会议。KDDCup 比赛是由 SIGKDD 主办的数据挖掘研究领域的国际顶级赛事。从 1997 年开始,每年举办一次,是目前数据挖掘领域最具影响力的赛事。该比赛同时面向企业界和学术界,云集了世界数据挖掘界的顶尖专家、学者、工程师、学生等参加,为数据挖掘从业者们提供了一个学术交流和研究成果展示的平台。通过分析不难发现,KDDCup 举办 20 年来,一直紧密结合工业界前沿与热点问题,演进主要分为三个阶段。第一阶段从 2002 年左右开始,专注于互联网的热点推荐系统方面问题,包括推荐、广告,行为预测等;第二阶段聚焦在传统行业问题,比较关注教育、环境、医疗等领域;而在第三阶段,自2019年以来,重点关注非监督问题,例如 AutoML、Debiasing、强化学习等问题,这类比赛的共同特点是通过以前方法难以解决现有的新问题。这三个阶段趋势也一定程度反应着当前工业界与学术界的难点与重点,无论从方式、方法,还是从问题维度,都呈现出从窄到宽,从标准向非标准演进的趋势。图 2KDD Cup 近 20 年问题趋势本文会先介绍笔者的 7 次 KDDCup/Kaggle 比赛冠军的方案与理解,问题涉及推荐、广告、交通、环境、人工智能公平性等多个领域问题。接着会介绍在以上比赛中发挥关键作用的 AutoML 技术框架,包括自动化特征工程,自动化模型优化,自动化算法2022年美团技术年货2.1推荐系统问题本节主要介绍 KaggleOutbrainAdsClickPrediction 和 KDDCup2020Debias-ing 比赛。二者任务都是面向用户下一次点击预估问题,但因为应用场景与背景的不同,存在着不同的挑战:前者的数据规模庞大,涉及到数亿个用户在千级别数量异构站点上的数十亿条浏览记录,对模型优化、融合有着严格的要求;后者则尤为关注推荐系统中的偏差问题,要求参赛选手提出有效的解决方案,来缓解选择性偏差以及流行度偏差,从而提高推荐系统的公平性。本节将分别介绍这两场比赛。KaggleOutbrainAdsClickPrediction:基于多层级多因子的模型融合方案竞赛问题与挑战:竞赛要求在 Outbrain 网页内容发现平台上,预估用户下一次点击网页广告,具体参考:KaggleOutbrain 比赛介绍详情26。参赛选手会面对以下两个重要挑战:异构性:平台提供需求方平台(DSP)广告投放服务,涉及到用户在数千个异质站点上的行为刻画。超高维稀疏性:特征高维稀疏,数据规模庞大,包含了 7 亿个用户、20 亿次浏览记录。基于多层级多因子的模型融合方案:针对本次赛题的挑战,我们队采用了基于多层级多因子的模型融合方案来进行建模。一方面对于异构站点行为,单一模型不易于全面刻画,另一方面,亿级别的数据规模给多模型的分别优化带来了较大的空间。由于 FFM 具有强大的特征交叉能力以及较强的泛化能力,能更好地处理高维稀疏特征。因此,我们选择该模型作为融合基模型的主模型。模型融合通过不同模型学习到有差异性的内容,从而有效挖掘用户在不同站点上的异质行为。模型融合的关键是产生并结合“好而不同”的模型34。基于多层级多因子的模型融合方案首先通过模型差异性、特征差异性多个角度来构造模型之间的差异性,然后通过多层级以及使用基学习器的多特征因子(模型 pCTR 预估值、隐层表征)进行融合:算法2022年美团技术年货赛题只提供点击数据,构造候选集时需要考虑选择性偏差问题。不同商品热度差异大,商品历史点击次数呈现一个长尾分布,数据存在严重的流行度偏差问题,并且评估指标NDCG50_half用于考察低热度商品的排序质量。基于 i2i 游走的 Debiasing 排序方案:我们的方案为基于 i2i 建模的排序框架。如图所示,整体流程包含四个阶段:i2i 构图与多跳游走、i2i 样本构建、i2i 建模以及 u2i 排序。前两个阶段解决了选择性偏差问题,后两个阶段则侧重于解决流行度偏差问题。图 4基于 i2i 的建模框架第一个阶段是基于用户行为数据和商品多模态数据构建 i2i 图,并在该图上多跳游走生成候选样本。这种方式扩大了商品候选集,更好地近似系统真实候选集,缓解了选择性偏差。第二个阶段是根据不同 i2i 关系计算 i2i 候选样本的相似度,从而决定每种 i2i 关系下候选样本的数量,最终形成候选集。通过不同候选的构造方法,探索出更多有差异的候选商品,可以进一步缓解选择性偏差问题。第三个阶段包括基于 i2i 样本集的自动化特征工程,以及使用流行度加权的损失函数进行消除流行度偏差的建模。自动化特征工程中包含了商品多模态信息的刻画,这类信息能够反应商品在热度信息以外的竞争关系,能够一定程度上缓解流行度偏差问题。而流行度加权的损失函数定义如下:算法2022年美团技术年货如图 5 所示,站点 2 在 05-05 以及 05-06、05-07 之间存在大量的波动和突变。空间性:不同站点上污染物浓度有明显差异,并且和站点之间的拓扑结构相关联。如图所示,站点 1、2 的波形有较大差别,但是在 05-07 产生了相同的凸起。图 5时空挑战图基于 Spatial-temporalGatedDNN 与 Seq2Seq 的模型融合方案9:为了强化时间序列和空间拓扑的建模,我们引入了 Spatial-temporalGatedDNN 与 Seq2Seq两个模型,并与 LightGBM 一起构建模型融合方案,具体如下。(1)Spatial-temporalGatedDNN:对于时序问题而言,由于未来预测临近时间点的统计特征值差异较小,直接使用 DNN 模型会使得不同小时和站点的预测值差异性小,因此我们在 DNN 中引入 Spatial-temporalGate 来突出时空信息。如下图 6所示,Spatial-temporalGatedDNN 采用了双塔结构,拆分了时空信息和其他信息,并且通过门函数来控制和强调时空信息,最终能够提高模型对时空的敏感度,实验中发现引入 swish 激活函数 f(x)=x sigmoid(x)能提升模型精度。算法2022年美团技术年货进行拼接以及归一化,从而实现时空联合建模。图 7Seq2Seq 模型(3)模型融合:我们队采用了 Stacking 融合的方式,单个学习器通过不同模型、数据、建模方式来构建差异性。LightGBM 模型使用了天气质量、历史统计、空间拓扑等特征,Spatial-temporalGate 则是引入了门结构,强化了时空信息。Seq2Seq利用序列到序列的建模方式,刻画了序列的连续性、波动性。最后使用了基于约束的线性模型将不同的单个学习器进行融合。更多详情,大家可参考 SIGKDD 会议论文:AccuAir:WinningSolutiontoAirQualityPredictionforKDDCup2018。KDDCup2017TrafficFlowPrediction:基于交叉验证降噪与多损失融合的高稳定性交通预测方案竞赛问题及挑战:竞赛目标是以 20 分钟为时间窗口,给定前 2 小时高速公路入口到关卡的行驶状况,预测未来 2 小时的行驶状况,具体可参考:KDDCup2017 比赛介绍详情29。竞赛根据行驶状况的不同,分为了行驶时间预测和交通流量预测两个赛道。参赛选手需要解决以下两个挑战:算法2022年美团技术年货助模型关注于小值同时更鲁棒,损失使用 MAE、MSE 等多种,样本权重上利用标签对样本进行加权等,我们在 XGBoost、LightGBM、DNN 上引入这些处理生成多个不同模型进行模型融合,优化极值点问题,达到鲁棒效果。备注:特别感谢共同参加 KDDCup2017 的陈欢、燕鹏、黄攀等同学。2.3自动化机器学习问题自动化机器学习问题10主要包括 KDDCup2019AutoML 和 KDDCup2020AutoGraph 比赛。该类问题,一般具有以下三个特性:数据多样性强:15 个数据集,来源于不同领域问题,且不会标识数据来源,要求选手设计的自动化机器学习框架能够兼容多领域的数据,并对不同领域数据做出一定的适配。自动化的鲁棒性:公共排行榜与私有榜评测数据不一样,最终评分按照多个数据集的平均排名/得分得到,要求能够在不曾见过的数据集上得到鲁棒的结果。性能限制:与现实问题搜索空间有较大对应,需要在有限时间和内存上求解。KDDCup2020AutoGraph:基于代理模型的自动多层次图学习优化方案竞赛问题及挑战:自动化图表示学习挑战赛(AutoGraph)是第一个应用于图结构数据的 AutoML 挑战,详情请见 KDDCup2020AutoGraph比赛介绍30。竞赛选择图结点多分类任务来评估表示学习的质量,参与者需设计自动化图表示学习 11-13解决方案。该方案需要基于图的给定特征、邻域和结构信息,高效地学习每个结点的高质量表示。比赛数据从真实业务中收集,包含社交网络、论文网络、知识图谱等多种领域共 15 个,其中 5 个数据集可供下载,5 个反馈数据集评估方案在公共排行榜的得分,剩余 5 个数据集在最后一次提交中评估最终排名。算法2022年美团技术年货基于代理模型的自动化多层次模型优化14图 10AutoHEnsGNN 框架多类别层次化图模型优化:(1)候选图模型的生成:现实世界中的图通常是多种属性的组合,这些属性信息很难只用一种方法捕捉完全,因此,我们使用了基于谱域、空域、Attention 机制等多种不同类型的模型来捕捉多种属性关系。不同模型在不同数据集上效果差异较大,为了防止后续模型融合时加入效果较差的模型,会对 GCN、GAT、APPNP、TAGC、DNA、GraphSAGE、GraphMix、Grand、GCNII 等候选模型进行快速筛选,得到模型池。(2)层次模型集成:这部分共包含两个维度的集成。第一层为模型自集成,为了解决图模型对初始化特别敏感,同种模型精度波动可达 1%的问题,采用了同模型的自集成,同时生成多个同种模型,并取模型预测的平均值作为该种模型的输出结果,成功降低了同种模型方差,提高了模型在不同数据集上的稳定性。第二层为不同模型集成,为了有效地利用来自本地和全球邻域的信息,充分捕获图的不同性质,我们采用加权集成了不同种类的图模型,进一步提高性能。同时针对在参数搜索阶段,需要同时优化模型内参数,以及多种模型加权集成参数,使用模型集成参数和模型内参数通过互迭代的梯度下降进行求解,有效提升了速度。算法2022年美团技术年货3.AutoML 技术框架3.1自动化框架概述图 12AutoML 整体框架经过上述的多场比赛,团队在多领域建模中不断总结与优化,抽象出其中较为通用的模块,总结得到针对数据挖掘类问题时的一套较为通用的解决方案AutoML 框架。该框架包含数据预处理,自动化特征工程15和自动化模型优化16-20三个部分。其中数据预处理部分主要负责特征分类、数据编码、缺失值处理等常见的基础操作,不过多展开。主要针对 AutoML 框架的自动化特征工程和自动化模型优化两个部分进行详细介绍。算法2022年美团技术年货进行高阶组合,基于 K 阶(K=1)的 K 1 高阶组合循环迭代,能够产出大量人为考虑不足的高阶特征。高阶特征算子按多实体结果是否完全匹配,分为 Match 方式匹配全部实体,All方式匹配部分实体,得到另一实体的全部值的计算结果,这样两种特征产出方式。下图中举例说明,Match 方式匹配用户与时间段两个实体,得到用户在该时间段的平均订单价格;All 方式则只匹配用户,得到用户在所有时间段的平均订单价格。图 14高阶算子特征产出方式相较于 DeepFM、DeepFFM 等算法,自动化特征工程具有三个方面的优势。首先在存在多表信息的情况下,容易利用非训练数据的信息,如在广告场景中,通过特征可以利用自然数据的信息,相比直接使用自然数据训练,不容易产生分布不一致等问题;其次,只通过模型自动交叉学习,对于某些强特征交叉没有手动构造学习得充分,许多显示交叉特征如用户商品点击率等往往有较强的业务意义,让模型直接感知组合好的特征往往比自动学习特征间的关系更为简单;第三方面对于许多高维度稀疏ID 特征,如亿级别以上的推荐或广告场景中,DeepFM、DeepFFM 对于这些特征的学习很难充分,自动化特征工程能给这些稀疏 ID 构造很强的特征表示。算法 样本不平衡率 叶子数 行列采样等。DNN:学习率 Embedding 维度 全连接层数和大小。值得一提的是,超参搜索在整个迭代过程中会进行多次,同时迭代前期与迭代后期参数搜索策略也有所不同,迭代前期,一般会选择更大的学习率,更小 Embedding 维度和全连接层数等,降低模型参数量加快迭代速度,而在后期则选择更多参数,获得更好的效果。模型融合:模型融合的关键点在于构造模型间的差异性,LightGBM 和 DNN的模型本身差异性较大,同种模型中差异性主要体现在,数据差异、特征差异、超参差异三个方面。数据差异主要通过自动化行采样实现,自动生成不同数据采样的模型;特征差异通过自动化列采样,生成特征采样的模型;超参差异通过高优参数扰动生成,在最优局部进行参数组网格局部扰动。模型融合方562022年美团技术年货法一般 Blending、Stacking 或简单 MeanPooling 等,融合前进行需要进行模型粒度剪枝(去除效果较差的模型避免影响融合效果)与正则化。3.4AutoML 框架近期实战:MDDCup2021 美团外卖图谱推荐比赛冠军方案在 2021 年 8-9 月美团举行的内部算法比赛 MDDCup2021 中,美团到店广告平台质量预估团队应用了 AutoML 框架并获得了冠军。下面结合这场比赛,介绍框架在具体问题中的应用。MDDCup2021 需要参赛者根据用户、商家在图谱中的属性、用户的历史点击、实时点击以及下单行为,预测下次购买的商家。包含四周的 135 万个订单行为,涉及20 万个用户,2.9 万个商家,17.9 万个菜品,订单关联菜品数据共 438 万条,构成知识图谱。使用 Hitrate5 作为评价指标。数据预处理阶段:进行特征分类、异常值处理、统一编码等操作。主要涉及用户(用户画像特征等)、商家(品类、评分、品牌等)、菜品(口味、价格、食材等)三种实体数据及点击、购买(LBS、价格、时间等)两类交互数据,对原始数据进行特征分类、数据编码、缺失值处理等常见预处理操作。自动化特征工程:一、二阶特征算子,首先对于类别、数据、时序、标签四类原始特征,按照可抽象的三种实体及两类交互数据进行一、二阶特征交叉,运用频数编码、目标编码与时序差分算子操作,在多时段上统计得到一、二阶统计特征。举例说明,如频数编码可计算用户点击某商家的次数、用户购买商家品类的 nunique 值,用户在某场景的下单数量等。目标编码可计算用户的平均订单价格,用户点击次数最多的商家品类等。时序差分可计算如用户购买某口味菜品的平均时间差等。多时段统计则意味着上述特征均可在不同时段上计算得到。算法2022年美团技术年货4.通用建模方法与理解本节会就比赛的通用建模方法进行介绍,即面对一个新问题,如何进行快速高效的整体方案设计。4.1建模框架与方法在面对新问题时,我们主要将技术框架分为以下三个阶段,即探索性建模、关键性建模、自动化建模。三个阶段具有逐渐深化,进一步补充的作用。图 17三阶段算法建模探索性建模:比赛前期,首先进行问题理解,包括评估指标与数据表理解,然后进行基础的模型搭建,并线上提交验证一致性。在一致性验证过程中往往需要多次提交,找到同线上指标一致的评估方式。探索性建模的核心目标是要找到迭代思路与方法,所以需要对问题做多方面探索,在探索中找到正确的方向。一般在非时序问题,采用 N-fold 方法构造多个验证集,并可以灵活变换生成种子,得到不同的集合。而在时序问题,一般会采用滑窗方式,构造同线上提交时间一致的验证集,并可以向前滑动 k 天,来构造 k 个验证集。在多个验证集评估中,可以参考均值,方差,极值等参考指标综合评估,得到同线上一致的结果。关键性建模:比赛中期,会就关键问题进行深挖,达成方案在榜单 Top 行列,在问题理解方面,会尽可能就评估方式进行损失函数自定义设计。分类问题优化,可以结合 Logloss、AUCLoss21、NDCGLoss 等不同损失函数进算法2022年美团技术年货实际系统。在空气质量预测中,我们采用了时空结合的 Spatial-temporalGatedDNN 网络进行有效建模,同空气质量问题相接近,在美团的实际业务中也面临着时空相结合的建模问题,以用户行为序列建模为例。我们对用户的历史时空信息和当前时空信息进行了充分的建模和交互24。我们分辨出用户行为的三重时空信息,即:用户点击发生时的时间、用户请求发出的地理位置、用户所点击的商户的地理位置。基于上述三重时空信息,我们提出 Spatio-temporalActivatorLayer(如图 19):三边时空注意力机制神经网络来对用户历史行为进行建模,具体通过对请求经纬度信息、商户经纬度信息和请求时间的交互进行学习。针对空间信息交叉,我们进一步采用地理位置哈希编码和球面距离相结合的方式;针对时间信息交叉,我们也采用绝对与相对时间相结合的方式,有效实现用户行为序列在不同时空条件下的三边表达。最后,经上述网络编码后的时空信息经过注意力机制网络融合,得到 LBS 场景下用户超长行为序列对不同请求候选的个性化表达。相比较而言,比赛中的 Spatial-temporalGatedDNN 更注重时空融合信息对于预测值的影响,由于需要预测的时间序列问题,更侧重于不同的时间、空间信息有能够将差异性建模充分。而在美团业务中的时空网络注重于细粒度刻画空间信息,源于不同的球面距离,不同的区块位置影响大,需要多重信息深度建模。更多详情,大家可参考团队的 CIKM 论文:TrilateralSpatiotemporalAttentionNetworkforUserBehaviorModelinginLocation-basedSearch23。算法2022年美团技术年货特征之间交叉,组合等复杂问题。而在小数据下,因为噪音多,不稳定性强,核心问题是模型的鲁棒。高数据敏感性是方案设计的关键。方差与偏差的平衡是后期指导优化的关键从误差分解角度去理解,平方误差可以分解为偏差(Bias)与方差(Variance)25,在中前期模型复杂度较低时,通过提升模型复杂度,能够有效减低偏差。而在偏差已经被高度优化的后期,方差的优化是关键,因此在后期会通过 Emsemble 等方式,在单模型复杂度不变的基础上,通过模型融合优化结果。AutoML 的关键是人为先验的不断减少在运用 AutoML 框架的同时,会有一些超参数等隐蔽的人为先验,把 AutoML 技术也以模型视角来理解,同样存在模型复杂度越高越容易过拟合的问题,迭代中的一个关键问题不是评估效果的好坏,而是方案是否存在不必要的超参数等信息,能否不断地简化 AutoML 的建模,不断地自动化,自适应适配各类问题。最后,也特别感谢 ConvolutionTeam、NomoTeam、GetmaxTeam、AisterTeam 等队伍的队友们。总结本文基于笔者 7 次算法比赛的冠军经历,分享推荐系统、时间序列及自动化机器学习等不同领域比赛中的算法经验,接着结合具体问题介绍 AutoML 技术框架,最后总结比赛中通用的建模方案,结合工业界方案介绍其与比赛的联系。希望文章中的一些算法比赛相关经验能够帮助算法爱好者更好地参与竞赛,能为大家提供一些思路,启迪更多的工程师与研究员在实际工作中取得更优结果。未来,我们团队将持续关注国际算法竞赛,积极进行比赛思路与工业方案结合的尝试,同时也欢迎大家加入我们团队,文末附有招聘信息,期待你的邮件。算法2022年美团技术年货16 YaoShu,WeiWang,andShaofengCai.2019.UnderstandingArchitecturesLearntbyCell-basedNeuralArchitectureSearch.InInternationalConferenceonLearningRepresentations.17 KaichengYu,ReneRanftl,andMathieuSalzmann.2020.HowtoTrainYourSuper-Net:AnAnalysisofTrainingHeuristicsinWeight-SharingNAS.arXivpreprintarXiv:2003.04276(2020).18 HaixunWang,WeiFan,PhilipSYu,andJiaweiHan.2003.Miningconcept-driftingdatastreamsusingensembleclassifiers.InProceedingsoftheninthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.226235.19 RobiPolikar.2006.Ensemblebasedsystemsindecisionmaking.IEEECircuitsandsystemsmagazine6,3(2006),2145.20 ChengshuaiZhao,YangQiu,ShuangZhou,ShichaoLiu,WenZhang,andYanqingNiu.2020.GraphembeddingensemblemethodsbasedontheheterogeneousnetworkforlncRNA-miRNAinteractionprediction.BMCgenomics21,13(2020),112.21 RosenfeldN,MeshiO,TarlowD,etal.LearningStructuredModelswiththeAUCLossandItsGeneralizations.22ChenT,TongH,BenestyM.xgboost:ExtremeGradientBoostingJ.2016.23 Qi,Yi,etal.“TrilateralSpatiotemporalAttentionNetworkforUserBehaviorModelinginLocation-basedSearch”,CIKM2021.24广告深度预估技术在美团到店场景下的突破与畅想.25 GeurtsP.BiasvsVarianceDecompositionforRegressionandClassificationJ.SpringerUS,200526KaggleOutbrain 比赛链接:https:/KDDCup2020Debiasing 比赛链接https:/比赛链接:https:/www.biendata.xyz/competition/kdd_2018/.29 KDDCup2017 比 赛 链 接:https:/比赛链接:https:/www.automl.ai/competitions/3招聘信息美团到店广告平台算法团队立足广告场景,探索深度学习、强化学习、人工智能、大数据、知识图谱、NLP 和计算机视觉前沿的技术发展,探索本地生活服务电商的价值。主要工作方向包括:触发策略:用户意图识别、广告商家数据理解,Query 改写,深度匹配,相关性建模。质量预估:广告质量度建模。点击率、转化率、客单价、交易额预估。机制设计:广告排序机制、竞价机制、出价建议、流量预估、预算分配。创意优化:智能创意设计。广告图片、文字、团单、优惠信息等展示创意的优化。算法2022年美团技术年货图神经网络训练框架的实践和探索作者:付浩宪鹏祥洲玉基徐灏梦迪武威1.前言万物之间皆有联系。图作为一种通用的数据结构,可以很好地描述实体与实体之间的关系。例如,在社交网络中,用图来表示用户与用户之间的好友关系;在电商网站中,用图表示用户与商品之间的点击购买行为;在知识图谱构建中,还可以用图表示实体与实体间多样的关系。另一方面,深度学习技术在计算机视觉、自然语言处理、语音处理等领域均已取得了巨大的成功。深度学习技术将图像、文本、语音等多种多样的数据转化为稠密的向量表示,提供了表示数据的另一种方式。借助于硬件日益强大的计算能力,深度学习可以从海量数据中学习到数据之间复杂多样的相关性。这会让人不禁思考,深度学习能否应用到更广阔的领域,比如图?事实上,早在深度学习兴起之前,业界就已经开始了图嵌入(GraphEmbedding)技术的探索1。早期的图嵌入算法多以启发式的矩阵分解、概率图模型为主;随后出现了以DeepWalk2和 Node2vec3为代表的、较为“浅层”的神经网络模型;最后,以GCN4为代表的一系列研究工作,打通了图信号处理与神经网络之间的壁垒,奠定了当前基于消息传递机制的图神经网络(GNN:GraphNeuralNetwork)模型的基本范式。近年来,图神经网络逐渐成为学术界的研究热点之一5。在工业界,图神经网络在电商搜索、推荐、在线广告、金融风控、交通预估等领域也有诸多的落地应用,并带来了显著收益。由于图数据特有的稀疏性(图的所有节点对之间只有少量边相连),直接使用通用的深度学习框架(例如 TensorFlow 和 PyTorch)训练往往性能不佳。工欲善其事,必先利其器。针对图神经网络的深度学习框架应运而出:PyG(PyTorchGeometric)6和DGL(DeepGraphLibrary)7等开源框架大幅提升了图神经网络的训练速度,并且算法2022年美团技术年货(3)与业务系统无缝对接。图神经网络的完整落地流程至少包括:基于业务数据构图、离线训练和评测模型、线上推理、业务指标观测等步骤。要让图神经网络技术成功落地应用,需要充分理解业务逻辑和业务需求,统一并高效地管理业务场景。同样以美食推荐场景为例,线上日志记录了曝光、点击、下单等行为事件,知识图谱提供了商家和菜品丰富的属性数据,如何从这些异质的数据构造图,要结合业务实际多次实验确定。合适的工具能提升对接业务数据的效率,然而现有的图神经网络框架大多聚焦在模型的离线训练和评测,缺乏此类工具。(4)研发人员易于上手,同时提供充足的可扩展性。从研发效率的角度来说,自建图神经网络框架的目的是减少建模中的重复工作,让研发人员的精力集中在业务本身的特性上。因此,一个“好用”的图神经网络框架应当易于上手,通过简单地配置即能完成多数任务。在此基础上,对于一些特殊的建模需求,也能提供适当的支持。1.2美团的解决方案美团搜索与 NLP 团队在搜索、推荐、广告、配送等业务的长期落地实践中,总结实践经验,自主设计研发了图神经网络框架 Tulong 以及配套的图学习平台,较好地解决了上述问题。首先,我们对当前流行的图神经网络模型进行了细粒度的剖析,归纳总结出了一系列子操作,实现了一套通用的模型框架。简单修改配置即可实现许多现有的图神经网络模型。针对基于子图采样的训练方式,我们开发了图计算库“MTGraph”,大幅优化了图数据的内存占用和子图采样速度。单机环境下,相较于 DGL 训练速度提升约 4 倍,内存占用降低约 60%。单机即可实现十亿节点百亿边规模的训练。围绕图神经网络框架 Tulong,我们构建了一站式的图学习平台,为研发人员提供包括业务数据接入、图数据构建和管理、模型的训练和评测、模型导出上线等全流程的图形化工具。算法2022年美团技术年货(1)图以及深度学习引擎我们把图神经网络的底层算子分为三类:图结构查询、稀疏张量计算和稠密张量计算。我们开发了图计算库 MTGraph 提供图数据的存储和查询功能,深度优化了内存占用和子图采样速度。MTGraph 兼容 PyTorch 和 DGL,用户可以在 MTGraph 的基础上直接编写基于 DGL 的模型代码。(2)Tulong 框架Tulong 框架首先封装实现了训练图神经网络所需的基本组件,包括图和特征数据的预处理流程、子图采样器、通用的 GNN 模型框架,以及包括训练和评测在内的基础任务。基于上述组件,Tulong 框架提供丰富的预定义模型和训练/推理流程,用户通过修改配置文件即可在业务数据上训练和评测 GNN 模型。(3)图学习平台图学习平台旨在简化离线的模型开发和迭代过程,同时简化业务系统的对接流程。图学习平台提供一系列的可视化工具,简化从业务数据接入到模型上线的全流程。下文将从模型框架、训练流程框架、性能优化和图学习平台等四个方面详细介绍各个模块的分析和设计方案。3.模型框架我们从工程实现的角度,归纳总结了当前主流图神经网络模型的基本范式,实现一套通用框架,以期涵盖多种 GNN 模型。以下按照图的类型(同质图、异质图和动态图)分别讨论。3.1同质图同质图(HomogeneousGraph)可以定义为节点集合和边集合:,一条边表示节点 u 与节点 v 相连。节点和边上往往还附加有特征,我们记$xv 为节点为节点 v 的特征,的特征,x(u,v)为边为边(u,v)$的特征。算法2022年美团技术年货学术引用网络13中包含论文、作者、机构等类型的节点,节点直接通过“论文引用其他论文”、“作者撰写论文”、“作者属于机构”等类型的边相连,如下图 2 所示:图 2同质图与异质图的比较我们把异质图视为多个二分图的叠加,每一个二分图对应于一种边类型。上述的学术引用网络可以表示成“论文-引用-论文”、“作者-撰写-论文”、“作者-属于-机构”,共计三个二分图,同质图的 GNN 模型框架稍加修改即可在二分图上应用。在此基础上,一个节点在不同的二分图中会产生不同的表示。我们进一步提出边类型维度的聚合函数,用于聚合节点在不同二分图中的表示(如下图 3 所示)。框架中同样提供边类型纬度聚合函数的多种实现,可以通过配置选项调用。例如,要实现RGCN,可以在二分图上应用 GCN,然后在边类型维度上取平均。算法2022年美团技术年货图 4离散时间动态图 GNN 模型框架在连续时间动态图中,每条边附有时间戳,表示交互事件发生的时刻。相比于静态图,连续时间动态图中的消息函数还依赖于给定样本的时间戳以及边的时间戳。此外,邻居节点必须与时间有关,例如邻居节点中不能出现 t 时刻之后才出现的节点。针对此问题,我们开发了多种连续时间动态图上的邻居节点采样器,可以在指定的时间范围内,高效地采样邻居节点。图 5连续时间动态图 GNN 模型框架以上分析了同质图、异质图和动态图的计算范式,我们从中抽取出通用的函数(算子),包括消息函数、聚合函数、更新函数、邻居节点函数,并给出多种预定义的实现。框架用户通过配置选项即可拼装组合算子,从而实现需要的 GNN 模型。算法2022年美团技术年货更上一层,我们提供多种流程配置模板和 GNN 模型模板。模板对外暴露若干超参,例如训练数据路径、模型类型、学习率等参数,结合用户指定的超参后就可以完整定义一次训练任务。换言之,基于模板和参数即可完整复现一次 GNN 模型实验。框架将会解析这些配置,并生成可执行的应用。举例来说,用户可以选择 GraphSage 模型的配置模板,以及链接预测任务的训练模板,指定模型层数和维度,以及训练评测数据路径,即可开始训练基于 GraphSage的链接预测模型。5.性能优化随着业务的发展,业务场景下图的规模也愈发庞大。如何以合理的代价,高效训练数十亿乃至百亿边规模的 GNN 模型成为亟需解决的问题。我们通过优化单机的内存占用,以及优化子图采样算法,来解决这一问题。5.1图数据结构优化图数据结构的内存占用是制约可训练图规模的重要因素。以 MAG240M-LSC 数据集13为例,添加反向边后图中共有 2.4 亿节点和 35 亿边。在基于子图采样的训练方式下,PyG 和 DGL 单机的图数据结构均需要占用 100GB 以上的内存,其它开源框架的内存占用往往更多。在更大规模的业务场景图上,内存占用往往会超出硬件配置。我们设计实现了更为紧凑的图数据结构,提升了单机可承载的图规模。我们借助图压缩技术降低内存占用。不同于常规的图压缩问题,GNN 的场景下需要支持随机查询操作。例如,查询给定节点的邻居节点;判断给定的两个节点在图中是否相连。我们对此提出的解决方案包括两部分:图数据预处理和压缩:首先分析图的统计特征,以轻量级的方式对节点进行聚类和重新编号,以期让编号接近的节点在领域结构上也更为相似。随后调整边的顺序,对边数据进行分块和编码,产生“节点-分块索引-邻接边”层次的图数据文件(如下图 7 所示)。最后,如果数据包含节点特征或边特征,还需要算法2022年美团技术年货图 8图数据结构内存占用对比5.2子图采样优化子图采样是 GNN 模型训练的性能瓶颈之一。我们发现在某些业务图中,子图采样的耗时甚至占训练整体的 80%以上。我们分别针对静态图和动态图,设计实现了多种高效的邻居节点采样算法。主要的优化手段包括:随机数发生器:相比于通信加密等应用,图上的采样对于随机数发生器的“随机性”并没有苛刻的要求。我们适当放松了对随机性的要求,设计实现了更快速的随机数发生器,可以直接应用在有放回和无放回的采样操作中。概率量化:有权重的采样中,在可接受的精度损失下,将浮点数表示的概率值量化为更为紧凑的整型。不仅降低了采样器的内存消耗,也可以将部分浮点数操作转化为整型操作。时间戳索引:动态图的子图采样操作要求限定边的时间范围。采样器首先对边上的时间戳构建索引,采样时先根据索引确定可采样边的范围,然后再执行实际的采样操作。算法2022年美团技术年货间内共同点击商家的关系。除此之外,还可以引入额外的数据,比如商家的地理位置、商家在售的菜品等。究竟使用何种构图方案,需要经过实验才能确定。对此,图学习平台提供了图形化的构图工具(如下图 10 所示),帮助用户梳理构图方案;同时还提供图数据集的版本管理,方便比较不同构图方案的效果。图 10图形化的构图工具实验管理:确定图数据之后,建模方案和训练策略是影响最终效果的关键。例如,应该用何种 GNN 模型?损失函数如何选取?模型超参和训练超参如何确定?这些问题也需要经过大量实验才能回答。基于 Tulong 框架,建模方案和训练策略可以通过一组配置来控制。图学习平台提供配置的可视化编辑器和版本管理功能,方便比较不同的方案的优劣。流程管理:有了图数据集和建模/训练方案后,还需要让整个流程自动化。这是模型上线的必要条件,同时也有利于团队成员复现彼此的方案。图学习平台针对常见的“构图、训练、评测、导出”流程提供了自动化的调度,在适当的时候可以复用前一阶段的结果,以提升效率。例如,如果数据集的定义没有变算法2022年美团技术年货onneuralnetworksandlearningsystems32,no.1(2020):4-24.6https:/Xu,Keyulu,ChengtaoLi,YonglongTian,TomohiroSonobe,Ken-ichiKawarabayashi,andStefanieJegelka.“Representationlearningongraphswithjumpingknowledgenetworks.”InInternationalConferenceonMachineLearning,pp.5453-5462.PMLR,2018.11 Hochreiter,Sepp,andJrgenSchmidhuber.“Longshort-termmemory.”Neuralcomputation9,no.8(1997):1735-1780.12https:/Sankar,Aravind,YanhongWu,LiangGou,WeiZhang,andHaoYang.“Dysat:Deepneuralrepresentationlearningondynamicgraphsviaself-attentionnetworks.”InProceedingsofthe13thInternationalConferenceonWebSearchandDataMining,pp.519-527.2020.15Xu,Da,ChuanweiRuan,EvrenKorpeoglu,SushantKumar,andKannanAchan.“Inductiverepresentationlearningontemporalgraphs.”InternationalConferenceonLearningRepresentations(2020).16https:/Wang,Minjie,DaZheng,ZihaoYe,QuanGan,MufeiLi,XiangSong,JinjingZhouetal.“Deepgraphlibrary:Agraph-centric,highly-performantpackageforgraphneuralnetworks.”arXivpreprintarXiv:1909.01315(2019).18 Fey,M.andLenssen,J.E.“FastgraphrepresentationlearningwithPyTorchGeometric.”InICLRWorkshoponRepresentationLearningonGraphsandManifolds,2019.19 Schlichtkrull,Michael,ThomasN.Kipf,PeterBloem,RiannevandenBerg,IvanTitov,andMaxWelling.“Modelingrelationaldatawithgraphconvolutionalnetworks.”InEuropeansemanticwebconference,pp.593-607.Springer,Cham,2018.招聘信息美团搜索与 NLP 部/NLP 中心是负责美团人工智能技术研发的核心团队,使命是打造世界一流的自然语言处理核心技术和服务能力,依托 NLP(自然语言处理)、DeepLearning(深度学习)、KnowledgeGraph(知识图谱)等技术,处理美团海量文本数据,为美团各项业务提供智能的文本语义理解服务。NLP 中心长期招聘自然语言处理算法专家/机器学习算法专家,感兴趣的同学可以将简历发送至:(邮件主题:美团搜索与 NLP 部)。算法2022年美团技术年货图 1场景化用户行为决策示例场景化建模在本质上,是在给定场景条件下,比如地理位置、餐段时间、天气等,基于用户兴趣为用户匹配出最佳商品。围绕场景化建模这一目标,业界从不同角度进行了一系列技术探索:特征建模:构造用户-商品-场景交互的统计特征/交叉特征,例如:用户在午餐时段的品类偏好、用户夜宵时段点击商户数量统计等。序列建模:分场景行为序列,精细化刻画在不同场景下的用户兴趣,例如:用户在不同蜂窝下的 Session 行为,在不同时间段的 Session 行为。以上建模方法能够建模场景因素在用户决策商品时的影响,但存在一些问题:特征建模,尤其是特征交叉的过程中,容易引入噪声,会对模型学习产生负面影响。序列建模,依赖于用户行为的丰富程度,在分场景行为划分下对低频用户的兴趣刻画不友好,同时高频用户的兴趣刻画容易陷入个人兴趣封闭圈。交叉和序列范式对场景的刻画并不完整,交叉范式存在维度上限,序列范式局限于用户已有行为偏好。因此,场景化建模存在以下挑战:如何抽取有效场景特征交叉。算法2022年美团技术年货强泛化:利用图网络的消息传播机制,图上节点丰富信息更容易传播到冷门节点上,提高冷门节点表达能力。从业界信息表示的发展趋势来看,信息表示是在升维的:从手工特征,到序列建模,再到图建模,背后是对更加完整信息的有效刻画的诉求。手动特征时代:基于行为日志统计挖掘用户/商家/商品画像。缺点是刻画粒度较粗、不精准、表达能力有限。NeuralNetwork(NN)序列模型时代:基于原始行为序列设计用户兴趣提取模块端到端学习用户兴趣。优点是一定程度从多峰和动态演变方面提升了用户兴趣表达的准确性。缺点是较难学习到结构化信息,对于行为数据强依赖,头部用户行为密集,中长尾用户行为稀疏。GraphNeuralNetwork(GNN)时代:万物皆图。序列可以看做是一个子图,相比于序列,图结构数据对于信息的表达,更加结构化、完整、丰富。在日常业务优化中我们也发现,如果说要找到一种形式化的建模语言能够准确、完整的翻译出我们的业务场景,那么呈现出来的建模语言就是“图”。图 2信息表示的发展历程因此,我们期待通过图技术手段,实现外卖场景下的场景建模。以下我们将从图算法探索和具体工程实践落地两大方面,阐述我们在图技术场景建模上的尝试及经验。2.图技术的场景化探索外卖场景化是指基于用户-商家/商品完整交互信息(User、POI、Time、Loca-算法)中挖掘到的共性 Pattern。我们通过构建用户-商家/商品交互场景图来刻画和提取这个 Pattern,并将场景先验知识引入到预估模型当中辅助决策。业界已经有前沿探索将 GNN 应用于 LBS 场景建模,如美团平台的 STGCN2从时空结合的角度描述了 LBS 场景下 GNN 应用,外卖数据组的“门控超图 GNN”3描述了超图在外卖 LBS 场景化建模的应用;对比普通 GNN 方法都取得了 SOTA 的效果。针对美团外卖的场景化建模特点,我们在图算法上也进行了一系列探索,分别在场景特征交叉、子图拓展感知、元路径场景图三个方面,围绕着在不同场景下的用户-POI 建模的目标,进行了多方面的探索,在离线评估、线上业务上均取得了不错的效果。2.1基于特征图的场景特征交叉建模2.1.1场景特征交叉特征是机器学习模型的源动力,业界常言“特征的上限决定了模型的上限”。NN 时代以前,模型效果的提升有很大一部分来自于特征工程。随着模型进入 NN 时代,NN模型具备的拟合能力以及在数据红利的加持下,极大地减少了算法工程师们在特征工程上的精力开销,工作重点开始聚焦于模型结构。虽然理论上 NN 可以拟合一切函数,但在有限的数据和训练周期内,无法快速地逼近效果上限。在这种背景下,显式特征交叉重新得到大家的关注,围绕自动交叉特征,业界陆续迭代出 FM/xDeepFM/DCN/CAN 等模型,并取得了非常好的效果。在美团外卖场景,也经历了第一阶段的手动交叉特征,以及第二阶段的自动交叉特征。但在场景化建模中我们发现:交叉特征带来了信息增益,但往往也会带来“噪声”问题;比如具体到样本粒度来说,不同类型的样本所需要的有效交叉特征并不是完全一致,存在差异性。近两年业界的一些工作,如 Fi-GNN、L0-SIGN、阿里FIVES 等,也都在对应的业务中发现全量信息交叉引入噪声问题。因此,从迭代思路来看,希望能够引入更多的交叉特征,同时也减少噪声信息的引入,实现在样本粒度的“个性化”交叉特征。882022年美团技术年货2.1.2图视角的特征交叉特征交叉,可以抽象为“从全量特征集中,选择出 K 组特征两两组合,实现给模型带来高效非线性表达能力的目的”。本质上可以看做是特征-特征之间二部图的关系预测:将特征看作节点,特征之间的关联关系看作边,则可以将所有特征之间的关联关系构成一张图网络。两个节点连边的权重,可看作对应特征之间交叉关系的强弱。通过将此关系图嵌入到模型训练过程中,关系图中不同边权即反映了不同特征交叉的重要程度。每个样本中 N 个特征互相之间构成一个全连通图记为 M,图中的每个顶点表示特征F,顶点之间的边表示任意两个特征 Fi 和 Fj 的关联度,记为 M。通过联合训练关系图和预估模型,更新参数矩阵 M,使关系图的语义信息与预估模型保持相关性和一致性,主要过程如下图 3 所示:图 3特征交叉图建模过程主要步骤可描述如下:Step1.建立参数矩阵(随机初始化得到),对特征所对应的向量表示做点积,结果作为关联系数。Step2.对矩阵施加 L0 惩罚,用于限制矩阵 M 的参数尽量接近 0,减少无用的场景交叉。Step3.参数矩阵 0,1 化,用于确定需要参与聚合的节点。Step4.图聚合,对于每个特征来说,与其存在交互的多个特征进行聚合操作,聚合方式使用 Attention。Step5.将聚合后的特征向量表示,做为该特征新的向量表示,用在下游 CTR预估的联合训练中。算法2022年美团技术年货户行为的 POI 是有重叠的,整个外卖场景下的不同 POI 簇之间通过这些重叠的 POI链接,就可以形成一张 POI 网络。对于任意一个 POI,我们都可以从 POI 行为网络中,寻找到该 POI 的一跳、二跳邻居,这些邻居可以作为 POI 信息的相关补充。这样,对于用户的行为兴趣刻画,不仅仅局限在用户已有的序列上,而是可以通过子图进一步扩展。相比传统序列建模方法,图网络建模可以利用全局用户行为互联的高阶网络结构,借助 POI 序列扩展用户兴趣:对于行为稀疏用户,通过全局行为互联图,补充用户兴趣建模线索。缓解基于密集用户行为建模产生的马太效应,跳出历史行为探索潜在兴趣,提升推荐结果泛化性。具体的,针对用户行为序列中的每一个 POI,都可以通过子图进行扩展,扩展后的子图通过卷积的方式形成 POI 的向量表示,如下图(左)所示。通过行为序列的扩展,使用户行为得到补充,从而得以跳出用户个人兴趣局限,丰富用户和 POI 的信息表达。图 4子图卷积扩展到感知卷积在 POI 子图的基础上,我们进一步思考如何有效地聚合不同 POI,达到子图信息更加完整的表达。建模不同 POI 之间强弱不同的关联关系,使用 Attention 结构动态分配确定POI 在所属子图中的贡献度。考虑到 POI 子图是由 Session 构建的,用户的行为序列存在差异,相应地算法2022年美团技术年货2.3基于元路径的场景图建模2.3.1从业务特点出发-元路径建模的初衷我们对用户决策过程进行抽象,将用户 User 与商户 POI 在给定 Context 环境下的一次交互定义为一个事件(Event),多个用户和 POI 交互的结果定义为事件链(EventChain)。对于多个强相关的事件链(不同事件链通过公共节点连接),就构成了一个场景,而场景之间的 User、POI 主体又存在连接,这样延展开,实际上就构成了一个“场景”拓扑网络图,如下图所示:图 6事件与事件链抽象示例可以看到,实际上事件链组成的“场景”是一种异构图:比如具备某些属性(消费频率、餐饮偏好等)的用户 U,在某个上下文 C 下(时间、地点等),点击/购买了具备某些属性(品类、主营菜品等)的商户 P,这个决策过程实际上是个最简单的U-C-P 元路径。事件链是在这个元路径的基础上继续扩展,得到的更长的元路径实例(U-C1-P2-C2-U)。通过事件链,可以建立起场景要素的关系链接,而对场景的完整刻画,就是对场景要素表示和要素关系的抽取。至此,我们将场景化建模,抽象为异构图上元路径建模问题。接下来,我们将介绍如何在这个场景图上,实现对用户决策场景的建模。2.3.2到业务中去-元路径建模的实现元路径 UCPCU 表达的语义为:不同用户在不同时空场景下,点了同一家商户,当然不同场景需求可以定义不同的元路径。为了进一步融合元路径中丰富的语义表达,仅仅依赖单一的元路径的话,所表达的语义会受到限制。我们从用户 U 出发,通过该元算法2022年美团技术年货3.工程实践落地3.1场景图 CTR 模型主结构在模型结构设计的过程中,我们按照”低耦合、高内聚、可插拔、无依赖“的原则,将“行为子图拓展模块”、“元路径场景子图模块”、“特征图交叉模块”三个子方向迭代作为独立模块接入到模型中。图 8场景图 CTR 模型主结构3.2基于子图扩展的行为图联合训练在“基于子图扩展的行为图建模”中,对于每个请求在线模块都需要进行“行为序列长度*邻居数”次向量查询和计算,当行为序列较长时对在线 CTR 预估服务来说会存在较大的 RT 挑战。考虑 POI 之间的”全局行为互联图”和用户的长期兴趣较为稳定,因此针对长期行为子图拓展采用基于行为 POI 和采样子图进行聚合不依赖候选 TargetPOI,短期行为子图拓展方案仍然采用 2.2.2 中方案根据序列和候选 TargetPOI 动态计算,长短期 POI 使用不同的 Embedding 空间。基于此上线方案采取长期行为子图离线计算 在线查询的思想,离线计算用户长期行为序列子图 Embedding 并灌库,在线查询算法2022年美团技术年货Step2.拆分子图查询模块,聚合 Embedding,灌库训练完成后,将原有子图查询模块拆分,再对长期行为中全量 POI 做一次子图POI-Embedding 聚合操作,得到行为 POI 的子图 Embedding。灌库阶段,将长期行为子图 POI 的 Embedding 和其他特征的 Embedding 写入 Redis 存储中。Step3.对联合训练的模型进行重构导出生成新的线上 Serving 模型将长期行为“子图扩展的行为图模块”中子图聚合计算重构为直接查询 Embedding表征,线上从 Step2 灌库的结果中查取 Embedding。这样避免线上大量卷积操作的耗时,线上实验验证,高峰期 TP99 与 TP999 新增模块耗时基本持平。3.3场景子图模块基于元路径的场景图建模是采用元路径 Metapath 的方式来表示 CTR 任务样本中的用户子图和商家子图,采样子图来自预选构建好的 User、POI、Context(Context节点包含了蜂窝、餐段信息)异构行为场景图。3.3.1离线异构图构建由于 Context 会同时连接 User 与 POI,在异构图上 Context 节点会成为超级节点(能够连接一个蜂窝内几乎全部的 User 和 POI),POI 类型节点也可能成为超级节点(连接区域内所有 Context 节点);当出现了普遍的超级节点后,会导致图上游走采样困难、噪声加剧。我们在设计构建 Context 节点以及异构边时防止了这一问题:Step1.Context 节点作为时空上下文,贯穿用户和门店;细化 Context 节点(比如包含蜂窝、餐段、品类),那么 User 与 Context 的连接边、Context 与POI 的连接边都会大大减少。Step2.不同 User 可能通过 Context 节点跳转到不同 POI 上,为了防止采样时从 User 节点出发的 Path 跳转到不相关的 POI 上,Context 节点最好能够体现用户兴趣(品类信息其实就是一种)。算法150 次)和低频(过去一个月在外卖点击 POI 次数 2022年美团技术年货Base 模型 AB 实验)的线上指标(点击率,CTR/商品交易额(GrossMerchandiseVolume,GMV)。同时,我们还按照高低频用户分别统计了三级品类的人均曝光数量,对比基线的人均曝光数量。CTRGMV人均曝光品类数量低频用户 1.58% 1.08% 0.02 品类高频用户 2.68% 1.94% 0.3 品类从上表结果可以看出:低频和高频用户的 CTR 和 GMV 均有提升,证明感知子图卷积能够有效捕捉高低频场景,实现场景化下用户兴趣刻画。低频和高频用户人均曝光品类数量均有提升,并且高频用户的人均品类增加更多,说明具备更好的兴趣挖掘探索能力,能够帮助高频场景用户跳脱已有的兴趣圈。3.4.2特定时空场景感知为验证场景图模型对于不同场景的识别和刻画能力,进一步对比引入场景图联合建模对比无场景图在时间品类和空间需求下的感知变化(以下多组统计结果均为多天/同时段累计结果)。3.4.2.1时间品类场景奶茶品类是下午时段的热销品类,从曝光转化比来看在下午茶时段较高且时段效应明显,我们统计了某业务奶茶品类上多天同时段,曝光数量占该时间段总曝光数量的比例,并比较实验组相比基线的涨幅情况,从时段上看,实验组在下午茶时间段(14-16 时)奶茶曝光比例上升,而晚间正餐期间曝光比例减少,说明场景图模型的品类时段感知能力得到加强并且在流量选择上趋向优质流量,模型上线后在奶茶品类上的整体后验 CTR 指标表现正向。算法2022年美团技术年货图 11超市便利分天曝光对比4.总结和展望与传统电商推荐不同,外卖推荐呈现出场景化的特点:供给受 LBS 强约束、用户决策链路短、易受所处环境影响,因此场景化建模是外卖推荐亟需解决的问题。图网络技术已经在学术界和工业界进行了较为深入的探索,在美团外卖场景化建模中遇到的挑战,我们也通过图技术进行了相应的优化求解,分别通过场景特征图交叉、场景序列子图扩展、元路径场景图,在交叉特征去噪、突破用户兴趣封闭圈、完整场景图刻画方面进行了探索。在算法落地上,考虑到线上的耗时问题,我们在 Serving 阶段拆分重构长期行为子图,在不改变模型结果的情况下减少了计算复杂度,满足了线上的性能要求。图技术的场景化落地虽然取得了一定的收益,但仍然存在一些问题需要解决,例如特征图交叉在算力约束下,只能满足部分特征交叉;对于场景的元路径刻画仍然依赖于先验人工定义,尚未走上“自动驾驶”之路,未来我们会持续进行探索。算法2022年美团技术年货大规模异构图召回在美团到店推荐广告的应用作者:齐裕祥洲等1.引言美团到店推荐广告技术部服务于到店餐饮、休娱亲子、丽人医美等众多本地生活服务商家。其中,召回环节作为推荐广告系统的第一个环节,承担着从海量商品中寻找优质候选的角色,是算法优化的核心问题之一。推荐系统中经典的召回范式有两类:基于标签构建倒排索引的显式召回和基于模型端到端建模用户兴趣的隐式召回。在隐式召回中,历史交互行为建模对于准确刻画用户兴趣非常关键。电商场景中,用户与商家、商品之间的交互关系适合通过图网络来表达。相较于传统模型,图神经网络可以构建用户与商品间的多种交互关系,然后借助高阶网络结构的传递性合理扩充用户行为的丰富度,将用户行为、用户基础属性和商品的内容属性等各种异质信息在统一的框架中进行融合,带来更大的效果空间。美团到店推荐广告算法团队和 NLP 中心知识计算团队围绕图技术在推荐广告的应用进行了密切的合作,获得了线上效果的显著提升。本文主要介绍探索过程以及相关的实践经验。2.图神经网络简介图作为包含节点自身和节点间边关系的集合,广泛存在于真实世界的多种场景中,例如社交网络中人与人之间的社交关系图、推荐系统中用户与商品的交互图等。图神经网络能捕捉节点和边的特征及其之间的拓扑关系,对图结构数据有很好的建模效果。推荐系统中常用的图神经网络模型可以分为两大类:基于图游走的方法和基于图卷积的方法。基于图游走的方法:传统神经网络模型擅长处理欧式空间的数据,但难以建模图结算法2022年美团技术年货图 2单层 GCN 模型的公式演化GCN 从整图的角度出发,打通了原始图结构和神经网络之间的壁垒,但巨大的计算量使其难以应用到大规模场景中。相比之下,GraphSAGE4从图上节点的角度,提出了基于采样的消息传递范式,使得图神经网络在大规模图上的高效计算变得可行。GraphSAGE 中的 SAGE 指SAmpleandaggreGatE,即采样和聚合。下图 3 展示了 GraphSAGE 的采样聚合过程。图中左侧展示了对节点 A 使用两层采样器采样其一阶和二阶邻居,图中右侧展示了将采样得到的一阶二阶邻居的特征通过对应的聚合函数进行聚合,得到节点 A 的表征,进而可以使用 A 的表征计算包括节点分类、链接预测及图分类在内的多种图相关的任务。图 3GraphSage 模型的采样及聚合过程算法2022年美团技术年货业务中召回模型建模面临以下两大挑战:a.同场景反馈数据稀疏:传统序列行为建模方案依赖用户在同场景的反馈数据构造正负样本进行模型训练,但用户在推荐广告场景的交互行为比较稀疏,据统计超过一半的活跃用户在近 90 天内无广告点击行为,超过 40%的广告商品在近一个月没有被点击。如何解决反馈数据稀疏导致的用户兴趣刻画不准确、长尾商品学习不充分是我们面临的一大挑战。b.LBS 业务中不同时空场景下的兴趣刻画:到店业务中,用户在不同时间、空间下的浏览行为,往往有着完全不同的偏好。例如一个用户工作日在公司附近,可能感兴趣的就是一次方便的工作餐;在假期的家中,则会想找一个有趣的遛娃去处。但传统的图神经网络缺乏对用户请求时间和所处位置的实时感知能力。因此如何从图蕴含的丰富信息中挖掘出匹配当前时空场景的候选集合,同样是一大挑战。针对以上业务特点和挑战,我们设计了基于全场景数据高阶关系的大规模异构图建模,借助全场景丰富的行为数据优化稀疏问题;并进一步强化时空信息感知,刻画用户在不同时空上下文中的兴趣。4.图召回技术在推荐广告的演进4.1基于全场景数据高阶关系的大规模异构图建模团队之前的召回模型仅通过用户在广告场景的行为构造正负样本进行训练,这种方式提高了训练数据与预测场景的一致性,但也不可避免地产生用户兴趣刻画不准确、长尾商品推荐效果较差等问题。特别是召回作为推荐系统最上游环节,决定了全链路效果优化上限,我们期望借助图神经网络蕴含的强大表达能力,基于用户在全场景的行为数据全面刻画用户兴趣和商品信息。如图 5 所示,图网络分别产出用户(User)和商品(Item)的隐式表征(Embed-ding),通过距离相似度衡量用户对候选广告的潜在兴趣。在图神经网络的选型上,我们使用带 Attention 结构的 GAT5,使得邻居信息的贡献度可以根据其对源节算法2022年美团技术年货图 6全场景图构建流程图裁剪与噪声抑制:上文提到的异构图由于涵盖了用户在全场景的行为数据,数据规模庞大,给实际落地带来了巨大的算力和性能挑战。我们发现在图的拓扑结构中,各个节点的度分布极不均匀,部分热门节点的邻居个数可达几十万,由于训练过程中每个节点只采样固定个数的邻居参与计算,过多的邻居引入了许多噪声数据,也带来了不必要的资源开销。根据图数据背后的业务理解,我们对原始拓扑结构进行合理裁剪。具体来说:对于“User 点击 Item 边”,保留行为时间较近的 topN 条出边;对于“Item 共同点击边”,保留边权重较高的 topN 条出边。图裁剪后,节点数量保持不变,边数量减少 46%,训练内存开销降低 30%,并带来了约 0.68%的离线 Hitrate效果提升。图 7图裁剪示例(设图中 a b c)算法2022年美团技术年货上述 3 个优化点的迭代在多个主广告位落地,并在衡量广告营收的 RPS(RevenuePerSearch)指标提升约 5%。4.2强化时空信息感知的端到端异构图建模在 LBS 的业务中,时空信息是影响用户兴趣的重要因素。用户通常具有稳定的长期兴趣,但也会受到当前时空信息影响而呈现出多变的短期兴趣。因此,我们在 4.1 节介绍的全场景异构图建模的基础上进行升级。根据长期兴趣稳定、短期兴趣多变的特点,我们采用针对性措施分别建模时空信息对长短期兴趣的影响。如下图 9 所示,我们通过时空子图刻画用户在不同时空场景下的长期兴趣偏好,通过多因子协同激活的序列建模刻画用户在短期时空场景下的兴趣演变。值得注意的是,区别于将异构图预训练 Embedding 作为静态特征引入的两阶段训练方式,我们将模型各部分在相同的优化目标下进行一阶段端到端训练,避免优化目标不一致带来的效果损失。图 9强化时空信息感知的端到端异构图建模时空子图构建及多视角融合:用户在不同的时空下表现出不同的兴趣,举例来说,一个用户可能在工作日的办公室订购咖啡,而在休息日的健身房参加运动。仅使用全局算法2022年美团技术年货多因子协同激活的用户序列建模:我们将时间信息(当前时间与行为序列时间的差值)、位置信息(当前位置与行为序列位置的差值)作为激活因子来激活短期行为序列,捕捉用户兴趣随时空的迁移趋势。此外,图神经网络输出的用户长期兴趣向量,体现了用户在时间、位置等维度较稳定的兴趣偏好,也有利于从短期序列中提取出匹配当前时空场景的实时兴趣。使用时空信息及用户长期兴趣对用户短期行为序列进行激活时,涉及到多个因子协同激活的问题,业界常见的方案如下图 11 所示:图 11多因子协同激活在美团 LBS 的业务场景中,各个激活因子之间可能会相互影响,例如时间和地理位置两种激活因子对行为序列激活的侧重点存在差异。为了让多因子激活发挥最佳效果,我们结合离线指标选择“多因子融合激活”模式。多因子协同激活的用户序列建模带来了约 6.90%的离线 Hitrate 提升。值得一提的是,图神经网络挖掘的多阶关系能够丰富用户序列的表达。这种多阶关系不仅体现在商品和商品、用户和商品等粗粒度节点之间,也体现在时间、位置、类目等细粒度特征之间。因此,我们对特征产出流程进行了升级改造,使图神经网络中的商品节点能够与用户行为序列在特征维度共享 Embedding 词典,并基于统一的优化目标端到端训练,帮助细粒度多阶信息更好地在图神经网络与用户序列间传递。上述 2 个优化点的迭代在多个主广告位落地,并在衡量广告营收的 RPS(RevenuePerSearch)指标提升约 5%。算法2022年美团技术年货6.总结与展望图神经网络对图结构的数据有很好的建模能力,能充分利用图节点的高阶邻居信息,在大规模推荐系统的召回模块中展现出巨大潜力,业界头部公司均有结合各自业务特点的图模型落地实践8910。本文介绍了大规模图召回技术在美团到店推荐广告的应用。基于对到店推荐广告场景特点的分析,我们在落地图召回技术时进行了对应的优化。在模型方面,为了解决广告反馈数据稀疏的问题,我们将全场景的数据融入到图模型中丰富用户兴趣表达,并结合图裁剪和动态负样本采样技术,累计提升 Hitrate 约 5.34%;为了加强对时空等LBS 动态场景信息的感知,我们通过时空子图模块刻画用户在不同时空下的兴趣,并进行多视角融合及长短期序列融合,累计提升约 10.55%。配合离线训练及在线计算的性能优化,我们成功在多个主广告位上落地,线上 RPS 累计提升 10%。未来我们还将在以下技术方向继续进行探索:1.多场景知识迁移到店广告场景众多,不同广告位维护不同的图召回模型带来的维护成本较大。多场景的联合训练既能丰富图数据,提升用户兴趣的刻画,又能将单个图召回模型应用到不同广告位,降低维护成本。但是用户在不同广告位下的行为存在差异,数据融合不当可能导致引入噪声,影响模型训练结果。如何在模型设计中刻画用户在不同广告位下行为的共同点和差异点,是需要重点考虑的内容。2.动态图技术用户兴趣随着时间空间不断发生着改变。动态图模型可以将时空等动态信息构建到图结构中,相比人为划分长期兴趣与短期兴趣,动态图可以更灵活地感知用户兴趣的变化,更贴合 LBS 业务的特点。7.作者简介齐裕、李根、少华、张腾、程佳、雷军,来自美团到店事业群/广告平台技术部。祥洲、梦迪、武威,来自美团平台/搜索推荐算法部 NLP 中心。算法2022年美团技术年货美团搜索粗排优化的探索与实践作者:晓江所贵李想曹越培浩肖垚达遥陈胜云森利前1.前言众所周知,在搜索、推荐、广告等大规模工业界应用领域,为了平衡性能和效果,排序系统普遍采用级联架构1,2,如下图1所示。以美团搜索排序系统为例,整个排序分为粗排、精排、重排和混排层;粗排位于召回和精排之间,需要从千级别候选item集合中筛选出百级别item集合送给精排层。图 1排序漏斗从美团搜索排序全链路视角审视粗排模块,目前粗排层优化存在如下几个挑战点:样本选择偏差:级联排序系统下,粗排离最后的结果展示环节较远,导致粗排模型离线训练样本空间与待预测的样本空间存在较大的差异,存在严重的样本算法2022年美团技术年货型,比如阿里巴巴1,2。下文主要介绍美团搜索在粗排升级为NN模型过程中的相关优化工作,主要包括粗排效果优化、效果&性能联合优化两个部分。3.粗排优化实践随着大量的效果优化工作5,6在美团搜索精排NN模型落地,我们也开始探索粗排NN模型的优化。考虑到粗排有严格的性能约束,直接将精排优化的工作复用到粗排是不适用的。下面会介绍关于将精排的排序能力迁移到粗排的精排联动效果优化工作,以及基于神经网络结构自动搜索的效果和性能trade-off优化工作。3.1精排联动效果优化粗排模型受限于打分性能约束,这会导致模型结构相比精排模型更加简单,特征数量也比精排少很多,因此排序效果要差于精排。为了弥补粗排模型结构简单、特征较少带来的效果损失,我们尝试知识蒸馏方法7来联动精排对粗排进行优化。知识蒸馏是目前业界简化模型结构并最小化效果损失的普遍方法,它采取一种Teacher-Student范式:结构复杂、学习能力强的模型作为Teacher模型,结构较为简单的模型作为Student模型,通过Teacher模型来辅助Student模型训练,从而将Teacher模型的“知识”传递给Student模型,实现Student模型的效果提升。精排蒸馏粗排的示意图如下图2所示,蒸馏方案分为以下三种:精排结果蒸馏、精排预测分数蒸馏、特征表征蒸馏。下面会分别介绍这些蒸馏方案在美团搜索粗排中的实践经验。算法2022年美团技术年货策略 1:在用户反馈的正负样本基础上,随机选取少量精排排序靠后的未曝光样本作为粗排负样本的补充,如图3所示。该项改动离线Recall150(指标解释参看附录) 5PP,线上CTR 0.1%。图 3补充排序结果靠后负例策略 2:直接在精排排序后的集合里面进行随机采样得到训练样本,精排排序的位置作为label构造pair对进行训练,如下图4所示。离线效果相比策略 1Recall150 2PP,线上CTR 0.06%。图 4排序靠前靠后构成 pair 对样本算法2022年美团技术年货3.1.3特征表征蒸馏业界通过知识蒸馏实现精排指导粗排表征建模已经被验证是一种有效提升模型效果的方式7,然而直接用传统的方法蒸馏表征有以下缺陷:第一是无法蒸馏粗排和精排之间的排序关系,而前文已提到,排序结果蒸馏在我们的场景中,线下、线上均有效果提升;第二是传统采用KL散度作为表征度量的知识蒸馏方案,把表征的每一维独立对待,无法有效地蒸馏高度相关的、结构化的信息9,而在美团搜索场景下,数据是高度结构化的,因此采用传统的知识蒸馏策略来做表征蒸馏可能无法较好地捕获这种结构化的知识。算法2022年美团技术年货案同时优化粗排模型的效果和性能,选择出满足粗排时延要求的最佳特征组合和模型结构,整体架构图如下图 7 所示:图 7基于 NAS 的特征和模型结构选择下面我们对其中的神经网络架构搜索(NAS)以及引入效率建模这两个关键技术点进行简单介绍:算法2022年美团技术年货通过神经网络架构搜索的建模来联合优化粗排模型的效果和预测性能,离线Recall150 11PP,最终在线上延时不增加的情况下,线上指标CTR 0.12%;详细工作可参考13,已被KDD2022接收。4.总结从2020年开始,我们通过大量的工程性能优化使粗排层落地MLP模型,在 2021年我们继续在MLP模型基础上,持续迭代粗排模型来提升粗排效果。首先,我们借鉴业界常用的蒸馏方案来联动精排优化粗排,从精排结果蒸馏、精排预测分数蒸馏、特征表征蒸馏三个层面分别进行了大量实验,在不增加线上延时的情况下,提升粗排模型效果。其次,考虑到传统蒸馏方式无法很好处理排序场景中的特征结构化信息,我们自研了一套基于对比学习的精排信息迁移粗排方案。最后,我们进一步考虑到粗排优化本质上是效果和性能的trade-off,采用多目标建模的思路同时优化效果和性能,落地神经网络架构自动搜索技术来进行求解,让模型自动选择效率和效果最佳的特征集合和模型结构。后续我们会从以下几个方面继续迭代粗排层技术:粗排多目标建模:目前的粗排本质上还是一个单目标模型,目前我们正在尝试将精排层的多目标建模应用于粗排。算法2022年美团技术年货5https:/LiuY,JiaX,TanM,etal.Searchtodistill:PearlsareeverywherebutnottheeyesC/ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2020:7539-7548.12 CaiH,ZhuL,HanS.Proxylessnas:DirectneuralarchitecturesearchontargettaskandhardwareJ.arXivpreprintarXiv:1812.00332,2018.13https:/arxiv.org/abs/2205.09394招聘信息搜索推荐算法部/基础算法组是负责美团搜索研发的核心团队,使命是打造世界一流的搜索引擎,依托 DeepLearning(深度学习)、NLP(自然语言处理)、KnowledgeGraph(知识图谱)等技术,处理美团海量用户、商家、商品数据,不断加深对用户、场景、查询和服务的理解,高效地支撑形态各样的生活服务搜索,解决搜索结果的多业务混排、相关性、个性化等问题,给用户极致的搜索体验。搜索推荐算法部长期招聘搜索推荐算法专家,感兴趣的同学可以将简历发送至:(邮件主题:美团平台/搜索推荐算法部)。算法2022年美团技术年货图 1某地区高消费用户在工作日和周末的差异性就餐习惯美团外卖推荐需要满足“用户X时间X地点”等情境下的需求总和,应对需求的不断拓展和演化。为了更好的理解我们所面对的用户需求,如下图2所示,将其定义到一个魔方内(MagicCube),用户、时间和地点是魔方的三个维度。其中,魔方中的每个点,如图2中黄色点,代表一个用户在一个特定情境下的需求;魔方中的每个小立方体,如图2中黄色立方体,代表一组相似用户在一组相近情境下的需求。此外,在问题定义上,为了支持情境维度的进一步扩展,我们使用超立方体(HyperCube)来定义更多维度的用户需求。图 2“用户 X 时间 X 地点”等情境下的需求总和面对以上这种三维模式,模型设计是非常棘手的。以往的模型设计,比如用户兴趣建模,或者朴素的多层神经网络无法应对这些复杂的用户、时间和地理环境纠缠在一起的情况。用户兴趣建模通常采用连续建模方法,通过注意力机制提取重要行为偏好信算法2022年美团技术年货通过对信息独有性的刻画和信息共性的相互传递,实现全部流量的效率提升。3.情境化智能流量分发“情境细分 统一模型”的实现思路主要分为用户行为序列建模与专家网络结构两个组成部分,模型整体架构如图3所示:图 3情境化智能流量分发模型该模型通过Cube检索出特定细分情境下的用户行为进行序列建模,并且通过专家网络模型自动化对不同情境参数进行学习,保持了模型统一,既能刻画情境的独特性,也能实现不同情境间的知识共享和迁移。具体的,在用户行为序列建模上,首先仔细考虑了细粒度行为特征对于外卖商家推荐的重要作用,并以此为基础,根据时间、空间场景对用户序列进行长序列多路情境检索;对于专家网络结构,则先针对不同入口情境建立基于Attention机制的多入口情境建模,随后探索了情境化稠密MMOE和稀疏MMOE模型,发现在外卖场景中,专家网络可以学习到不同情境、不同任务的差别,进而提升模型精度。基于该方案,对于CTR、CXR(CTCVR)任务,模型在离线指标AUC、GAUC(perSessionAUC)上均取得了显著提升,并在线上也取得了UV_RPM、UV_算法2022年美团技术年货3.1.1细粒度行为特征不同于电商中的商品推荐形式,美团外卖推荐是以商家为主体,用户从进入商家到最终下单过程中具有更加丰富的细粒度行为,通过捕捉用户在商家中的细粒度行为,可以精细感知到用户差异化偏好,如注重品质商家的用户会更多查看商家/商品描述和评论,而折扣敏感度高的用户则会查看折扣信息、领取优惠券等。工业实践中,用户行为序列特征往往包含商家/商品ID、品类、价格等商家/商品表示特征,而在行为表示上除了用户到商家的点击之外,用户通过什么页面进入到商家点菜页、用户在商家点菜页中的细粒度行为,同样可以反映用户的偏好。因此,可以对用户从浏览商家到最终下单整个流程进行归纳分析,捕捉用户最细腻的行为并纳入模型,充分学习用户在外卖场景中重要的、最细粒度的行为及其所代表的意图偏好。我们将用户从浏览商家到成单商品的全流程抽取出70种不同的Micro-Behavior,总结归纳出四大步骤:定位商家、考察商家、挑选商品、结算提单。在归纳不同意图的Micro-Behavior时,综合考虑了该意图下Micro-Behavior的日均PV、当日转化率、行为跳转路径以及页面展示信息,并剔除了日均PV覆盖率小于1%的Micro-Behavior,将相同意图的行为聚合到一起作为特征表示(比如评价Tab点击、评价标签点击和用户评价缩略图点击聚合成“查看评论”意图表示),最终抽象出12种不同意图的Micro-Behavior,用来捕捉用户更深层次、更细粒度的兴趣。基于用户Micro-Behavior提炼出从进入商家到最终下单流程如下图4所示:算法2022年美团技术年货图 5Micro-Behavior 和转化率关系分别在用户实时(短周期行为)、历史(长周期行为)商家序列中引入Micro-Be-havior信息。如下表所示,离线实验数据表明,引入的Micro-Behavior信息取得了比较明显的提升。最终,细粒度行为特征在线取得了UV_RPM 1.77%,PV_CTR 1.05%的收益。优化方案CTRAUCCXRAUCCTRGAUCCXRGAUC序列引入Micro-Behavior信息 0.69pp 0.54pp 0.10pp 0.39pp离在线实验效果表明引入Micro-Behavior信息增加了模型的精准推荐能力。此外,我们进一步对模型是否正确的学习了细粒度行为进行验证。随机选取一个用户的成单商家及其商家序列引入Micro-Behavior后Attention权重变化,如下图6所示,图左上部分表示用户行为序列中的商家以及相应Micro-Behavior信息,图右上部分是序列中商家引入Micro-Behavior信息后所对应的Attention权重可视化,方块颜色越深则表示Attention权重越大,图下部分是用户的最终成单商家“鸿鹄一品跷脚牛肉”在引入不同Micro-Behavior信息后的商家排名。通过对比序列中商家引入Micro-Behavior观察Attention权重的变化:算法2022年美团技术年货3.1.2长序列多路情境检索美团外卖上线至今,已经积累了丰富的用户行为数据。将如此丰富的行为信息引入到模型中,是近期工业界和学术界的热门方向,我们在该方向上也进行了一系列探索。最初,我们直接将近三年的点击行为直接引入到模型中来,发现离线效果提升显著,但是带来的训练和推理的压力不可承受。在此基础上,借鉴了SIM4,将候选商家的品类ID当作Query,先从用户的行为序列中检索出相同品类的商家,再进行兴趣建模,离线取得了不错的收益。具体的,尝试过使用二级品类和叶子品类来分别做检索,在检索后根据分位点进行最大长度截断的情况下,二级品类检索出来的序列平均长度大约为X,而叶子品类因为品类划分过细,检索出来的序列平均长度大幅减少。根据离线实验评估,最终选择了使用二级品类进行检索,在离线取得了CXRGAUC 0.30pp的效果。对于检索条件中,像二级品类和叶子品类这种泛化性与精确性之间的tradeoff,我们目前正在进行更进一步的探索。为了进一步提升模型的效果,考虑到用户兴趣建模从DIN发展到SIM,都是根据候选商家、商品的属性,从用户的行为历史中提取对该候选商家、商品的兴趣,这在传统电商场景下是行的通的,因为用户对某一商家、商品的兴趣基本不会随着他所处位置、所处时段改变(用户要买手机壳,不会因为他在家还是在公司有改变,也不会因为他的购物时段是在早上还是晚上而改变)。但是餐饮外卖相较于传统电商,正如前面的问题与挑战中提到的,其鲜明的LBS和餐饮文化特色构成多种多样的情境,用户在不同的情境下对于不同的商家、商品的偏好是不一样的,是会变化的。因此,除了建模品类偏好外,还要进一步建模用户的地理位置偏好和时段偏好。对于地理位置偏好的建模,尝试了使用用户当前所处地理位置的geohash(一种地理位置编码,详见维基百科)/aor_id(蜂窝ID)作为Query来检索用户历史行为中相同geohash/aor_id的商家,也根据业务经验,直接从用户的历史行为中将到用户当前请求位置的距离小于C公里的商家全部检索出来,检索后序列的平均长度如下表1所示,根据离线实验评估,最终选择distanceC算法139km检索来建模用户的地理位置偏好。公里数C这个参数是根据业务经验统计得到的超参,考虑到不同的用户对于距离的容忍度可能是不一样的,如何对不同的用户在不同的情境下对该超参进行调整,还在积极探索中。对于时段偏好的建模尝试了两种检索方式:从用户的历史行为中,将与当前请求的meal_time(根据业务将一天划分为早餐、午餐、下午茶、晚餐和夜宵)或hour_of_day(行为小时时段)相同的商家检索出来。meal_time划分的粒度更粗,检索出来的商家更多,从下表中也可以看到其离线结果更好,成为了建模时段偏好的最终选择。很明显,meal_time检索和hour_of_day检索也存在泛化性与精确性之间的tradeoff问题。偏好类型说明检索后序列平均长度CTRGAUCCXRGAUC品类二级品类ID检索X 0.10pp 0.30pp品类叶子品类ID检索X-65 0.05pp 0.17pp地理位置distanceCkm检索Y 0.08pp 0.29pp地理位置aor_id检索Y-52 0.05pp 0.21pp地理位置geohash检索Y-43 0.07pp 0.23pp时段meal_time检索Z 0.12pp 0.24pp时段hour_of_day检索Z-41 0.07pp 0.19pp最后,我们将二级品类ID检索序列(品类偏好)、distance2022年美团技术年货图 7长序列多路情境检索最终,在离线取得了CTRGAUC 0.30pp,CXRGAUC 0.52pp的收益,在线上取得了UV_CXR 0.87%,UV_RPM 0.70%,PV_CTR 0.70%,首购订单占比 1.29%的收益。可以注意到上述长序列的引入,不仅带来了效率的提升,还带来了新颖性的提升,分析发现通过建模用户更长期的兴趣,扩展了模型的视野,不再集中于用户的短期兴趣,能更好地满足用户口味“短聚集,长多样”的特性。在后续的数据探查中,基于样本维度统计了二级品类ID检索序列、meal_time检索序列和distanceCkm检索序列的重合度情况。从下表可以看到,三者各自检索出的商家重合度确实非常的低,符合建模不同偏好的预期,也解释了为何三个序列叠加后,效果还是有增长的原因。比较序列重合度(=重合商家个数占各自检索后序列长度的比例)distanceCkm检索vs二级品类ID检索9.6%,12.5%distanceCkm检索vsmeal_time检索11.5%,20.3%二级品类ID检索vsmeal_time检索13.75%,18.6%然而,当前三路检索合并的版本,虽然可以对用户的品类偏好、地理位置偏好和时段偏好进行有效的建模,但还是存在两个比较明显的缺陷。首先,各路检索序列中还是算法2022年美团技术年货先缩小至1,只计算一次,然后与候选商家计算attention时再进行展开,通过计算图折叠,极大减小了线上序列部分带来的巨大计算开销。图 8用户序列计算图折叠3.2情境化多专家网络大部分工业界的CTR预估模型遵循传统Embedding&MLP范式,将用户兴趣向量、商家/商品表征和其他特征作为输入,通过朴素的多层神经网络学习特征、样本、标签之间的关系。另有学术界一些熟知的工作如PNN5、DeepFM6、xDeepFM7、DCN8等方法,都在努力建模特征间共现关系、特征的特异性、特征的层次结构关系、样本之间的关系等信息,并且在公开数据集和部分特定工业场景下取得显著效果。而在NLP领域,2018年10月,Google发布BERT9模型,刷新了11个NLP任务的最好水平,由此开启了NLP“大炼模型”时代,引爆了业界的研究热潮。专家混合(MixtureofExperts,MOE)模型被证明是通往容量更大、性能更强大的机器学习模型的有效途径。MOE是基于分而治之的原则建立的,其中问题空间在几个算法2022年美团技术年货动态地建模各个频道间的关系变得尤为重要。图 9外卖推荐基于多入口多任务学习网络结构 AutoAdapt 示意图我们通过实现多入口统一建模(AutoAdapt)解决以上挑战。具体的,设计了如图9所示的多入口情境专家模型,在模型结构的特征Embedding和多任务Tower之间构建了ShareExpert学习全部入口的信息,该Expert将始终处于激活状态;为了捕捉多入口之间的区别与联系,构建了DomainExtract模块,为每个入口设置一个由MLP组成的专家网络(Expert)。为了使每个入口对应的Expert可以充分建模私有的表达,在模型训练和推理时,对于入口i的样本或请求,根据入口ID激活其对应ExpertDi,该Expert产生的输出将Xi将直接输入到任务对应的Tower当中。对于一个入口的样本或请求,在保证该入口的Expert一定会被激活的情况下,以一定概率去激活其它入口的Expert,并对这些Expert的输出做Pooling抽取,从而有效地利用到其它入口的知识。很显然,入口间的相似程度、同一样本对不同入口知识的依赖程度都是不同的,为此增加了一个Query-KeyAttention模块去做动态概率激活。如图9中DomainExtract模块所示,对算法2022年美团技术年货图 10不同入口 Attention 权重热力图该解决方案不仅实现了首页Feed、美食“金刚”、甜点饮品等流量入口间模型的统一,同时也为各个入口带来了显著的离线指标收益和线上指标的增长。经过联合建模,小入口可以有效利用到首页Feed的丰富信息,使得线上和离线效果提升显著,此外,对于首页Feed,该方案同样有显著的效果提升,不同场景线上收益如下表所示:方法/不同入口UV_RPM提升首页Feeddomain1domain2domain3domain4domain5domain6domain7在线UV_RPM 0.97% 0.62% 0.77% 1.61% 0.99% 1.06% 1.28% 1.43%3.2.2情境化稠密MMOE专家网络是情境化建模的主要手段之一,模型可以根据不同情境自动选择需要激活的参数参与推理达到整体更高的精度水平。我们发现在Share-BottomCTR/CXR多目标结构基础上,引入MMOE结构可以带来显著的离线CTR/CXRAUC收益(如下表所示),可以发现当Experts数量达到64时,CTRGAUC和CXRGAUC分别有0.3pp与0.4pp左右的提升。算法2022年美团技术年货从所有N个Experts的输出中只选取K个(KN)进行后续计算。下表实验结果表明,采用32Experts对比4Experts在不同入口离线指标均有明显提升,同时TopKMMOE(32Experts选4)与FLOPs相同MMOE4Experts相比在不同入口都具有明显的优势,效果接近MMOE32experts。方法/不同入口 CXR GAUC 提升首页 Feeddo-main2domain 3domain6domain 7MMOE(4Experts) 0.18pp 0.13pp 0.25pp 0.41pp-0.37ppMMOE(32Experts) 0.33pp 0.29pp 0.37pp 0.46pp-0.03ppTopKMMOE(32Experts选4) 0.29pp 0.26pp 0.38pp 0.53pp 0.19pp继续分析稀疏MMOE是否能学到各个切片下的共性与差异性,对MMOE和TopKMMOE的CTR任务在各个domain上的ExpertGate分布进行可视化。可以发现,稀疏Top-K方法相比稠密方法,更能学到根据不同入口、不同时段、不同任务来选择不同的Expert进行serving。例如,针对不同的时段情境,图11中下午茶入口与早餐入口的分布明显不同、图12中首页入口的夜宵时段与非夜宵时段的分布明显不同;针对模型中不同的任务目标,如图13中CTR/CXR任务的分布也明显不同,这些都与实际中的业务认知相符,表明稀疏MMOE中不同专家学习到了不同情境、不同任务之间的差异性。图 11Top K MMOE 中 Expert Gate 在不同入口上的分布的可视化分析算法2022年美团技术年货升会快速衰减。因此,通过简单扩充专家数量来提升效果是不可取的,在未来将考虑结合AutoML、交叉网络等手段提高参数利用效率,寻求在推荐场景落地稀疏专家网络的工业级解决方案。5.本文作者瑞东、俊洁、乐然、覃禹、秀峰、王超、张鹏、尹斌、北海等,均来自到家事业群/到家研发平台/搜索推荐技术部。6.参考文献1ZhouG,ZhuX,SongC,etal.Deepinterestnetworkforclick-throughrateprediction.SIGKDD2018.2ZhouG,MouN,FanY,etal.Deepinterestevolutionnetworkforclick-throughrateprediction.AAAI2019.3PiQ,BianW,ZhouG,etal.Practiceonlongsequentialuserbehaviormodelingforclick-throughrateprediction.SIGKDD2019.4PiQ,ZhouG,ZhangY,etal.Search-baseduserinterestmodelingwithlifelongsequentialbehaviordataforclick-throughrateprediction.CIKM2020.5QuY,CaiH,RenK,etal.Product-basedneuralnetworksforuserresponseprediction.ICDM2016.6GuoH,TangR,YeY,etal.DeepFM:afactorization-machinebasedneuralnetworkforCTRprediction.arXiv:1703.04247,2017.7JianxunLian,etal.xdeepfm:Combiningexplicitandimplicitfeatureinteractionsforrecommendersystems.KDD2018.8WangR,ShivannaR,ChengD,etal.Dcnv2:Improveddeep&crossnetworkandpracticallessonsforweb-scalelearningtoranksystems.WWW2021.9DevlinJ,ChangMW,LeeK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXiv:1810.04805,2018.10 MaJ,ZhaoZ,YiX,etal.ModelingTaskRelationshipsinMulti-taskLearningwithMulti-gateMixture-of-experts.KDD2018.11 ShengXR,ZhaoL,ZhouG,etal.Onemodeltoserveall:Startopologyadaptiverecommenderformulti-domainctrprediction.CIKM2021.12 FedusW,ZophB,ShazeerN.SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity.arXiv:2101.03961,2021.13 ZophB,BelloI,KumarS,etal.Designingeffectivesparseexpertmodels.arXiv2202.08906,2022.14 ChenZ,DengHWuY,GuQ.TowardsUnderstandingMixtureofExpertsinDeepLearning.arXiv:2208.02813,2022.算法2022年美团技术年货大众点评搜索相关性技术探索与实践作者:校娅沈元朱迪汤彪张弓1.背景点评搜索是大众点评 App 的核心入口之一,用户通过搜索来满足不同场景下对生活服务类商户的找店需求。搜索的长期目标是持续优化搜索体验,提升用户的搜索满意度,这需要我们理解用户搜索意图,准确衡量搜索词与商户之间的相关程度,尽可能展示相关商户并将更相关的商户排序靠前。因此,搜索词与商户的相关性计算是点评搜索的重要环节。大众点评搜索场景面临的相关性问题复杂多样,用户的搜索词比较多样,例如搜索商户名、菜品、地址、类目以及它们之间的各种复杂组合,同时商户也有多种类型的信息,包括商户名、地址信息、团单信息、菜品信息以及其他各种设施和标签信息等,导致 Query 与商户的匹配模式异常复杂,容易滋生出各种各样的相关性问题。具体来说,可以分为如下几种类型:文本误匹配:在搜索时,为保证更多商户被检索和曝光,Query 可能会被拆分成更细粒度的词进行检索,因此会带来 Query 错误匹配到商户不同字段的问题,如图 1(a)所示的用户搜“生蚝火锅”应该想找汤底中包含生蚝的火锅,而“生蚝”和“火锅”分别匹配到商户的两个不同菜品。语义偏移:Query 与商户字面匹配,但商户与 Query 的主要意图在语义上不相关,如“奶茶”-“黑糖珍珠奶茶包”,如图 1(b)所示。类目偏移:Query 与商户字面匹配且语义相关,但主营类目与用户需求不符,例如用户搜索“水果”时一家提供“果盘”的 KTV 商户明显与用户的需求不相关。算法2022年美团技术年货型,并将 Query 与 POI 的相关性信息应用在搜索链路各环节。本文将从搜索相关性现有技术综述、点评搜索相关性计算方案、应用实战、总结与展望四个方面对点评搜索相关性技术进行介绍。其中点评搜索相关性计算章节将介绍我们如何解决商户输入信息构造、使模型适配点评搜索相关性计算及模型上线的性能优化等三项主要挑战,应用实战章节将介绍点评搜索相关性模型的离线及线上效果。2.搜索相关性现有技术搜索相关性旨在计算 Query 和返回 Doc 之间的相关程度,也就是判断 Doc 中的内容是否满足用户 Query 的需求,对应 NLP 中的语义匹配任务(SemanticMatching)。在大众点评的搜索场景下,搜索相关性就是计算用户 Query 和商户 POI 之间的相关程度。文本匹配方法:早期的文本匹配任务仅考虑了 Query 与 Doc 的字面匹配程度,通过 TF-IDF、BM25 等基于 Term 的匹配特征来计算相关性。字面匹配相关性线上计算效率较高,但基于 Term 的关键词匹配泛化性能较差,缺少语义和词序信息,且无法处理一词多义或者多词一义的问题,因此漏匹配和误匹配现象严重。传统语义匹配模型:为弥补字面匹配的缺陷,语义匹配模型被提出以更好地理解 Query 与 Doc 的语义相关性。传统的语义匹配模型主要包括基于隐式空间的匹配:将 Query 和 Doc 都映射到同一个空间的向量,再用向量距离或相似度作为匹配分,如 PartialLeastSquare(PLS)1;以及基于翻译模型的匹配:将 Doc 映射到 Query 空间后进行匹配或计算 Doc 翻译成 Query 的概率2。随着深度学习和预训练模型的发展,深度语义匹配模型也被业界广泛应用。深度语义匹配模型从实现方法上分为基于表示(Representation-based)的方法及基于交互(Interaction-based)的方法。预训练模型作为自然语言处理领域的有效方法,也被广泛使用在语义匹配任务中。算法2022年美团技术年货基于表示的深度语义匹配模型:基于表示的方法分别学习 Query 及 Doc 的语义向量表示,再基于两个向量计算相似度。微软的 DSSM 模型3提出了经典的双塔结构的文本匹配模型,即分别使用相互独立的两个网络构建 Query 和 Doc 的向量表示,用余弦相似度衡量两个向量的相关程度。微软 Bing 搜索的 NRM4针对 Doc 表征问题,除了基础的 Doc 标题和内容,还考虑了其他多源信息(每类信息被称为一个域 Field),如外链、用户点击过的 Query 等,考虑一个 Doc 中有多个 Field,每个 Field 内又有多个实例(Instance),每个 Instance 对应一个文本,如一个 Query词。模型首先学习 Instance 向量,将所有 Instance 的表示向量聚合起来就得到一个 Field 的表示向量,将多个 Field 的表示向量聚合起来得到最终 Doc 的向量。SentenceBERT5将预训练模型 BERT 引入到双塔的 Query 和 Doc 的编码层,采用不同的 Pooling 方式获取双塔的句向量,通过点乘、拼接等方式对 Query 和 Doc进行交互。大众点评的搜索相关性早期模型就借鉴了 NRM 和 SentenceBERT 的思想,采用了图 2(a)所示的基于表示的多域相关性模型结构,基于表示的方法可以将 POI 的向量提前计算并存入缓存,线上只需计算 Query 向量与 POI 向量的交互部分,因此在线上使用时计算速度较快。基于交互的深度语义匹配模型:基于交互的方法不直接学习 Query 和 Doc 的语义表示向量,而是在底层输入阶段就让 Query 和 Doc 进行交互,建立一些基础的匹配信号,再将基础匹配信号融合成一个匹配分。ESIM6是预训练模型引入之前被业界广泛使用的经典模型,首先对 Query 和 Doc 进行编码得到初始向量,再用 Attention机制进行交互加权后与初始向量进行拼接,最终分类得到相关性得分。引入预训练模型 BERT 进行交互计算时,通常将 Query 和 Doc 拼接作为 BERT句间关系任务的输入,通过 MLP 网络得到最终的相关性得分7,如图 2(b)所示。CEDR8在 BERT 句间关系任务获得 Query 和 Doc 向量之后,对 Query 和 Doc 向量进行拆分,进一步计算 Query 与 Doc 的余弦相似矩阵。美团搜索团队9将基于交互的方法引入美团搜索相关性模型中,引入商户品类信息进行预训练,并引入实体识算法2022年美团技术年货匹配情况。如何优化模型来适配点评搜索的场景,并能处理复杂多样的相关性判断逻辑,尽可能地解决各种不相关问题,是我们面临的主要挑战;如何解决预训练相关性模型的在线性能瓶颈:基于表示的模型虽计算速度较快但表达能力有限,基于交互的模型可以增强 Query 和 POI 的交互从而提升模型效果,但在线上使用时存在较大的性能瓶颈。因此,在线上使用 12 层BERT 的基于交互的模型时,如何在保证模型计算效果的同时保证整个计算链路的性能,使其在线上稳定高效运行,是相关性计算线上应用的最后一道关卡。经过不断探索与尝试,我们针对 POI 侧的复杂多源信息,构造了适配点评搜索场景的 POI 文本摘要;为了让模型更好地适配点评搜索相关性计算,采用了两阶段训练的方法,并根据相关性计算的特点改造了模型结构;最后,通过优化计算流程、引入缓存等措施,成功降低了模型实时计算和整体应用链路的耗时,满足了线上实时计算BERT 的性能要求。3.1如何更好地构造 POI 侧模型输入信息在判定 Query 与 POI 的相关程度时,POI 侧有十几个参与计算的字段,某些字段下的内容特别多(例如一个商户可能有上百个推荐菜),因此需要找到合适的方式抽取并组织 POI 侧信息,输入到相关性模型中。通用搜索引擎(如百度),或常见垂类搜索引擎(如淘宝),其 Doc 的网页标题或商品标题信息量丰富,通常是相关性判定过程中 Doc 侧模型输入的主要内容。如图 3(a)所示,在通用搜索引擎中,通过搜索结果的标题可以一眼看出对应网站的关键信息及是否与 Query 相关,而在图 3(b)的搜索结果中,仅通过商户名字段无法得到充足的商户信息,需要结合商户类目(奶茶果汁)、用户推荐菜品(奥利奥利奶茶)、标签(网红店)、地址(武林广场)多个字段才能判断该商户与 Query“武林广场网红奶茶”的相关性。算法2022年美团技术年货标签抽取是业界比较通用的抽取主题信息的途径,因此我们首先尝试了通过商户标签来构造 POI 侧模型输入的方法,根据商户的评论、基础信息、菜品、商户对应的头部搜索点击词等抽取出具有代表性的商户关键词来作为商户标签。在线上使用时,将已抽取的商户标签,及商户名和类目基础信息一起作为模型的 POI 侧输入信息,与Query 进行交互计算。然而,商户标签对商户信息的覆盖仍不够全面,例如用户搜索菜品“鸡蛋羹”时,某个距用户很近的韩式料理店有鸡蛋羹售卖,但该店的招牌菜、头部点击词等均与“鸡蛋羹”无关,导致该店所抽取的标签词也与“鸡蛋羹”相关性较低,因此模型会将该店判断为不相关,从而对用户体验带来伤害。为了获取最全面的 POI 表征,一种方案是不抽取关键词,直接将商户的所有字段拼接到模型输入中,但是这种方式会因为模型输入长度过长而严重影响线上性能,且大量冗余信息也会影响模型表现。为构造更具信息量的 POI 侧信息作为模型输入,我们提出了 POI 匹配字段摘要抽取的方法,即结合线上 Query 的匹配情况实时抽取 POI 的匹配字段文本,并构造匹配字段摘要作为 POI 侧模型输入信息。POI 匹配字段摘要抽取流程如图 4 所示,我们基于一些文本相似度特征,将与 Query 最相关且最具信息量的文本字段提取出来,并融合字段类型信息构建成匹配字段摘要。线上使用时,将已抽取的 POI 匹配字段摘要、商户名及类目基础信息一起作为 POI 侧模型输入。图 4POI 匹配字段摘要抽取流程算法2022年美团技术年货图 5基于点击及人工标注数据的两阶段训练模型结构基于点击数据的第一阶段训练引入点击数据作为第一阶段训练任务的直接原因是在点评搜索场景下存在着一些特有的问题,例如“开心”和“高兴”两个词在通用场景下是几乎完全同义的词,但是在点评搜索的场景下“开心烧烤”和“高兴烧烤”却是两家完全不同的品牌商户,因此点击数据的引入能够帮助模型学习到搜索场景下的一些特有知识。但是直接将点击样本用于相关性判断会存在较大噪声,因为用户点击某个商户可能是由于排序较为靠前导致的误点击,而未点击某个商户也可能仅仅是因为商户距离较远,而并不是因为相关性问题,因此我们引入了多种特征和规则来提高训练样本自动标注的准确率。在构造样本时,通过统计是否点击、点击位次、最大点击商户距用户的距离等特征筛选候选样本,将曝光点击率大于一定阈值的 Query-POI 对作为正例,并根据业务特点对不同类型商户调整不同的阈值。在负例的构造上,Skip-Above 采样策略将位于点击商户之前且点击率小于阈值的商户才做为负样本。此外,随机负采样的方式可以为训练样本补充简单负例,但考虑随机负采样时也会引入一些噪声数据,因此我们利用人工设计的规则对训练数据进行降噪:当 Query 的类目意图与 POI 的类目体系较为一致时或者与 POI 名高度匹配时,则将其从负样本中剔除。算法2022年美团技术年货图 6对比样本增强示例以跨菜品匹配的相关性问题为例,如上图 6 所示,同样是 Query 拆开后与商户的多个推荐菜字段匹配的情况,Query“榴莲蛋糕”与推荐菜“榴莲千层、黑森林蛋糕”是相关的,但 Query“鹅肝汉堡”与“铁板鹅肝、芝士牛肉汉堡”是不相关的,为了增强模型对这类高度匹配但结果相反的 Case 的识别能力,我们构造了“榴莲蛋糕”与“榴莲千层”、“鹅肝汉堡”与“铁板鹅肝”这两组对比样本,去掉了与 Query 在文本上匹配但对模型判断没有帮助的信息,让模型学到真正决定是否相关的关键信息,同时提升模型对“蛋糕”和“千层”这类同义词的泛化能力。类似地,其他类型的难例同样可以用这种样本增强方式来提升效果。3.2.2基于多相似矩阵的深度交互模型BERT 句间关系是一个通用的 NLP 任务,用于判断两个句子的关系,而相关性任务是计算 Query 和 POI 的相关程度。在计算过程中,句间关系任务不仅计算 Query 与POI 的交互,还计算 Query 内部和 POI 内部的交互,而相关性计算更关注 Query与 POI 的交互。此外,在模型迭代过程中,我们发现部分类型的困难 BadCase 对模型的表达能力有更高要求,例如文本高度匹配但不相关的类型。因此,为进一步提升模型对复杂的 Query 和 POI 在相关性任务上的计算效果,我们对第二阶段训练中的 BERT 句间关系任务进行改造,提出了基于多相似矩阵的深度交互模型,通过引入多相似矩阵来对 Query 和 POI 进行深度交互,引入 indicator 矩阵以更好地解决困难 BadCase 问题,模型结构如下图 7 所示:算法2022年美团技术年货Indicator 矩阵可以较好地刻画 Query 和 POI 的匹配关系,该矩阵的引入主要考虑到判定 Query 和 POI 相关程度时的一个难点:有时即使文本高度匹配,两者也不相关。基于交互的 BERT 模型结构更容易将文本匹配程度高的 Query 和 POI 判定为相关,但是在点评搜索场景中,有些难例却未必如此。比如“豆汁”和“绿豆汁”虽然高度匹配,但并不相关。“猫空”和“猫的天空之城”虽然是拆开匹配,但因为前者是后者的缩写而相关。因此,将不同的文本匹配情况通过 Indicator 矩阵直接输入给模型,让模型显式地接收“包含”、“拆开匹配”等文本匹配情况,在帮助模型提升对难例判别能力的同时,也不会影响大部分正常的 Case 的表现。基于多相似矩阵的深度交互相关性模型将 Query 和 POI 拆分后计算相似矩阵,相当于让模型对 Query 和 POI 进行显式交互,使模型更加适配相关性任务。多个相似矩阵则增加了模型对 Query 和 POI 相关程度计算的表征能力,而 Indicator 矩阵则是针对相关性任务中复杂的文本匹配情况做的特殊设计,让模型对不相关结果的判断更加准确。3.3如何解决预训练相关性模型的在线性能瓶颈将相关性计算部署在线上时,现有方案通常会采用知识蒸馏的双塔结构10,14以保证线上计算效率,但此种处理方式或多或少对于模型的效果是有损的。点评搜索相关性计算为保证模型效果,在线上使用了基于交互的 12 层 BERT 预训练相关性模型,需要对每个 Query 下的数百个 POI 经过 12 层 BERT 的模型预测。为保证线上计算效率,我们从模型实时计算流程和应用链路两个角度出发,通过引入缓存机制、模型预测加速、引入前置黄金规则层、将相关性计算与核心排序并行化等措施优化相关性模型在线上部署时的性能瓶颈,使得 12 层基于交互的 BERT 相关性模型在线上稳定高效运行,保证可以支持数百个商户和 Query 间的相关性计算。算法2022年美团技术年货3.3.2应用链路性能优化图 9相关性模型在点评搜索链路中的应用相关性模型在搜索链路中的应用如上图 9 所示,通过引入前置黄金规则、将相关性计算与核心排序层并行化来优化整体搜索链路中的性能。为了进一步对相关性调用链路加速,我们引入了前置黄金规则对 Query 分流,对部分 Query 通过规则直接输出相关分,从而缓解模型计算压力。在黄金规则层中利用文本匹配特征对 Query 和 POI 进行判断,例如,若搜索词跟商户名完全一致,则通过黄金规则层直接输出“相关”的判定,而无需通过相关性模型计算相关分。在整体计算链路中,相关性计算过程与核心排序层进行并发操作,以保证相关性计算对搜索链路的整体耗时基本无影响。在应用层,相关性计算被用在搜索链路的召回和排序等多个环节。为降低搜索列表的首屏不相关商户占比,我们将相关分引入到 LTR多目标融合排序中进行列表页排序,并采用多路召回融合策略,利用相关性模型的结算法2022年美团技术年货后,点评搜索的月平均 BadCase 率指标相比上线前显著下降了 2.9pp(PercentagePoint,百分比绝对点),并在后续几周 BadCase 率指标稳定在低点附近,同时,搜索列表页的 NDCG 指标稳定提升 2pp。可以看出相关性模型可以有效识别不相关商户,显著降低了搜索的首屏不相关性问题占比,从而提升了用户的搜索体验。下图 10 列举了部分线上 BadCase 解决示例,小标题是该示例对应的 Query,左边为应用了相关性模型的实验组,右边为对照组。图 10(a)中当搜索词为“佩姐”时,相关性模型将商户核心词包含“佩姐”的商户“佩姐名品”判断为相关,并将用户可能想找但输错的高质目标商户“珮姐老火锅”也判断为相关,同时,通过引入地址字段标识,将地址中位于“珮姐”旁边的商户判断为不相关;图 10(b)中用户通过Query“柚子日料自助”想找一家名为“柚子”的日料自助店,相关性模型将拆词匹配到有柚子相关商品售卖的日料自助店“竹若金枪鱼”正确判断为不相关并将其排序靠后,保证展示在靠前的均为更符合用户主要需求的商户。(a)佩姐算法2022年美团技术年货目前,点评搜索相关性模型在模型表现及线上应用上仍有提升空间,在模型结构方面,我们将探索更多领域先验知识的引入方式,例如识别 Query 中实体类型的多任务学习、融入外部知识优化模型的输入等;在实际应用方面,将进一步细化为更多档位,以满足用户对于精细化找店的需求。我们还会尝试将相关性的能力应用到非商户模块中,优化整个搜索列表的搜索体验。6.参考文献1RosipalR,KrmerN.OverviewandrecentadvancesinpartialleastsquaresC/InternationalStatisticalandOptimizationPerspectivesWorkshop”Subspace,LatentStructureandFeatureSelection”.Springer,Berlin,Heidelberg,2005:34-51.2GaoJ,HeX,NieJY.Clickthrough-basedtranslationmodelsforwebsearch:fromwordmodelstophrasemodelsC/Proceedingsofthe19thACMinternationalconferenceonInformationandknowledgemanagement.2010:1139-1148.3HuangPS,HeX,GaoJ,etal.LearningdeepstructuredsemanticmodelsforwebsearchusingclickthroughdataC/Proceedingsofthe22ndACMinternationalconferenceonInformation&KnowledgeManagement.2013:2333-2338.4Zamani,H.,Mitra,B.,Song,X.,Craswell,N.,&Tiwary,S.(2018,February).Neuralrankingmodelswithmultipledocumentfields.InProceedingsoftheeleventhACMinternationalconferenceonwebsearchanddatamining(WSDM)(pp.700-708).5ReimersN,GurevychI.Sentence-bert:Sentenceembeddingsusingsiamesebert-networksJ.arXivpreprintarXiv:1908.10084,2019.6ChenQ,ZhuX,LingZH,etal.EnhancedLSTMforNaturalLanguageInferenceC/Proceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers).2017:1657-1668.7NogueiraR,YangW,ChoK,etal.Multi-stagedocumentrankingwithbertJ.arXivpreprintarXiv:1910.14424,2019.8MacAvaneyS,YatesA,CohanA,etal.CEDR:ContextualizedembeddingsfordocumentrankingC/Proceedingsofthe42ndInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2019:1101-1104.9李勇,佳昊等.BERT 在美团搜索核心排序的探索和实践.10邵雯,杨扬等.预训练技术在美团到店搜索广告中的应用.11杨扬,佳昊等.美团 BERT 的探索和实践.12 ZouL,ZhangS,CaiH,etal.Pre-trainedlanguagemodelbasedrankinginBaidusearchC/Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021:4014-4022.13 PangL,LanY,GuoJ,etal.TextmatchingasimagerecognitionC/Proceedings算法2022年美团技术年货美团 SemEval2022 结构化情感分析跨语言赛道冠军方法总结作者:陈聪见耸刘操杨帆广鲁今雄1.背景SemEval(InternationalWorkshoponSemanticEvaluation)是一系列国际自然语言处理(NLP)研讨会,也是自然语言处理领域的权威国际竞赛,其使命是推进语义分析的研究进展,并帮助一系列日益具有挑战性的自然语言语义问题创建高质量的数据集。本次 SemEval-2022(The16thInternationalWorkshoponSemanticEvaluation)包含 12 个任务,涉及一系列主题,包括习语检测和嵌入、讽刺检测、多语言新闻相似性等任务,吸引了包括特斯拉、阿里巴巴、支付宝、滴滴、华为、字节跳动、斯坦福大学等企业和科研机构参与。其中 Task10:结构化情感分析(StructuredSentimentAnalysis)属于信息抽取(InformationExtraction)领域。该任务包含两个子任务(分别是 MonolingualSubtask-1 和 Zero-shotCrosslingualSubtask-2),包含五种语言共 7 个数据集(包括英语、西班牙语、加泰罗尼亚语、巴斯克语、挪威语),其中子 Subtask-1使用全部七个数据集,Subtask-2 使用其中的三个数据集(西班牙语、加泰罗尼亚语、巴斯克语)。我们在参与该评测任务的三十多支队伍中取得 Subtask-1第 二 名 和 Subtask-2 第 一 名,相 关 工 作 已 总 结 为 一 篇 论 文 MT-SpeechatSemEval-2022Task10:IncorporatingDataAugmentationandAuxiliaryTaskwithCross-LingualPretrainedLanguageModelforStructuredSentimentAnalysis,并收录在 NAACL2022WorkshopSemEval。2.赛题简介结构化情感分析任务(StructuredSentimentAnalysis,SSA)的目的是抽取出文本算法2022年美团技术年货数据介绍数据集语言说明链接/参考文献MultiBCA加泰罗尼亚语CatalanhotelreviewsBarnes,Jeremy,PatrikLambert,andToniBadia.2018.“MultiBooked:ACorpusofBasqueandCatalanHotelReviewsAnno-tatedforAspect-LevelSentimentClassi-fication.”ArXiv:1803.08614Cs,March.http:/arxiv.org/abs/1803.08614.MultiBEU巴斯克语BasquehotelreviewsBarnes,Jeremy,PatrikLambert,andToniBadia.2018.“MultiBooked:ACorpusofBasqueandCatalanHotelReviewsAnno-tatedforAspect-LevelSentimentClassi-fication.”ArXiv:1803.08614Cs,March.http:/arxiv.org/abs/1803.08614.OpeNerES西班牙语Spanishhotelreviewshttps:/2),把 PLM作为模型主干(Backbone)参与到整个端到端的训练中,并且利用数据增强方法和辅助任务来大幅提升跨语言 zero-shot 场景的效果。具体地,我们采用XLM-RoBERTa(ConneauandLample,2019;Conneauetal.,2019)10,11作为模型的主干编码器(BackboneEncoder),以充分利用其已有的多语言/跨语言知识;使用 BiLSTM12加强序列解码能力;最后一个双线性注意力矩阵(BilinearAttention)建模依存图,解码出观点四元组。为了缓解缺乏标注数据的问题,我们采用了两种数据增强方法:一种是在训练阶段添加相同任务的相同领域(In-Domain)的标注数据,另一种是利用 XLM-RoBERTa 通过掩码语言模型(MLM)(Devlinetal.,2018)13生成增强样本(AugmentedSamples)。此外,我们还添加了两个辅助任务:1)序列标注任务(SequenceLabeling)以预测文本中 Holder/Target/Expression 的片段,以及2)情感极性分类(PolarityClassification)。这些辅助任务都不需要额外的标注。算法2022年美团技术年货XLM系列模型中的TLM和MaskedLanguageModeling(MLM)目标的性能优于mBERT,后者仅使用MLM目标在多语言语料库上进行训练。此外,XLM-Ro-BERTa 提供了 Large 版本,模型更大,训练数据更多,这使其在下游任务的性能更好。我们没有使用infoXLM,因为它着重于句子级的分类目标,不适合本次结构化预测的任务。表 1 不同编码器在官方发布的 Monolingual 任务评测验证集上的效果,所有模型都适用相同结构的双线性注意力解码器为了证明跨语言预训练语言模型XLM-RoBERTa的有效性,我们将其与以下基线 进 行 了 比 较:1)w2v BiLSTM,word2vec(Mikolovetal.,2013)20 词 嵌 入和 BiLSTMs;2)mBERT,多 语 言BERT(Devlinetal.,2018)13;3)mBERT BiLSTM;4)XLM-RoBERTa BiLSTM。表1表明XLM-RoBERTa BiLSTM在所有基准测试中获得了最佳性能,平均得分比最强基线(mBERT BiLSTM)高6.7%。BiLSTM可以提高3.7%的性能,这表明BiLSTM层可以捕获序列信息,这有利于序列化的信息编码(CrossandHuang,2016)12。我们使用官方发布的开发集作为测试集,将原始训练集随机拆分为训练集和开发集。并保持拆分开发集的大小与官方发布的开发集相同。5.2数据增强数据增强(DA1)-同领域数据合并不同语种的 M 个数据集如果属于相同的领域,可以合并作为一个大训练集以提升各个子数据集的效果。本次评测有四个同属于酒店评论的数据集 MultiBEU、MultiB-CA、OpeNerES、OpeNerEN(Agerrietal.,2013)1,我们在训练阶段组合了这些属于同一领域的不同数据集,可以提高各个数据集的效果。我们还额外添加了葡萄牙算法2022年美团技术年货这样我们就获得了带标签的新样本。但要注意不能在 Express 片段上进行掩码生成,因为模型可能会生成与原始标签极性不同的词。表 4 两种数据增强方法在 Crosslingual 任务上的效果,其中 OpeNerEN 表示只使用 OpeNerEN数据作为训练数据,w/DA1-2表示同时使用了数据增强 DA1 和 DA2从表 3 和表 4 可以看到两种数据增强方法都有助于提高性能,几乎每个基准测试的性能都有所提高。特别是对 Crosslingual 任务的性能有显着提高,推测是因为Zero-shot 任务没有机会在训练阶段看过同数据集的训练样本的文本和标签。DA2方法能提升 Crosslingual 任务的效果,但是对 Monolingual 任务的作用不大,推测是因为 Monolingual 任务的已经在训练阶段看过同数据集的训练样本了。5.3辅助任务SSA 任务同时包含结构化预测和情感极性分类,让模型端到端地解决这两个任务并非易事。我们提出了两个辅助任务来为模型提供更多的训练信号,以更好地处理结构化预测和极性分类。对于结构化预测,我们添加了一个序列标注任务(如下图 3),让模型预测每个 token 的类型(Holder、Target 或者 Expression),得到辅助损失。图 3序列标注任务针对极性分类任务,我们把评测的训练数据转换为句子级的极性分类任务,具体实现是把只有一种极性的观点元组的句子设置为对应的极性类别,把包含多种极性的观点元组的句子设置为中性(Neutral)类别。除此之外,针对不同语种的数据集,我们还算法2022年美团技术年货表 7Subtask-2 各队伍效果对比(括号内的数字为单个数据集的排名,Average 为平均值)7.总结本次评测,我们主要探索了结构化情感分析的任务。针对不同语言数据间缺乏交互、以及标注资源缺乏的问题,我们应用了跨语言预训练语言模型,并采用了两种数据增强方法和两种辅助任务。实验证明了我们的方法和模型的有效性,并在SemEval-2022任务10结构化情感分析(StructuredSentimentAnalysis)取得Subtask-1 第二名(表 6)和 Subtask-2 第一名(表 7)的成绩。后续将继续探索其他更有效的多语言/跨语言资源和跨语言预训练模型的应用方法。我们正在尝试将比赛中的技术应用到美团具体业务中,如语音交互部的智能客服、智能外呼机器人中,为优化智能解决能力、提升用户满意度提供参考。8.招聘信息语音交互部负责美团语音和对话技术研发,面向美团业务及生态系统内 B 端、C 端合作伙伴,提供语音技术与对话交互技术能力支持和产品应用。经过多年研发积累,团队在语音识别、合成、口语理解、智能问答和多轮交互等技术上已建成大规模的技术平台服务,并研发包括外呼机器人、智能客服、语音内容分析等解决方案和产品,在美团丰富的业务场景中广泛落地。语音交互部长期招聘自然语言处理算法工程师、算法专家,感兴趣的同学可以将简历发送至。9.参考文献1RodrigoAgerri,MontseCuadros,SeanGaines,andGermanRigau.2013.OpeNER:Openpolarityenhancednamedentityrecognition.InSociedadEspaola算法2022年美团技术年货12 JamesCrossandLiangHuang.2016.Incrementalparsingwithminimalfeaturesusingbi-directionallstm.ArXiv,abs/1606.06406.13 JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2018.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805.14 TimothyDozatandChristopherDManning.2016.Deepbiaffineattentionforneuraldependencyparsing.arXivpreprintarXiv:1611.01734.15 E.KiperwasserandYoavGoldberg.2016.Simpleandaccuratedependencyparsingusingbidirectionallstmfeaturerepresentations.TransactionsoftheAssociationforComputationalLinguistics,4:313327.16 RobinKurtz,StephanOepen,andMarcoKuhlmann.2020.End-to-endnegationresolutionasgraphparsing.InIWPT.17 XinLi,LidongBing,PijiLi,andWaiLam.2019.Aunifiedmodelforopiniontargetextractionandtargetsentimentprediction.ArXiv,abs/1811.05082.18 BingLiu.2012.Sentimentanalysisandopinionmining.Synthesislecturesonhumanlanguagetechnologies,5(1):1167.19 YinhanLiu,MyleOtt,NamanGoyal,JingfeiDu,MandarJoshi,DanqiChen,OmerLevy,MikeLewis,LukeZettlemoyer,andVeselinStoyanov.2019.Roberta:Arobustlyoptimizedbertpretrainingapproach.arXivpreprintarXiv:1907.11692.20 TomasMikolov,KaiChen,GregoryS.Corrado,andJeffreyDean.2013.Efficientestimationofwordrepresentationsinvectorspace.InICLR.21 MargaretMitchell,JacquiAguilar,TheresaWilson,andBenjaminVanDurme.2013.Opendomaintargetedsentiment.InEMNLP.22 StephanOepen,OmriAbend,LashaAbzianidze,JohanBos,JanHajic,DanielHershcovich,BinLi,TimothyJ.O Gorman,NianwenXue,andDanielZeman.2020.Mrp2020:Thesecondsharedtaskoncrossframeworkandcross-lingualmeaningrepresentationparsing.InCONLL.23 LiljaOvrelid,PetterMaehlum,JeremyBarnes,andErikVelldal.2020.Afine-grainedsentimentdatasetfornorwegian.InLREC.24 Liljavrelid,PetterMhlum,JeremyBarnes,andErikVelldal.2020.Afine-grainedsentimentdatasetforNorwegian.InProceedingsofthe12thLanguageResourcesandEvaluationConference,pages50255033,Marseille,France.EuropeanLanguageResourcesAssociation.25 BoPang,LillianLee,etal.2008.Opinionminingandsentimentanalysis.FoundationsandTrendsininformationretrieval,2(12):1135.26 MariaPontiki,DimitrisGalanis,JohnPavlopoulos,HarisPapageorgiou,IonAndroutsopoulos,andSureshManandhar.2014.Semeval-2014task4:Aspectbasedsentimentanalysis.InCOLING2014.27 AlecRadford,JeffWu,RewonChild,DavidLuan,DarioAmodei,andIlyaSutskever.2019.Languagemodelsareunsupervisedmultitasklearners.28 ColinRaffel,NoamM.Shazeer,AdamRoberts,KatherineLee,SharanNarang,算法2022年美团技术年货检索式对话系统在美团客服场景的探索与实践作者:子健炎根1.背景与挑战对话系统一直是人工智能研究的热门领域之一,近年来随着深度学习技术的发展,人工智能在对话系统上出现了不少的突破性进展。但是,由于自然语言的复杂性,目前的智能对话系统还远远达不到可以直接替代人类的地步。因此在一些复杂的业务场景中,目前的智能对话系统如何更好的去辅助人类做到人机协同,提升沟通效率,也成为了当今研究的一个热点以及实际落地方向。作为一家连接用户和商户的生活服务电子商务平台,美团在平台服务的售前、售中、售后全链路的多个场景中,用户向商家都存在有大量的问题咨询情况,如在线坐席CHAT、商家 IM 等。因此我们希望利用对话系统,以推荐回复的方式,基于对话上文为客服提供候选回复,来帮助商家提升回答用户问题的效率,同时更快地解决用户问题,改善用户咨询体验。一般来说,对话系统可以大致分为三类:任务型:一般为受限域,以完成特定领域的特定任务为目的,主流方法是基于有限状态机(FSM)的可配置化 TaskFlow,而基于强化学习、监督学习等基于数据驱动的对话管理方法在实际应用中尚不成熟,应用场景如售后退款等流程明确的智能机器人。问答型:受限域或开放域,主要是回答特定领域的信息咨询或开放领域的知识性问题,主流方法包括图谱问答(KBQA)、社区问答(CQA)、文档问答(MRC)等单轮问答,也可能涉及多轮问答,应用场景如酒店、旅游等领域的售前咨询。闲聊型:一般为开放域,无特定目的,在开放领域内让对话有意义地进行下去即可,主流方法是基于检索的召回排序二阶段方法或基于生成的端到端模型,应用场景如聊天机器人。算法2022年美团技术年货既可以用在智能客服中,也可以用作话术推荐。召回层:给定对话上文及其它限制条件,从话术索引库和知识库中召回结果,包括文本、向量、标签、知识等多路召回。排序层:针对召回模块返回的结果集合,进行排序打分,包括规则排序、文本相关性模型排序以及 CTR 预估排序。策略层:针对排序模块返回的结果列表,进行重排序或者拒推,例如非活跃商户拒推,推荐列表包含正确答案而商家长期无采纳行为则降低推荐概率;多样性答案选择,尽量选择语义及表达形式不同的答案,避免推荐过于相似的答案;个性化场景策略,针对场景特征定制策略。应用层:主要用于人工辅助场景,包括在线回复咨询时的话术推荐和输入联想,以及离线填答智能客服知识库时的答案推荐供给。同时,为了更合理地指导系统相关优化,我们设计了一套离线到在线的指标体系,以话术推荐为例,如下图 2 所示,具体来说可分为三个部分:图 2话术推荐指标体系离线自动指标:主要计算的是 Top-N 推荐话术与坐席/商家下一句真实回复的语义相关性,我们采用了文本相关性的 BLEU、ROUGE 指标,以及排序相关性的 Recall、MRR 指标。算法2022年美团技术年货通用高频话术索引:主要包括通用及高频的 Context-Response 对,如问好、感谢等等场景,用于兜底,可大大提升覆盖率。索引日更新机制:借助离线数据表生产平台和在线索引查询平台,保证对话日志的回流和索引的日更新。因此,在实际的话术推荐中,对商户/坐席而言,推荐答案的来源是该商户/坐席本身历史话术或通用高频话术,既部分缓解了个性化及时间漂移问题,也避免了因推荐不合格或违规话术引发客诉。3.1文本召回对于文本召回,在对历史对话建立索引时,最粗暴的方案是直接把历史对话上下文直接拼接成一长串文本建立索引,然后线上利用 BM25 进行召回。这种做法主要存在两个较大的缺陷:1.没有考虑到对话的顺承特性,即对话的下一句回复通常与最近几句对话历史更为相关。2.把所有对话历史进行拼接导致内容较为杂乱,不利于精确检索。针对这两个问题,我们对对话历史上下文索引的建立进行了优化。具体来说,我们将整个对话历史划分为:短期对话上文:一般为上文最后一句包含完整语义的话,中文分词后去停用词建立倒排索引。长期对话上文:一般为上文除最后一轮外前 N 轮对话,中文分词后去停用词通过 TF-IDF 等方法挖掘 Top-M 关键词入索引库。机器人对话上文:主要为进线标签等,可以增加对话初期的背景信息。如下图 3 所示,针对不同的对话上文采用不同的信息抽取及建模方式,核心思想在于对于短期上文保留尽量多的信息,保证召回时的相关性,对于长期上文中的信息进行筛选过滤,只保留核心信息,提升召回的精准性。算法2022年美团技术年货大增强表示和匹配的泛化性。增强长期上文的表示:文本中的长期上文仅使用关键词进行表示,语义明显失真,通过向量召回的方法可以更加有效地表示和利用长期上文。具体来说,向量召回即给定对话上文(Context,Q),检索得到答案集合(Response,A),一个最基本的问题就是召回方式的选择(QQvsQA),最终我们选了 QQ 的方式来进行检索召回,即构建 Context-ResponsePair 对,将 Context 表示为向量后检索召回索引中相似的历史 Context,再使用这些历史 Context 对应的历史Response 作为召回结果。这样选择的核心原因在于:Context 与 Response 之间并非单纯的语义相似或相关关系,更多的是一种顺承推理的关系,难以用基于相似度或距离的向量检索方案来直接处理,通过引入历史 Context 作为其中的”桥梁”,可以让建模变得更加简单。举一个简单的例子,如果 Context 是“谢谢”,那么向量检索返回的集合中大多都是此类表示感谢语义的句子,然而我们应该召回回复感谢的“不客气”之类的句子。在实际实验和业务中,我们也进行了一系列的对比,发现 Context-Response(QA)召回方式效果远差于 Context-Context(QQ)方式。3.2.1表示模型关于如何表征文档,我们简单介绍三类典型的模型框架:BoW:词袋向量模型(Bag-of-WordsEmbedding)是文档向量表示的一个基础模型,在大规模无监督对话语料中通过Word2vec1、Glove2等算法计算出每个单词的向量表示,文档的向量表示可以通过文档中所有词语的向量进行组合来得到,比较简单有效的方法是平均池化(AveragePooling)。BERT:大规模无监督预训练显著地提升了深度学习在自然语言处理领域的实用性和通用性,BERT3和 MLM(MaskLanguageModel)作为典型的模型及任务,在对话领域内大规模数据预训练后,可以获得词语的上下文相关表征向量,最终文档的向量依然可由平均池化获得。算法2022年美团技术年货3.2.2数据采样双塔模型的一个基本问题是如何构造高质量的正样本对,在话术推荐的场景这个问题并不复杂,不过存在两种选择:Context-ResponsePair:经由历史对话日志挖掘得到的样本对,及给定上文和其对应的回复。Context-ContextPair:借助商户 Context 与 Response 的对应关系,同一 Response 对应的 Context 集合互为正例,通过这种关系伪造获取Context 及其对应 Context。我们选择了方式一,这是因为对话中 Context 与 Response 尽管存在一定的多样性,但是总体上来说相比搜索系统中的 Query-Document 还是具备很强的对应关系,Response 本身提供了足够的监督信息来区分不同的 Context。此外,负例采样是向量召回中最重要的问题,一般来说典型的采样方法有以下三种19:预定义采样:在数据准备阶段预先根据某些规则或条件采样负例,在模型训练过程中单个正例对应的负例集合不变。局限于资源等问题,一般来说负例个数不会太多。Batch 内采样:模型训练过程中,Batch 内除当前正例及其对应样例之外的其它样例都可视作负例。相比于预定义采样,Batch 内随机采样使得每轮训练时同一正例对应不同的负例,并且可以设置较大的负例个数,可以更加简单高效地利用数据。难负例采样:除了简单负例之外,为了提升模型对难负例的识别效果以及对细节的学习能力,一般会结合场景特征挖掘部分难负例作为补充。不管是学术界文章还是工业界实践,都显示 Batch 内简单负例 难负例的组合效果最好,经验比例大致在 100:1。因此,我们最终也基本参考了这种设置5,如下图 5所示,其中关于难负例的采样,我们尝试了如下两种方式:算法2022年美团技术年货针对第一类多样性,在 Context 召回相似 Context 的设置下并不存在明显问题。但是在实际的实验中,我们发现将同一个 Response 对应的 Context 集合做平均池化获取均值向量,以此合并多条记录到一条记录并以该均值向量作为 Context 表示,可以有效提升召回结果集合的文本相关性指标,我们称之为语义纯化。推测平均池化的方式去除了每个 Context 向量上附着的噪音,仅保留与对应Response 最为相关的语义向量部分,故而提升了召回效果。针对第二类多样性,类似的问题或者思想在对话回复选择、电商推荐、文本检索中有过相关的工作:弱交互6:对话回复选择任务,一般来说,交互模型的效果远好于双塔模型,但是交互模型的推理速度较慢。本文通过设计多个 PolyCodes 或直接选取First-M、Last-M 个 ContextHiddenStates 将 Context 表征为多个向量,从而引入弱交互性质,相比双塔模型可以有效提升效果,相比交互模型可以大幅提升推理速度,不过其主要应用是在粗排模块,而非向量召回模块。多兴趣7:电商场景的推荐任务,本文将推荐系统视作一个序列化推荐任务,即根据用户点击 Item 历史推测下一个用户可能感兴趣的 Item。作者认为单个向量难以表征用户历史的多兴趣,通过动态路由(DynamicRouting)与自注意力(Self-Attentive)从历史中抽取 K 个向量表示不同的兴趣点,不同的兴趣点向量独立召回不同的 Items,然后设计聚合模块对召回的 Items 进行重新分组和排序,聚合时除了相似度分数还可以考虑引入 Diversity 等更多的性质。多向量8:稠密文档检索,作者认为简单的双塔模型可能造成文档表征严重的信息损失,因而利用迭代聚类(IterativeClustering)的方法将文档表示为 K个向量,即类簇中心点。在建立索引时保留文档的 K 个 vector,检索时召回K*N 个结果并经过重排序保留 N 个结果。可以看出,多样性(多向量表征)的核心问题在于如何表征获取 K 个向量,结合话术推荐的场景,给定一个 Context,可能存在多个合适的 Response,根据 Context不同的复杂程度,可能存在不同数目的 Response。我们希望将 Context 表征为多算法2022年美团技术年货具 体 来 说,Context 和 Response 输 入 BERT 编 码 器 后,获 取 一 个 ContextVectorSet 即,以及一个 ResponseVector 即。在离线训练时,我们采取 ScaledDotAttention 的方式来获取 Context 最终表征向量,而后与 ResponseVector 计算 Score,如下所示:在线上推理时,对 ContextVectorSet 中的每个 Vector 进行并行检索,而后通过重排和聚合获取最终结果。4.排序模块排序模块是在上一步召回模块的基础上,结合当前的对话上下文对每个召回的答案进行打分排序。在召回阶段,为了能够更高效率的进行检索,我们通常采用的是双塔架构模型,这种模型 Context 与 Response 信息交互的程度低,效果相对也较差。而在排序阶段,召回的候选集通常已经控制到了几十条,可以利用交互式架构模型,来更好的学习 Context 与 Response 之间的相关性,从而提升话术推荐的准确性。典型的交互模型如下图 7 所示,一般采用 BERT 作为编码器,通过将 Context 与Response 进行拼接当做模型输入,最后模型输出 0-1 之间的打分作为排序结果9。本场景对应了学术上一个经典任务,即对话回复选择(ConversationalResponseSelection),我们后续重点介绍预训练、负采样、建模方式、对比学习、特征融入等方面的工作。算法2022年美团技术年货(1)对话层级:建模不同层级(Token-Level/Sentence-Level/Session-Lev-el)的结构。Token-Level 的任务大多是通用 NLP 任务。最简单的 LanguageModel(LM)任 务,基 于 上 文 预 测 下 一 个 单 词。BERT 的 MaskedLanguageModel(MLM)任务,根据句子中其余的词来预测被 Mask 的词。XLNet 的PermutationLanguageModel(PLM)任务,将句子中的 Token 随机排列后用自回归的方法训练预测末尾的 Tokens。Sentence-Level 的任务众多,可以有效表征对话中的句间关系,通过特殊设计后也可以建模对话的一致性等性质。BERT 中的 NextSentencePre-diction(NSP)预测句子对是否是同一文档的上下句关系。NextSentenceGeneration(NSG)10任 务 在 给 定 上 文 时 生 成 对 应 的 回 复。SentenceReorderingTask(SRT)将 对 话 中 句 子 打 乱 顺 序 后 预 测 正 确 的 顺 序。IncoherenceDetection(ID)随机替换对话中的一句话并预测哪句话被替换了。ConsistencyDiscrimination(CD)是面向说话人角色的一致性判别,建模目标为来自同一说话人的句对比来自不同说话人的句对相似度分数更高,使模型更多地去捕捉两个话语之间在主题、说话个性和风格之间的相似性,而不是话语之间地连贯性和语义相关性。在本场景中,我们实验了 NSG 任务,希望生成式任务可以对检索式任务有所增益。Session-Level 的任务较少,NextSessionPrediction(NSP)11预测两个片段是否是相邻的两个轮次,计算对话中两段 Session 之间的匹配程度,相当于是 NextSentencePrediction 的对话改进版。(2)对话性质:建模流畅性(Fluency)、一致性(Coherence)、可读性(Read-ability)、多样性(Diversity)、特异性(Specificity)等性质。以一致性和特异性为例,文章12借助 N 元逆文档频率(n-NIDF,n-gramNor-malizedInverseDocumentFrequency)为每个正例进行打分,而后通过均方差损失函数(MSE,Mean-SquareError)进行学习建模。在本场景中,我们并未使用额外的语料,仅仅在 BERT 基础上继续进行预训练,主算法2022年美团技术年货过多假负例。仅从 Retrieval 集合采样与 Retrieval Random 联合采样的效果相差不大,不过后者更加稳定,对召回集合分布漂移问题具备更强的鲁棒性。4.3学会排序针对排序的任务的建模一般有以下两种思想:二元绝对论13:非黑即白,候选回复要么是相关的要么就是不相关的,主要工作在于如何构造难负例。作者使用 DialogueGPT 类预训练生成模型来伪造假负例,通过对话流变形(FlowDistortion)和上文扰动(ContextDestruction)的方式获取修改过的对话,输入到模型生成对应的回复,最后选择困惑度分数(PerplexityScore)最高的回复以避免假负例问题。常见的建模方式为 Pointwise。多元相对论14:次序关系,注重回复质量的多样性,主要工作在于如何构造数据建模更细粒度的好坏关系。作者使用生成(Generation)或者检索(Retrieval)的方式来构造所谓的灰度数据(Grayscale),并希望模型学习“GroundTruthResponseGreyscaleResponseRandomSampledResponse”的 渐 进 关 系,最 终 损 失 函 数 同 时 建 模“GroundTruthRandom”、“GroundTruthRetrievalRandom”、“GroundTruthGenerationRandom”三类次序关系。常见的建模方式为 Pairwise。结合我们当前的场景,这两类方法的典型对比如下图 9 所示,区别在于将召回集合视作难负例还是灰度数据。图 9排序任务两种建模方式(Pointwise vs Pairwise)算法RetrievalRandom 增强有效。同时,Pointwise 和 Pairwise 建模方式无绝对的高低上下之分,效果好坏取决于场景和数据特性。事实上在线坐席 CHAT 场景中 Pairwise 更好,商家 IM 场景中 Pointwise 更好,联合建模(Pointwise Pair-wiseorPointwise-Pairwise)效果略有提升。4.4对比学习在分析排序错误的过程中,我们发现存在 Context 或 Response 少量扰动导致最终分数变化较大的情形,典型的例子如短 Response 添加或删除句尾符号导致预测标签变化。而对比学习的指导原则是通过自动构造相似实例和不相似实例学习一个表示模型,使得相似的实例在投影空间中比较接近,而不相似的实例在投影空间中距离比较远。因此,为了缓解上述问题,我们希望借助对比学习的思想使得模型的输出结果更为稳定一致,具体来说,输出的向量表示尽可能接近,输出的概率分布尽可能一致。针对向量表示,我们对 Context16和 Response17分别进行了数据增强,或者说添加了不改变语义的扰动,希望增强之后样例与原始样例在表示空间上尽可能接近,并且远离对应的负例,如下图 10 所示:2062022年美团技术年货图 10对话中的对比学习具体来说:(1)Context 端数据增强:基本原则是不显式改变 Context 的最后一句话,因为最后一句话的语义最为重要。Context 为单句,不进行显式改变,添加 Dropout。Context 包含商家或用户连续说话情形,进行 SentenceRe-ordering 操作(角色信息很重要,不会调换不同角色说的话的位置)。其它多轮情形,随机选择一句,进行 SentenceTokenShuffling 操作(针对中文,我们利用 Jieba 分词后再打乱重组,避免字级别打乱重组噪音过多)。(2)Response 端数据增强:基本原则是尽量不改变语义,不引入过多噪音。句子长度小于 5,随机进行 Dropout 或者 Operatepunctuations(添加删减句尾标点符号)操作。句子长度大于 5,随机选择 RandomDeletion 或 RandomSwaping,每个算法2022年美团技术年货商家个性化特征:对于精排模型输入集合的样例,关注答案是否来源于商户历史,即商家是否说过这句话。商品个性化特征:在咨询过程中,除了纯文本信息之外,还存在商品、团购等卡片信息,这类信息为“多少钱”、“适用人群”等问题提供了约束和限制。时间个性化特征:部分问题如“营业时间”、“经营项目”存在时效性和周期性。针对时效性问题,同样的问题下答案时间越近越好;针对周期性问题,上一周期的同时段的答案最好。业界通用的特征建模方式是 Wide&Deep 模型,我们因为可用特征较少,所以采取了一种简化的联合建模的方式。具体来说,我们采取了一种简单的类双塔的形式来分别建模文本特征和非文本个性化特征,如下图 11 所示:图 11个性化特征建模算法2022年美团技术年货进一步提升。在双塔模型基础上,引入难负例会带来一定提升,而引入对话多样性表征则带来明显提升。精排模型主要考虑 Top-1 排序结果的 BLEU、ROUGE2、RECALL 指标,结果如下表所示:表 2精排模型指标可以看到,引入 Pairwise 学习并不能带来完全的正向收益,对话预训练则带来了稳定提升,对比学习增强大大提升了所有指标。非文本特征融入在文本相关性指标上有一定提升,并且显著提升了排序相关性指标,说明该方法非常有效处理了在语言表达形式类似情况下商家个性化偏好问题。5.2商家 IM 话术推荐商家 IM 是商家与用户在交易流程中的在线即时通讯工具,在获取所需商品和服务过程中,用户有主动表述问题咨询信息的诉求,并通过 IM 向商家发起提问。以到综业务为例,大部分商家由于没有配备专门客服等原因,回复能力不足,回复欲望较低,效率不足,导致回复率较低,回复不及时,夜间无回复,容易造成客资流失。针对这一问题,我们建立面向商家的智能助手,商家在线时提供话术推荐辅助人工能力,降低客服输入成本,提升回复率,最终提升用户服务体验,如下图 12 所示:算法2022年美团技术年货图 13在线坐席 CHAT 输入联想产品示例5.4知识库答案供给商家 IM 中,除了商家在线时提供话术推荐辅助人工能力之外,我们也在商家离线时提供智能客服自动回复能力,解决夜间无人值守的问题。其中首要的步骤就是帮助商家建立自定义知识库,在意图体系构建完成之后,除了存在默认答案的通用意图之外,部分特定意图仍需要商家手动填写答案。在此过程中,我们根据意图中的问法为商家提供了推荐答案,减轻填写成本,提升填答效率,以提升答案覆盖率,如下图 14 所示:算法2022年美团技术年货8 参考文献1Mikolov,Tomas,etal.“Efficientestimationofwordrepresentationsinvectorspace.”arXivpreprintarXiv:1301.3781(2013).2Pennington,Jeffrey,RichardSocher,andChristopherD.Manning.“Glove:Globalvectorsforwordrepresentation.”Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP).2014.3Devlin,Jacob,etal.“Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.”arXivpreprintarXiv:1810.04805(2018).4Reimers,Nils,andI.Sentence-BERTGurevych.“SentenceEmbeddingsusingSiameseBERT-Networks.arXiv2019.”arXivpreprintarXiv:1908.10084(1908).5Liu,Yiding,etal.“Pre-trainedlanguagemodelforweb-scaleretrievalinbaidusearch.”Proceedingsofthe27thACMSIGKDDConferenceonKnowledgeDiscovery&DataMining.2021.6Humeau,Samuel,etal.“Poly-encoders:Transformerarchitecturesandpre-trainingstrategiesforfastandaccuratemulti-sentencescoring.”arXivpreprintarXiv:1905.01969(2019).7Cen,Yukuo,etal.“Controllablemulti-interestframeworkforrecommendation.”Proceedingsofthe26thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining.2020.8Tang,Hongyin,etal.“Improvingdocumentrepresentationsbygeneratingpseudoqueryembeddingsfordenseretrieval.”arXivpreprintarXiv:2105.03599(2021).9Whang,Taesun,etal.“Aneffectivedomainadaptivepost-trainingmethodforbertinresponseselection.”arXivpreprintarXiv:1908.04812(2019).10 Mehri,Shikib,etal.“Pretrainingmethodsfordialogcontextrepresentationlearning.”arXivpreprintarXiv:1906.00414(2019).11 Xu,Ruijian,etal.“Learninganeffectivecontext-responsematchingmodelwithself-supervisedtasksforretrieval-baseddialogues.”ProceedingsoftheAAAIConferenceonArtificialIntelligence.Vol.35.No.16.2021.12 Li,Junlong,etal.“Task-specificobjectivesofpre-trainedlanguagemodelsfordialogueadaptation.”arXivpreprintarXiv:2009.04984(2020).13 Qiu,Yao,etal.“ChallengingInstancesareWorthLearning:GeneratingValuableNegativeSamplesforResponseSelectionTraining.”arXivpreprintarXiv:2109.06538(2021).14 Lin,Zibo,etal.“Theworldisnotbinary:Learningtorankwithgrayscaledatafordialogueresponseselection.”arXivpreprintarXiv:2004.02421(2020).15 Burges,Chris,etal.“Learningtorankusinggradientdescent.”Proceedingsofthe22ndinternationalconferenceonMachinelearning.2005.16 Zhang,Wentao,ShuangXu,andHaoranHuang.“Two-LevelSupervisedContrastiveLearningforResponseSelectioninMulti-TurnDialogue.”arXivpreprintarXiv:2203.00793(2022).17 Li,Yuntao,etal.“SmallChangesMakeBigDifferences:ImprovingMulti-turn算法2022年美团技术年货端智能在大众点评搜索重排序的应用实践作者:祝升刘哲汤彪1.引言随着大数据、人工智能等信息技术的快速发展,云计算已经无法满足特定场景对数据隐私、高实时性的要求。借鉴边缘计算的思想,在终端部署AI能力逐渐步入大众的视野,“端智能”的概念应运而生。相比于传统的云计算,在智能手机等终端部署运行AI模块有以下几个方面的优势:首先,数据本地化可以缓解云存储的压力,也有利于用户数据的隐私保护;其次,计算的本地化可以缓解云计算过载问题;最后,端智能减少了和云端系统的请求通信成本,可以更好地利用用户在端上的交互,提供更加实时、个性化的服务体验。在端智能的应用方面,国内外各大科技公司已经走在了前列。Google提出了Rec-ommendationAndroidApp的概念,根据用户兴趣进行内容推荐;Apple的FaceID识别、Siri智能助手等一些我们熟知的产品,也都是端智能典型的应用代表。阿里巴巴、快手、字节跳动等企业也在各自的应用场景上进行了端智能的落地,并推出相应的端上模型推理框架。比如,快手上线的短视频特效拍摄、智能识物等功能。另外,在搜索推荐场景下也有一些实践,其中,手机淘宝“猜你喜欢”在端上部署了智能推荐系统,取得较为显著收益(EdgeRec1,双十一IPV提升10% ,GMV提升5% )。快手上下滑推荐场景也应用了端上重排的方案,并取得 App 时长提升了1% 的效果。搜索是大众点评App连接用户与商家的重要渠道,越来越多的用户在不同场景下都会通过搜索来获取自己想要的服务。理解用户的搜索意图,将用户最想要结果排在靠前的位置,是搜索引擎最核心的步骤。为了进一步优化搜索个性化的排序能力,提升用户体验,搜索技术中心进行了在端上部署深度个性化模型的探索实践。本文主要介绍了端智能重排在大众点评App上的实践经验,文章主要分为以下三个部分:第一算法2022年美团技术年货说,存在以下两个问题:列表结果排序更新延迟分页请求限制会导致排序结果的更新不及时。在下一个分页请求之前,用户的任何行为都无法对当前页内的搜索排序结果产生任何影响。以大众点评搜索结果页为例,一次请求返回25个结果到客户端,每屏展示约34个,那么用户需要滑动68屏左右,才能触发新的分页请求到云端获取下一页结果(以美食频道列表页为例,有20%以上的搜索浏览超过一页结果)。云端的排序系统无法及时感知用户的兴趣变化,并调整已下发到客户端的结果顺序。图 2分页浏览决策示意图实时反馈信号感知延迟一般来说,实时反馈信号会通过Storm、Flink等流处理平台,将日志流以Mini-batch的方式计算后,存入KV特征数据库供搜索系统模型使用。这种方式往往会有分钟级的特征延迟,因为需要对反馈数据进行解析处理,当涉及到更多、更复杂的反算法2022年美团技术年货图 3端智能重排流程示意图3.端上重排序算法探索与实践重排序任务在搜索、推荐领域已有不少研究工作和落地实践,核心解决的问题是从N个结果候选中,生成Top-K个结果的排列。具体到端上的重排序场景,我们要做的主要工作是:根据用户对前面排序结果的反馈行为,生成候选商户上下文的排列,使得列表页整体的搜索点击率达到最优。下面将详细介绍,针对端上重排序场景,我们在特征工程、实时反馈序列建模以及模型结构做的一些探索与实践。3.1特征工程在端上建设特征工程的思路和云端搜索排序系统基本一致,User/Item/Query/Contextual各个维度的基础、交叉特征可以快速复用到端上,当然需要考虑传输和算法2022年美团技术年货引入深度反馈网络在云端的精排模型优化工作中,我们一般只考虑用户和商户显式的“正反馈”行为(包括点击、下单等),隐式的曝光未点击“负反馈”信号则少有引入,因为长短期的历史行为中,此类曝光未点击行为非常多,相比于点击信号噪音很大。对于端上来说,这种实时的曝光“负反馈”信号也很重要。比如,对于同一品牌的某类商户实时多次曝光后,该品牌商户的点击率会呈明显的下降趋势。由于实时反馈序列中曝光未点击的隐式负反馈信号占了较大的比例,作为一个整体序列进行建模,对稀疏的正反馈信号存在较大的主导影响。阿里巴巴在淘宝首页信息流推荐场景下也提出了一种基于对抗的方式,来挖掘曝光、点击行为序列之间的联系,从而寻找当前曝光序列当中有哪些行为是真正的负反馈,而哪些行为与点击有更相近的关系。微信团队提出了深度反馈网络DFN4,通过引入正负反馈信号的交互作用关系,进行一定程度的去噪、纠偏。首先,基于DFN的优化思路,我们对反馈序列进行拆分,生成正负反馈序列,利用Transformer进行正负反馈信号的CrossAttention交互作用。具体来说,以曝光序列和点击序列为例,曝光行为序列作为Query,点击行为序列作为Key和Value,得到曝光行为序列对点击行为序列的Attention结果。同理,再调换一下得到点击行为序列对曝光行为序列的Attention结果。考虑到正反馈信号的稀疏性,当仅有负反馈序列时,会计算得到一些平均的无关噪音权重。因此,我们参考7的做法,在负反馈序列中引入全零的向量,来消除这种潜在的噪音。具体模型结构如下图4所示:算法2022年美团技术年货图 5停留时长-点击率效果对比多视角的正负反馈序列交叉建模在初版正负反馈序列模型的基础上继续迭代,我们关注到在调整Transformer中Multi-Head的数目时,并没有预期的增量收益,相比仅使用一个Head指标无明显变化。经过分析,我们怀疑这种通过随机初始化的生成的多头表征,很大程度上只是单纯参数量上的扩充。另外,在大众点评搜索场景下,同Query下商户列表整体的相关度比较高,尤其对页内的结果来说,同质度更高。差异性主要体现在比如价格、距离、环境、口味等细粒度的表征上面。因此,我们设计了一种多视角的正负反馈序列交叉建模方式Multi-ViewFeedBackAttentionNetwork(MVFAN),来强化曝光、点击行为在这些感知度更高的维度上的交互作用。具体网络结构如下图6所示:算法2022年美团技术年货通过消融对比实验发现,相比于随机初始化的Multi-HeadAttention,这种显式使用多种商户上下文特征的Transformer激活方式效果更显著。Match&Aggregate序列特征对于端上的用户实时反馈特征,除了各种常用的基于Attention的序列建模方式,还有一种采用显式交叉的兴趣提取方式。如图7所示,相比于一般基于Embedding内积计算“Soft”权重的Attention建模,它可以理解为一种“Hard”的Attention方式,提取的形式包括:Hit(是否命中)、Frequency(命中多少次)、Step(间隔多久)等等,除了单变量序列的交叉,还可以组合多个变量进行交叉,来提升行为描述的粒度和区分度。图 7Attention、Match&Aggregate 序列特征提取对比图这种基于先验知识引入的反馈序列交叉特征,可以一定程度上避免“Soft”Attention方式引入的一些噪音信息,同时也具有更好的可解释性。比如,用户在搜索“火锅”时,没有选择附近的商户,而点击了常住地附近的历史偏好商户,这种场景下存在明显的信号说明用户提前决策的意图。这时,加入一些显式的强交叉特征(例如,待排商户距实时点击商户的距离等)就能非常好的捕捉这种意图,从而把距离远但和用户算法2022年美团技术年货端云联合训练一般来说,云端的重排序模型基本都复用精排层的特征,并在此基础上加入精排输出的位置或者模型分。大众点评搜索精排模型经过长期的迭代更新,已经建设了大量的基础、场景相关特征,以及建模了包括点击、访购等多个联合目标,这些大规模维度的特征和多目标优化在端上直接复用存在巨大的计算开销、存储&传输压力。而仅使用云端模型位置或者预估分输出,则不可避免的会损失掉很多端云特征的交叉表达能力。同时,对于到端云两侧的模型迭代、更新,还会存在较大的维护成本。因此,我们采用端云联合训练的方式把大量的云端特征交叉信号,以及多目标高阶表征引入到端上使用。如图9所示,云端的模型训练收敛后,加入到端上重排任务继续Fine-tune更新。需要注意的是:1.因为搜索精排层使用的是ListWise的LambdaLoss,模型输出的预估分仅有相对的大小意思,不能表示商户的点击率预估范围,无法进行全局的绝对值使用。故仅采用网络的最后一层输出接入。2.仅接入最后一层的Dense输出,大大损失了云端特征与端上特征的交叉能力,因此,需要通过特征选择方式,选取头部特征加入到云端进行使用。图 9端云联合训练模型结构图算法2022年美团技术年货3.4多场景应用效果综合上述特征&模型优化举措,相关的离线实验指标效果对比如表2所示:表 2实验迭代指标对比数据表端智能重排序在点评主搜和美食频道列表页上线AB实验,核心业务指标QV_CTR均在高位基础上取得显著提升。如图11所示,上半部分,主搜列表页QV_CTR提升0.25%,美食频道列表页QV_CTR提升0.43%,分端表现稳定正向。另外,从下半部分分位置的点击率对比曲线,可以看出,端上重排能够一定程度上缓解固定分页请求的点击衰减效果,尤其在靠后的几屏展示上都有比较显著的提升。算法2022年美团技术年货4.1系统架构整体的端智能重排系统架构,包括和云端的搜索排序系统联合部署方案如图12所示。具体来说,主要有以下三大模块来支持端上重排系统的实现:智能触发方案模块,针对业务设计的各类触发事件,执行端上智能模块的调度。例如,用户点击商户行为触发执行本地重排。端上重排服务模块,执行构建特征数据,并调用端侧推理引擎运行重排模型,进行打分输出。其中:特征处理部分,是搜索技术中心针对搜/推/广算法场景,专项设计的一套方便算法使用的通用特征算子处理服务。支持对客户端、云端的各种类型数据,使用轻量、简便的表达式构建特征。端侧推理引擎部分,是终端研发中心输出的统一模型管理框架,支持各类端上轻量级推理引擎部署,以及模型的动态下发控制等。Native重排处理逻辑部分,主要进行重排输出后的结果回插,刷新控制处理。图 12端智能重排系统架构算法2022年美团技术年货图 13模型压缩数据、能耗相关指标对比4.3端智能模型训练预估平台不同于云端的排序算法实验流程,已经有成熟、完善的训练预估平台支持,特征&模型上线非常便捷、高效。客户端的实验流程前期存在非常大的迭代效率问题,比如模型的上线流程繁琐,包括模型结构的分离、转换&验证以及发布依赖大量的人工操作,跟多个内部平台的流转、对接;另外特征迭代效率低下,需要客户端协同开发相应的特征加工逻辑,存在较大的逻辑一致性风险,而且还会存在分端的实现差异等问题。基于此,美团的前后端工程合力推进开发、设计了一套适配客户端的Augur特征处理框架,将端上的模型发布和特征处理与一站式实验平台(Poker)、统一预估框架(Augur)进行打通,为进一步的算法迭代实验奠定了良好的基础,后续搜索技术中心团队也会向大家介绍面向端智能算法应用的一站式模型训练预估平台,敬请期待。算法2022年美团技术年货1.基于联邦学习模式,进一步在保证数据隐私安全及合法合规的基础上,迭代端云联合的智能搜索排序模型。2.建模更精确、多样的触发控制策略,对于端上实时用户意图感知的决策模块,当前的控制策略还比较简单。后续我们会考虑结合Query上下文,用户反馈信号等特征输出更灵活的预判信号,同时请求云端,获取更多符合用户当前意图的候选结果。3.继续优化重排序模型,包括实时反馈序列建模算法,探索对于隐式负反馈信号更鲁棒的编码表达方式等。4.思考端上更丰富、灵活的应用场景,比如模型的个性化定制,做到“千人千模”的极致个性化体验。作者简介祝升、刘哲、汤彪、嘉炜、凯元、杨乐、洪晨、曼曼、华林、孝峰、张弓,来自美团/大众点评事业部/搜索技术中心。逸然、朱敏,来自美团平台/搜索与 NLP 部/工程研发中心。参考资料1YuGong,ZiwenJiang,etal.“EdgeRec:RecommenderSystemonEdgeinMobileTaobao”arXivpreprintarXiv:2005.08416(2020).2QingyaoAi,KepingBi,etal.“LearningaDeepListwiseContextModelforRankingRefinement”arXivpreprintarXiv:1804.05936(2018).3ChanghuaPei,YiZhang,etal.“PersonalizedRe-rankingforRecommendation”arXivpreprintarXiv:1904.06813(2019).4RuobingXie,ChengLing,etal.“DeepFeedbackNetworkforRecommendation”(IJCAI-2020).5非易、祝升等.大众点评搜索基于知识图谱的深度学习排序实践.6肖垚、家琪等.Transformer在美团搜索排序中的实践.7QingyaoAi,DanielNHill,etal.“Azeroattentionmodelforpersonalizedproductsearch”arXivpreprintarXiv:1908.11322(2019).8TeoCH,NassifH,etal.“Adaptive,PersonalizedDiversityforVisualDiscovery”(RecSys-2016).9EugeneIe,VihanJain,etal.“SLATEQ-ATractableDecompositionforReinforcementLearningwithRecommendationSets”(IJCAI-19).10 Zhou,Guorui,etal.“Deepinterestnetworkforclick-throughrateprediction.”(SIGKDD-2018).算法2022年美团技术年货对话摘要技术在美团的探索(SIGIR)作者:马兵刘操今雄书杰见耸杨帆广鲁等随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,而文本摘要就是其中一个重要的手段。本文首先介绍了经典的文本摘要方法,包括抽取式摘要方法和生成式摘要方法,随后分析了对话摘要的模型,并分享了美团在真实对话摘要场景中面临的挑战。希望能给从事相关工作的同学带来一些启发或者帮助。1.对话摘要技术背景文本摘要65-74旨在将文本或文本集合转换为包含关键信息的简短摘要,是缓解文本信息过载的一个重要手段。文本摘要按照输入类型,可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要信息全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。此外,按照有无监督数据,文本摘要可以分为有监督摘要和无监督摘要。根据输入数据领域,文本摘要又可以分为新闻摘要、专利摘要、论文摘要、对话摘要等等。自动文本摘要可以看作是一个信息压缩的过程,我们将输入的一篇或多篇文档自动压缩为一篇简短的摘要,该过程不可避免地存在信息损失,但要求保留尽可能多的重要信息。自动文摘系统通常涉及对输入文档的理解、要点的筛选以及文摘合成这三个主要步骤。其中,文档理解可浅可深,大多数自动文摘系统只需要进行比较浅层的文档理解,例如段落划分、句子切分、词法分析等,也有文摘系统需要依赖句法解析、语义角色标注、指代消解,甚至深层语义分析等技术。对话摘要是文本摘要的一个特例,其核心面向的是对话类数据。对话类数据有着不同的形式,例如:会议、闲聊、邮件、辩论、客服等等。不同形式的对话摘要在自己的算法2022年美团技术年货传统抽取式摘要方法Lead-3一般来说,文档常常会在标题和文档开始就表明主题,因此最简单的方法就是抽取文档中的前几句作为摘要。常用的方法为 Lead-363,即抽取文档的前三句作为文档的摘要。Lead-3 方法虽然简单直接,但却是非常有效的方法。TextRankTextRank58算法仿照 PageRank,将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值,最后选取 N 个得分最高的节点,作为摘要。聚类基于聚类的方法,将文档中的句子视为一个点,按照聚类的方式完成摘要。例如 Padmakumar 和 Saran11将 文 档 中 的 句 子 使 用 SkipThoughtVectors 和ParagramEmbeddings 两种方式进行编码,得到句子级别的向量表示。然后再使用 K 均值聚类59和 Mean-Shift 聚类60进行句子聚类,得到 N 个类别。最后从每个类别中,选择距离质心最近的句子,得到 N 个句子,作为最终的摘要。基于神经网络的抽取式摘要方法近年来神经网络风靡之后,基于神经网络的抽取式摘要方法比传统的抽取式摘要方法性能明显更高。基于神经网络的抽取式摘要方法主要分为序列标注方式和句子排序方式,其区别在于句子排序方式使用句子收益作为打分方式,考虑句子之间的相互关系。序列标注方式这种方法可以建模为序列标注任务进行处理,其核心想法是:为原文中的每一个句子打一个二分类标签(0 或 1),0 代表该句不属于摘要,1 代表该句属于摘要。最终摘要由所有标签为 1 的句子构成。算法2022年美团技术年货是摘要句的概率,最终依据概率,选取 TopK 个句子作为最终摘要。虽然任务建模方式(最终选取摘要方式)不同,但是其核心关注点都是对于句子表示的建模。序列标注方式的模型在得到句子的表示以后对于句子进行打分,这就造成了打分与选择是分离的,先打分,后根据得分进行选择,没有利用到句子之间的关系。NeuSUM49提出了一种新的打分方式,使用句子收益作为打分方式,考虑到了句子之间的相互关系。其模型 NeuSUM 如下图 2 所示:图 2NeuSUM 模型结构句子编码部分与之前基本相同。打分和抽取部分使用单向 GRU 和双层 MLP 完成。单向 GRU 用于记录过去抽取句子的情况,双层 MLP 用于打分,如下公式所示:2.2生成式摘要模型抽取式摘要在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。生成式摘要允许摘要中包含新的词语或短语,灵活性较高。随着近几年神经网络模型的发展,序列到序列(Seq2Seq)模型被广泛地用于生成式摘要任务,并取得一定的成果。下面介绍生成式摘要模型中经典的Pointer-Generator50模型和基于要点的生成式摘要模型 Leader Writer4。算法2022年美团技术年货Leader-Writer 模型Leader-Writer 模型主要通过挖掘对话中存在的要点(例如背景、结论等)来生成摘要。作者总结了生成式摘要现存的几个问题:逻辑性,例如在客服对话中,背景应该在结论之前;完整性,即对话中存在的各个要点都应该在摘要中存在;关键信息正确,例如“用户同意”和“用户不同意”虽然只有一字之差,但含义完全相反;摘要过长问题。为了解决这些问题,本文提出了如下解决方案:1.引入要点序列预测辅助任务,并利用对话的要点序列信息引导模型生成具有逻辑性、完整性、关键信息正确的摘要。如下图 4 所示,Leader-Writer 模型用一个层次的 Transformer编码器编码每个话语,用 Leader 解码器对每个话语的要点进行分类,并使用 Writer 解码器进行摘要生成。Leader 解码器解码的输出作为 Writer 解码器初始状态的输入,以利用不同对话片段的要点信息。2.引入 Pointer-Generator 模型,以生成更长、信息更丰富的摘要。图 4Leader-Writer 模型2.3对话摘要模型对话具有关键信息散落、低信息密度、多领域、话题转换、说话者角色经常转换等特点,因此可以直接将文本摘要应用于对话摘要,一些研究工作也致力于解决这些问题。下面介绍 2 个有代表性的对话摘要模型:SPNet53和 TDS-SATM54。算法2022年美团技术年货图 5TDS-SATM 的整体架构3.基于阅读理解的 Span-level 抽取式摘要方案 DSMRC-S(发表于 SIGIR 2021)3.1背景介绍未来保证良好的用户体验,美团有大量的人工客服来处理用户来电问题,客服同学接到电话后需手动记录电话的内容,耗时费力。一个有效的对话摘要模型可以大大增加客服同学的工作效率,降低人工客服处理每通来电的平均处理时间。尽管上述经典方法在 CNN/DailyMail、LCSTS 等数据集上取得了不错的效果,但在实际的场景中仍然会遇到很多挑战。例如,生成式摘要依然缺少稳定性(重复或者产生奇怪的词)和逻辑性,而抽取式摘要如果没有明确的标注信息去训练模型,一般通过“ROUGE-L 指标高的句子标为正例”的方式自动标注句子层次的标签,但这种只抽取句子层次的粗粒度方式也容易带来噪音。此外,现有对话摘要结果不可控,难以得到特定的信息要素。为了适用实际的场景,我们介绍基于阅读理解的 Span-Level 抽取式对话摘要方案,该方法基于现有人工客服记录的摘要,不需要额外标注,也取得了不错的结果。其中相关的成果发表也在 SIGIR2021 国际会议上,下文将详细介绍该方法。算法2022年美团技术年货这样转换的好处在于:可以更有效地利用预训练语言模型强大的语言理解能力。相比 Seq2Seq 生成内容不可控,阅读理解的方式可以通过问句进行更有针对性引导,使得答案作为摘要更聚焦,可以得到关注的信息要素。无需额外标注的阅读理解方案阅读理解任务需要通常需要大量的标注数据。幸运的是,人工客服记录了大量的关键信息(例如“用户来电背景”、“用户来电诉求”、“解决方案”等),这些记录可以作为阅读理解问句对应的答案。然而人工客服的记录不是对话的原始文本片段,不能直接用于抽取式阅读理解,为了解决这个问题,我们设计了如下两个阶段(不依赖额外标注的阅读理解方案):第一阶段:预测对话中每一个 Token 出现在答案的概率如上图 6 所示,我们首先通过判断对话中的 Token 是否出现在答案(客服记录的关键信息)中,以自动给每个 Token 一个标签(出现则标为 1,不出现则标为 0)。然后,将对话和问题(预定好的,每个问题对应一个关键要素)一起输入到 BERT 中,使用 BERT 最后一层对每个 Token 进行分类,拟合上一步自动标注的标签,分类损失如下公式:其中 h 为 BERT 最后一层的 Token 向量,W 和 b 是可训练的权重矩阵。第二阶段:根据上一阶段的概率挑选密度最高的 Span 作为答案我们提出了密度的计算方式,对于一个 xi,xi 1,x_i l 的 Span,其密度计算如下式:算法2022年美团技术年货Trans Att Pointer:将 RNN 替换为 Transformer46。Trans Att Pointer(w):将 RNN 替换为 Transformer,(w)指的是将整个摘要作为一个整体进行预测,而不是预测多个关键要素,再最终组合。Leader Writer:一个层次化的 Transformer 结构4,Leader 模块先预测关键要素序列,Writer 模块根据关键要素序列生成最终的摘要。TDS SATM:利用 Transformer 结构进行句子级别的摘要抽取和字符级别的摘要生成的两阶段方法54,并使用神经主题模型进行主题增强。DSMRC-S:我们提出的基于阅读理解的 Span-level 抽取式摘要方法。实验结果主实验表 1DSMRC-S 和其他 Baseline 方法效果对比(%)DSMRC-S 和其他 Baseline 方法的性能如表 1 所示。我们可以得到以下结论:我们的模型获得了最好的性能,比最好的 Baseline 方法在 BLEU 上和ROUGE-L 上都提升了约 3%。单独对每个关键要素进行预测的方式,比起对整个摘要进行预测,效果明显更好。比如,Trans Att Pointer 比 Trans Att Pointer(w)要在 ROUGE-L上高 3.62%。这意味着在客服场景,对摘要进行拆分预测是有必要的。从摘要的差异性来看,我们的模型也获得了最好的性能,比最好的 Baseline方法在 Distinct1 指标上提升了 3.9%。算法2022年美团技术年货都表现比 Baseline 方法更好的准确率。4.总结与展望本文先介绍了文本摘要的经典方法,包括抽取式摘要方法和生成式摘要方法,随后介绍了更为灵活的基于距离监督阅读理解的 Span-Level 方案,该方法比强基准方法在ROUGE-L 指标和 BLEU 指标上高出了 3%左右。未来,我们将从如下方向继续在对话摘要上探索和实践:多 Span 答案的摘要抽取方法;基于 Prompt 的生成式对话摘要方法的探索;对话结构的深度建模,捕获更为丰富的对话信息。5.参考文献1A.M.Rush,S.Chopra,andJ.Weston,“Aneuralattentionmodelforabstractivesentencesummarization,”inProceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP2015.2A.See,P.J.Liu,andC.D.Manning,“Gettothepoint:Summarizationwithpointer-generatornetworks,”inProceedingsofthe55thAnnualMeetingoftheAssociationforComputationalLinguistics,ACL2017.3S.Gehrmann,Y.Deng,andA.M.Rush,“Bottom-upabstractivesummarization,”inProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP2018.4C.Liu,P.Wang,J.Xu,Z.Li,andJ.Ye,“Automaticdialoguesummarygenerationforcustomerservice,”inProceedingsofthe25thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining,KDD2019.5S.Chopra,M.Auli,andA.M.Rush,“Abstractivesentencesummarizationwithattentiverecurrentneuralnetworks,”inNAACLHLT2016.6Y.MiaoandP.Blunsom,“Languageasalatentvariable:Discretegenerativemodelsforsentencecompression,”inProceedingsofthe2016ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP2016.7D.Wang,P.Liu,Y.Zheng,X.Qiu,andX.Huang,“Heterogeneousgraphneuralnetworksforextractivedocumentsummarization,”inProceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics,ACL2020.8M.Zhong,D.Wang,P.Liu,X.Qiu,andX.Huang,“Acloserlookatdatabiasinneuralextractivesummarizationmodels.”算法2022年美团技术年货forComputationalLinguistics,ACL2018.23 A.JadhavandV.Rajan,“ExtractivesummarizationwithSWAP-NET:sentencesandwordsfromalternatingpointernetworks,”inProceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics,ACL2018,24 S.Narayan,S.B.Cohen,andM.Lapata,“Rankingsentencesforextractivesummarizationwithreinforcementlearning,”inProceedingsofthe2018ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,NAACL-HLT2018,25 X.Zhang,M.Lapata,F.Wei,andM.Zhou,“Neurallatentextractivedocumentsummarization,”inProceedingsofthe2018ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,26 Y.Liu,I.Titov,andM.Lapata,“Singledocumentsummarizationastreeinduction,”inProceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,NAACL-HLT2019,27 J.Xu,Z.Gan,Y.Cheng,andJ.Liu,“Discourse-awareneuralextractivetextsummarization,”inProceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics,ACL202028 M.Zhong,P.Liu,Y.Chen,D.Wang,X.Qiu,andX.Huang,“Extractivesummarizationastextmatching,”inProceedingsofthe58thAnnualMeetingoftheAssociationforComputationalLinguistics,ACL202029 Y.Wu,W.Wu,C.Xing,ou,andZ.Li,“Sequentialmatchingnetwork:Anewarchitectureformulti-turnresponseselectioninretrieval-basedchatbots,”inACL2017,30 Z.Zhang,J.Li,P.Zhu,H.Zhao,andG.Liu,“Modelingmulti-turnconversationwithdeeputteranceaggregation,”inCOLING2018,31 X.Zhou,L.Li,D.Dong,Y.Liu,Y.Chen,W.X.Zhao,D.Yu,andH.Wu,“Multi-turnresponseselectionforchatbotswithdeepattentionmatchingnetwork,”inACL201832 C.Tao,W.Wu,C.Xu,W.Hu,D.Zhao,andR.Yan,“Onetimeofinteractionmaynotbeenough:Godeepwithaninteraction-over-interactionnetworkforresponseselectionindialogues,”inACL201933 M.Henderson,I.Vulic,D.Gerz,I.Casanueva,P.Budzianowski,S.Coope,G.Spithourakis,T.Wen,N.Mrksic,andP.Su,“Trainingneuralresponseselectionfortask-orienteddialoguesystems,”inProceedingsofthe57thConferenceoftheAssociationforComputationalLinguistics,ACL201934 J.Devlin,M.Chang,K.Lee,andK.Toutanova,“BERT:pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding,”inProceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,NAACL-HLT2019,35 J.DongandJ.Huang,“Enhancewordrepresentationforout-of-vocabularyonubuntudialoguecorpus,”CoRR,vol.abs/1802.02614,2018.算法2022年美团技术年货50 AbigailSee,PeterJLiu,andChristopherDManning.Gettothepoint:Summarizationwithpointer-generatornetworks.arXivpreprintarXiv:1704.04368,2017.51 AbdelrahmanMohamed,OmerLevy,VeselinStoyanovandLukeZettlemoyer.“BART:DenoisingSequence-to-SequencePre-trainingforNaturalLanguageGeneration,Translation,andComprehension.”ACL(2020).52 Zhang,Jingqing,YaoZhao,MohammadSalehandPeterJ.Liu.“PEGASUS:Pre-trainingwithExtractedGap-sentencesforAbstractiveSummarization.”ArXivabs/1912.08777(2020):n.pag.53 Yuan,LinandZhouYu.“AbstractiveDialogSummarizationwithSemanticScaffolds.”ArXivabs/1910.00825(2019):n.pag.54 Zou,Yicheng,LujunZhao,YangyangKang,JunLin,MinlongPeng,ZhuorenJiang,ChanglongSun,QiZhang,XuanjingHuangandXiaozhongLiu.“Topic-OrientedSpokenDialogueSummarizationforCustomerServicewithSaliency-AwareTopicModeling.”AAAI(2021).55 Brown,TomB.etal.“LanguageModelsareFew-ShotLearners.”ArXivabs/2005.14165(2020):n.pag.56 Radford,Alec,JeffWu,RewonChild,DavidLuan,DarioAmodeiandIlyaSutskever.“LanguageModelsareUnsupervisedMultitaskLearners.”(2019).57 Radford,AlecandKarthikNarasimhan.“ImprovingLanguageUnderstandingbyGenerativePre-Training.”(2018).58 Mihalcea,RadaandPaulTarau.“TextRank:BringingOrderintoText.”EMNLP(2004).59Hartigan,J.A.andM.Anthony.Wong.“Ak-meansclusteringalgorithm.”(1979).60 Comaniciu,DorinandPeterMeer.“MeanShift:ARobustApproachTowardFeatureSpaceAnalysis.”IEEETrans.PatternAnal.Mach.Intell.24(2002):603-619.61 Lin,Chin-Yew.“ROUGE:APackageforAutomaticEvaluationofSummaries.”ACL2004(2004).62 Papineni,Kishore,SalimRoukos,ToddWardandWei-JingZhu.“Bleu:aMethodforAutomaticEvaluationofMachineTranslation.”ACL(2002).63 Ishikawa,Kai,ShinichiAndoandAkitoshiOkumura.“HybridTextSummarizationMethodbasedontheTFMethodandtheLeadMethod.”NTCIR(2001).64 Feng,Xiachong,XiaochengFengandBingQin.“ASurveyonDialogueSummarization:RecentAdvancesandNewFrontiers.”ArXivabs/2107.03175(2021):n.pag.65 El-Kassas,WafaaS.,CherifR.Salama,AhmedA.RafeaandHodaKorashyMohamed.“Automatictextsummarization:Acomprehensivesurvey.”ExpertSyst.Appl.165(2021):113679.66 Nallapati,Ramesh,BowenZhou,CceroNogueiradosSantos,aglarGlehreandBingXiang.“AbstractiveTextSummarizationusingSequence-to-sequenceRNNsandBeyond.”CoNLL(2016).算法2022年美团技术年货异构广告混排在美团到店业务的探索与实践作者:曲檀旭阳胡可程佳雷军1.背景与简介1.1背景美团到店广告负责美团搜索流量的商业变现,服务于到店餐饮、休娱亲子、丽人医美、酒店旅游等众多本地生活服务商家。质量预估团队负责广告系统中 CTR/CVR以及客单价/交易额等质量分预估,在过去几年中,我们通过位次上下文建模1、时空超长序列建模2等创新技术,在 CTR 预估问题中的用户、上下文等方向都取得了一些突破3,并整理成论文发表在 SIGIR、ICDE、CIKM 等国际会议上。不过以上论文重在模型精度,而模型精度与广告候选共同决定着排序系统的质量。但在广告候选角度,相比于传统电商的候选集合,美团搜索广告因 LBS(LocationBasedServices,基于位置的服务)的限制,所以在某些类目上门店候选较少,而候选较少又严重制约了整个排序系统的潜力空间。当用传统方式来增加候选数量的方法无法取得收益时,我们考虑将广告候选进行扩展与优化,以期提升本地生活场景排序系统的潜能上限。1.2场景介绍单一的门店广告不足以满足用户找商品、找服务的细粒度意图诉求。部分场景将商品广告作为门店广告的候选补充,两者以竞争方式来确定展示广告样式;此外,还有部分场景商品广告以下挂形式同门店广告进行组合展示。多种形式的异构广告展示样式,给到店广告技术团队带来了机遇与挑战,我们根据业务场景特点,针对性地对异构广告进行了混排优化。下文以美团结婚频道页和美团首页搜索为例,分别介绍两类典型异构混排广告:竞争关系异构广告和组合关系异构广告。算法2022年美团技术年货组合关系异构广告:门店广告和其商品广告组合为一个展示单元(蓝色框体)进行列表排序,商品从属于门店,两种类型异构广告组合混排展示。如下图 2 所示,门店广告展示门店的头图、标题价格等信息;两个商品广告展示商品价格、标题和销量等信息。广告系统确定展示单元的排列顺序,并在门店的商品集合中确定展示的 Top2 商品。图 2组合关系异构广告在首页搜索场景算法2022年美团技术年货生成式广告组合预估系统:将商品预估流程升级为列表组合预估,并提出上下文联合模型,建模商品上下文信息。异构广告冷启动优化:基于汤姆森采样算法进行 E&E(Exploit&Explore,探索与利用)优化,深度探索用户的兴趣。目前,高性能异构混排和生成式广告组合预估已经在多个广告场景落地,视场景业务不同,在衡量广告营收的千次广告展示收益(RPM,RevenuePerMille)指标上提升了 4%。异构广告冷启动优化在各业务生效,在精度不下降的前提下给予流量 10%随机性。下文将会对我们的具体做法进行详细的介绍。2.技术探索与实践2.1高性能异构混排系统打分粒度从门店下沉为商品后,排序候选量从 150 增加到 1500 ,带来排序潜力提升的同时,如果使用门店模型直接进行商品预估,则会给线上带来无法承担的耗时增加。通过分析,我们发现门店下所有商品共享门店基础特征,占用了 80%以上的网络计算,但对于多个商品只需要计算一次,而商品独有的、需要独立计算的商品特征只占用 20%的网络计算。所以基于这个特性,我们参照组合预估7的做法,来实现异构混排网络。主网络的高复杂性门店表征通过共有表达的迁移学习,实现对门店网络输出层的复用,从而避免在进行商品预估时对门店网络的重复计算。如下图 4 所示,整个网络分为门店网络和商品网络。在离线训练阶段,门店网络(主网络)以门店特征作为输入,得到门店的输出层,计算门店 Loss,更新门店网络;商品网络(bias 网络)以商品特征为输入,得到商品输出层,与门店网络的输出层门店向量作 CONCAT 操作,然后计算最终的商品 Loss,并同时更新门店网络和商品网络。为了实现线上预估时对门店网络输出层的复用,我们将商品以 List 的方式喂入模型,实现请求一次打分服务,获得 1(门店) n(商品)个预估值。另外,对于门店的商品数不固定这一问题,我们通过维度动态转换的方式保证维度对齐。实现保持网络规模算法2022年美团技术年货首页搜索的组合关系异构广告首页搜索的排序列表页中每个展示单元由门店和两个商品组成,机制模块对这一个展示单元进行计费排序。训练阶段,每一次曝光为多条样本:一条门店样本和多条商品样本。门店样本只更新门店网络,商品样本同时更新门店网络和商品网络。预估阶段,由于用户点击【更多优惠】前,默认展示 Top2 商品,所以可以选择商品预估值最高的 Top2 作为展示商品,其余商品按预估值排序。我们需要预估 pCTR(门店|商品 1|商品 2)。从数学角度分析,我们在预估门店或商品1 或商品 2 被点击的概率,因此我们使用概率加法法则算子:pCTR(门店|商品 1|商品 2)=1-(1-P 门店)*(1-P 商品 _1)*(1-P 商品 _2)。所以在得到门店和商品预估值之后,首先要对商品按预估值进行排序,得到商品商品的展示顺序,并选择 Top2 的商品预估值和门店预估值进行概率加法法则计算,得到展示单元的预估值用于门店排序计费。虽然系统整体架构相似,但是因使用场景不同,样本生成方式也不同,模型最终输出的 P 商品有着不同的物理含义。在竞争关系广告中,P 商品作为和门店并列的另一种展示类型;组合关系广告中,P 商品则为门店广告展示信息的补充,因此也有着不同预估值的应用方式。最终高性能异构混排系统在多个广告场景落地,视场景业务不同,RPM 提升范围在 2%之间。2.2生成式广告组合预估系统在商品列表中,商品的点击率除了受到其本身质量的影响外,还会受到其上下展示商品的影响。例如,当商品的上下文质量更高时,用户更倾向于点击商品的上下文,而当商品上下文质量较低时,用户则倾向于点击该商品,这种决策差异会累积到训练数据中,从而形成上下文偏置。而消除训练数据中存在的上下文偏置,有利于更好地定位用户意图以及维护广告系统的生态,因此我们参照列表排序的思路8-9,构建生成式商品排序系统,建模商品上下文信息。获取上下文信号可以通过预估商品列表的全排列,但是全排列的打分量极大(商品候算法2022年美团技术年货3.将包含上下文信息的商品 Emb 与位次信号再次拼接,通过 DNN 非线性交叉,得到包含上下文信息及位次信息的最终输出商品预估值。通过强化商品间的交叉,达到建模商品上下文的目的,最终生成式广告组合预估在首页搜索取得了 RPM 2%的效果提升。图 6下文组合预估模型2.3异构广告冷启动优化为了避免马太效应,我们也会主动试探用户新的兴趣点,主动推荐新的商品来发掘有潜力的优质商品。我们在模型上线前,通过随机展示的方式来挖掘用户感兴趣的商品。但是给用户展示的机会是有限的,展示用户历史喜欢的商品,以及探索用户新兴趣都会占用宝贵的展示机会,此外,完全的随机展示从 CTR/PRS 等效果上看会有较为明显的下降,所以我们考虑通过更合理的方式来解决“探索与利用”问题。相对于传统随机展示的 E&E 算法,我们采用基于汤普森采样的 Exploration 算法10,这样可以合理地控制精度损失,避免因部分流量进行 Exploration 分桶的 bias问题。汤普森采样是一种经典启发式 E&E 算法,核心思路可以概况为,给历史曝光算法2022年美团技术年货2.4业务实践异构混排和广告组合预估有效地解决了 LBS 限制下门店候选较少的问题。对于前文介绍的两类典型异构广告:竞争关系异构广告和组合关系异构广告,我们根据其展示样式和业务特点,将相应的技术探索均进行了落地,并取得了一定的效果。如下图 8所示:图 8异构广告混排技术业务实践3.总结本文介绍了美团到店搜索广告业务中异构广告混排的探索与实践,我们通过高性能的异构混排网络来应对性能挑战,并根据业务特点对异构预估进行了应用。为了建模广告的上下文信息,我们将商品预估流程由单点预估升级为组合预估模式,并提出上下文组合预估模型,建模商品位次及上下文信息,然后,通过基于汤普森算法的 E&E策略对商品冷启动问题进行了优化,在多个场景均取得了一定的成果。近期,已经有越来越多业务场景开始了展示样式的升级,例如美食类目由门店调整为菜品广告,酒店类目由门店调整为房型展示,本文提到的方案与技术也在逐步的推广落地过程中。值得一提的是,相比于美团以门店作为广告主体,业界的广告主体以商品和内容为主,本文提到的共有表达迁移和生成式组合预估的技巧,可以应用在商品和创意的组合问题上,更进一步拓展候选规模。广告异构混排项目也是从业务视角出发,勇于打破原来迭代框架下的一次重要尝试。算法2022年美团技术年货对前沿技术不断突破,以驱动业务持续发展。团队视人才培养,具备完善成熟的培养机制,帮助大家快速成长。岗位要求两年以上相关工作经验,熟悉常见机器学习原理和深度学习模型,具备 CTR/CVR/NLP/CV/RL 等模型实践经验。具备优秀的分析问题和解决问题的能力,保持对新事物的学习能力和好奇心,对解决挑战性问题充满激情。具备良好的编程能力,扎实的数据结构和算法基础,熟悉 Python/Java/Scala/C 两种或以上语言。计算机、自动化、电子信息、数学或相关专业本科及以上学历。具备以下条件优先互联网广告/搜索/推荐某一领域相关工作经验。感兴趣的同学可投递简历至:(邮件标题请注明:广平算法团队)。算法2022年美团技术年货上面展示了美团业务场景下的一个菜品评论示例。可以看到,视频相较于文本和图像可以提供更加丰富的信息,创意菜“冰与火之歌”中火焰与巧克力和冰淇淋的动态交互,通过短视频形式进行了生动的呈现,进而给商家和用户提供多元化的内容展示和消费指引。视频行业发展我们能够快速进入了视频爆炸的时代,是因为多个技术领域都取得了显著的进步,包括拍摄采集设备小型化、视频编解码技术的进步、网络通信技术的提升等。近年来,由于视觉 AI 算法不断成熟,在视频场景中被广泛应用。本文将主要围绕如何通过视觉 AI 技术的加持,来提高视频内容创作生产和分发的效率。算法2022年美团技术年货本文分享的一些技术实践案例,主要围绕着“吃”来展开。美团在每个场景站位都有内容布局和展示形式,短视频技术在美团 C 端也有丰富的应用,例如:大家打开大众点评 App 看到的首页 Feed 流视频卡片、沉浸态视频、视频笔记、用户评论、搜索结果页等。这些视频内容在呈现给用户之前,都要先经过了很多算法模型的理解和处理。丰富的内容和展示形式(B 端)而在商家端(B 端)的视频内容展示形式包括,景区介绍让消费者在线上感受更立体的游玩体验;酒店相册速览将相册中的静态图像合成视频,全面地展示酒店信息,帮助用户快速了解酒店全貌(其中自动生成的技术会在下文 2.2.2 章节进行介绍);商家品牌广告算法可以通过智能剪辑等功能,降低商家编辑创作视频的门槛;商家视频相册商家可以自行上传各类视频内容,算法为视频打上标签,帮助商家管理视频;商品视频/动图上文提到美团的业务范围也包括零售电商,这部分对于商品信息展示就非常有优势。举个例子,生鲜类商品,如螃蟹、虾的运动信息很难通过静态图像呈现,而通过动图可为用户提供更多商品参考信息。算法2022年美团技术年货2.短视频内容理解和生成技术实践2.1短视频内容理解2.1.1视频标签视频内容理解的主要目标是,概括视频中出现的重要概念,打开视频内容的“黑盒”,让机器知道盒子里有什么,为下游应用提供语义信息,以便更好地对视频做管理和分发。根据结果的形式,内容理解可以分为显式和隐式两种。其中,显式是指通过视频分类相关技术,给视频打上人可以理解的文本标签。隐式主要指以向量形式表示的嵌入特征,在推荐、搜索等场景下与模型结合直接面向最终任务建模。可以粗略地理解为,前者主要面向人,后者主要面向机器学习算法。显式的视频内容标签在很多场景下是必要的,例如:内容运营场景,运营人员需要根据标签,开展供需分析,高价值内容圈选等工作。上图中展示的是内容理解为视频打标签的概要流程,这里的每个标签都是可供人理解的一个关键词。通常情况下,为了更好地维护和使用,大量标签会根据彼此之间的逻辑关系,组织成标签体系。算法2022年美团技术年货征,对于下游任务的性能提升事半功倍。由于视频标签的标注代价非常昂贵,技术方案层面需要考虑的是:如何在尽量少用业务全监督标注数据的情况下学习更好的基础特征。首先,在任务无关的基础模型表征层面,我们采用了在美团视频数据上的自监督预训练特征,相比在公开数据集上的预训练模型,更加契合业务数据分布。其次,在语义信息嵌入层面(如上图所示),存在多源含标签数据可以利用。值得一提的是,美团业务场景下比较有特色的弱标注数据,例如:用户在餐厅中做点评,图片和视频上层抽象标签是美食,评论文本中大概率会提到具体在店里吃的菜品名称,这是可挖掘的优质监督信息,可以通过视觉文本相关性度量等技术手段进行清洗。这里展示了自动挖掘出的标签为“烤肉”的视频样本。算法2022年美团技术年货2.1.4模型迭代面向具体标签的性能提升主要应对的问题是,如何在基础表征模型的基础上,高效迭代目标类别的样本数据,提升标签分类模型的性能。样本的迭代分为离线和在线两部分,以美食探店标签为例,首先需要离线标注少量正样本,微调基础表征模型得到初始分类模型。这时模型的识别准确率通常较低,但即便如此,对样本的清洗、迭代也很有帮助。设想如果标注员从存量样本池里漫无目的地筛选,可能看了成百上千个视频都很难发现一个目标类别的样本,而通过初始模型做预筛选,可以每看几个视频就能筛出一个目标样本,对标注效率有显著的提升。第二步如何持续迭代更多线上样本,提升标签分类模型准确率至关重要。我们对于模型线上预测的结果分两条回流路径。线上模型预测结果非常置信,或是若干个模型认知一致,可以自动回流模型预测标签加入模型训练,对于高置信但错误的噪声标签,可以通过模型训练过程中的一些抵抗噪声的技术,如:置信学习进行自动剔除。更有价值的是,我们在实践中发现对于模型性能提升 ROI 更高的是人工修正模型非置信数据,例如三个模型预测结果差异较大的样本,筛出后交给人工确认。这种主动学习的方式,可以避免在大量简单样本上浪费标注人力,针对性地扩充对模型性能提升更有价值的标注数据。算法2022年美团技术年货上图展示了,不同维度标签对于技术有不同要求,其中细粒度实体理解,需要识别具体是哪道菜,与上层粗粒度标签的问题不同,需要考虑如何应对技术挑战。首先是细粒度识别任务,需要对视觉特征进行更精细的建模;其次,视频中的菜品理解相较于单张图像中的菜品识别更有挑战,需要应对数据的跨域问题。2.1.7菜品图像识别能力向视频领域的迁移抽象出关键问题后,我们来分别应对。首先在细粒度识别问题上,菜品的视觉相似性度量挑战在于不同食材的特征及位置关系没有标准化的定义,同一道菜不同的师傅很可能做出两种完全不同的样子。这就需要模型既能够聚焦局部细粒度特征,又能够融合全局信息进行判别。为了解决这个问题,我们提出了一种堆叠式全局-局部注意力网络,同时捕捉形状纹理线索和局部的食材差异,对菜品识别效果有显著提升,相关成果发表在 ACMMM 国际会议上(ISIAFood-500:ADatasetforLarge-ScaleFoodRecognitionviaStackedGlobal-LocalAttentionNetwork)。上图()中展示的是第二部分的挑战。图像和视频帧中的相同物体常常有着不同的外观表现,例如:图片中的螃蟹常常是煮熟了摆在盘中,而视频帧中经常出现烹饪过程中鲜活的螃蟹,它们在视觉层面差别很大。我们主要从数据分布的角度去应对这部分算法2022年美团技术年货2.1.9菜品细粒度标签应用按搜出封面在视频中识别出细粒度的菜品名称有什么应用呢?这里再跟大家分享一个点评搜索业务场景的应用按搜出封面。实现的效果是根据用户输入的搜索关键词,为同一套视频内容展示不同的封面。图中的离线部分展示了视频片段的切分和优选过程,首先通过关键帧提取,基础质量过滤筛选出适合展示的画面;再通过菜品细粒度标签识别理解到在什么时间点出现什么菜品,作为候选封面素材,存储在数据库中。线上用户对感兴趣内容进行搜索时,根据视频的多个封面候选与用户查询词的相关性,为用户展现最契合的封面,提升搜索的体验。算法2022年美团技术年货以上都是围绕美食视频展开,但美团还有很多其他的业务场景。如何自动挖掘更为丰富的视频标签,让标签体系本身能够自动扩展,而不是全部依赖人工整理定义,是一个重要的课题。我们基于点评丰富的用户评论数据开展相关工作。上图中的例子是用户的笔记,可以看到内容中既包含视频又包含若干张图片,还有一大段描述,这几个模态具有关联性,存在共性的概念。通过一些统计学习的方式,在视觉和文本两个模态之间做交叉验证,可以挖掘出视频片段和标签的对应关系。2.1.11视频片段语义标签挖掘结果示例算法2022年美团技术年货3.视频像素级编辑,主要涉及精细化的画面特效编辑。下面,我们就三类应用形式展开说明。2.2.1图像生成视频餐饮场景美食动图生成第一类,图像生成视频。该部分要做的更多是针对图像素材的理解和加工,使用户对技术细节无感的前提下,一键端到端生成理想素材。如上图所示,商家只需要输入生产素材的图像相册,一切交给 AI 算法:首先算法会自动去除拍摄质量较差的,不适合展示的图片;然后做内容识别,质量分析。内容识别包括内容标签,质量分析包括清晰度、美学分;由于原始图像素材的尺寸难以直接适配目标展位,需要根据美学评价模型,对图像进行智能裁切;最终,叠加 Ken-Burns、转场等特效,得到渲染结果。商家即可获得一个编排精美的美食视频。算法2022年美团技术年货第二类,视频生成视频片段。主要是将长视频切分并优选出若干个更精彩、符合用户预期的内容作展示。从算法阶段划分为片段生成和片段筛选排序。片段生成部分,通过时序切分算法,获取镜头片段及关键帧。片段排序部分,比较关键,它决定了视频优先顺序。这也是比较困难的部分,它有两个维度:1.通用质量维度,包含清晰度,美学分等;2.语义维度,例如:在美食视频中,菜品成品展示,制作过程等通常是比较精彩的片段。语义维度的理解主要是采用前面介绍的内容理解模型来支持。2.2.3.1智能封面与精彩片段原始封面-1算法2022年美团技术年货算法生成封面-2原始视频算法2022年美团技术年货像素级编辑处理最重要的技术之一是语义分割,在应用场景中面临的主要技术挑战是既要保证分割模型时效性,也要保证分辨率,保持高频细节信息。我们对于经典的BiSeNet 方法做出了进一步改进,提出了基于细节引导的高效语义分割方法。具体的做法如网络结构所示,左边浅蓝色部分是网络的推理框架,沿用了 BiSeNetContext 分支的设计,Context 分支的主干选用了我们自研的主干 STDCNet。与算法2022年美团技术年货3.总结展望以上分享了美团在视频标签、视频封面与剪辑、视频细粒度像素级编辑技术领域,通过与业务场景的结合期望为商家和用户提供更加智能的信息展示和获取方式。未来,短视频技术应用方面,在美团丰富的业务场景包括本地生活服务、零售电商,都会发挥更大的潜在价值。视频理解技术方面,多模态自监督训练,对于缓解标注数据依赖,提升模型在复杂业务场景的泛化性能方面非常有价值,我们也在做一些尝试和探索。4.作者简介马彬,美团视觉智能部工程师。算法2022年美团技术年货图 1查询改写信号在美团搜索上的使用本文会介绍美团搜索场景下查询改写这一任务上的迭代经验,内容主要分为三个部分。第一部分会对查询改写任务在美团搜索场景下的挑战进行简单的介绍;第二部分会介绍查询改写任务上整体技术栈建设的实践经验第三部分是总结与展望。目前,业界在文本召回策略方面公开的分享较少,希望本文能对从事搜索、广告、推荐中召回相关工作的同学有所启发或者帮助。2.背景与挑战2.1美团搜索场景下查询改写信号的使用方式在美团的搜索场景下,查询改写主要用于解决以下四类语义鸿沟导致的漏召回问题:语义拓展:主要是同义词、下位词以及常见的大小写数字和繁简转化等,例如“理发”、“剪发”、“造型”、“发艺”、“美发”、“剪头”等等。用户表达和商家表达上的 Gap:非语言上的同义。如用户表述口语化“学吉他”,商户描述书面化“吉他培训”;用户输入不完全匹配商户名:“希尔顿大算法2022年美团技术年货图 3美团搜索场景在与其他搜索场景的异同点通过对比行业内搜索场景可以发现,美团的搜索场景下用户需求和服务商家大多是面向本地,而生活服务领域业务非常细碎,相对用户对生活服务某个领域的需求而言,本地化供给相对较少。与此同时,美团搜索还聚合了多种履约形式的结果,搜索结果中会有团购、外卖、买菜、优选等业务的自然结果聚块,以及在本地相关业务均无结果时的推荐结果聚块。在有限的曝光位置下,每个自然结果聚块的不相关的结果会挤占其他聚块的收益,因此不能依赖排序解决相关性问题。这就要求美团搜索场景的查询改写在多个业务场景下要强相关且高效率,算法层面需要解决覆盖问题、准确率问题以及多业务问题。以该要求为出发点,在具体算法迭代时查询改写还面临以下两方面挑战:对用户的查询面临着复杂的需求场景语言歧义情况多:短 Query 增加了歧义的可能性,例如在美团场景下“剪个头发”是一个商户名,不能改写为“理发”;相同 Query 在不同城市含义不同,如“工大”在不同城市指代的学校不同。认知关联性:用户的搜索天然有对美团平台“找店”的认知,需要类似“配眼镜”等同于“眼睛店”的场景关联知识。场景多:随业务的发展,客观需求增多,查询改写承接的场景越来越多、越来越精细,目前,已经接入餐饮、到综、酒店旅游、外卖、商品、广告等多个业算法2022年美团技术年货3.1原始语料挖掘高质量的数据可以显著改善头部流量的改写效果,并且决定了后续模型性能的天花板。在候选集生成方面,基于搜索日志的挖掘、基于翻译思想、基于图计算、基于Embedding 都是工业界和学术界常用的方法;在候选集过滤判别方面则有句间关系分类、Embedding 相似度计算等方法。我们结合美团搜索场景总结了各个方法的优缺点,并在每个挖掘算法组件都结合了用户行为和语义两方面信息,下文将对离线语料挖掘做具体介绍。3.1.1搜索日志挖掘候选语料搜索日志挖掘是工业界常用的同义词获取手段,挖掘的主要方向有:用户搜索后点击共同商户:利用两个点击相同 Document 的 Query 构建相关关系。这种相关关系可以挖掘到大量词对,但这种简单的假设缺点也很明显,点击共现的 Query 可能有不同程度的漂移。在美团场景下提供综合服务的店铺很多,会有两种类型团单大量出现在相同商户下的情况,挖掘到“拔牙”“补牙”这种有语义漂移噪声的可能性更大。此外,这个方法依赖现有搜索的效果,无法挖掘到无结果 Query 的改写词。从搜索 Session 中挖掘:Session 是指用户在一段时间内“打开 App 多个页面的浏览,多个功能的点击、支付等行为离开 App”的一次交互过程。该方法是利用用户在整次 App 访问过程中连续输入的 Query 来构建相关关系。Session 挖掘依赖搜索结果程度低,因此泛化能力更强。但相应的缺点是,Session 时间切割不好确定,并且序列中每个搜索词之间的关联方式比较隐蔽,甚至可能没有相关关系。需要结合业务特点设计时长、引入点击(例如一次 Session 在有点击前的搜索词都无点击,可能是有具体需求未被满足)等条件做挖掘。词对齐:词对齐借鉴了翻译的思想,具体方法是将 Query 召回的商户标题去除了商户名部分后剩余的部分做为平行语料,设计一些对齐策略如字对齐(包含相同的字)、拼音对齐(相同拼音)、结构对齐(分词后词位置相同)。该方法的算法2022年美团技术年货也类似。该算法的优点是可以使用 Spark 进行大规模全局优化,并且边权重可以根据需要调整。优化构图后人工评测 SimRank 优化前后查询改写数据量提升了约30%,同时准确率从 72%提升到 83%。图 6改进构图方法的图方法挖掘后续,我们用相同的思路尝试了其他图神经网络模型(GNN)。DeepWalk3在构造Sentence 上下文采用随机游走的方法。随机游走一般是将 Query 之间的关系建立成图,通过从一个点随机游走,建立起多条路径,每条路径上的 Query 组成一个句子,再使用上下文相关原理训练 Query 的 Embedding。随机游走的优点就是关系具有传递性,和 Query 共现不同,可以将间接关系的 Query 建立联系。少量的数据经过游走能够产生够多的训练数据。例如在 Session1 中用户先搜索 Query1 后改为Query2 再查询,在 Session2 中用户先搜索 Query2 后改为 Query3 再查询,共现的方法无法直接建立 Query1 和 Query3 的关联关系,而随机游走能够很好地解决。在改写词挖掘任务中,基于图的方法相较于直接从搜索日志挖掘词对的方法,挖掘的效率和准确率均有所提升。算法2022年美团技术年货用 DSSM 双塔模型7,通过有监督训练提高精度;XGBoost 结合特征工程进一步过滤。BERT8自提出以来深刻改变了自然语言处理领域的研究应用生态,我们尝试了一些使用 BERTEmbedding 的方法,其中比较有效的是通过 Fine-Tuning 的Sentence-BERT9或 SimCSE10模型获取词向量。BERT 计算语义相似度是通过句间关系下游任务完成的,方法是用特殊字符将两个句子连接成一个整体做分类,带来的问题是使用时需要两两组合造成大量冗余计算,因此不适合做语义相似度搜索或无监督聚类任务。Sentence-BERT 借鉴了孪生网络模型的框架,将不同的句子输入到两个参数共享的 BERT 模型中,获取到每个句子的表征向量,该向量可以用于语义相似度计算,也可以用于无监督的聚类任务。我们实践的方法基本与 Sentence-BERT 思想大致相同,使用下图中左图的方法构造有监督的改写对训练数据,用右图的方法在不同意图类型的历史搜索 Query 进行向量计算。图 8Sentence-BERT 训练和预测结构示意图相比于前面的方法,双塔结构 BERT 的方法捕捉语义的能力更强,并且有监督算法2022年美团技术年货我们首先尝试的是一种协同训练的方法,协同训练是一种半监督的方法,它关注的问题是如何在有标记数据较少时利用大量的未标记数据来改善模型性能。考虑到离线挖掘数据噪音较大,我们探索了 NMT(NatureMachineTranslation)和 MT-BERT 协同训练的方法,达到同时提高数据质量和模型质量的效果,整体系统的框架图如下:图 9NMT-BERT 协同训练流程图整个协同训练的流程是:Step1BERT 判别模型产出 NMT 训练数据:将经过离线挖掘平行语料Fine-Tuning 后的 MT-BERT 模型在全量待预测数据上预测,设置一定阈值后返回高质量正例交给 NMT。Step2NMTFine-Tuning:在 BERT 返回的高质量正例中加入部分人工标注数据,作为 NMT 模型训练数据进行训练,获得 NMT 模型和指标。Step3NMT 产出判别模型训练数据:随机抽选一定数量的 Query 用 NMT模型生成 TopN 个改写词对,产出下一阶段 BERT 判别模型 Fine-Tuning数据。Step4BERT 判别模型 Fine-Tuning:用 Step3 生成的数据取头部 K 个词对作为正例,尾部 X 个词做负例,对 BERT 判别模型做 Fine-Tuning。循环以上步骤直至收敛:循环迭代上述步骤,直到双方模型在评测集上收敛。算法2022年美团技术年货数据增强:在模型训练的采样过程中使用 RandomNegatives、BatchNegatives、HardSampleNegatives 等方法,增强模型对误改写的识别能力和鲁棒性。模型结构优化:对 Baseline 的句间关系 BERT 做了模型结构上的探索,尝试了 R-Drop13和 Child-tuning14提升模型表达能力。总体 F1 提升了2.5PP。图向量融合:尝试基于搜索结果构造图模型的方法,结合线上实际搜索结果增强判别能力。通过对线上召回商品标题做实体识别,并将各个实体作为节点与Query 一同构图,以预测 Query 到召回实体的边类型为目标,使用 GCN15和 GAT16方法产出的 GraphEmbedding 通过向量 Pooling 的方法融入BERT 句间关系判别模型中,最终 F1 提升 1.6PP,解决了“宝宝”改写为“娃娃”误召回“玩具娃娃”这类歧义性问题。3.3在线服务通过以上几种挖掘手段,结合判别模型进一步提高准确率后能够得到数据量约千万级别的高质量改写对。但线上词典的应用方式泛化效率低下,下文会阐述如何通过线上模型进一步提高查询改写的整体效果。美团查询改写线上有以下几种方案:(1)高精度的词典改写;(2)较高精度的模型改写(统计翻译模型 XGBoost 排序模型);(3)覆盖长尾 Query 的语义 NMT(神经网络翻译模型)端到

4人已浏览 2023-01-16 430页 5星级


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有