Youtube在2019公布了它的MMoE多最终目标次序控制系统《RecommendingWhatVideotoWatchNext:AMultitaskRankingSystem》。责任编辑主要就对MMoE多最终目标排序控制系统展开叙述,同时也将得出MMoE的标识符,并展开详尽如是说
写在后面
在责任编辑中,如是说了两个小规模多最终目标次序控制系统,用于在产业界音频撷取网络平台上所推荐下两个要观赏的音频。该控制系统会遭遇很多考验,主要就包括:存在数个计划性的次序最终目标(rankingobjectives),以及在userfeedback中的显式优先选择局限性(implicitselectionbiases)。为的是化解这些考验,学术论文积极探索了多种不同软模块共享资源技术(soft-parametersharingtechniques),比如说:Multi-gateMixture-of-Experts,以期对数个次序最终目标展开有效率最佳化(optimize)。除此之外,责任编辑会选用两个Wide&Deep架构来减慢优先选择局限性(selectionbiases)。
如是说
在本paper中,叙述了两个关于音频所推荐的小规模次序控制系统。换句话说:在取值使用者现阶段观赏的两个音频的情况下,所推荐该使用者可能会观看和享用的下两个音频。一般来说所推荐控制系统会遵从两个two-stage内部结构设计:candidategeneration、ranking。该paper主要就关注ranking。在该stage,所推荐器具有数十个备选,接著会应用领域两个繁杂的数学模型来对它们展开次序,并将最可能观赏的items所推荐给使用者。
内部结构设计两个虚拟世界的小规模音频所推荐控制系统充满著考验:
一般来说有很多不同的、有时候甚至有武装冲突的待强化最终目标。比如说,我们想所推荐使用者下载量高、愿与好友共享资源的、主要就包括观赏高的音频
在该控制系统中一般来说有显式局限性(implicitbias)。比如说,两个使用者一般来说点选和观赏两个音频,实际上只即使它的次序高,而不是即使使用者最喜欢它。因此,从现阶段控制系统的数据聚合来展开数学模型体能训练会是有偏的,这会造成(feedbackloopeffect)负面效应。如何有效率和高效率地自学减少这种的biases是个对外开放问题。
为的是化解这种的考验,为rankingsystem提出了两个有效率的多任务数学模型构架,如下表所示图右图。它会扩充Wide&Deep数学模型,通过选用**Multi-gateMixture-of-Experts(MMoE)来展开虚拟化自学。除此之外,它会导入两个表层塔内部结构(shallowtower)**来可视化和去除优先选择局限性。单厢应用领域该内部结构到音频所推荐中:取值现阶段使用者观赏的音频,所推荐下两个要观赏的音频。在试验和真实世界环境上均有较大提升。
如上图,是学术论文提出的ranking控制系统的数学模型构架。它会消费userlogs作为体能训练数据,构建Multi-gateMixture-of-Expertslayers来预测两类userbehaviors,比如说:engagement和satisfaction。它会使用两个side-tower来纠正rankingselectionbias。在顶部,会组合数个预测到两个最终的rankingscore
特别地,首先将虚拟化最终目标分组成两类:
参与度最终目标(engagementobjectives),比如说:
使用者点选(userclicks),所推荐音频的参与度
满意度最终目标(satisfactionobjectives),比如说:
使用者喜欢两个音频的程度,在所推荐上留下两个评分
为了自学和估计多种不同类型的使用者行为,学术论文使用MMoE来自动化自学那些跨潜在武装冲突的多最终目标共享资源的模块。Mixture-of-Experts构架会将inputlayer模块化成experts,每个expert会关注input的不同部分。这可以提升从繁杂特征空间(由数个模块聚合)中学到的表示。
接著,通过使用数个gatingnetwork,每个objective可以优先选择experts来相互共享资源或不共享资源。
为的是可视化和减小来自有偏体能训练数据的优先选择局限性(selectionbias,比如说:positionbias),学术论文提出了添加两个shallowtower到主数学模型中,如上图左侧右图。shallowtower会将input与selectionbias(比如说:由现阶段控制系统决定的rankingorder)相关联,接著输出两个scalar作为两个bias项来服务给主数学模型的最终预测。该数学模型构架会将体能训练数据中的label分解成两部分:
1.从主数学模型中学到的无偏使用者效用(unbiaseduserutility)
2.从shallowtower学到的估计倾向评分(estimatedpropensityscore)
学术论文提出的数学模型内部结构可以被看成是Wide&Deep数学模型的两个扩充,shallowtower表示Wide部分。通过直接自学shallowtower和mainmodel,具有优点:自学selectionbias,无需对随机实验resort来获取propensityscore。
为的是评估,学术论文提出的ranking控制系统,内部结构设计了offline和live试验来验证以下的效果:
虚拟化自学
去除两个常见的selectionbias(positionbias)
对比state-of-art的baseline方法,学术论文展示了提出的架构的改进,并在Youtube上展开试验。
主要就贡献有:
如是说了一种end-to-end的次序控制系统来展开音频所推荐
将ranking问题公式化成两个多最终目标自学问题,并扩充了Multi-gateMixture-of-Experts构架来提升在所有objectives上的效果
学术论文提出使用两个Wide&Deep数学模型构架来建模和缓和positionbias
已经在两个虚拟世界的小规模音频所推荐控制系统上评估学术论文所提的方法,以及相应的提升
问题叙述
本节,首先叙述了所推荐下一次要观赏的音频的问题,导入了两个two-stagesetup。
除了上述提到的使用显式反馈来构建rankingsystems考验外,对于真实世界的小规模音频所推荐问题,我们需要考虑以下因素:
多模态特征空间(Multimodalfeaturespace)。在两个context-aware个性化所推荐控制系统中,需要从多模态(比如说:音频内容、预览图、音频、标题、叙述、使用者demographics)来自学备选音频的userutility。从多模态特征空间中为所推荐自学表示,对比其它机器自学应用领域来说是du一无二的考验。它分为两个难点:
为协同过滤自学items的稀疏表示
桥接来自low-level的内容特征中的语义gap,以展开内容过滤(contentfiltering)
可扩充性(Scalability)。可扩充性相当重要,即使作者正构建两个数十亿使用者和音频的所推荐控制系统。数学模型必须在体能训练期间有效率体能训练,在serving期间高效率运行。尽管rankingsystem在每个query会对数百个candidates展开打分,虚拟世界场景的scoring需要实时完成,即使一些query和context信息不实际上需要自学数十亿items和users的表示,而且需要在serving时高效率运行。
回顾下学术论文中所推荐控制系统的最终目标是:在取值现阶段观赏的音频和上下文(context)时,提供两个关于音频的rankedlist。为的是处理多模态特征空间,对于每个音频,会抽取以下特征(比如说:音频的meta-data和音频内容信号)来作为它的表示。对于context,会使用以下特征(比如说:人口统计学userdemographics、设备device、时间time、地点location)。为的是处理可扩充性,学术论文中所推荐控制系统具有两个stages:备选聚合、ranking。
备选聚合
学术论文中的音频所推荐控制系统会使用多种不同备选聚合算法,每种算法会捕获queryvideo和candidatevideo间的某一种相似性。比如说,两个算法会通过将queryvideo的topics相匹配来聚合candidates;另两个算法则会基于该音频和queryvideo一起被观察的频次来检索candiatevideos。作者构建了两个序列数学模型通过使用者历史来聚合个性化备选音频。作者也会聚合context-awarehighrecallrelevantcandiadtes。最后,所有的candidates单厢放到两个set中,给rankingsystem展开打分。
Ranking
Ranking控制系统会从数十个candidates中聚合两个rankedlist。不同于candidategeneration,它会尝试过滤掉大多数items并只保留相关items,rankingsystem的最终目标是提供两个rankedlist以期具有最高utility的items可以展示在top后面。因此,使用大多数高级机器自学技术常用的NN内部结构,以期能足够的建模表现力来自学特征关联和utility关系。
数学模型内部结构
控制系统总览
Rankingsystem会从两类使用者反馈数据中自学:
engagement行为(比如说:点选和观赏)
satisfaction行为(比如说:喜欢(likes)和dismissals)
取值每个candidate,rankingsystem会使用该candidate、query和context的的特征作为输入,自学预测数个userbehaviors。
对于问题公式,作者选用l2r的架构。会将ranking问题可视化成:两个具有数个objectives的分类问题和回归问题的组合。取值两个query、candidate和context,ranking模型会预测使用者选用actions(比如说:点选、观赏、likes和dismissals)的概率。
为每个candidate做出预测的方法是point-wise的方法。作为对比,pair-wise或list-wise方法可以在两个或数个candidates的顺序上做出预测。pair-wise或list-wise方法可以被用于潜在提升所推荐的多样性(diversity)。然而,基于serving的考虑主要就使用point-wiseranking。在serving时,point-wiseranking很简单,可以高效率地扩充到大量candidates上。作为比较,对于取值的candidates集合,pair-wise或list-wise方法需要对pairs或lists打分多次,以期找到最优的rankedlist,限制了它们的可扩充性。
rankingobjectives
作者使用userbehaviors作为训练labels。由于使用者可以对所推荐items具有不同类型的behaviors,rankingsystem被内部结构设计成可以支持数个objectives。每个objective的最终目标是预测一种类型的与userutility相关的userbehavior。为的是叙述,以下将objectives分离成两个类别:engagementobjectives和satisfactionobjectives。
Engagementobjectives会捕获userbehaviors(比如说:clicks和watches)。将这些行为的预测公式化为两种类型的任务:对于像点选这种行为的二元分类任务,以及对于像时长(timespent)相关的行为的回归任务。相似的,对于satisfactionobjectives,将与使用者满意度相关的行为预测表示成二元分类任务或者回归任务。比如说,像点选/like这种的行为可以公式化成两个二元分类任务,而像rating这种的行为被公式化成regression任务。对于二元分类任务,会计算crossentropyloss。而对于regression任务,会计算squaredloss。
一旦数个rankingobjectives和它们的问题类型被定下来,可以为这些预测任务体能训练两个multitaskranking数学模型。对于每个candidate,将它们作为数个预测的输入,并使用两个形如加权乘法的组合函数(combinationfunction)来输出两个组合分(combinedscore)。该权值通过人工调参,以期在userengagements和usersatisfactions上达到最佳效果。
使用MMoE可视化任务关系和武装冲突
多最终目标的rankingsystems常使用两个共享资源的bottom数学模型构架。然而,当任务间的关联很低时,这种的hard-parametersharing技术有时候会伤害到多最终目标自学。为的是缓和多最终目标间的武装冲突,作者选用并扩充了MMoE(Multi-gateMixture-of-Experts)数学模型构架。
MMoE是两个soft-parametersharing数学模型内部结构,它的内部结构设计是为的是可视化任务的武装冲突(conflicts)与关系(relation)。通过在跨数个任务上共享资源experts,它选用Mixture-of-Experts(MoE)内部结构到虚拟化自学中,而对于每个task也具有两个gatingnetwork展开体能训练。MMoElayer的内部结构设计是为的是捕获任务的不同之处,对比起shared-bottom数学模型它无需大量数学模型模块。关键思路是,使用MoElayer来替代共享资源的ReLUlayer,并为每个task添加两个独立的gatingnetwork。
对于责任编辑的rankingsystem,作者提出在两个共享资源的hiddenlayer的top上添加experts,如图下图(b)右图。这是即使MoElayer可以帮助自学来自input的模态信息(modularizedinformation)。当在inputlayer的top上、或lowerhiddenlayers上直接使用它时,它可以更好地可视化多模态特征空间。然而,直接在inputlayer上应用领域MoElayer将极大增加数学模型training和serving的开销。这是即使,一般来说inputlayer的维度要比hiddenlayers的要更高。
youtube买订阅刷粉丝,点赞,观赏量,评论,加微信ins1520