成功案例

这是推荐模型吗? OneRec纸张解释:如何同时饮食

作者:365bet登录 时间:2025/06/22 点击:

已将AI的新冲动注入了推荐的系统中,没有人避免。随着Field发起了由大型语言模型(LLM)领导的生成革命,它开始在具有强大端到端的学习能力,大规模的数据理解以及产生前所未有的内容的可能性中重建传统技术电池。作为互联网流量的中心引擎,推荐的系统面临着诸如计算机功率的破裂以及由瀑布体系结构引起的优化目标的分裂,逐渐限制了创新的开发。实现碎片到集成集成的组装范式过渡是振兴推荐系统的唯一方法。使用LLM技术重建架构以取得更好的结果,并且最近重建架构很重要,最近,Kuaishou的技术团队提供了答案,最后一个“ Onerec”提出了重建。推荐系统的完整链接首次具有末端 - 到末端生成体系结构。在有效性和成本之间看似为零的游戏中,Onerec允许“希望和希望”。从有效的角度来看:推荐模型的有效计算复杂性增加了10倍,并在推荐阶段重生了“不包裹在本地环境中”的增强学习技术。从成本的角度来看,培训/推理的MFU(使用模型计算机功率)由于建筑水平的创新而增加到23.7%/28.8%,并且迅速降低通信和一般存储费用,导致运营成本(OPEX)仅为10.6%的传统解决方案。当前,该系统为所有Double Userskuaishou App/Kuishou Speed Edition提供服务,假设QP的25%(每秒请求)约为25%,并且该应用程序的时间持久性增加了0.54%/1.24%。主要指标的7天用户生命周期(LT7)在大量折磨了,从传统管道转向最终架构的推荐系统为工业学位提供了第一个可行的解决方案。下图(左)显示了Kuahou/Kuahoesto的速度,显示了OCERC和该版本中推荐的架构的在线性能比较。该图(中心)显示了来自Onerec和Linare,DLRM和SIM的FLOP比较。该图(右)显示了OPEX的OPEX比较ONEREC和CASCADE的推荐体系结构,以及SIM,这是推荐效果背后的链接中最佳的计算机复杂性编程模型,并提高了计算机功率的效率。 Onerec在其建筑设计和培训框架中取得了一系列创新的进步。完整的技术报告链接:https://arxiv.org/abs/2506.13695打破了传统瀑布建筑的链接。从早期分解机到深神经网络,推荐的算法无法消除E限制了几个阶段级联。这种零散的设计面临三个重要的瓶颈:首先,计算机效率低下是致命的伤害。以Kuahou为例,在旗舰GPU中训练/推荐了推荐系统中最计算复杂性的精细调整模型(SIM)。理论上的MFU(使用模型失败)仅为4.6%/11.2%,远低于主要H100语言模型的40%-50%。其次,目标功能之间的冲突变得越来越严重,平台必须同时优化数百个用户,创建者和生态系统目标。这些目标是在不同阶段彼此限制的,从而导致系统的一致性和效率的连续退化。更严重的是,技术发电的差异正在扩大,现有的架构在吸收AI领域的最新进展(例如规模方法和强化学习)方面存在困难,Akes很难充分利用最新的计算机硬件功能,并逐渐加剧推荐系统和传输IAI技术的开发。鉴于这些挑战,库阿胡岛的技术团队提出了一个遥远的生成建议系统。它的核使用编码器按下用户完整生命周期的操作顺序。它试图减少有兴趣实现建模的人的数量。同时,基于MOE体系结构的解码器提供了超大参数的扩展,以确保简短的视频建议,以确切的端到头。结合个性化的强化学习框架和最终的培训/推理优化,该模型可实现有效性和效率的优势。下图显示了Onerec系统的一般描述。幸运的是,这个新系统对以下方面有重大影响:当使用较大的模型时,您可以实现更好的OBOM比在线系统低得多的修补成本要低得多。在特定范围内发现了建议的方案量表方法。 RL技术以前影响了建议并且难以优化,该架构的可能性很高。如今,该系统是LLM社区的CERCA,从培训到建筑和MFU级别的服务,LLM社区中的许多技术都可以在该系统中成功实施。 ONEREC ONEREC的基本模型的分析使用编码器解码器的体系结构,将推荐的问题转换为序列生成任务,并在训练过程中使用NTP损耗函数(下面的标记预测)的优化。下图显示了编码器解码器体系结构的完整组件。语义单词段在Kuaishou平台上面临数亿个视频内容。如何使每个视频成为重要主题。 Onerec一直是多模式FUSI的先驱视频方案:多模式融合方案:多模式融合方案。联合信号集成:不仅关注内容特征,还集中了用户行为信息。语义编码分层:使用RQ-KMEANS技术,每个视频都成为3层厚度的语义识别。在编码器解码器的架构训练阶段,Onerec通过编码器解码器的体系结构执行以下令牌预测,从而实现了目标元素的预测。该阶段中此体系结构的编解码特征包括:等级用户的建模:编码阶段既考虑静态用户属性,短期动作序列,有效的可视化序列和生命动作序列。 Decode Expert Hybrid:解码器阶段使用点生成策略来通过专家体系结构(MOE)的混合来提高模型的能力和效率。参数SCA的实验推荐系统中规模方法的LE是Onerec研究中的另一个突出点,该研究试图回答基本问题。推荐系统还遵循大语言模型领域的规模方法吗?实验结果清楚地表明,当模型参数的体积从0.015b增加到2,633B时,训练损耗显示出很大的向下趋势。有关更多信息,请参见下图上图的损失变化曲线。此外,技术报告还提出了功能量表,代码簿量表和占卜量表等特征。这使用计算机功率来提高建议的精度。退缩倾斜(RL)优先对准监狱模型可以通过以下对令牌的预测进行调整,但可以通过以下预测来调整暴露于模型的元素的空间分布,但是暴露的这些元素是从过去的传统推荐系统中得出的,因此该模型无法通过传统的REC的性能限制强烈的系统。为了解决这一挑战,Onerec使用强化学习来改善模型的效果,引入了基于奖励机制的优先对准方法。通过奖励机制,模型可以感知紧密的用户更喜欢的信息。为此,Onerec创建了一个全面的奖励系统:优先奖励:它用于调整用户偏好。格式奖励:确保生成的所有令牌均以有效的格式。工业补偿:满足各种商业场景的需求。下图显示了奖励系统的一般框架。我应该奖励什么样的视频? OneRec是一个“个人”,具有基于用户特征的目标的不同目标。我们建议采用优先奖励模型,该模型可以在“融合”之后产生优先级分数。该分数“ p-Score”被用作增强学习的奖励,并通过改进的GRPO ECPO进行了优化(早期关闭的GRPO)。如下图所示,与GRPO相比,ECPO由于负优势(0)而进行更严格的战略梯度截断,避免了梯度爆炸,同时保留样品,这使得训练更加稳定。 Onerec对速度Kuishou/Kuahou Edition的情况进行了增强学习消融实验。在线结果表明,应用程序时间大大提高而不会失去视频曝光。下表显示,将Onerec的“ p分数”的最佳选择与无需使用的各种指标进行了比较。优化的性能MFU(使用模型的浮点的操纵)被用作衡量计算中能源效率的核心指标,但是有两个主要原因是传统推荐的分类模型被深深地陷入了“单个长期数字的诅咒”中。首先,对商业迭代的积累,例如Kuaisho is kuaisho is kuaisho is kuaisho is buntentation the累积的历史负担U精细的编程模型超过15,000,这使得由于复杂的结构而无法执行诸如LLM之类的深层优化。其次,低尺寸和延迟限制的瓶颈包括单个操作员的计算机密度低,视频记忆带宽是高性能限制,长时间内使用Potentigpu计算机科学的使用率不到10%。 Onerec的生成架构通过使用编码解码器架构(例如LLM)合理化组件,将关键运算符数量从92%到1,200进行压缩以及以较大的模型量表提高计算机密度,从而引起了创新的变化。重建推荐的链接并释放延迟压力时,与传统解决方案相比,培训/推理MFU的增加分别增加到23.7%和28.6%,相比之下,提高了3-5倍,这使推荐系统可以达到与第一个模型相当的计算机能效水平。上半场上半场的时间。此外,Kuaishou技术团队还对Onerec在培训和推论框架中的特征进行了个性化优化。在训练阶段的训练优化,Onerec通过以下核心优化实现加速:计算压缩:对于同一应用下的多个曝光样本(同时发送6个视频,平均有5个展览),这些样本与用户共享上下文的特征。按应用ID分组的Kuahou,以避免在上下文序列中重复进行FFN计算。同时,我们利用可变长度的闪光灯的注意来避免重复的KV记忆操作,并进一步提高注意力的计算密度。综合加速优化:为了应对单个样本中超过1000万个参数的培训挑战,Kuaishou技术团队已经开发了E SKAI系统。由于统一的GPU存储器管理(UGMMU),核的数量已大大减少。通过智能存储算法LFU随着时间的推移加权,我们通过嵌入的先前的收集管道来最大化数据位置,叠加参数的传输以及模型的计算,从而有效地隐藏了传输延迟,并显着提高了合并训练效率的一般一般提高。此外,还有关键优化技术,例如有效的并行训练,混合精度和汇编优化。 Onerec在推理阶段进行了优化的推理,采用了较大的光束尺寸(通常为512),以提高生成建议的多样性和覆盖范围。在大规模平行生成的需求之前,Kuaishou技术团队已经实施了多个维度的详细优化,包括计算机多路复用,操作员优化和系统PROG撞。任意计算机多重速度:Onerec使用多种计算机多路复用方法来显着提高效率。 Ncoder侧的特性完全由所有光束组成,因此编码器应避免重复计算并向前计算一次。其次,在所有光束之间共享解码器生成期间的重要警告密钥/值,大量使用并计算能耗。同时,解码器内部使用KV缓存中的存储机制来缓存历史记录段落的密钥/值,从而进一步降低了重复计算。操作员级别的优化:ONEREC推理阶段完全使用Float16混合精度计算,在很大程度上提高了计算机速度并减少视频内存的使用。同时,实施了核的详细融合,并针对中央操作员(例如MOE,注意力和Beamsearch)进行了手动优化,E效力减少新的GPU Nuclei公司和内存访问的数量,并整合提高了操作员和一般性能功能的计算效率。此外,还有独家优化,例如系统编程优化。通过上面提到的系统优化策略,培训和推理中的ONEREC MFU分别达到23.7%和28.8%。这是一个显着改善,而先前推荐模型的4.6%和11.2%。运营成本已减少到传统解决方案的10.6%,可节省约90%的成本。 OneRec在线实验的结果在简短的视频建议的主要阶段进行了严格的实验,该实验针对主要Kuaishou网站/双端速度的那些Applieddouble End份额。通过AB测试每周5%的流量,纯生成模型(ONEREC)的效果与RL对齐推荐的原始复杂系统相同,而重叠的奖励模型的选择策略(与RM选择的ONEREC)的住宿时间增加了0.54%/1.24%,增长了0.08%,增长了7天生活生活中7天生命生活的生活生活的生活的生命的增长。 (LT7)。 Kuahou系统,0.1%的停留时间或0.01%LT7的提高具有统计学意义。更引人注目的是,该模型表明,它可以通过所有交互式指标(例如良好,注意力,评论(如下表所示)实现正回报(如下表所示),并避免使用多级系统的“平衡效应”以实现全球优化。该系统将在短视频建议的主要阶段向所有用户宣布,并假设大约25%的应用程序(QP)。除了推荐的简短视频消费方案外,Onerec在Kuaishou Local Life Services方案中还表现出色。 ab比较实验表明,该计划将GMV提高了21.01%,订单量增加了17.89%,并增加了购买用户的数量18.58%。目前,该商业线路实现了完整的交通变化。值得注意的是,与实验阶段相比,完整的在线头衔进一步扩展后,有指标的增长率,在几种商业场景中彻底检查了OnEREC的概括能力。结论AI的产生大规模,并在几个领域产生了基本的技术变化和降低成本和效率的提高。当新的Kuaishou Onerec的到达范式时,推荐的系统加速了“生成到结束”的时刻。 Onerec不仅表明了推荐系统和LLM技术堆栈的深入整合,而且还重建了中央互联网基础架构的技术DNA。另一方面,推荐的系统通过创新的末端 - 到末端的生成体系结构进行了重建。同时,极端工程优化在有效性和效率的双重维度上实现了重要的重要性。当然,新系统中仍然有很多地方必须得到更多改进。 Kuaishou的技术团队表示要打破三个方向。推理能力:在谜语阶段扩展步骤的能力尚不清楚。多模式桥:在用户和LLM/VLM的操作模式之间构建了本机融合体系结构,它们代表VLM的中模式对齐技术,并执行对用户操作序列,视频内容和语义空间的统一学习,这使其成为本机模型的完整模型。完整的奖励系统:当前的设计仍然相对基础。最终,Onerec的末端体系结构,奖励系统会影响在线结果和外行培训。 Kuaishou想要给我们E此功能指导模型更好地了解用户的偏好和商业需求,并提供更好的推荐体验。添加了更多AI功能的Futuroonec无疑是更强大的,并且可以预见到包括Kuaishou在内的更广泛的推荐应用程序方案。

鱼丸游戏飞禽走兽电玩城_森林舞会电玩城游戏大厅

客服热线:400-123-4567

邮箱:[email protected]
地址:广东省广州市天河区88号

首页
电话
短信
联系