99九九精品视频,一级在线免费视频,奇米影视四色在线

生成式推薦無(wú)疑是當(dāng)前推薦系統(tǒng)領(lǐng)域最熱門(mén)的方向，也是互聯(lián)網(wǎng)應(yīng)用中最前沿的研究主題之一。

從技術(shù)路徑來(lái)看，生成式推薦主要沿著兩大方向展開(kāi)：一是基于大語(yǔ)言模型的推薦方法（LLM as Recommender），二是以生成式方式訓(xùn)練推薦模型（Generative Recommender）。

然而，在真實(shí)業(yè)務(wù)場(chǎng)景中，由于線上服務(wù)對(duì)成本極為敏感，LLM as Recommender 的落地仍面臨顯著挑戰(zhàn)。這主要源于大語(yǔ)言模型在推理時(shí)通常需要大量顯卡資源，且響應(yīng)延遲較高，難以滿足大規(guī)模推薦系統(tǒng)對(duì)高并發(fā)和低延時(shí)的嚴(yán)格要求。

另一方面，生成式推薦模型雖然在效率上更具優(yōu)勢(shì)，卻難以具備類(lèi)似大語(yǔ)言模型的推理能力。這主要是因?yàn)榈湫偷纳墒酵扑]模型通常基于用戶歷史行為序列進(jìn)行訓(xùn)練，而該序列往往表示為一組物品 ID 序列：[item-1, item-2, item-3, …]。可以說(shuō)，物品 ID 構(gòu)成了推薦系統(tǒng)特有的“語(yǔ)言體系”。大語(yǔ)言模型之所以能夠模仿人類(lèi)的推理過(guò)程，很大程度上依賴于文本作為信息媒介，從而逐步解決問(wèn)題。但在僅由 ID 構(gòu)成的語(yǔ)義空間中，我們難以構(gòu)造類(lèi)似的“思維鏈條”來(lái)引導(dǎo)模型執(zhí)行復(fù)雜推理，更無(wú)法像大語(yǔ)言模型那樣實(shí)施上下文工程。

此外，傳統(tǒng)生成式推薦模型（如 SasRec）通常僅接受物品 ID 或語(yǔ)義 ID 作為輸入，不支持多模態(tài)或手工特征的引入。這一限制使得推薦系統(tǒng)長(zhǎng)期積累的“特征工程”經(jīng)驗(yàn)難以發(fā)揮價(jià)值，同時(shí)也制約了模型效果的進(jìn)一步提升。

在這一背景下，來(lái)自 Shopee 的傅聰技術(shù)團(tuán)隊(duì)聯(lián)合人大高瓴學(xué)院提出了一種全新的生成式推薦模型——OnePiece 范式，這是業(yè)內(nèi)首個(gè)融合上下文工程、隱式推理和多目標(biāo)訓(xùn)練策略的生成式搜推建模框架！

傅聰團(tuán)隊(duì)新作：OnePiece！通用生成式推薦模型新范式

論文鏈接：

該范式的核心創(chuàng)新包括三個(gè)方面：針對(duì)物品 ID 序列特點(diǎn)專(zhuān)門(mén)設(shè)計(jì)的上下文工程策略；基于隱式推理的塊狀推理（block-wise reasoning）技術(shù)；以及通過(guò)漸進(jìn)式多目標(biāo)訓(xùn)練強(qiáng)化推理過(guò)程監(jiān)督的學(xué)習(xí)機(jī)制。

目前，OnePiece 已在 Shopee 個(gè)性化主搜索場(chǎng)景上線，并取得效果提升。這一實(shí)踐不僅驗(yàn)證了生成式推薦在工業(yè)場(chǎng)景的可行性，更為構(gòu)建通用生成式推薦模型邁出了關(guān)鍵性的第一步。

核心方法

LLM 的成功不僅僅源于其優(yōu)秀的 scaling law，也源于上下文工程、推理能力。從真實(shí)系統(tǒng)應(yīng)用角度思考，推薦模型需要實(shí)現(xiàn)極致的“性價(jià)比”，也就是實(shí)現(xiàn)一個(gè)大小適中，但能盡可能吸收 LLM 領(lǐng)域成功經(jīng)驗(yàn)的模型。因此，生成式推薦模型不能過(guò)度依賴 scaling law，即膨脹模型參數(shù)來(lái)獲取增量收益，也需要遷移上下文工程、推理等相關(guān)成功經(jīng)驗(yàn)到推薦領(lǐng)域。

首先，從上下文工程角度看，研究團(tuán)隊(duì)主要利用的是 LLM 基于上下文工程的指令（prompt）做（test-time）few shot learning的能力。而 few shot learning 用大白話講就是舉例子，希望模型能獲得舉一反三的能力。而這種數(shù)據(jù)，后來(lái)也逐漸被固化到訓(xùn)練數(shù)據(jù)中，被稱為 Instruct Following SFT。放到以 “item ID” 為語(yǔ)言體系的推薦數(shù)據(jù)上，可以舉出的“例子”，就是一些用戶可能會(huì)交互的“錨點(diǎn)物品序列”來(lái)實(shí)現(xiàn)。例如，在 Shopee Search 場(chǎng)景，他們把用戶們?cè)谀硞€(gè)關(guān)鍵詞下面的高頻點(diǎn)擊商品序列、高頻下單商品序列，作為“樣例”拼接在用戶自己的交互序列之后，通過(guò)引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。

他們提出了上下文工程框架不只有“錨點(diǎn)序列”，更多細(xì)節(jié)如下圖：

傅聰團(tuán)隊(duì)新作：OnePiece！通用生成式推薦模型新范式

其中：

Interation History（IH）：就是常規(guī)理解的用戶行為歷史。
Preference Anchors（PA）：根據(jù)工程師的領(lǐng)域知識(shí)，構(gòu)造的錨點(diǎn)序列，輔助引導(dǎo)預(yù)測(cè)和思考方向。
Situational Descriptor（SD）：一些表達(dá)場(chǎng)景或其它異構(gòu)信息的特殊 token，一般放在序列末尾聚合信息，例如在搜索場(chǎng)用到的 user token、query token 等。

Candidate Item Set（CIS）：潛在目標(biāo)候選物品的集合，這個(gè)是 ranking 模式下特有的，也是相對(duì)于召回模式的優(yōu)勢(shì)所在，ranking 模式下，候選物品對(duì)模型可見(jiàn)，可提供更多上下文信息。

為了能夠自然融合“特征工程”的知識(shí)，他們?cè)诿總€(gè) token 位置上疊加了 item ID 以外特征信息，用簡(jiǎn)單的 adapter（MLP）來(lái)壓縮到一個(gè) token 位置上：

傅聰團(tuán)隊(duì)新作：OnePiece！通用生成式推薦模型新范式

創(chuàng)作交流更多>>

新車(chē)測(cè)評(píng)更多>>

媒體學(xué)習(xí)更多>>

生態(tài)內(nèi)容更多>>

原創(chuàng)分享更多>>

寫(xiě)作技巧更多>>