生成式推薦無(wú)疑是當(dāng)前推薦系統(tǒng)領(lǐng)域最熱門(mén)的方向,也是互聯(lián)網(wǎng)應(yīng)用中最前沿的研究主題之一。
從技術(shù)路徑來(lái)看,生成式推薦主要沿著兩大方向展開(kāi):一是基于大語(yǔ)言模型的推薦方法(LLM as Recommender),二是以生成式方式訓(xùn)練推薦模型(Generative Recommender)。
然而,在真實(shí)業(yè)務(wù)場(chǎng)景中,由于線上服務(wù)對(duì)成本極為敏感,LLM as Recommender 的落地仍面臨顯著挑戰(zhàn)。這主要源于大語(yǔ)言模型在推理時(shí)通常需要大量顯卡資源,且響應(yīng)延遲較高,難以滿足大規(guī)模推薦系統(tǒng)對(duì)高并發(fā)和低延時(shí)的嚴(yán)格要求。
另一方面,生成式推薦模型雖然在效率上更具優(yōu)勢(shì),卻難以具備類(lèi)似大語(yǔ)言模型的推理能力。這主要是因?yàn)榈湫偷纳墒酵扑]模型通常基于用戶歷史行為序列進(jìn)行訓(xùn)練,而該序列往往表示為一組物品 ID 序列:[item-1, item-2, item-3, …]。可以說(shuō),物品 ID 構(gòu)成了推薦系統(tǒng)特有的“語(yǔ)言體系”。大語(yǔ)言模型之所以能夠模仿人類(lèi)的推理過(guò)程,很大程度上依賴于文本作為信息媒介,從而逐步解決問(wèn)題。但在僅由 ID 構(gòu)成的語(yǔ)義空間中,我們難以構(gòu)造類(lèi)似的“思維鏈條”來(lái)引導(dǎo)模型執(zhí)行復(fù)雜推理,更無(wú)法像大語(yǔ)言模型那樣實(shí)施上下文工程。
此外,傳統(tǒng)生成式推薦模型(如 SasRec)通常僅接受物品 ID 或語(yǔ)義 ID 作為輸入,不支持多模態(tài)或手工特征的引入。這一限制使得推薦系統(tǒng)長(zhǎng)期積累的“特征工程”經(jīng)驗(yàn)難以發(fā)揮價(jià)值,同時(shí)也制約了模型效果的進(jìn)一步提升。
在這一背景下,來(lái)自 Shopee 的傅聰技術(shù)團(tuán)隊(duì)聯(lián)合人大高瓴學(xué)院提出了一種全新的生成式推薦模型——OnePiece 范式,這是業(yè)內(nèi)首個(gè)融合上下文工程、隱式推理和多目標(biāo)訓(xùn)練策略的生成式搜推建模框架!

論文鏈接:
該范式的核心創(chuàng)新包括三個(gè)方面:針對(duì)物品 ID 序列特點(diǎn)專(zhuān)門(mén)設(shè)計(jì)的上下文工程策略;基于隱式推理的塊狀推理(block-wise reasoning)技術(shù);以及通過(guò)漸進(jìn)式多目標(biāo)訓(xùn)練強(qiáng)化推理過(guò)程監(jiān)督的學(xué)習(xí)機(jī)制。
目前,OnePiece 已在 Shopee 個(gè)性化主搜索場(chǎng)景上線,并取得效果提升。這一實(shí)踐不僅驗(yàn)證了生成式推薦在工業(yè)場(chǎng)景的可行性,更為構(gòu)建通用生成式推薦模型邁出了關(guān)鍵性的第一步。
核心方法
LLM 的成功不僅僅源于其優(yōu)秀的 scaling law,也源于上下文工程、推理能力。從真實(shí)系統(tǒng)應(yīng)用角度思考,推薦模型需要實(shí)現(xiàn)極致的“性價(jià)比”,也就是實(shí)現(xiàn)一個(gè)大小適中,但能盡可能吸收 LLM 領(lǐng)域成功經(jīng)驗(yàn)的模型。因此,生成式推薦模型不能過(guò)度依賴 scaling law,即膨脹模型參數(shù)來(lái)獲取增量收益,也需要遷移上下文工程、推理等相關(guān)成功經(jīng)驗(yàn)到推薦領(lǐng)域。
首先,從上下文工程角度看,研究團(tuán)隊(duì)主要利用的是 LLM 基于上下文工程的指令(prompt)做(test-time)few shot learning的能力。而 few shot learning 用大白話講就是舉例子,希望模型能獲得舉一反三的能力。而這種數(shù)據(jù),后來(lái)也逐漸被固化到訓(xùn)練數(shù)據(jù)中,被稱為 Instruct Following SFT。放到以 “item ID” 為語(yǔ)言體系的推薦數(shù)據(jù)上,可以舉出的“例子”,就是一些用戶可能會(huì)交互的“錨點(diǎn)物品序列”來(lái)實(shí)現(xiàn)。例如,在 Shopee Search 場(chǎng)景,他們把用戶們?cè)谀硞€(gè)關(guān)鍵詞下面的高頻點(diǎn)擊商品序列、高頻下單商品序列,作為“樣例”拼接在用戶自己的交互序列之后,通過(guò)引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。
他們提出了上下文工程框架不只有“錨點(diǎn)序列”,更多細(xì)節(jié)如下圖:

其中:
-
Interation History(IH):就是常規(guī)理解的用戶行為歷史。
-
Preference Anchors(PA):根據(jù)工程師的領(lǐng)域知識(shí),構(gòu)造的錨點(diǎn)序列,輔助引導(dǎo)預(yù)測(cè)和思考方向。
-
Situational Descriptor(SD):一些表達(dá)場(chǎng)景或其它異構(gòu)信息的特殊 token,一般放在序列末尾聚合信息,例如在搜索場(chǎng)用到的 user token、query token 等。
-
Candidate Item Set(CIS):潛在目標(biāo)候選物品的集合,這個(gè)是 ranking 模式下特有的,也是相對(duì)于召回模式的優(yōu)勢(shì)所在,ranking 模式下,候選物品對(duì)模型可見(jiàn),可提供更多上下文信息。
為了能夠自然融合“特征工程”的知識(shí),他們?cè)诿總€(gè) token 位置上疊加了 item ID 以外特征信息,用簡(jiǎn)單的 adapter(MLP)來(lái)壓縮到一個(gè) token 位置上: