生成式推薦無疑是當前推薦系統領域最熱門的方向,也是互聯網應用中最前沿的研究主題之一。
從技術路徑來看,生成式推薦主要沿著兩大方向展開:一是基于大語言模型的推薦方法(LLM as Recommender),二是以生成式方式訓練推薦模型(Generative Recommender)。
然而,在真實業務場景中,由于線上服務對成本極為敏感,LLM as Recommender 的落地仍面臨顯著挑戰。這主要源于大語言模型在推理時通常需要大量顯卡資源,且響應延遲較高,難以滿足大規模推薦系統對高并發和低延時的嚴格要求。
另一方面,生成式推薦模型雖然在效率上更具優勢,卻難以具備類似大語言模型的推理能力。這主要是因為典型的生成式推薦模型通常基于用戶歷史行為序列進行訓練,而該序列往往表示為一組物品 ID 序列:[item-1, item-2, item-3, …]。可以說,物品 ID 構成了推薦系統特有的“語言體系”。大語言模型之所以能夠模仿人類的推理過程,很大程度上依賴于文本作為信息媒介,從而逐步解決問題。但在僅由 ID 構成的語義空間中,我們難以構造類似的“思維鏈條”來引導模型執行復雜推理,更無法像大語言模型那樣實施上下文工程。
此外,傳統生成式推薦模型(如 SasRec)通常僅接受物品 ID 或語義 ID 作為輸入,不支持多模態或手工特征的引入。這一限制使得推薦系統長期積累的“特征工程”經驗難以發揮價值,同時也制約了模型效果的進一步提升。
在這一背景下,來自 Shopee 的傅聰技術團隊聯合人大高瓴學院提出了一種全新的生成式推薦模型——OnePiece 范式,這是業內首個融合上下文工程、隱式推理和多目標訓練策略的生成式搜推建模框架!

論文鏈接:
該范式的核心創新包括三個方面:針對物品 ID 序列特點專門設計的上下文工程策略;基于隱式推理的塊狀推理(block-wise reasoning)技術;以及通過漸進式多目標訓練強化推理過程監督的學習機制。
目前,OnePiece 已在 Shopee 個性化主搜索場景上線,并取得效果提升。這一實踐不僅驗證了生成式推薦在工業場景的可行性,更為構建通用生成式推薦模型邁出了關鍵性的第一步。
核心方法
LLM 的成功不僅僅源于其優秀的 scaling law,也源于上下文工程、推理能力。從真實系統應用角度思考,推薦模型需要實現極致的“性價比”,也就是實現一個大小適中,但能盡可能吸收 LLM 領域成功經驗的模型。因此,生成式推薦模型不能過度依賴 scaling law,即膨脹模型參數來獲取增量收益,也需要遷移上下文工程、推理等相關成功經驗到推薦領域。
首先,從上下文工程角度看,研究團隊主要利用的是 LLM 基于上下文工程的指令(prompt)做(test-time)few shot learning的能力。而 few shot learning 用大白話講就是舉例子,希望模型能獲得舉一反三的能力。而這種數據,后來也逐漸被固化到訓練數據中,被稱為 Instruct Following SFT。放到以 “item ID” 為語言體系的推薦數據上,可以舉出的“例子”,就是一些用戶可能會交互的“錨點物品序列”來實現。例如,在 Shopee Search 場景,他們把用戶們在某個關鍵詞下面的高頻點擊商品序列、高頻下單商品序列,作為“樣例”拼接在用戶自己的交互序列之后,通過引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。
他們提出了上下文工程框架不只有“錨點序列”,更多細節如下圖:

其中:
-
Interation History(IH):就是常規理解的用戶行為歷史。
-
Preference Anchors(PA):根據工程師的領域知識,構造的錨點序列,輔助引導預測和思考方向。
-
Situational Descriptor(SD):一些表達場景或其它異構信息的特殊 token,一般放在序列末尾聚合信息,例如在搜索場用到的 user token、query token 等。
-
Candidate Item Set(CIS):潛在目標候選物品的集合,這個是 ranking 模式下特有的,也是相對于召回模式的優勢所在,ranking 模式下,候選物品對模型可見,可提供更多上下文信息。
為了能夠自然融合“特征工程”的知識,他們在每個 token 位置上疊加了 item ID 以外特征信息,用簡單的 adapter(MLP)來壓縮到一個 token 位置上: