2025 年幾乎被一致包裝成 AI Agent之年。從大模型到Agent轉向,行業講述的故事是,AI 不再只是一個會聊天、會生成文本的工具,而要變成能理解目標、拆解任務、自動調用各種服務的“數字執行者”。在 PPT 和發布會上,這聽起來是一次從會說話到會干活的范式轉變。
但第一批把這一愿景裝進硬件里的產品,很快給了現實的一記耳光。Rabbit R1 帶著 “Large Action Model” 的敘事亮相,號稱能像真人一樣在各類 App 里訂機票、點外賣、完成整條流程。然而真正到用戶手里,它更多像是一臺性能有限、響應遲緩、依賴云端的一部功能不完善的手機,宣傳中的自動化場景要么不可用,要么極不穩定,交互體驗也并未跳出傳統語音助手的框架,最終被普遍視為一場高調開局、低質量收場的失敗實驗。
這并不意味著Agent本身是偽命題,而是提醒我們把Agent做成一臺獨立硬件,可能一開始就選錯了戰場。與其再造一塊昂貴卻雞肋的設備,不如把“能看、能想、能行動”的能力壓縮成一個可以嵌入任意應用的輕量模型。
在這一背景下,昆侖萬維最新發布的Skywork R1V4-Lite(以下簡稱“R1V4-Lite”),試圖成為那個“能行動”的Agent。它不標榜自己是巨無霸,反而強調“輕量級”(Lite),其核心定位是,首次在輕量級架構下,統一了主動圖像操作、外部工具調用和多模態深度研究三大能力。
拋開噱頭,只討論感知—推理—行動這條鏈路本身時,今天的技術到底已經走到了哪一步。
我們設計了一系列高難度的真實場景,來看看R1V4-Lite的表現。