DeepSeek 多模態研究速覽

視覺原語
讓模型真正看懂空間

DeepSeek 提出將點與邊界框直接放入推理鏈的方法,讓多模態模型不再只靠模糊文字描述圖像,而能像人用手指向畫面一樣,追蹤位置、路徑與拓撲關係。

7056x視覺 Token 整體壓縮比例
77.2基準測試得分,高於同列模型
66.9%迷宮導航任務表現
Bounding Box
Object Region
Point Trace
圖像位置
視覺原語
推理鏈

傳統多模態模型的瓶頸

現有模型主要依賴自然語言指代圖像內容。當任務涉及高解析度、密集物體、路徑追蹤或拓撲導航時,文字描述很容易失去精準度。

指代鴻溝

自然語言難以精確指向圖像中的具體位置,模型容易把「那個物體」「左邊區域」理解成模糊概念。

細節缺失

高解析度圖像常包含密集細節與動態分塊,單靠文字摘要會壓掉關鍵空間資訊。

連鎖幻覺

在密集計算、複雜空間推理與拓撲導航中,前一步定位錯誤會逐步放大成完整推理錯誤。

核心創新:Visual Primitives

DeepSeek 將空間標記升級為最小思維單元,直接插入模型推理鏈。模型不只描述圖像,而是操作圖像中的位置、區域與路徑。

視覺原語 主要功能 推理價值
邊界框 Bounding Box 捕捉具體物體的位置、範圍與大小。 讓模型能對「哪個物體」做可驗證的空間定位。
點 Point 用於抽象視覺指代、軌跡追蹤與路徑尋找。 讓模型能沿著畫面結構移動,支援迷宮與線路類任務。

高效視覺編碼與壓縮

方法基於 DeepSeek-V4-Flash 骨幹模型,搭配從頭訓練的 DeepSeek-ViT 與壓縮稀疏注意力機制,降低視覺 Token 成本。

3x3 空間壓縮

將 9 個相鄰圖像塊合併,減少冗餘視覺片段,同時保留可供空間推理使用的結構資訊。

KV Cache 4 倍壓縮

視覺 Token 的 KV Cache 被進一步壓縮,整體視覺壓縮比例可達 7056 倍,讓模型以更低成本處理圖像。

01預訓練
Pretraining
02監督微調
SFT
03強化學習
RL
04策略蒸餾
Distillation

效率與性能對比

DeepSeek 在更少 KV Cache 條目的情況下取得更高基準得分,顯示視覺原語不是單純增加標記,而是提升空間推理效率。

模型 KV Cache 條目數 基準測試得分
DeepSeek9077.2
Gemini-3-Flash110070.5
Qwen3-VL289未列示
GPT-45.4未列示

關鍵能力展示

在拓撲推理任務上,視覺原語能把「看見」轉化為可追蹤的推理步驟,使模型更穩定地處理迷宮、線條與路徑。

迷宮導航 DS_Maze_Navigation

DeepSeek 表現:66.9%。傳統前沿模型約 50%。

路徑追蹤 Path_Tracing

DeepSeek 表現:56.7%。傳統前沿模型最高約 46.5%。

應用案例

視覺原語讓模型能完成需要深度理解畫面語義的任務,而不只是生成圖片描述。

🔍精准識別從潮玩群中辨識 Pokemon。
⚖️物理推理看懂天平,理解軟糖熊比保險箱更重的幽默。
🧠語義理解理解貓臉與水果相似性形成的笑點。
🚪邏輯推理在密室逃脫場景推理出站上椅子拿鑰匙。
🧭拓撲導航在複雜迷宮與線條中找到兩點之間路徑。

結論:DeepSeek 的視覺原語方法證明,多模態 AI 若能直接操作視覺空間元素,而非只依賴間接語言描述,就能顯著提升複雜空間任務中的理解、定位與推理能力。