DeepSeek 多模態研究速覽

用視覺原語
讓模型真正看懂空間

DeepSeek 提出將點與邊界框直接放入推理鏈的方法，讓多模態模型不再只靠模糊文字描述圖像，而能像人用手指向畫面一樣，追蹤位置、路徑與拓撲關係。

7056x視覺 Token 整體壓縮比例

77.2基準測試得分，高於同列模型

66.9%迷宮導航任務表現

Bounding Box

Object Region

Point Trace

圖像位置

→

視覺原語

→

推理鏈

傳統多模態模型的瓶頸

現有模型主要依賴自然語言指代圖像內容。當任務涉及高解析度、密集物體、路徑追蹤或拓撲導航時，文字描述很容易失去精準度。

指代鴻溝

自然語言難以精確指向圖像中的具體位置，模型容易把「那個物體」「左邊區域」理解成模糊概念。

細節缺失

高解析度圖像常包含密集細節與動態分塊，單靠文字摘要會壓掉關鍵空間資訊。

連鎖幻覺

在密集計算、複雜空間推理與拓撲導航中，前一步定位錯誤會逐步放大成完整推理錯誤。

核心創新：Visual Primitives

DeepSeek 將空間標記升級為最小思維單元，直接插入模型推理鏈。模型不只描述圖像，而是操作圖像中的位置、區域與路徑。

視覺原語	主要功能	推理價值
邊界框 Bounding Box	捕捉具體物體的位置、範圍與大小。	讓模型能對「哪個物體」做可驗證的空間定位。
點 Point	用於抽象視覺指代、軌跡追蹤與路徑尋找。	讓模型能沿著畫面結構移動，支援迷宮與線路類任務。

高效視覺編碼與壓縮

方法基於 DeepSeek-V4-Flash 骨幹模型，搭配從頭訓練的 DeepSeek-ViT 與壓縮稀疏注意力機制，降低視覺 Token 成本。

3x3 空間壓縮

將 9 個相鄰圖像塊合併，減少冗餘視覺片段，同時保留可供空間推理使用的結構資訊。

KV Cache 4 倍壓縮

視覺 Token 的 KV Cache 被進一步壓縮，整體視覺壓縮比例可達 7056 倍，讓模型以更低成本處理圖像。

01預訓練
Pretraining

02監督微調
SFT

03強化學習
RL

04策略蒸餾
Distillation

效率與性能對比

DeepSeek 在更少 KV Cache 條目的情況下取得更高基準得分，顯示視覺原語不是單純增加標記，而是提升空間推理效率。

模型	KV Cache 條目數	基準測試得分
DeepSeek	90	77.2
Gemini-3-Flash	1100	70.5
Qwen3-VL	289	未列示
GPT-4	5.4	未列示

關鍵能力展示

在拓撲推理任務上，視覺原語能把「看見」轉化為可追蹤的推理步驟，使模型更穩定地處理迷宮、線條與路徑。

迷宮導航 DS_Maze_Navigation

DeepSeek 表現：66.9%。傳統前沿模型約 50%。

路徑追蹤 Path_Tracing

DeepSeek 表現：56.7%。傳統前沿模型最高約 46.5%。

應用案例

視覺原語讓模型能完成需要深度理解畫面語義的任務，而不只是生成圖片描述。

🔍精准識別從潮玩群中辨識 Pokemon。

⚖️物理推理看懂天平，理解軟糖熊比保險箱更重的幽默。

🧠語義理解理解貓臉與水果相似性形成的笑點。

🚪邏輯推理在密室逃脫場景推理出站上椅子拿鑰匙。

🧭拓撲導航在複雜迷宮與線條中找到兩點之間路徑。

結論：DeepSeek 的視覺原語方法證明，多模態 AI 若能直接操作視覺空間元素，而非只依賴間接語言描述，就能顯著提升複雜空間任務中的理解、定位與推理能力。