自然語言難以精確指向圖像中的具體位置,模型容易把「那個物體」「左邊區域」理解成模糊概念。
DeepSeek 多模態研究速覽
用視覺原語
讓模型真正看懂空間
DeepSeek 提出將點與邊界框直接放入推理鏈的方法,讓多模態模型不再只靠模糊文字描述圖像,而能像人用手指向畫面一樣,追蹤位置、路徑與拓撲關係。
Bounding Box
Object Region
Point Trace
圖像位置
→
視覺原語→
推理鏈
傳統多模態模型的瓶頸
現有模型主要依賴自然語言指代圖像內容。當任務涉及高解析度、密集物體、路徑追蹤或拓撲導航時,文字描述很容易失去精準度。
高解析度圖像常包含密集細節與動態分塊,單靠文字摘要會壓掉關鍵空間資訊。
在密集計算、複雜空間推理與拓撲導航中,前一步定位錯誤會逐步放大成完整推理錯誤。
核心創新:Visual Primitives
DeepSeek 將空間標記升級為最小思維單元,直接插入模型推理鏈。模型不只描述圖像,而是操作圖像中的位置、區域與路徑。
| 視覺原語 | 主要功能 | 推理價值 |
|---|---|---|
| 邊界框 Bounding Box | 捕捉具體物體的位置、範圍與大小。 | 讓模型能對「哪個物體」做可驗證的空間定位。 |
| 點 Point | 用於抽象視覺指代、軌跡追蹤與路徑尋找。 | 讓模型能沿著畫面結構移動,支援迷宮與線路類任務。 |
高效視覺編碼與壓縮
方法基於 DeepSeek-V4-Flash 骨幹模型,搭配從頭訓練的 DeepSeek-ViT 與壓縮稀疏注意力機制,降低視覺 Token 成本。
將 9 個相鄰圖像塊合併,減少冗餘視覺片段,同時保留可供空間推理使用的結構資訊。
視覺 Token 的 KV Cache 被進一步壓縮,整體視覺壓縮比例可達 7056 倍,讓模型以更低成本處理圖像。
01預訓練
Pretraining
Pretraining
02監督微調
SFT
SFT
03強化學習
RL
RL
04策略蒸餾
Distillation
Distillation
效率與性能對比
DeepSeek 在更少 KV Cache 條目的情況下取得更高基準得分,顯示視覺原語不是單純增加標記,而是提升空間推理效率。
| 模型 | KV Cache 條目數 | 基準測試得分 |
|---|---|---|
| DeepSeek | 90 | 77.2 |
| Gemini-3-Flash | 1100 | 70.5 |
| Qwen3-VL | 289 | 未列示 |
| GPT-4 | 5.4 | 未列示 |
關鍵能力展示
在拓撲推理任務上,視覺原語能把「看見」轉化為可追蹤的推理步驟,使模型更穩定地處理迷宮、線條與路徑。
DeepSeek 表現:66.9%。傳統前沿模型約 50%。
DeepSeek 表現:56.7%。傳統前沿模型最高約 46.5%。
應用案例
視覺原語讓模型能完成需要深度理解畫面語義的任務,而不只是生成圖片描述。
🔍精准識別從潮玩群中辨識 Pokemon。
⚖️物理推理看懂天平,理解軟糖熊比保險箱更重的幽默。
🧠語義理解理解貓臉與水果相似性形成的笑點。
🚪邏輯推理在密室逃脫場景推理出站上椅子拿鑰匙。
🧭拓撲導航在複雜迷宮與線條中找到兩點之間路徑。
結論:DeepSeek 的視覺原語方法證明,多模態 AI 若能直接操作視覺空間元素,而非只依賴間接語言描述,就能顯著提升複雜空間任務中的理解、定位與推理能力。