Hermes Agent için en iyi model hangisi? Kodlama, fiyat, hız, agentic yetenekler — üç dev model kozlarını paylaşıyor. Detaylı benchmarklar, maliyet analizleri ve kullanım stratejileriyle epik karşılaştırma.
284B MoE · 13B aktif · 1M bağlam
Kodlama, fiyat & açık kaynak
~200B+ MoE · kapalı · 1M bağlam
Matematik, bilgi & multimodal
Kapalı parametre · 200K bağlam
Genel liderlik, güvenilirlik & agentic
⚠️ Uyarı: DeepSeek fiyatları tanıtım indirimi içerir. İndirim bitince ~4× artabilir ($0.43/$0.86). Yine de Qwen'den ~2×, Claude'dan ~7× ucuz kalır.
| Benchmark | 🔷 DeepSeek V4 Flash | 🟡 Qwen 3.6 Plus | 🟣 Claude Sonnet 4.6 | 🏆 |
|---|---|---|---|---|
| SWE-bench Verified (kod onarımı) | 79.0% | 78.8% | 79.6% | 🟣 |
| SWE-bench Pro (ileri kod) | — | 56.6% | ~69%* | 🟣 |
| LiveCodeBench v6 | 91.6% | 87.1% | ~90% | 🔷 |
| Terminal-Bench 2.0 | 56.9% | 61.6% | 59.1% | 🟡 |
| GPQA Diamond (PhD seviye) | 88.1% | ~85% | 89.9% | 🟣 |
| MMLU-Pro (genel bilgi) | 86.2% | ~80.6% | ~89.3% | 🟣 |
| AIME (Matematik) | 88.1% | 95.3% | ~90% | 🟡 |
| HLE (Last Exam) | 34.8% | 50.6% | 49.0% | 🟡 |
| ARC-AGI-2 (akıl yürütme) | — | — | 58.3% | 🟣 |
| Coding Avg (BenchLM) | 72.2 | 64.8 | ~68 | 🔷 |
| Knowledge Avg (BenchLM) | 57.2 | 73.9 | 73.7 | 🟡 |
| Agentic Avg (BenchLM) | 55.4 | 61.6 | ~60 | 🟡 |
| BrowseComp (tarayıcı) | 73.2% | — | 74.7% | 🟣 |
| MCP Atlas (araç kullanımı) | 69.0% | — | 61.3% | 🔷 |
| HMMT Feb 2026 (matematik) | 94.8% | — | — | 🔷 |
| Toolathlon (tool use) | 47.8% | 39.8% | ~45% | 🔷 |
| OSWorld (bilgisayar kullanımı) | — | — | 72.5% | 🟣 |
| GDPval-AA Elo (ofis görevleri) | 46.5 | — | 1633 | 🟣 |
* Claude Sonnet 4.6 için SWE-bench Pro: Opus 4.6 ~51.9% (SEAL).
• Günlük kodlama & terminal iş akışları
• Uzun refactoring (384K çıktı)
• Yüksek hacimli otomasyon
• Cron job'lar & batch işlemler
• MCP araç & tarayıcı otomasyonu
• Ayda $42 vs $228 vs $1,800
• Karmaşık akıl yürütme & matematik
• Bilgi sentezi & doküman analizi
• Multimodal görevler
• Terminal-Bench gerektiren işler
• Edge case'ler kritikse
• Triaj + DeepSeek ile combo
• En yüksek doğruluk & güvenilirlik
• Kompleks agentik iş akışları
• Extended thinking (100 adım)
• Computer use (OSWorld 72.5%)
• Multimodal PDF/görüntü analizi
• Kalite kritikse tek seçenek
1. DeepSeek V4 Flash — Hermes'in kod/terminal ağırlıklı kullanımı, çok sayıda tool call döngüsü ve
maliyet hassasiyeti göz önüne alındığında en dengeli seçim. 7-53× daha ucuz olması günlük kullanımda
büyük fark yaratır.
2. Claude Sonnet 4.6 — En yüksek kalite gerektiren projelerde, özellikle
computer use, extended thinking ve multimodal işlerde tercih edilmeli. Pahalı ama güvenilir.
3. Qwen 3.6 Plus — Matematik ve bilgi ağırlıklı görevlerde, özellikle Terminal-Bench ve agentik
işlerde iyi. DeepSeek ile hibrit routing yapılarak triaj/analiz için kullanılabilir.
DeepSeek ile ayda $186 Qwen'e, $1,758 Claude'a kıyasla tasarruf edersin.
# config.yaml
model:
default: deepseek/deepseek-v4-flash
provider: openrouter
context_length: 1048576
$0.14/1M input · OpenRouter
# config.yaml
model:
default: qwen/qwen3.6-plus
provider: openrouter
context_length: 1048576
$0.33/1M input · OpenRouter
# config.yaml
model:
default: anthropic/claude-sonnet-4-6
provider: openrouter
context_length: 200000
$3/1M input · OpenRouter/Anthropic
/model deepseek/deepseek-v4-flash yazarak anında model değiştirebilirsin.
Üç model de OpenRouter üzerinden tek API key ile erişilebilir. Farklı profiller oluşturup her birine
farklı model atayabilirsin.
/model veya /profile komutuyla geçiş yapabilirsin. Ya da farklı profiller oluşturup her birine farklı model atayabilirsin. OpenRouter'da tek API key ile hepsine erişirsin./model anthropic/claude-sonnet-4-6 yazman yeterli.