新科技wxo · 大模型追踪

OpenAI、Claude、Gemini、Grok、Llama、DeepSeek、GLM、Kimi 最新进展

更新时间:2026-06-14 12:50 GMT+8。结论基于官方文档/官方博客优先,少量媒体报道已单独标注。

先看结论

主线变化:大模型竞争正在从“聊天更聪明”转向“能长时间干活的 Agent、编程、工具调用、多模态”。

国外阵营:OpenAI 继续推 GPT-5.5 与记忆能力;Anthropic 强调 Claude Opus 4.8 的编码和 Agent;Google 把 Gemini 3.5、Gemini Omni、Antigravity 2.0 推向工作流。

中国阵营:DeepSeek V4 Preview 主打低成本 1M 上下文;智谱 GLM-5.1 主打 8 小时长程自主工程;Kimi K2.6 主打开源、多模态、长程 coding。

你该关注:如果你做自动化、写代码、知识库或机器人,优先看“上下文长度、工具调用、价格、是否开源、能否稳定长任务”。

OpenAI

记忆 + GPT-5.5

OpenAI 最新重点是 ChatGPT 记忆能力升级,以及 GPT-5.5 接替 GPT-5.2。官方 release notes 显示,GPT-5.2 系列已在 2026-06-12 从 ChatGPT 下线,旧对话会迁移到对应 GPT-5.5。

  • ChatGPT 更重视长期偏好记忆,减少重复交代背景。
  • GPT-Rosalind 获得新能力,偏研究/科学方向。
  • 产品线进入“模型迭代很快、旧模型快速退役”的阶段。
ChatGPTGPT-5.5记忆
建议
普通用户关注 ChatGPT 记忆和模型切换;开发者注意 API/模型退役节奏。

Anthropic Claude

Opus 4.8

Anthropic 官方最新主推 Claude Opus 4.8,强调编码、Agent 任务和对齐安全表现。Claude API 里旧的 Sonnet 4 / Opus 4 将在 2026-06-15 退役,推荐迁移到 Sonnet 4.6 / Opus 4.8。

  • Opus 4.8:更强 coding 和 agentic tasks。
  • 旧模型退役时间很近,API 用户要尽快检查模型名。
  • 媒体还报道了 Fable/Mythos 相关监管风波,但这类信息应按“新闻观察”处理。
ClaudeOpus 4.8模型退役
建议
写代码和长任务可重点试 Opus 4.8;企业用户关注合规和区域访问风险。

Google Gemini

Gemini 3.5 + Omni

Google I/O 2026 的关键词是“agentic Gemini era”。Google 推出 Gemini 3.5 系列、Gemini Omni Flash,以及升级后的 Antigravity 2.0 Agent 开发平台。

  • Gemini 3.5 Flash:面向速度、智能和行动能力。
  • Gemini Omni:任意输入到任意输出,先从视频输出开始。
  • Gemini API 已在 2026-06-01 关闭 Gemini 2.0 Flash 系列旧模型。
Gemini 3.5OmniAgent
建议
如果你做视频、多模态、Google Workspace/Cloud 工作流,Gemini 值得重点跟。

xAI Grok

Grok 4.3 + Build

xAI 文档显示,通用聊天推荐 Grok 4.3;编码方向推出 Grok Build 0.1,并进入 API public beta。xAI 近期也在推 Grok Build 插件市场和 Grok Imagine。

  • Grok 4.3:xAI 当前推荐的通用模型。
  • Grok Build 0.1:面向 agentic coding、网页开发、调试、MCP。
  • Grok Imagine 继续推进图像/视频生成。
Grok 4.3Grok Build插件市场
建议
想结合实时信息、X 生态或自动编程,可以关注 Grok Build。

Meta Llama / Muse

Muse Spark

Meta 最新亮点是 Muse Spark,定位为 Meta Superintelligence Labs 的新模型,面向个人超级智能、多模态、健康、Agent 任务。Llama 侧,Llama 4 Scout / Maverick 仍是重要开源权重路线。

  • Muse Spark:Meta AI app 和 meta.ai 可用,API 私测。
  • Contemplating mode:多 Agent 并行推理,逐步开放。
  • Llama 4:开源权重、多模态、MoE,是开发者生态重点。
Muse SparkLlama 4开源权重
建议
开发者看 Llama 生态;普通用户看 Meta AI 在 WhatsApp/Instagram 等产品里的集成。

DeepSeek

V4 Preview

DeepSeek 官方 API 文档显示,DeepSeek-V4 Preview 已上线并开源,主打高性价比和 1M 上下文。V4-Pro 是大模型路线,V4-Flash 是快且省钱的路线。

  • DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数。
  • DeepSeek-V4-Flash:284B 总参数,13B 激活参数。
  • deepseek-chat / deepseek-reasoner 将在 2026-07-24 退役,兼容指向 V4-Flash 模式。
V4 Preview1M 上下文低成本
建议
需要便宜大吞吐、长文本、API 兼容 OpenAI/Anthropic 时,DeepSeek 很有吸引力。

智谱 GLM

GLM-5.1

智谱官方文档称 GLM-5.1 是最新旗舰模型,重点增强 coding 和长程任务,可以在单次任务中持续、自主工作最长 8 小时,面向 Autonomous Agent 和长程 Coding Agent。

  • GLM-5.1:200K 上下文,最大输出 128K tokens。
  • 支持思考模式、流式输出、Function Call、上下文缓存、结构化输出。
  • GLM Coding Plan 团队版已上线,面向企业和开发团队。
GLM-5.18 小时 AgentCoding Plan
建议
如果你想做国产 Agent、自动编程或企业代码助手,GLM-5.1 是重点选项。

Kimi / Moonshot

Kimi K2.6

Moonshot 官方与技术博客显示,Kimi K2.6 是最新开源模型,强调原生多模态、强 coding、长程执行、Agent swarm 编排,已通过 Kimi.com、Kimi App、API 和 Kimi Code 提供。

  • K2.6:1T 级多模态 MoE,面向长程 coding 和工具调用。
  • 强调“coding-driven design”和主动自主执行。
  • 开源路线让它适合本地部署、二次开发和企业私有化探索。
Kimi K2.6开源多模态 Agent
建议
喜欢 Kimi 长文本体验,又想做代码和 Agent,可以重点关注 K2.6。

选择建议

来源