AINews - 2026-04-29
📰 十大AI新闻要点
1. OpenAI 打破 Azure 独家协议,模型将登陆 AWS Bedrock
OpenAI 更新了与微软的合作伙伴关系,微软仍为主要云服务商,但 OpenAI 现在可以跨所有云平台提供产品。产品/模型承诺延长至 2032 年,收入分成至 2030 年。AWS CEO @ajassy 确认 OpenAI 模型将在未来几周内登陆 AWS Bedrock。这标志着 OpenAI 分销策略的重大转变,旧版 AGI 条款实际上已失效。
2. GPT-5.5 性能全面升级但非绝对领先
社区评测显示,GPT-5.5 无思考模式在 WeirdML 上达到 67.1%(GPT-5.4 为 57.4%),但仍落后于 Opus 4.7 的 76.4%。LMSYS Arena 排名显示 GPT-5.5 在代码领域第 9、数学第 3、搜索第 2。开发者反馈在 GPU 内核等硬编码任务上表现积极,但无思考模式存在“压缩 CoT 泄漏”问题。
3. GitHub Copilot 将于 6 月 1 日转向按用量计费
GitHub 宣布 Copilot 将从 6 月 1 日起采用基于使用量的计费模式,这是对代理工作流消耗更多运行时的直接回应。同时,Codex 使用乘数被记录:GPT-5.4 fast 为 2x,GPT-5.5 fast 为 2.5x,而 5.4-mini 和 GPT-5.3-Codex 则便宜得多。
4. 小米开源 MiMo-V2.5 系列模型,MIT 许可+1M 上下文
小米开源了 MiMo-V2.5-Pro 和 MiMo-V2.5,均采用 MIT 许可,支持 1M token 上下文。Pro 版约 1T 总参数/42B 活跃参数,训练于 27T tokens;标准版约 310B 总/15B 活跃,训练于 48T tokens。小米还宣布为开发者提供 100T token 的赠款。vLLM 和 SGLang 已迅速提供 Day-0 推理支持。
5. Kimi K2.6 登顶 OpenRouter 周榜,支持 300 个并发子代理
Kimi K2.6 成为 OpenRouter 周榜第一,专为编码和长周期代理任务设计。它能扩展到 300 个并发子代理,协调 4,000 个步骤。实践者发现它在 Hermes 中比 DeepSeek V4 慢得多,但有时能修复 V4 无法修复的 bug。
6. Sakana 发布 7B Conductor:用 RL 训练模型来编排其他 AI 模型
Sakana AI 推出 7B Conductor,通过强化学习训练,用自然语言编排前沿模型池。它动态决定调用哪个代理、分配什么子任务以及暴露哪些上下文。在 LiveCodeBench 上达到 83.9%,在 GPQA-Diamond 上达到 87.5%,击败了池中任何单个工作模型。这代表了“AI 管理 AI”和递归自选择作为测试时扩展的新方向。
7. Google TPU v8 拆分为训练和推理专用芯片
Google Cloud Next 宣布 TPU v8 拆分为 8t(训练)和 8i(推理),训练速度提升约 2.8 倍,推理性能/美元提升 80%。这是 Google 首次按工作负载拆分定制芯片。据报道,OpenAI、Anthropic 和 Meta 正在购买 TPU 容量。
8. vLLM 0.20.0 发布,支持 DeepSeek V4 和 2-bit KV 缓存
vLLM 0.20.0 版本亮点包括:DeepSeek V4 基础模型支持(需要 expert_dtype 配置字段区分 FP4 指令版和 FP8 基础版)、FA4 作为默认 MLA 预填充、TurboQuant 2-bit KV 缓存,以及 Blackwell 上的 DeepSeek 专用 MegaMoE 路径。
9. FP8 KV 缓存修复将 128k 大海捞针准确率从 13% 提升至 89%
vLLM 与 Red Hat/AWS 联合发布 FP8 KV 缓存深度分析,修复了 FA3 两级累积问题,将 128k 上下文的大海捞针测试准确率从 13% 提升至 89%,同时保留了 FP8 解码的速度优势。这凸显了 KV 缓存优化在长上下文场景中的关键作用。
10. 代理编码消耗 token 可达聊天模式的 1000 倍,成本意识评估成为焦点
一项关于 SWE-bench Verified 上编码代理支出的新研究显示:代理编码可消耗约 1000 倍于聊天/代码推理的 token,相同任务的不同运行间使用量可变化 30 倍,且更多支出并不单调地提高准确率。这与 Copilot 定价模式变化和对不受控代理运行时经济的担忧相呼应。
🛠️ 十大工具产品要点
1. OpenAI 开源 Symphony:连接问题追踪器与 Codex 代理的编排层
OpenAI 开源 Symphony,这是一个编排层,将问题追踪器连接到 Codex 代理,实现“开放问题 → 代理 → PR → 人工审查”的完整工作流。这是 OpenAI 在开发者工具生态中的重要开源举措。
2. Cognition 发布 Devin for Terminal:本地 Shell 代理
Cognition 推出 Devin for Terminal,一个本地 shell 代理,可以稍后“移交”到云端。这扩展了 Devin 的使用场景,使其能在本地环境中工作,同时保留云端的扩展能力。
3. Google 展示基于 Gemma 4 + WebGPU 的完全本地浏览器代理
Google Gemma 团队演示了一个 100% 本地运行的浏览器代理,使用 Gemma 4 和 WebGPU,支持原生工具调用,包括浏览历史管理、标签页管理和页面摘要。这标志着本地 AI 代理的重要进展。
4. Hermes Agent 仓库超越 Claude Code,原生视觉成为默认模式
Hermes Agent 的 GitHub 仓库星数已超越 Claude Code。同时,当支持时,原生视觉已成为默认模式。Hermes 生态系统在代理框架领域持续获得关注。
5. Cline Kanban 支持每个任务卡使用不同的代理/模型
Cline 的看板功能现在支持为每个任务卡分配不同的代理或模型。这为复杂工作流提供了更大的灵活性,允许用户根据任务特性选择最合适的模型。
6. 微软开源 TRELLIS.2:4B 参数图像转 3D 模型
微软发布 TRELLIS.2,一个 4B 参数的开源模型,可从图像生成高达 1536³ 分辨率的高保真 3D 资产,支持完整 PBR 材质。采用创新的“O-Voxel”结构,实现 16 倍空间压缩。代码和演示均已开源。
7. AMD Hipfire:专为 AMD GPU 优化的新推理引擎
AMD Hipfire 是一个非官方的推理引擎,专为 AMD GPU 优化,使用独特的 mq4 量化方法。在 RX 7900 XTX 上相比基线实现 2.86 倍加速。在 AR 解码方面表现优异,但在预填充方面落后于 llama.cpp,特别适合结构化/代码生成任务。
8. Luce DFlash:Qwen3.6-27B 在单张 RTX 3090 上实现 2 倍吞吐量
Luce DFlash 是 Qwen3.6-27B 模型的新推测解码实现,在单张 RTX 3090 上使用独立的 C++/CUDA 栈(基于 ggml),在 HumanEval、GSM8K 和 Math500 等基准上实现高达 1.98 倍的吞吐量提升,无需重新训练。
9. DeepSeek 再次降价:缓存命中输入 token 降至原价的 1/10
DeepSeek 宣布永久性降价,缓存命中输入 token 价格从 $0.145 降至 $0.0145,仅为原价的 1/10。这对需要 1M 上下文长度的应用尤其有利,显著增强了 DeepSeek 的市场竞争力。
10. LlamaIndex 发布 ParseBench:2000 页企业文档解析基准
LlamaIndex 推出 ParseBench,包含 2000 页经过验证的企业文档,用于评估解析代理的性能。这填补了企业级文档解析评估的空白,为开发者提供了更贴近实际应用场景的测试标准。