AINews - 2026-04-26
📰 十大AI新闻要点
1. DeepSeek发布V4系列:1M上下文、MIT许可、混合推理模式
DeepSeek正式发布DeepSeek-V4 Pro和DeepSeek-V4 Flash,这是自V3以来的首次重大架构更新。核心亮点包括:1M-token上下文(V3.2为128K)、混合推理/非推理模式、MIT开源许可,以及一份被多位研究者称为“年度最重要AI论文之一”的详细技术报告。V4 Pro拥有1.6T总参数/49B激活参数,V4 Flash为284B总参数/13B激活参数,训练数据量达32T-33T tokens。
2. V4 Pro在开放权重模型中排名第二,接近闭源前沿模型
独立基准测试显示,V4 Pro在Artificial Analysis Intelligence Index上得分52(V3.2为42),成为**#2开放权重推理模型,仅次于Kimi K2.6(54)。在代理性真实工作测试GDPval-AA中,V4 Pro以1554分领先所有开放权重模型,超越Kimi K2.6(1484)和GLM-5.1(1535)。综合评估认为V4 Pro大致处于Claude Sonnet级到Opus级**之间,但整体仍落后于GPT-5.x/Opus 4.7等顶级闭源模型。
3. V4采用革命性长上下文注意力架构,KV缓存缩小8.7倍
V4的技术报告详细描述了一种全新的混合注意力系统:包括共享KV向量、压缩KV流(c4a约4倍压缩、c128a约128倍压缩)、top-k稀疏注意力以及128-token滑动窗口。这使得1M上下文的KV缓存仅需9.62 GiB/序列(bf16),比DeepSeek V3.2的83.9 GiB缩小了8.7倍。此外,FP4索引缓存+FP8注意力缓存可再实现约2倍缩减。多位研究者认为,长上下文系统设计的贡献可能比原始基准位置更重要。
4. V4定价极具竞争力,Flash版性价比突出
V4 Pro定价为**$1.74/$3.48每百万输入/输出tokens,V4 Flash仅为$0.14/$0.28。然而,独立评估揭示了一个重要警告:V4在AA Index上消耗了1.9亿输出tokens(Pro版)和2.4亿输出tokens(Flash版),意味着低价并不等于低总成本。DeepSeek表示,一旦华为昇腾950超节点**在H2大规模部署,Pro版价格可能大幅下降。
5. GPT-5.5发布:1M上下文、更强编码能力、Token效率提升
OpenAI推出GPT-5.5和GPT-5.5 Pro,配备1M上下文窗口。定价为$5/$30每百万输入/输出tokens(Pro版加倍)。在CursorBench上以72.8% 位居第一,在Terminal-Bench上以82.7排名第一。用户反馈集中在更好的编码质量和Token效率:GPT-5.5 medium在LisanBench上比GPT-5.4 medium减少45.6%的tokens且得分更高。Perplexity Computer在复杂任务上看到56%更少的tokens。
6. Qwen 3.6 27B在代理性指数上与Sonnet 4.6持平
Qwen 3.6 27B在Artificial Analysis的Agentic Index上达到与Sonnet 4.6持平的水平,超越了Gemini 3.1 Pro Preview、GPT 5.2/5.3和MiniMax 2.7。该模型在本地运行表现出色,多位用户报告在MacBook Pro和RTX 5090等设备上运行良好。社区对即将推出的Qwen 3.6 122B版本充满期待,认为小型模型正在接近前沿能力。
7. Google计划向Anthropic投资高达400亿美元
据英国《金融时报》报道,Google计划向Anthropic投资高达400亿美元。这一消息引发了关于Anthropic计算承诺规模的广泛讨论。同时,Cohere与Aleph Alpha宣布了加拿大/德国主权AI合作伙伴关系,专注于企业级和隐私安全。
8. DeepSeek发布DeepEP V2和TileKernels:开源并行化技术
DeepSeek开源了DeepEP V2和TileKernels,这两项技术专注于AI模型优化和并行化。TileKernels引入了一种据称线性扩展的新型并行化技术——即计算能力翻倍,处理速度也翻倍。社区评论认为DeepSeek正在扮演OpenAI曾被期望扮演的角色:推进研究并公开分享发现。
9. ComfyUI以5亿美元估值融资3000万美元
ComfyUI完成3000万美元融资,估值达5亿美元,同时保持核心/开源-本地定位。此外,Mechanize宣布以5亿美元投后估值融资910万美元。Arcee AI聘请Cody Blakeney担任研究主管,强调开放权重美国前沿模型。
10. MIT Hyperloop Transformers:用50%更少参数超越传统Transformer
MIT研究人员提出Hyperloop Transformers,混合循环和普通Transformer块,在240M/1B/2B参数规模下,使用约50%更少的参数却超越了传统Transformer。同时,一项关于“工具注意力”的研究声称可实现95%的工具Token减少(从47.3k降至2.4k/轮),通过动态门控和惰性模式加载实现。
🛠️ 十大工具产品要点
1. DeepSeek-V4 Pro / Flash - HuggingFace开放权重
DeepSeek V4系列已在HuggingFace上发布,包括V4 Pro(1.6T参数/49B激活) 和V4 Flash(284B参数/13B激活)。两者均支持1M token上下文,采用MIT许可。检查点使用混合FP4+FP8精度,MoE专家权重为FP4,注意力/归一化/路由器为FP8,完整模型可适配单个8×B200节点。
2. vLLM - 对DeepSeek V4的Day-0支持
vLLM项目在DeepSeek V4发布当天即提供支持。NVIDIA发布了在Blackwell Ultra上使用vLLM的V4 Pro性能帕累托曲线,显示可实现150+ TPS/用户的交互式代理工作流。SemiAnalysis在H200、MI355、B200、B300、GB200/300上进行了Day-0基准测试。
3. Hugging Face ML Intern - 开源CLI AI实习生
Hugging Face推出ML Intern,一个开源的CLI“AI实习生”,专为ML工作设计。它可以研究论文、编写代码、运行实验、使用HF数据集/作业、搜索GitHub,并可迭代多达300步。同时,HF的**$9 Pro**订阅层被认为具有异常高的性价比。
4. Hermes Agent v0.11.0 - 重写React TUI和插件系统
Nous/Hermes发布Hermes Agent v0.11.0,引入重写的React TUI、仪表板插件、主题系统、更多推理提供商、图像后端和QQBot支持。该版本同时支持DeepSeek V4和GPT-5.5。此外,一个使用bubblewrap + cgroups v2的原生Linux沙箱后端被发布,用于Deep Agents。
5. Qwen 3.6 27B - 本地编码性能惊人
Qwen 3.6 27B在本地运行表现卓越。用户报告在RTX 5090(24GB VRAM) 上使用llama.cpp的q4_k_m量化运行良好。另一用户使用PI Coding Agent配合Qwen3.6 35B在8GB VRAM+32GB RAM的笔记本上实现15-30 tokens/秒。多位用户表示已取消IDE和Claude订阅。
6. DeepSeek V4 Flash - 可在256GB Mac上运行
DeepSeek V4 Flash被证明可在256GB Mac上运行,MLX量化版本也已发布。社区正在探索在更小RAM的Mac上运行的可能性。然而,重要提醒:llama.cpp/Ollama/LM Studio不支持张量并行,多GPU用户需转向vLLM。
7. GPT-5.5 - 在Cursor、Copilot、Codex等平台立即可用
GPT-5.5发布后立即在Cursor、GitHub Copilot、Codex/OpenAI API、OpenRouter、Perplexity、Devin、Droid、Fleet、Deep Agents等平台上线。Cursor报告GPT-5.5在CursorBench上以72.8% 位居第一。Cline报告在Terminal-Bench上以82.7排名第一。
8. DeepEP V2 / TileKernels - DeepSeek开源并行化工具
DeepSeek开源DeepEP V2(增强模型效率与准确性)和TileKernels(线性扩展并行化技术)。这些工具旨在优化大规模MoE模型的训练和推理。社区评论认为这些技术可能实现线性扩展——计算能力翻倍直接带来处理速度翻倍。
9. Chappie - 四台Mac Mini M4 Pro组成的分布式AI系统
一位开发者使用四台Mac Mini M4 Pro构建了名为“Chappie”的分布式AI系统,组成256GB统一内存、56 CPU核心、80 GPU核心、64神经引擎核心的集群。系统使用Exo进行分布式推理,Qdrant向量数据库进行内存共享,可自主生成问题、阅读arXiv论文、开发新技能,并设有“委员会”评审模型进行质量控制。
10. Atomic.Chat - 本地模型托管与比较平台
Atomic.Chat提供了一个平台,用于在MacBook Pro M5 MAX上托管和比较不同模型。用户使用该平台对比了Qwen 3.6 35B(72 TPS)和27B(18 TPS)的编码性能,发现虽然35B更快,但27B在编码任务中产生更精确的结果。该平台支持多种模型和量化配置的比较。