AINews - 2026-03-18
📰 十大AI新闻要点
1. Google发布Gemini 3.1 Flash-Lite,主打动态思维层级与性价比
Google DeepMind发布了Gemini 3.1 Flash-Lite(预览版),定位为3系列中最快、最具成本效益的端点,强调低延迟和高吞吐量。其核心创新是“动态思维层级”,允许根据任务复杂度动态调整计算量。定价为输入$0.25/M tokens,输出$1.50/M tokens,在LMArena上获得1432 Elo分,GPQA Diamond准确率达86.9%,首token生成速度比Gemini 2.5 Flash快2.5倍。
来源:@GoogleDeepMind
2. OpenAI推出GPT-5.3 Instant,旨在减少“说教感”并预告GPT-5.4
OpenAI向所有ChatGPT用户推出GPT-5.3 Instant,直接回应用户对GPT-5.2“过于谨慎”和“附带过多免责声明”的抱怨。新版本旨在提升对话自然度,减少不必要的拒绝和防御性声明,并改善搜索整合答案的质量。同时,OpenAI发布了一条“比你想的更快”的推文,预告了GPT-5.4的即将到来。
来源:@OpenAI
3. 阿里通义千问(Qwen)团队核心成员集体离职,开源前景引发担忧
通义千问(Qwen)项目的技术负责人及多位核心贡献者相继宣布离职。这一系列人事变动引发了业界对阿里云开源战略和Qwen未来发展的广泛担忧。许多工程师认为Qwen是开源模型生态(尤其是<10B参数模型)的关键基础设施,其领导层动荡可能影响模型的开源节奏和许可策略。
来源:@JustinLin610
4. Together AI发布长上下文训练新方法,声称可减少87%注意力内存
Together AI的研究人员发布论文,提出了一种结合上下文并行和序列并行风格的分块注意力方法。该方法声称能在8个H100 GPU的单节点上训练具有500万上下文窗口的80亿参数模型,并将注意力内存占用减少高达87%。这为解决长上下文模型训练的内存瓶颈提供了新思路。
来源:@rronak_
5. OpenAI核心人才流失:负责后训练(Post-Training)的副总裁转投Anthropic
OpenAI负责后训练(Post-Training)的副总裁Max Schwarzer宣布离职,并加入竞争对手Anthropic,将回归一线从事强化学习研究。他曾领导了GPT-5系列模型的后训练工作。这一关键人事变动被业界视为Anthropic的重大胜利,也引发了关于AI顶尖人才流动和公司间竞争的讨论。
来源:@max_a_schwarzer
6. 苹果发布M5 Pro和M5 Max芯片,声称LLM提示处理速度比M4系列快4倍
苹果公司正式发布了M5 Pro和M5 Max芯片。官方宣称,新芯片在处理大型语言模型(LLM)提示时的速度最高可达M4 Pro和M4 Max的4倍。M5 Pro支持最高64GB统一内存(带宽307GB/s),M5 Max支持最高128GB统一内存(带宽614GB/s),并配备了更快的SSD和Wi-Fi 7支持。
来源:文章内容(Reddit讨论)
7. 因与五角大楼合作,ChatGPT移动应用卸载量激增295%
在OpenAI与美国国防部(DoD)达成合作的消息传出后,ChatGPT移动应用的卸载量激增了295%。这一数据反映了部分用户对AI公司与军事机构合作的强烈不满和隐私担忧。同时,竞争对手Claude的下载量有所上升,显示出市场竞争格局因此事件而波动。
来源:文章内容(Reddit讨论,引用TechCrunch报道)
8. 业界反思AI智能体(Agent)评估:现有基准与“真实工作”脱节
有研究指出,当前的AI智能体(Agent)基准测试过度偏重数学和编码任务,未能反映真实世界中的劳动和资本分布。作为回应,LMArena推出了“文档竞技场”(Document Arena),专注于对PDF文档进行推理的并排评估。Claude Opus 4.6在该评估中领先。
来源:@ZhiruoW
9. Anthropic与五角大楼/ Palantir关系紧张,被指面临“供应链风险”标签
据报道,美国国防部(DoD)威胁要将Anthropic标记为“供应链风险”,这可能影响其合作伙伴Palantir在联邦项目中的使用。Anthropic方面则希望就大规模国内监控和自主武器等应用设置安全护栏。此事凸显了AI公司与政府及国防承包商合作的复杂性和潜在风险。
来源:@srimuppidi
10. 模型推理(Inference)市场被预测将在2030年达到2550亿美元规模
行业分析师预测,AI模型推理(Inference)市场到2030年将达到2550亿美元的规模。这一增长主要由生产级AI部署的持续成本驱动,其规模预计将超过模型训练市场。这标志着AI产业的价值重心正从“造模型”向“用模型”转移。
来源:文章内容(Discord中引用的推文)
🛠️ 十大工具产品要点
1. Databricks开源FlashOptim,显著降低训练内存占用
Databricks开源了FlashOptim优化器库(支持AdamW、SGD、Lion等),在保持更新等效性的同时大幅削减内存。MosaicAI总结称,该工具可实现超过50%的训练内存减少,例如将AdamW训练开销从约16字节/参数降至7字节(或释放梯度后降至5字节)。
来源:@davisblalock
2. Cursor推出MCP Apps,允许智能体在聊天中渲染交互式UI
AI代码编辑器Cursor推出了“MCP Apps”功能。该功能允许智能体(Agent)在聊天界面内直接渲染出交互式用户界面(UI),极大地丰富了智能体与用户的交互方式,使其不再局限于文本输出。
来源:@cursor_ai
3. Unsloth发布针对Qwen 3.5的高效微调方案,声称仅需约5GB VRAM
Unsloth AI发布了对Qwen 3.5模型进行LoRA微调的指南和优化方案,声称可以在低至约5GB的VRAM上运行。这为开发者在消费级硬件上高效微调前沿模型提供了便利。
来源:@UnslothAI
4. SkyPilot提出用于强化学习后训练的异构基础设施编排方案
SkyPilot项目提出,强化学习(RL)后训练应将工作负载拆分到不同的硬件上:强大的GPU用于训练器(trainer),便宜的GPU用于模拟回放(rollouts),高内存CPU用于回放缓冲区(replay buffers)。其Job Groups功能通过单一的YAML文件来协调这些组件的生命周期和服务发现。
来源:@skypilot_org
5. 通义千问团队发布Qwen 3.5系列小参数模型,包括0.8B带视觉版本
尽管面临团队动荡,通义千问(Qwen)项目仍持续发布新模型。Qwen 3.5系列包括了小至0.8B参数的模型,并且该版本还集成了视觉编码器,使其成为多模态模型。已有开发者成功在浏览器(通过WebGPU)和7年前的旧手机上运行该模型。
来源:文章内容(Reddit讨论及Hugging Face链接)
6. ShadowClaw:用C语言编写的极简单文件个人AI智能体
开源社区出现了一个名为ShadowClaw v1.1的项目,它是一个用C语言编写的、单二进制文件的个人AI智能体。它通过curl与本地LLM(如Ollama)通信,具备执行Shell命令、文件读写、HTTP GET和简单数学表达式求值等功能,状态会自动保存到磁盘。
来源:GitHub - webxos/shadowclaw
7. Perplexity推出“计算机(Computer)”功能,提供沙盒化AI计算机使用环境
Perplexity推出了名为“计算机(Computer)”的新产品功能。它被定位为一个安全沙盒环境,可以编排多个模型并直接嵌入到应用程序中,用户无需管理API密钥。该功能旨在提供一个受管理的、安全的“计算机使用”平台。
来源:@AravSrinivas
8. TrainTrackLabs:用于实时训练监控的LLM-as-a-Judge可观测性工具
一款名为TrainTrackLabs的新工具被提及,它是一个可插入PyTorch训练流程的可观测性层。它使用“LLM-as-a-Judge”的方式,在微调过程中实时评估模型的幻觉和推理能力,旨在尽早发现性能回归,避免浪费GPU算力。
来源:traintracklabs.com
9. 深度求索(Moonshot AI)推出Kimi Code,挑战Claude Code的智能体地位
深度求索(Moonshot AI)推出了名为Kimi Code的AI编程智能体产品。在OpenClaw社区的用户讨论中,有人认为它在特定任务上比Minimax的同类产品好5倍,并已有人用它通过其iPython环境来替代YouTube进行新闻聚合。
来源:文章内容(Discord讨论)
10. 阿里通义千问发布GPTQ Int4量化权重,支持vLLM和SGLang
通义千问(Qwen)团队发布了Qwen 3.5模型的GPTQ Int4量化权重,并宣布支持vLLM和SGLang推理框架。这有助于开发者以更低的资源消耗高效部署这些模型。
来源:@Alibaba_Qwen