ai_news_summary_2025-10-21

AINews - 2025-10-21

原文链接

📰 十大AI新闻要点

1. Anthropic发布Agent Skills技术

Anthropic推出Agent Skills,这是一种使用文件和文件夹构建专用代理的新方法。Skills是包含YAML元数据的Markdown文件,可选附带预写脚本,Claude最近的PDF、Docs和PPT创建能力都是通过Skills实现的。


2. Claude 4.5 Haiku发布

Anthropic发布Claude 4.5 Haiku,定价为每100万输入/输出token 1/5美元。在推理模式下获得Artificial Analysis指数55分,比Sonnet 4.5便宜3倍,在长上下文和编码方面表现强劲。


3. OpenAI产品更新

ChatGPT现在自动管理保存的记忆,具有搜索/排序和重新优先级功能;Sora 2为Pro用户添加故事板功能,所有用户视频长度延长至15秒,Pro用户可达25秒。


4. vLLM推出TPU后端

vLLM与谷歌合作开发重新设计的TPU后端,通过单一JAX到XLA降低路径统一PyTorch和JAX,具有SPMD-by-default、Ragged Paged Attention v3等功能,吞吐量比2月原型提高2-5倍。


5. Meta发布强化学习扩展定律研究

Meta与合作者发布”强化学习计算扩展艺术”,40万GPU小时系统研究提出ScaleRL、CISPO损失、FP32 logits等技术,关键发现是目标计算性能可从半计算运行中预测。


6. 递归语言模型突破长上下文限制

递归语言模型显示,在无界上下文上的递归自调用/工具可以超越标准GPT-5在长上下文任务上的表现,即使在1000万+token时仍保持成本效益。


7. Cognition推出SWE-grep快速上下文模型

Cognition发布新的模型家族,用于快速多轮代理搜索,定位”正确文件”比Claude 4.5 Haiku快约20倍,在CodeSearch评估中与前沿模型相媲美。


8. HuggingChat v2推出Omni功能

HuggingChat v2推出”Omni”,基于策略的自动模型选择,覆盖115个开源模型和15个提供商,可以在一个会话中将任务路由到编码和写作模型之间。


9. 世界实验室发布实时世界模型RTFM

RTFM是实时、持久、3D一致的自回归扩散变换器,在大规模视频上训练,以H100速度进行交互式流式传输。


10. 谷歌TPU向外部客户销售

谷歌TPU现在向外部客户销售,直接与NVIDIA竞争,Baseten报告早期采用NVIDIA Dynamo后延迟降低50%,吞吐量提高60%以上。


🛠️ 十大工具产品要点

1. Anthropic Skills开源文档技能

Anthropic在GitHub上开源了文档技能,涵盖.pdf、.docx、.xlsx和.pptx文件的创建和读取能力,完全通过Skills实现。


2. Windows Copilot语音和视觉功能

Windows 11添加Copilot语音(“Hey Copilot”)、跨桌面/应用/文档的视觉功能,以及即将推出的本地文件Copilot Actions。


3. Perplexity语言学习和金融功能

Perplexity发布内置语言学习体验和新的金融功能(内幕交易追踪器),在iOS和网页端可用。


4. Cline CLI预览版发布

Cline CLI预览版暴露可编写脚本的开放”原始代理循环”,专为子代理和可组合工作流设计。


5. Open Agent Builder开源画布

开源n8n风格画布,连接Firecrawl、LLM、逻辑节点和MCP,用于API可部署的工作流。


6. Sourceful Riverflow 1图像编辑模型

Sourceful的Riverflow 1在Artificial Analysis图像编辑”全部”榜单中排名第一,结合VLM和开放扩散,定价为每1000张图像66美元。


7. mixedbread.ai发布ColBERT边缘模型

mxbai-colbert-edge-v0提供可重现的ColBERT训练,17M模型在LongEmbed上排名小于10亿模型的第一,Apache 2.0许可。


8. Alibaba开源Qwen3Guard安全组件

阿里巴巴开源Qwen3Guard组件,包括Qwen3-4B-SafeRL和Qwen3GuardTest,用于分类中间”思考”和逐token审核。


9. Karpathy nanochat项目

Karpathy的nanochat d32项目从零开始花费1000美元,将CORE改进到0.31,GSM8K达到约20%,完整报告和脚本已发布。


10. Meta MobileLLM-Pro发布

Meta发布MobileLLM-Pro 1B基础+指令检查点,针对高质量、高效的设备端推理,在推理/知识/长上下文检索上超越Gemma 3 1B和Llama 3.2 1B。