🔥 1. Anthropic 发布 Claude Opus 4.8:支持数百子智能体并行,诚实性大幅提升 — 498 pts
Anthropic 于 5 月 29 日发布 Claude Opus 4.8,距离上一版 4.7 仅隔 43 天。核心升级有三:一是支持数百个子智能体并行运行,大幅提升多 Agent 协作能力;二是诚实性显著改进——模型更有可能标记不确定性,而非自信地给出错误断言,代码缺陷漏报率降至前代 1/4,部分能力甚至超过 Mythos;三是可长时间自主执行任务,人类无需频繁检查。Cursor 的 CEO 确认 Opus 4.8 在 CursorBench 上超越此前所有 Opus 模型,Devin CEO 认为它修复了 4.7 中最被诟病的注释冗余和工具调用不稳定的问题。
→ https://www.qbitai.com/2026/05/426314.html
🔥 2. 面壁智能「开源周」收官:五项核心技术全链路亮剑,定义端侧 AI 终局 — 468 pts
5 月 25 日至 29 日,面壁智能联合 OpenBMB 开源社区举办了罕见的「端侧大模型开源周」,每日发布一项关键技术成果。五项成果包括:适配昇腾的 1.58-bit 低比特训练大模型 BitCPM-CANN(未来有望将 600 亿参数模型装进手机)、性能超越两倍参数模型的 MiniCPM5-1B、AI 亲手编写且比英伟达 Megatron 更快的预训练框架 ForgeTrain、重构交互范式的智能体操作系统 PilotDeck、揭示端侧模型高效智能源头的 UltraData 数据集系列。这五项成果覆盖数据、算法、框架、应用全链路,被业界评价为「继 DeepSeek 2024 开源周后又一次系统性亮剑」。
→ https://www.qbitai.com/2026/05/426542.html
🔥 3. 腾讯发布智能体创意工作室 Miora:一个人拥有整个创意团队 — 432 pts
腾讯于 5 月 28 日在香港 Cloud Day 上发布 Miora(妙境),定位为全场景创意智能体工作室。Miora 搭载多个海内外主流视觉模型,支持 AI 生成图片、视频、UI/UX 以及 3D 等多种模态内容。它不仅能接收文字指令,还能读取画布上下文、理解元素关系、持续对话迭代,自主调用图像生成、视频处理、3D 渲染等工具。作为腾讯 CodeBuddy/WorkBuddy 团队的最新作品,Miora 共享同源底层架构但专为创意设计领域深度定制,拥有记忆系统,具备理解设计语言和持续推理的能力。
→ https://www.qbitai.com/2026/05/426400.html
🔥 4. 全球首个「事件级预测」具身智能世界模型 WALL-WM 发布 — 398 pts
自变量机器人团队发布全球首个「事件级预测」具身智能世界模型 WALL-WM,论文已公开。传统方法把完整动作切成数十帧让模型逐帧预测,导致换个场景就翻车。WALL-WM 的革命性在于将预测单位从时间帧换成语义事件——模型不再问 0.1 秒后手在哪,而是直接想象「抓住杯子那一刻」的场景,跳过中间冗余帧,同步生成抵达动作。由于「事件」本身就是跨场景、跨物体的通用语义抽象,WALL-WM 在跨场景泛化上表现更稳定,是具身智能从「逐帧学动作」到「按事件理解世界」的范式级突破。
→ https://www.qbitai.com/2026/05/426366.html
🔥 5. IBM & Artificial Analysis 发布 ITBench-AA:前沿模型企业 IT 任务得分低于 50% — 362 pts
Hugging Face 博客最新发布,IBM 联合 Artificial Analysis 推出首个面向 Agent 企业 IT 任务的基准测试 ITBench-AA,首发聚焦站点可靠性工程(SRE)场景。在 Kubernetes 故障响应等真实企业任务上,前沿模型的得分低于 50%。这意味着当前最先进的 AI Agent 在企业级 IT 运维场景中仍然远未达到实用门槛,企业级 Agent 的可靠性和工程化仍是巨大挑战。
→ https://hf-mirror.com/blog/ibm-research/itbench-aa
🔥 6. Hugging Face 发布 AI Agent 术语词典:正本清源厘清核心概念 — 328 pts
Hugging Face 发布博文《Harness, Scaffold, and the AI Agent Terms Worth Getting Right》,针对 Agent 领域高频出现但定义模糊的术语进行系统梳理。该术语表重点厘清了 Harness、Scaffold、Agent、Tool、Skill 等易混淆概念,试图为行业建立一套统一的语言基础。在 Agent 生态快速膨胀的当下,这份正本清源的术语表对开发者社区具有重要参考价值。
→ https://hf-mirror.com/blog/agent-glossary
🔥 7. 清华系团队是石科技发布「智能算力电网」,单位 Token 成本降低 40% — 298 pts
清华系创业公司是石科技发布 AI 算力「智能电网」方案。团队出身于国家超算体系,自主研发并行优化技术将 HPC 与 AI 深度融合,专攻国产芯片「好用不好用」的异构算力调度问题。核心能力是将大量空转的国产 GPU 高效利用起来,单位 Token 成本降低 40%。创始人闫博文出生于 1993 年,清华计算机系博士后。这一方案直接击中国产算力落地的核心痛点——不造芯片也不做模型,而是解决算力「产不出一颗可用 Token」的基础设施瓶颈。
→ https://www.qbitai.com/2026/05/426353.html
🔥 8. DeepSeek V4 百万 Token 上下文 + 芯模协同持续发酵 — 268 pts
Hugging Face 博客上 DeepSeek V4 的官方文章强调其「百万 token 上下文,Agent 可真正使用」。与此同时,量子位深入报道了 V4 带来的根本性转变——国产算力生态从「芯片被动适配模型」走向「芯模协同」。V4 是第一次在大规模、高强度工程化尺度上验证昇腾方案的可行性,正在补上英伟达 CUDA 体系十多年的生态积累。CANN 编译器在一年多里从「幼儿期」进入「青年期」,一线开发者普遍认为「国产算力已经成为业务首选」。
→ https://hf-mirror.com/blog/deepseekv4
→ https://www.qbitai.com/2026/05/426293.html
🔥 9. Axiom Math:5 篇 AI 生成数学论文通过同行评审,学术范式面临重构 — 238 pts
Axiom Math 的 AI 证明系统 AxiomProver 生成的 8 篇论文中 5 篇已通过同行评审登上学术期刊,横跨数论、组合学、交换代数等领域。AI 不仅写自然语言证明,还生成了形式化验证,甚至发现了一个原始命题中的反例。创始人洪乐潼(2001 年生,MIT 三年数学物理双学位)已完成 2 亿美元融资。这一事件标志着 AI Agent 在科研领域的渗透已深入核心——AI 不只是辅助工具,而是能独立完成从猜想验证到论文撰写的全流程。
→ https://www.qbitai.com/2026/05/426198.html
🔥 10. 7B 医学 AI 智能体 Ophiuchus ICML 2026 录用:小参数碾压 GPT-5/o3 — 208 pts
上海创智学院 LeapQuest 团队联合浙大、上交大、复旦的医学 AI 智能体 Ophiuchus-7B 被 ICML 2026 接收。该模型在 8 个医学 VQA 基准上平均得分 68.0,超越 OpenAI o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)。核心突破是让模型在推理链中主动调用视觉工具「重新观察」关键病灶,工具调用准确率 97.9%。7B 参数以 1/100 的模型规模碾压千亿级闭源模型,证明了小参数 + Agent 范式在垂直领域的巨大潜力。
→ https://www.qbitai.com/2026/05/426150.html
📌 今日趋势一览
原文链接
欢迎访问 小易撩挨踢