易君召
易君召
发布于 2026-05-23 / 25 阅读
0
0

AI Agents & 开源 LLM 简报 (2026年5月23日)

#AI

🔥 1. DeepSeek V4 发布:671B MoE,37B 激活,HumanEval 92.3% 逼近 GPT-5 — 486 pts
深度求索于 5 月 21 日发布 V4,671B MoE 仅激活 37B 参数,HumanEval 92.3%、GPQA 87.5% 接近 GPT-5。开放权重,API 价格仅为 GPT-5 的 1/10,性价比屠夫再出手。
https://www.deepseek.com/posts/deepseek-v4-release

🔥 2. 智谱 AI GLM-Agent v2 发布:AgentBench 98.2% 刷新世界纪录 — 432 pts
智谱 AI 于 5 月 22 日发布 GLM-Agent v2,在 AgentBench 上以 98.2% 任务完成率刷新世界纪录。支持多模态感知、长程任务规划,在电商、客服、代码生成等场景表现突出。
https://www.zhipu.ai/news/glm-agent-v2-release

🔥 3. 阿里 Qwen3-120B 开源:MATH 96.2% / MMLU-Pro 91.7%,超越 GPT-4o 推理 — 386 pts
阿里云于 5 月 20 日开源 Qwen3-120B,Apache 2.0 协议,MATH-500 达 96.2%、MMLU-Pro 达 91.7%,多项推理指标超越 GPT-4o。可在消费级 GPU 上运行,被开发者誉为「最强开源推理模型」。
https://huggingface.co/blog/qwen3-120b-release

🔥 4. Anthropic Claude Agent Studio 公开 Beta:自然语言即可创建 Agent — 342 pts
Anthropic 于 5 月 20 日推出 Claude Agent Studio 公测版,用自然语言提示即可创建自定义 Agent,内置 50+ 预置集成(Slack/Salesforce/GitHub)。早期用户报告开发周期缩短 3 倍。
https://www.anthropic.com/news/claude-agent-studio-beta

🔥 5. Google Project Mariner 扩展至电商和旅行:500+ 网站自动结账 — 298 pts
Google 于 5 月 22 日扩展 Project Mariner,支持 500+ 电商网站自动结账、Expedia/Kayak 航班预订、OpenTable 订位管理。面向所有 Gemini Advanced 订阅者开放。
https://blog.google/products/project-mariner-expansion-may-2026

📌 今日趋势一览

趋势

热度

国产 MoE 双雄 (DeepSeek V4 + Qwen3-120B 同日霸榜)

🔥🔥🔥🔥🔥

国产 Agent 刷新国际基准 (GLM-Agent v2 98.2% AgentBench)

🔥🔥🔥🔥🔥

模型成本断崖式下降 (DeepSeek V4 仅 GPT-5 的 1/10)

🔥🔥🔥🔥🔥

Agent 无代码化全民普及 (Claude Agent Studio)

🔥🔥🔥🔥

浏览器 Agent 进入实用阶段 (Project Mariner 500+ 网站)

🔥🔥🔥🔥

5 月成为开源大模型史上最强月份 (三大旗舰同时在线)

🔥🔥🔥🔥🔥


原文链接 https://www.yijunzhao.cn/archives/ai-agents-kai-yuan-llm-jian-bao-2026nian-5yue-23ri

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论