AI 无涯

AI 无涯日报 · 2026 年 5 月 29 日

2026-05-29T06:00:00.000Z

AI 无涯日报 · 2026 年 5 月 29 日

每日精选全球 AI 热点，5 分钟掌握行业动态。

模型发布/更新

1. Claude Opus 4.8 发布：编码、智能体技能与推理全面升级
来源：Anthropic Newsroom

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增”动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。

2. Grok Build 0.1 API 上线 — xAI 编码模型 100+ tokens/秒
来源：xAI News

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP。推理速度超过 100 tokens/秒，定价为输入 $1/m tokens、输出 $2/m tokens。也适用于通用智能体及工具调用场景，可通过 OpenRouter 和 Vercel AI Gateway 获取。

3. Qwen3.7-Max 登顶 OpenRouter 热门大语言模型榜单
来源：阿里云

Qwen3.7-Max 以 77.3B tokens 的使用量登顶 OpenRouter 热门大语言模型榜单。这是国产开源模型第一次用实际用量证明自己，做应用的开发者可以认真考虑将其接入生产环境。

4. Google Nano Banana Pro 图像生成模型正式发布
来源：Google AI Developers

Google 推出 Nano Banana Pro（gemini-3-pro-image）和 Nano Banana 2（gemini-3.1-flash-image），已通过 Gemini API 投入生产使用。开发者现在可以稳定调用 Pro 和 Flash 级别的图像生成 API，对做图像应用的团队是个实在利好。

5. 英伟达开源 Polar 框架：Codex 在 SWE-Bench 暴涨 594%
来源：IT之家（RSS）

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架，通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示，基于 Qwen3.5-4B 模型，Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%（增长近 6 倍）。

产品发布/更新

6. Claude Code 引入”动态工作流”功能
来源：Claude Devs

Claude Code 推出”动态工作流”功能，使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本，在单个会话中并行运行数十到数百个子智能体来完成工作，并在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移（如将 Bun 从 Zig 移植到 Rust）等任务。现已面向 Max、Team 及 Enterprise 用户开放，支持 CLI、桌面端、VS Code 扩展及 API。

7. Perplexity Computer 登陆 Microsoft Office 全家桶
来源：Perplexity

Perplexity Computer 现已登陆 Excel、Word、PowerPoint 和 Outlook。用户可在侧边栏中直接使用 Computer 起草文档、建模、制作演示文稿和处理电子邮件，无需切换工作流。

8. Mistral AI 发布 Search Toolkit — 开源搜索管道框架
来源：Mistral AI News

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架，将数据摄取、检索和评估工具整合到单一框架与共享接口中。该工具开源，可部署在云端、本地或边缘环境，支持企业搜索和 RAG 等多种检索场景。

9. Google Pay MCP Server 上线
来源：Google Developers Blog

Google 推出 Google Pay & Wallet Developer MCP server，将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境，即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户。

10. MiniMax M2.7 在 OpenHands 免费提供智能体编程
来源：MiniMax (official)

MiniMax 与 OpenHands 合作，限时免费提供基于 MiniMax M2.7 的智能体编程服务。个人开发者可以直接上去跑几个任务体验性价比。

行业动态

11. Anthropic 完成 650 亿美元 H 轮融资，估值达 9650 亿美元
来源：Anthropic Newsroom

Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资，投后估值达 9650 亿美元。公司指出 Claude 的增长主要由 Claude Code 触发，年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全研究、扩展算力并规模化产品与合作伙伴关系。Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。

12. Apple 正将大型 Gemini 模型塞进 iPhone 驱动新 Siri
来源：Ars Technica

Apple 正尝试将大型 Gemini 模型集成到 iPhone 中，以支持全新的 Siri 功能。由于模型规模庞大，本地处理可能无法完全实现，云端组件很可能是必然的选择。

13. DeepSeek 计划 500 亿美元融资后冲刺科创板 IPO
来源：X.PIN

消息称 DeepSeek 计划在完成当前约 500 亿美元（3500 亿人民币）融资轮后，立即申请科创板（A 股）IPO。这一估值水平使其有望成为国内最大规模的 AI 公司上市案。

14. OpenAI 发布前沿治理框架
来源：OpenAI 官网动态

OpenAI 发布了”前沿治理框架”，阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程，是应对日益严格的全球 AI 监管的重要举措。

15. 华为提出”韬定律”：新麒麟芯片性能跳跃性提升
来源：IT之家（RSS）

华为何庭波提出半导体新演进路径”韬（τ）定律”，以”时间缩微”（如逻辑折叠）替代”几何缩微”作为新指导原则。过去 6 年华为已基于此自主研发 381 款芯片。今年秋季将发布新的麒麟手机芯片，这是首个完整的”韬芯片”，性能相比去年是”跳跃性”提升。

16. OpenRouter 完成 1.13 亿美元 B 轮融资
来源：OpenRouter Announcements

AI 模型聚合平台 OpenRouter 宣布完成 1.13 亿美元 B 轮融资，由 CapitalG 领投，NVentures、ServiceNow Ventures 等参与，现有投资者 Andreessen Horowitz 与 Menlo Ventures 也跟投。

论文研究

17. hexoai 开源 SIA 框架：AI 智能体实现递归自我改进
来源：Rohan Paul

hexoai 开源了 SIA（自我改进 AI）框架。该框架展示了 AI 智能体不仅能优化其外部工作流，还能通过任务反馈直接更新自身的模型权重。论文报告显示，SIA 在 LawBench 基准上性能提升 56.6%，在 GPU kernels 运行上耗时减少 91.9%，在单细胞 RNA 去噪任务中相比基线提升 502%。

18. DenoiseRL：从弱模型的错误中学习推理
来源：HuggingFace Daily Papers

DenoiseRL 是一种强化学习框架，通过从弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习，将错误转化为改进机会。实验表明其在竞争性数学和通用推理基准测试中持续优于强在策略 RL 基线。

19. 社会科学中的编码智能体调查
来源：Anthropic Research

一项针对 1260 名定量社会科学家的调查显示，81% 的受访者用过 AI 聊天机器人，但仅有 20% 将编码智能体（Claude Code、Codex 等）常规应用于工作。采用率存在显著差异：男性研究者使用率是女性的两倍；顶尖大学研究者可能性高出 40%。

技巧与观点

20. 宝玉：用好 Coding Agent 关键在初始规划
来源：@dotey

用好 Coding Agent 的关键在于初始规划。方法是将需求整理后，先用最强模型（如 GPT-5.5、Claude Opus 4.7）分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案，选择最优方案。对于复杂计划，将其拆分为多个 Phases 并明确要求与验证标准，形成 Markdown 文档。执行时按 Phases 进行，并辅以人工审核。

编辑：AI 无涯 | 数据来源：AI HOT (aihot.virxact.com)

AI 无涯日报 · 2026 年 5 月 28 日

2026-05-28T18:00:02.000Z

AI 无涯日报 · 2026 年 5 月 28 日

每日精选全球 AI 热点，5 分钟掌握行业动态。

产品发布/更新

1. Runway 推出 Model Context Protocol 服务器
Runway：News（网页）

Runway 正式推出 Runway MCP 服务器，允许任何兼容 MCP 的 AI 智能体（如 Claude、ChatGPT、Cursor）在对话界面中直接生成图像与视频，无需切换工作流。该服务器接入了 Runway 最新的多款 SOTA 模型，包括 Gen-4.5、Seedance 2.0、GPT Image 2、Kling 3.0 及 Nano Banana Pro。其应用场景涵盖为产品制作营销视频、批量生成网站视觉素材、创作角色广告以及在应用开发中集成视觉内容。用户设置简便，通过 runwayml.com/mcp 添加服务器并登录现有 Runway 账户即可使用，无需单独申请 API 密钥。

2. Claude Code v2.1.152 更新发布
Claude Code：GitHub Releases（RSS）

Claude Code 发布 v2.1.152 版本更新。核心改进包括：/code-review --fix 现在会将审查建议直接应用于工作目录；技能与斜杠命令支持通过 frontmatter 的 disallowed-tools 移除模型工具；新增 /reload-skills 命令可不重启会话重新扫描技能目录；SessionStart 钩子现可返回 reloadSkills: true 重新扫描技能，并可通过 hookSpecificOutput.sessionTitle 设置会话标题；新增 MessageDisplay 钩子事件以变换或隐藏助手消息。其他更新涉及插件市场管理、主模型不可用时自动切换至…

3. OpenAI产品支持私有MCP服务器安全连接
X：OpenAI Developers (@OpenAIDevs)

您的团队可以在内部网络中保留MCP服务器，同时ChatGPT、Codex和Responses API通过仅出站HTTPS进行连接。

4. 开源FastVideo Dreamverse实时视频生成工具
X：Sky Computing Lab (@haoailab)

🚀仅需7秒即可生成30秒1080p视频！我们开源了FastVideo Dreamverse：基于单张NVIDIA B200 GPU和LTX-2模型，实现实时视频生成的氛围引导工具。 Repo: https://github.com/hao-ai-lab/FastVideo/tree/main/apps/dreamverse Blog: https://haoailab.com/blogs/fastvideo-dreamverse-release/

5. Grok编程智能体登陆Kilo IDE平台
X：xAI (@xai)

在 @kilocode 中使用您的 SuperGrok 或 X Premium+ 订阅。尝试 grok-build-0.1，享受高速和智能体编程智能，可在 Kilo IDE 扩展或 CLI 中使用。 https://x.ai/news/grok-kilocode

6. Perplexity开源Unigram分词器降低CPU占用
X：Perplexity (@perplexity_ai)

我们开源了重新构建的Unigram分词器，可将CPU占用降低5-6倍。小型重排序器和嵌入模型在GPU上运行时间仅为个位数毫秒，使得CPU分词成为总延迟的重要组成部分。 http://github.com/perplexityai/pplx-garden

7. 通过万亿参数与 Hub Bucket 实现增量权重同步：TRL 中的增量权重同步
Hugging Face：Blog（RSS）

本文标题涉及 Hugging Face TRL 框架中一项具体的增量权重同步技术。正文重申了 Hugging Face 的核心使命，即致力于通过开源和开放科学，来推动人工智能的进步与普及。

8. OpenCode与MiMo V2.5限时免费开放
X：opencode (@opencode)

OpenCode x MiMo V2.5 - 限时免费 1M 上下文 • 推理 • 文本 • 图像

行业动态

9. 黄仁勋展示英伟达台湾新园区
X：Rohan Paul (@rohanpaul_ai)

黄仁勋展示了新的台湾园区。英伟达计划每年在台湾投资约1500亿美元。就在竞争对手AMD宣布将向台湾AI领域投资超过100亿美元一周后。

10. 我国将加快研究推进人工智能健康发展综合性立法、低空经济立法等
IT之家（RSS）

11. Cognition成为全球最大独立智能体实验室
X：swyx (@swyx)

Cognition宣布已成为全球最大的独立智能体实验室。公司完成超10亿美元融资，估值达260亿美元，由Lux Capital、General Catalyst等领投。其企业使用量自年初增长超10倍，年化收入增至4.92亿美元。Cognition于两年前推出Devin，定位为首个AI软件工程师。公司强调其拥有多项领先优势，包括首个编码智能体、顶级代码审查能力等，并得到了Peter Thiel的重大投资。

12. 教皇没对AGI上头
The Verge：AI（RSS）

教皇 Leo XIV 发布题为《Magnifica Humanitas》的通谕，警告人工智能的使用绝非纯粹技术问题，当其进入影响人类生活的过程时，便触及权利、机会、地位与自由。通谕发布时，Anthropic 联合创始人 Christopher Olah 出席。文件引发了科技界内外的广泛反应。

13. 消息称高通与字节跳动达成 AI ASIC 芯片合作，采购量在数百万颗级别
IT之家（RSS）

14. 阿里云入选Omdia智能体AI市场雷达领导者
X：阿里云 / Alibaba Cloud (@alibaba_cloud)

阿里云在Omdia的智能体AI市场雷达中被评为领导者。Omdia强调了阿里云在每一层的全栈能力，认可其是首个将整个平台围绕智能体范式进行构建的云服务商。

15. 阿里云成为PyTorch基金会白金会员
X：阿里云 / Alibaba Cloud (@alibaba_cloud)

阿里云宣布以白金会员身份加入PyTorch基金会。作为AI基础设施全球领导者，阿里云是开源模型家族Qwen的缔造方，已在多样化硬件上大规模运行PyTorch，将为社区带来生产级工程经验。

16. 2026年选举信息与保障
OpenAI：官网动态（RSS · 排除企业/客户案例）

在2026年全球选举临近之际，通过帮助公众获取选举信息、支持网络防御者以及提升人工智能透明度这三方面的努力，来为选举提供保障。

论文研究

17. Fast, faster, Qwen. 🚀
X：通义千问 / Qwen (@Alibaba_Qwen)

Qwen3.5在TokenSpeed推理引擎上，针对智能体工作负载达到了创纪录的580 tokens per second (tps)速度。这一成果由通义千问推理团队、lightseekorg Foundation TokenSpeed团队、NVIDIA及Mooncake团队共同实现，并采用了tri_dao的FlashAttention-4 (FA4) 优化。此里程碑标志着开源大语言模型推理性能的边界得到了推动，相关详情可查阅PyTorch社区博客。

18. ITBench-AA：前沿大模型在首个智能体企业IT任务基准测试中得分均低于50%
Hugging Face：Blog（RSS）

由Artificial Analysis和IBM推出的ITBench-AA SRE基准测试显示，所有前沿大模型得分均未超过50%。Claude Opus 4.7（自适应推理，最大努力）以47%领先，GPT-5.5（xhigh）和Qwen3.7 Max分别得46%和42%。该测试包含59个需要通过Shell命令调查Kubernetes事件快照并提交根因诊断的智能体任务。关键发现是模型推理轮次差异近3倍，但更长的轨迹并不转化为更高准确率，过度调查的模型会因提交误报而受罚。在成本方面，开源模型Gemma 4 31B（Reasoning）以每任务$0.14的成本获得37%得分，优于成本更高但得分更低的闭源模型。

19. 通过零信任聚合实现的隐私分析
Google Research：Blog（网页）

Google Research 推出了一种新的隐私分析解决方案。该方案结合了一种新的密码学安全聚合协议与可信执行环境（TEE）的透明性，旨在实现前沿的隐私与安全保证。其核心是基于零信任原则，通过密码学与硬件保护的结合，确保系统仅能获取群体的匿名化聚合洞察。

20. 社会科学中的编码智能体
Anthropic：Research（发表成果 · 网页）

一项针对1260名定量社会科学家的调查显示，虽然81%的受访者用过AI聊天机器人，但仅有20%将Claude Code、Codex等编码智能体常规应用于工作。采用率存在显著差异：以男性名字命名的研究者使用率是女性研究者的两倍；顶尖大学研究者可能性高出40%。用户产出更多工作论文和基金申请，但这可能反映早期采用者自身差异。研究者对AI助力撰写可发表论文更乐观，但对重塑整个社会科学领域持保留态度。这是一项初步调查，更深入研究仍在进行中。

技巧与观点

21. 与Google搜索产品副总裁Robby Stein的访谈：AI原生搜索时代
X：Kim (@kimmonismus)

本文记录了与Google搜索产品副总裁Robby Stein在Google I/O的访谈，核心探讨Google Search向“AI原生”模式的重大转变。讨论话题包括AI Mode是进化还是重塑、如何将复杂问题拆解为多轮搜索、AI搜索的高运行成本、Google TPU及基础设施的优势、AI时代搜索量不减反增的原因，以及优质AI回答与出版商流量之间的张力。访谈还涉及Google决定展示哪些信息源与链接的逻辑，并围绕一个核心问题展开：如果Google直接给出答案，传统的基于链接的网页生态将走向何方？

22. 藏师傅发布小红书图文排版AI Skill，集成地图与自动配图
X：歸藏 (@op7418)

该推文介绍了guizang-social-card-skill，一款针对小红书图文常见类别进行优化的AI Skill。其亮点在于为旅行博主集成了地图组件，用户输入目的地和线路后，AI能自动在底图上标记并嵌入图片。根据引用，该Skill完全基于HTML和实拍图片生成内容，不会被平台标注为AI生成，并会主动从高质量图片网站寻找对应主题图片，以优化图文排版。

23. 使用大语言模型保障源代码安全
Claude：Blog（网页）

本文分享了使用 Claude Opus 构建威胁模型、发现代码漏洞并进行验证、分类和修复的最佳实践。其核心流程是一个六步循环：威胁建模、沙箱隔离、漏洞发现、验证、分类和修复。作者指出，漏洞发现现在易于并行化，瓶颈已转移到后续的验证与处理阶段。以他们对开源软件的扫描为例，截至2026年5月22日已披露1,596个漏洞，其中97个已修补。指南建议结合代码库文档和专家访谈来构建准确的威胁模型，以降低误报，提升发现的可利用性。

24. 用好 Coding Agent，重点是两头，尤其是开头的部分，如果一开始就走偏了后面怎么改都改不好。
X：宝玉 (@dotey)

用好 Coding Agent 的关键在于初始规划。方法是先将需求整理后，用最强模型（如 GPT-5.5、Claude Opus 4.7）分别在 Codex、Claude Code、Cursor 的 Plan 模式下生成设计方案，选择最优方案并借鉴其他版本。对于复杂计划，可将其拆分为多个 Phases 并明确要求与验证标准，形成 Markdown 文档。执行时按 Phases 进行，并辅以人工审核纠偏。最后的代码审核（Code Review）用 GPT-5.5 审核代码质量与设计符合度即可。应避免让多个智能体交叉 Review，否则可能导致代码越改越多。

25. 我认为 Anthropic 和 OpenAI 找到了产品市场契合点
Simon Willison 博客

Anthropic 与 OpenAI 通过编程智能体找到了产品市场契合点，这导致企业客户成本显著上升。两家公司已于 2026 年 4 月前后调整了企业套餐定价，从原先的高额折扣改为与 API 用量挂钩。Anthropic Enterprise 套餐变为每席位 20 美元/月外加 API 费用，OpenAI Codex 则按 API token 用量计费。同期发布的新模型 GPT-5.5（4月23日）和 Opus 4.7（4月16日）的 API 定价也显著高于前代版本。

26. Reachy Mini 实现完全本地化语音交互
Hugging Face：Blog（RSS）

Reachy Mini 机器人现可通过 speech-to-speech 库实现完全本地化的语音交互，无需依赖云端。该方案采用级联流水线架构，对外提供 Realtime API 兼容的 WebSocket 接口。默认组件包括 Silero VAD 用于语音活动检测、Parakeet-TDT 作为语音转文本模型、通义千问（Qwen3-TTS）作为文本转语音模型。大语言模型推荐使用 llama.cpp 运行 Gemma 4。所有数据均在本地处理，保障了隐私且无 API 费用。

27. OpenAI 奥尔特曼称 AI 对白领冲击不如预期般严重：我很高兴自己当时错了
IT之家（RSS）

28. AI智能体的零信任安全框架
Claude：Blog（网页）

Anthropic 发布了针对企业部署自主 AI 智能体的安全框架，指出前沿大语言模型正将漏洞利用周期从数月压缩至数小时。部署智能体面临双重风险：基础设施易受 AI 加速攻击，且智能体自身具备自主决策与执行能力。文章提出一个三层零信任架构（基础、高级、优化级）及八阶段实施流程，并概述了提示注入、工具投毒、记忆投毒等特有威胁。

数据来源：AI HOT (aihot.virxact.com) | 生成时间：2026-05-29 02:00

AI 无涯日报 · 2026 年 5 月 27 日

2026-05-27T09:47:16.000Z

AI 无涯日报 · 2026 年 5 月 27 日

每日精选全球 AI 热点，5 分钟掌握行业动态。

模型发布/更新

1. 谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题
IT之家（RSS）

2. 面壁智能开源 MiniCPM5-1B：在 AA-Index 上超越所有 2B 参数以下模型，能跑在手机、浏览器上
IT之家（RSS）

面壁智能开源其新一代端侧大语言模型MiniCPM5-1B。该模型仅1B参数，在AA-Index榜单上超越所有2B参数以下模型，相比3个月前的Qwen3.5-2B效果更优且参数量减半。经INT4量化后权重仅0.5GB，支持在手机和浏览器上运行。其Base Model版本由面壁智能自主研发的AI训练框架ForgeTrain预训练完成，现已全面开源模型权重、训练数据集与部署方案。

3. 腾讯混元新翻译模型双榜亮眼，小程序发布
X：腾讯混元 (@TencentHunyuan)

腾讯混元发布翻译模型 Hy-MT2，在 Hugging Face 开源模型趋势排行榜上表现突出：1.8B 版本排名第一，30B-A3B（MoE）版本排名第四，下载量已超 7K。官方同步推出了基于该模型的“腾讯混译”微信小程序，支持语音输入与离线翻译，并可自定义翻译风格与指令。模型代码与权重已开源。

4. Qwen3.7-Max 成为全球第二AI编程模型
X：阿里云 / Alibaba Cloud (@alibaba_cloud)

Qwen3.7-Max 正式成为全球第二大 AI 编程模型。在 Code Arena 上得分 1541，仅次于 Claude。专为生产环境打造：可运行 35 小时任务、1000+ 次工具调用，并在数小时内交付两周的项目。

产品发布/更新

5. MiMo 2.5 Pro大幅降价，与DeepSeek V4 Pro同价
X：Kim (@kimmonismus)

小米MiMo-V2.5系列API价格永久下调，最高降幅达99%，现与DeepSeek V4 Pro同价。Token套餐同步升级，同等价格下可用token量增加5-8倍，计费规则更简单透明。所有现有用户套餐额度将全额重置。此次降价源于MiMo全栈推理优化与服务效率提升，后续将发布技术博客详述细节。MiMo-V2.5-TTS限时免费，新定价于5月26日生效。

6. Claude Code推出安全漏洞识别插件
X：Claude Devs (@ClaudeDevs)

我们为Claude Code发布了一个安全指导插件，可在编写代码时帮助识别和修复漏洞。所有Claude Code用户均可使用。从插件市场（/plugins）安装。

7. Replit 应用添加登录的两种方式
X：Replit (@Replit)

在 Replit 上为你的应用添加登录有两种方式： → Replit Auth：零配置，用户使用其 Replit 账户登录 → Clerk Auth：你自己的品牌化登录，开发/生产环境均只需一个提示词。文档和视频见下方 👇 文档：https://docs.replit.com/learn/projects-and-artifacts/auth#auth

8. Kling AI驱动《大卫之家》实现多项行业首创
X：可灵 Kling AI (@Kling_ai)

Jon Erwin - Wonder Project创始人兼首席创意官，Innovative Dreams首席执行官，亚马逊Prime热门剧集《大卫之家》创作者： “Kling AI是《大卫之家》第一季和第二季背后的核心力量。最让我兴奋的是它实现了多项行业首创：在完成的剧集中首次使用AI生成场景，首个原生4K模型。其运动控制功能也使我们能够在AI生成中保留演员真实的情感和感受。”

行业动态

9. 据报道Claude Mythos以“巧妙简洁的证明”解决了OpenAI里程碑式的Erdős问题
The Decoder：AI News（RSS）

Anthropic工程师Sholto Douglas表示，Claude Mythos在周末期间解决了OpenAI提出的Erdős单位距离猜想问题，并给出了一个“巧妙简洁的证明”。这一成果被描述为人工智能在数学发现领域存在“严重超前”迹象。

10. SynthID水印技术扩展合作，覆盖超千亿内容
X：Google DeepMind (@GoogleDeepMind)

SynthID已为超过1000亿条内容添加水印，但透明度需要行业协作。因此，我们正与OpenAI、ElevenLabs和Kakao合作，将SynthID水印技术集成到他们的模型中——这延续了我们与NVIDIA共同推动的全行业趋势。

11. OpenRouter完成1.13亿美元B轮融资
X：OpenRouter (@OpenRouter)

今天我们宣布完成由@CapitalGVC领投的1.13亿美元B轮融资。过去6个月，随着AI从实验快速转向生产，OpenRouter的周处理量从5万亿增长到25万亿token。我们对未来充满期待。

12. Anthropic任命KiYoung Choi为韩国代表董事
Anthropic：Newsroom（网页）

Anthropic宣布任命KiYoung Choi为韩国代表董事，以支持其即将在首尔开设的办公室。根据Anthropic的经济指数，韩国是Claude.ai全球最活跃的市场之一，其使用率超过人口规模预期的3.5倍，主要用于技术和创意领域。KiYoung Choi此前曾担任Snowflake韩国区总经理，在Google Cloud、Adobe等公司拥有超过30年的科技行业领导经验。他将在韩国领导市场战略，支持本地企业和初创公司应用Claude，例如法律科技公司Law&Company及韩国电信巨头SK Telecom均已在使用Claude构建产品。

13. 阿里云CTO阐述从云原生到智能体原生转型
X：阿里云 / Alibaba Cloud (@alibaba_cloud)

在 #QwenConference2026 上，阿里云CTO、国际业务总裁李飞飞博士阐述了我们从云原生到智能体原生的转变。为了普及AI，我们构建了四大基石：模型、智能体云、工具与服务，以及规模。 👉 敬请关注：https://click.qwencloud.com/m/20000000187/

14. 微软亚洲研究院发起全球AI价值观挑战赛
X：Microsoft Research (@MSFTResearch)

AI能否理解人类价值观的现实复杂性？微软亚洲研究院的全新全球AI价值观挑战赛，诚邀哲学、伦理、法学和社会科学领域的研究人员共同探索。立即注册：https://msft.it/6012vk8OO

论文研究

15. KPop 新方法让 Ring-2.6-1T 在 SWE-bench Verified 上突破 76 分
X：蚂蚁百灵 (@AntLingAGI)

团队推出 KPop，用于稳定大规模 MoE 模型的智能体强化学习训练。它用基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 方法中的固定比例掩码，能根据训练过程中的训练-推理不匹配程度动态调整。这一改进使得 Ring-2.6-1T 模型在无需修改基础设施或路由重放的情况下，仅通过纯 RL 训练，在 SWE-bench Verified 上取得了超过 76 分的成绩。

技巧与观点

16. Sundar Pichai 谈 AI、搜索的未来及网络的变化
The Verge：AI（RSS）

Google 与 Alphabet CEO Sundar Pichai 在 Google I/O 后受访，回顾了公司为应对 ChatGPT 而进行的战略重组与高管调整。访谈聚焦于新的 Gemini 模型及其在产品中的整合，包括全新的智能搜索框与 Gemini Spark 智能体平台，旨在让搜索从提供结果转向启动任务。Pichai 讨论了这些变化对开放网络的持续冲击，回应了主持人此前提出的“Google Zero”概念（即来自 Google 的网站流量可能归零），并提及 Google 正利用 YouTube 视频训练模型以改变视频搜索与索引方式。最后，他对 Google DeepMind CEO Demis Hassabis 关于“处…

17. “龙虾之父”Peter 开源 skill-cleaner，为 AI 智能体技能“做体检”
IT之家（RSS）

“龙虾之父”Peter 开源了 skill-cleaner 工具，用于诊断和优化 AI 智能体的技能提示词。该工具包含5项核心功能，包括技能提示词预算审计、重复技能检测、未使用技能筛查、技能根目录审计和描述精简优化。其脚本采用标准 token 预算核算逻辑，旨在帮助减少冗长描述对 token 预算和上下文窗口的占用。已有用户实践显示，将技能描述从90多词精简至40词以内，能提升智能体选择技能的准确率。

18. Gemini Omni 视频提示词使用指南
X：Google AI (@GoogleAI)

Google 发布了其多模态模型 Gemini Omni 的视频生成功能使用指南。该模型可通过 Gemini 应用、Google Flow 等平台体验。指南包含五项提示词技巧：利用模型已有的现实世界知识进行简洁描述；精确控制文本在视频中的渲染与排版；使用专业镜头指令（如推拉摇移）像电影摄影师一样调度画面；通过迭代编辑高效修改视频；以及在生成中直接调整角色的动作节奏或情绪。其核心在于通过精准的提示词引导模型生成复杂且可控的视频内容。

19. 人类与AI分工：教育咨询及文学奖争议
X：Ethan Mollick (@emollick)

我写了一篇新文章，探讨我们需要保留哪些人类特质，以及哪些可以交给AI，其中涉及教育、咨询领域的实验，以及最近关于文学奖的争议。

20. Project Luxo：跨越AI媒体的恐怖谷
Runway：News（网页）

Runway通过Project Luxo研究发现，AI生成视频已跨越“恐怖谷”。他们向创意生态从业者展示了《The Rogue》等AI短片及广告样片，评估显示观众开始关注故事本身，而非技术瑕疵。所有作品均由单人团队制作，耗时从3周到4小时不等。Runway认为，这标志着AI媒体成熟——当技术足够好以至于“隐形”，观众沉浸于故事时，便实现了这一跨越。

21. 我们如何对不同产品中的Claude进行隔离控制
Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

Anthropic通过三重机制控制Claude智能体的部署风险，包括用户误用、模型异常行为和外部攻击。其防护策略聚焦于三个层面：通过沙箱、虚拟机和网络出口控制限制智能体运行环境；利用系统提示词和模型训练引导其行为；以及对MCP服务器、第三方插件等外部内容实施细粒度权限管理。文章以Claude Code、claude.ai和Claude Cowork为例，阐述了不同产品如何设计对应的隔离架构。

22. SenseNova-U1全训练代码开源，支持多模态多任务训练
X：商汤 SenseTime (@SenseTime_AI)

OpenSenseNova开源了SenseNova-U1的完整训练代码库，支持其8B密集模型与A3B MoE架构。该代码库使用一个统一的框架，可同时训练多种多模态任务，包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。工程上为大规模训练设计，支持混合并行、流式可恢复数据管线、环境变量驱动配置以及从1×8 GPUs到多节点集群的扩展能力。代码已在GitHub开源，采用Apache-2.0协议。

23. 未来展望：2026年5月的一些想法
Nathan Lambert：Interconnects（RSS）

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡（open-closed balance）的讨论、美国开源力量的显著增长（America’s open-source surge），以及由此引发的新兴权力博弈（emerging power struggles）。

数据来源：AI HOT (aihot.virxact.com) | 生成时间：2026-05-27 17:47

AI 无涯日报 · 2026 年 5 月 26 日

2026-05-26T14:08:03.000Z

AI 无涯日报 · 2026-05-26

每日精选全球 AI 热点，5 分钟掌握行业动态。

模型发布/更新

1. 面壁智能联合清华等开源中国首个基于华为昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN
IT之家（RSS）

产品发布/更新

2. Grok Build Beta版向SuperGrok用户开放
X：xAI (@xai)

Grok Build 现已面向所有 SuperGrok 和 X Premium+ 用户推出 Beta 版。使用 Plan Mode，通过 Imagine 创建图像和视频，并使用 CLI 构建自动化或编排器。访问 http://x.ai/cli 开始使用。

3. Qwen3.7-Max隐式缓存功能上线
X：通义千问 / Qwen (@Alibaba_Qwen)

✅隐式缓存现已在Qwen3.7-Max上线——自动启用，无需设置。 ⚡️开箱即用，更快更便宜。需要更高、更确定的命中率？请尝试显式缓存。🙌 🔗最佳实践🔗：https://www.alibabacloud.com/help/en/model-studio/explicit-cache-best-practice

行业动态

4. 苹果据称正使用定制版1.2T参数Google模型重塑下一代Siri
X：Kim (@kimmonismus)

据报道，苹果为改造下一代Siri，正使用一个定制版、参数规模达1.2T的Google大模型作为其核心，这显著大于预估约300B参数的Gemini 3.5 Flash。该模型将驱动Siri的部分功能，其中简单查询预期会在本地设备运行。苹果面临的关键挑战是确保该大模型能够足够快速地响应日常问题。此外，下个月AI领域预计将有多项重要发布，包括WWDC上的Apple Intelligence与Gemini整合、GPT-5.6、可能的Sonnet 4.8/Opus 4.8，以及已确认的Gemini 3.5 Pro。

5. 教皇里奥呼吁在AI时代保持“深刻的人性”
The Verge：AI（RSS）

教皇里奥十四世在首份重要通谕《Magnifica Humanitas》中警告了AI及不受约束的技术力量带来的风险。该通谕于2026年5月15日发布，是教皇关于“在人工智能时代守护人”的宣言。文件重点讨论了AI驱动战争的危险、AI对劳动的影响，以及建立新的法律和伦理框架来规范技术的必要性，强调AI的快速普及正造成经济和社会动荡，对个人的保护不足威胁着人类尊严。

6. OpenAI GPT-5.6 模型曝下月发布：AI 上下文 150 万 tokens
IT之家（RSS）

多名开发者在 OpenAI Codex 后端日志中发现未官宣的 GPT-5.6 模型，内部代号 iris-alpha。该模型将支持 150 万 token 的上下文窗口，较当前 GPT-5.5 的 105 万 token 提升约 43%，有望于今年 6 月发布。测试显示，在输入达到 90 万 token 时仍能流畅响应。同系列还发现了 ember-alpha 与 beacon-alpha 版本。此外，GPT-5.6 在前端界面生成能力上也有所提升。基于爆料信息，Anthropic Claude、Google Gemini 及 xAI Grok 也可能瞄准同期发布新模型。

7. OpenAI、Grupo Folha与Grupo UOL宣布战略内容合作
OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI与巴西媒体集团Grupo Folha和Grupo UOL达成合作，将可信的巴西新闻内容引入ChatGPT，以扩展新闻访问渠道，并确保内容来源的归属与透明度。

论文研究

8. 微软 Copilot Cowork 存在文件泄露问题
Hacker News 热门（buzzing.cc 中文翻译）

9. 华为何庭波“韬定律”论文发布，逻辑折叠技术提升芯片性能
IT之家（RSS）

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

技巧与观点

10. Anthropic联合创始人Chris Olah在教皇通谕发布会上的讲话
Anthropic：Newsroom（网页）

Anthropic联合创始人Chris Olah在梵蒂冈出席教皇Leo XIV关于AI的通谕发布会。他指出，所有前沿AI实验室都面临商业、研究及地缘政治等多重压力，这可能与做正确的事相冲突，因此外部监督至关重要。他强调，AI模型并非像飞机那样被工程化构建，而是基于人类语言和思想“生长”出来的，其内在性质可能复杂难解。他提出三个需审慎思考的问题：如何确保AI发展的全球收益公平分享、如何思考AI时代的人类繁荣，以及AI模型内在性质的本质。他呼吁社会各界，尤其是宗教与民间团体，严肃审视AI发展并引导其向善。

11. Harness、Scaffold 与 AI 智能体术语辨析
Hugging Face：Blog（RSS）

本文旨在厘清 AI 智能体领域中易混淆的关键术语。文章指出，模型（如 Claude、GPT）本身是无记忆、无循环的大语言模型。其行为由“Scaffolding”（行为定义层，如系统提示、工具描述）塑造，而“Harness”（执行层）负责调用模型、处理工具调用与控制循环，是智能体运行的核心。两者结合，模型才能成为智能体。文章以 Claude Code、Codex 为例，说明同一模型搭配不同 Harness 会产生迥异体验，并提出了 Agent = Model + Harness 的常见理解框架。术语尚未统一，本文旨在提供一个实用的心智模型。

数据来源：AI HOT (aihot.virxact.com) | 生成时间：2026-05-26 22:08

AI 工具推荐 · 2026 年 5 月

2026-05-26T09:00:00.000Z

AI 工具推荐 · 2026 年 5 月

每月精选实用 AI 工具与开源项目，提升你的工作效率。

🔥 本月热点

Grok Build Beta — xAI 的 AI 开发平台

Grok Build Beta 版已向 SuperGrok 和 X Premium+ 用户开放。支持 Plan Mode 规划模式，通过 Imagine 创建图像和视频，并提供 CLI 工具用于构建自动化流程和编排器。对于 AI 开发者来说，这是一个值得关注的新平台。

平台：X / xAI
访问：x.ai/cli

🛠 实用工具

Qwen3.7-Max 隐式缓存

通义千问 Qwen3.7-Max 上线隐式缓存功能——自动启用，无需手动设置。开箱即用的加速缓存让推理更快、成本更低，适合需要高频调用的场景。如果你在用通义千问的 API，这个功能可以直接降低使用成本。

平台：阿里云 Model Studio
链接：最佳实践

📚 学习资源

Harness、Scaffold 与 AI 智能体术语辨析

Hugging Face 发布了一篇实用的 AI 智能体术语解析文章，厘清了 Agent 生态中的关键概念：

模型 — 无记忆、无循环的大语言模型
Scaffolding — 行为定义层（系统提示、工具描述）
Harness — 执行层，负责调用模型、处理工具调用与控制循环

文章指出 Agent = Model + Harness 是目前最实用的理解框架，并以 Claude Code、Codex 为例说明了同一模型搭配不同 Harness 会产出迥异体验。

链接：Hugging Face Blog

🔬 开源项目

OpenSenseNova — SenseNova-U1 全训练代码开源

商汤 SenseNova-U1 的完整训练代码库已开源，支持其 8B 密集模型与 A3B MoE 架构。使用一个统一的框架即可同时训练多种多模态任务，包括文本到图像生成、图像编辑、交错生成及文本与视觉理解。

对于希望深入研究多模态模型训练的研究者和开发者来说，这是一个非常有价值的参考实现。

💡 小技巧

利用 AI HOT 快速追踪行业动态

AI HOT（aihot.virxact.com）是一个免费的中文 AI 热点聚合平台，每天自动整理全球 AI 新闻并按版块分类（模型/产品/行业/论文/技巧）。你可以直接访问网站，也可以用 API 集成到自己的工作流中。

编辑：AI 无涯 | 数据来源：AI HOT (aihot.virxact.com)

AI 论文速递 · 2026 年 5 月 26 日

2026-05-26T08:00:00.000Z

AI 论文速递 · 2026-05-26

精选今日 AI 领域值得关注的学术论文与研究动态。

头条

1. 图灵测试 76 年后首现 AI 通过实证：GPT-4.5 以 73% 判定率超越真人

加州大学圣地亚哥分校研究首次实证现代 AI 可通过图灵测试。在获得特定提示后，GPT-4.5 在 5 至 15 分钟的对话中被误认为人类的概率高达 73%，显著超过真人参与者（被判定为人类的概率仅 67%）。这是图灵测试提出 76 年来，AI 首次在严格实证中跨越这一里程碑。

IT之家

模型与推理

2. 奖励倾斜分布匹配：强化少步生成器的新框架

本文提出 RTDMD（奖励倾斜分布匹配蒸馏），一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。通过最小化到奖励倾斜教师分布的 KL 散度，在图像和视频生成任务上实现了更优的质量与效率平衡。

arXiv

3. Nemotron-Labs 扩散语言模型：光速级文本生成

NVIDIA 发布 Nemotron-Labs 扩散语言模型研究，通过扩散语言模型架构大幅提升文本生成速度，可实现”光速级”的文本输出。该工作已在 Hugging Face 上公开技术细节。

Hugging Face Blog

4. 从推理链到可验证子问题：课程强化学习实现 LLM 推理的信用分配

针对基于结果的强化学习在处理困难推理问题时因正确样本稀少而效率低下的问题，本文提出子问题课程强化学习框架。该框架从参考推理链中提取可验证子问题，逐步训练模型掌握复杂推理能力。

arXiv

系统与架构

5. ZCube：超大规模大模型推理的网络优化

智谱 AI 发布 ZCube 网络架构研究，针对超大规模大模型推理场景，通过取消 Spine 层、将 Leaf 交换机分组并全互联等创新设计，有效解决推理网络的拥塞问题。实测实现了显著的性能提升。

智谱 AI 研究

6. RiT：在表示空间中使用原生扩散变换器已足够

本研究探讨预训练表示空间在流匹配学习中的优势。比较像素、SD-VAE 与 DINOv2 特征后发现，使用 DINOv2 表示空间的扩散变换器在生成质量和计算效率上均表现优越。

arXiv

安全与评估

7. 微软 Copilot Cowork 存在文件泄露问题

安全研究团队发现微软 Copilot Cowork 功能存在文件泄露风险，可导致敏感文件被提取。企业用户需关注相关安全配置并及时评估风险。

PromptArmor

8. VSAS-Bench：视觉流式辅助模型的实时评估基准

Apple 研究团队提出 VSAS-Bench，一个专为实时视觉助手设计的评估基准。现有框架主要在离线场景下评估，但流式模型还需考量响应时效性（主动性）和随时间推移的响应稳定性（一致性）等额外指标。

Apple Research

硬件突破

9. 华为何庭波”韬定律”：逻辑折叠技术提升芯片性能

华为何庭波在 ISCAS 2026 上提出”韬定律”，介绍逻辑折叠技术。通过三维空间拓扑重组，不依赖新光刻工艺即可提升芯片性能。在麒麟 2026 测试中，晶体管密度提升至 238 MTr/mm²，能效提高 41%，最大时钟频率提升近 13%。升腾 990 计划 2030 年左右引入该技术。

IT之家

数据来源：AI HOT (aihot.virxact.com) | 编辑：AI 无涯