最新AI信号

109 条

筛选当下和未来真正重要的变化，而不是追逐所有更新。

昨天

2026-07-17

Replit CEO Amjad Masad· Follow Builders

7月17日X

Amjad Masad 用 200 万个 Stockfish 局面训练棋类模型

Replit CEO Amjad Masad 公布一个仍在开发中的 chess engine：模型先用 200 万个由 Stockfish 标注的棋局局面做 fine-tuning，再进行一轮短程 GRPO reinforcement learning。他表示该模型在棋类任务上已经显得优于 frontier models，并同时提供可试玩版本、实验记录和带注释代码。观察：当训练数据可以由成熟求解器规模化生成，窄领域模型有机会用明确反馈和可复现实验超过通用模型。

Amjad Masad on X 原文

Anthropic Claude Code 创建者 Boris Cherny· Follow Builders

7月17日X

Boris Cherny：coding agent 的回报要看替代了多少工程投入

Anthropic Claude Code 创建者 Boris Cherny 将团队采用 coding agent 的高阶阶段概括为：让 Claude 端到端验证工作，默认启用自动 code review 与 security review，并通过 Agent view、Desktop、移动端和 Tag 同时管理多个 agent；再用 /loop、/batch、dynamic workflows 与 worktree isolation 自动化整类任务。他认为 usage dashboard 只能衡量活动，真正的回报应看这些工作原本是否值得投入工程时间、节省了多少 manual engineering hours。观察：agent adoption 的成熟度指标正在从调用量转向可验证的后台维护能力与真实工程 ROI。

bcherny on X 实践说明 ROI 指标成熟度判断

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux· Follow Builders

7月17日X

ChatGPT 桌面端补齐历史同步与模式切换

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux 表示，团队根据新版 ChatGPT desktop app 的反馈调整了产品：conversation history 与 projects 进入侧边栏，Chat 和 Work 历史可在 web、mobile、desktop 间同步，本地 tasks 仍留在电脑；用户也能在桌面端直接切换 Chat 与 Work，交互与 web、mobile 对齐。Codex mode 不受这次变化影响。观察：这次更新重点不是增加一个孤立功能，而是补齐跨端连续性，同时明确云端会话与本地任务的边界。

thsottiaux on X 原文

7月16日周四

2026-07-16

Vercel CEO Guillermo Rauch· Follow Builders

7月16日X

Vercel 请 Pete Hunt 领导 Next.js，Nick Schrock 转向 Agentic DX

Vercel CEO Guillermo Rauch 宣布 Pete Hunt 与 Nick Schrock 加入公司。React 早期核心推动者 Pete Hunt 将负责 Frameworks 并领导 Next.js；GraphQL 共同发明者 Nick Schrock 将投入 Agentic Developer Experience，探索面向大规模 agent 的开发体验与 self-improving software。观察：这两项任命把 Vercel 的主线连接得更清楚，一端继续巩固 web framework，另一端开始为 agent 作为软件使用者和开发者设计新的基础设施。

Guillermo Rauch on X 原文

Meta AI 高级总监、前 Google Gemini 与 Veo 产品负责人 Madhu Guru· Follow Builders

7月16日X

Madhu Guru：开放模型时代，企业栈要为随时换模型而设计

Meta AI 高级总监、前 Google Gemini 与 Veo 产品负责人 Madhu Guru 判断，Kimi、GLM 等 open-weight models 会迫使企业重新设计 AI stack。她建议建立可快速运行的 regression evals 与 aspirational evals，用质量、成本、延迟决定 model routing，并用 model-agnostic harness 统一 prompt、context management、tool definitions 与 output parsing。观察：模型可选性不是多接几个 API，而是让 eval velocity、路由和抽象层共同保证模型能在通过评测后被低成本替换。

Madhu Guru on X 原文

7月14日周二

2026-07-14

Box CEO Aaron Levie· Follow Builders

7月14日X

Aaron Levie：AI 各层不是零和，Applied AI 的护城河在编排

Box CEO Aaron Levie 判断，frontier labs 会继续推进能力上限，open-weight models 会快速吸收突破并提供更低成本、可定制的智能，Applied AI 则通过 evals、领域上下文、企业数据与工作流编排不同模型。他认为多数企业更应该持续整理自己的上下文和数据，而不是为每家公司训练一套模型。分析：真正可持续的产品差异会落在任务路由、成本与效果组合，以及能否把通用模型接入具体业务。

Aaron Levie on X 原文

Anthropic 产品经理 Cat Wu 与 Claude Code 团队 Thariq· Follow Builders

7月14日X

Claude Artifacts 升级：项目 dashboard 可跨协作者与 Claude Code 编辑

Anthropic 产品经理 Cat Wu 宣布 Artifacts 获得升级；Claude Code 团队的 Thariq 进一步说明，新能力让 artifacts 更具表达力，也能组合出更多工作流。他举例为 Claude Tag 项目创建 dashboard，让其他协作者或本地 Claude Code session 继续编辑。观察：Artifacts 正从一次性生成结果变成连接人、项目状态与本地 agent 的共享工作面。

Cat Wu on X Thariq on X Cat Wu 原文 Thariq 说明

Vercel CEO Guillermo Rauch· Follow Builders

7月14日X

Vercel Flags CLI 让 agent 可直接编排产品实验

Vercel CEO Guillermo Rauch 将新版 Vercel Flags 定位为自主、自优化网站的基础能力：agent 可以通过 feature flags 建立并调整实验。Vercel 官方 changelog 进一步确认，vercel flags rules 已支持在终端中新增、移动和查看 targeting rules，也能用 JSON 输出完整规则集。观察：当实验配置可被 CLI 和 agent 操作，产品优化开始从人工改 dashboard 走向可审计的自动化闭环。

Guillermo Rauch on X Guillermo Rauch 原文 Vercel 官方说明

FPV Ventures 合伙人 Nikunj Kothari· Follow Builders

7月14日X

Ramp-Autofill：Claude Code 自动补齐企业报销材料

FPV Ventures 合伙人 Nikunj Kothari 开源 Ramp-Autofill skill：它从 iMessage 与 Gmail 寻找收据，必要时用 Playwright 把网页转为 PDF，结合 Google Calendar 补写会面信息，并参考历史交易学习组织的 memo 与分类方式。工作流还会自检、标出差异并支持定时运行。观察：这类 agent 的价值不在单次填表，而在把跨消息、邮件、日历和财务系统的碎片整理成可验证的完整流程。

Nikunj Kothari on X 原文

AI 产品设计师 Ryo Lu· Follow Builders

7月14日X

Ryo Lu 用 Cursor 为电子书阅读器写定制固件

AI 产品设计师 Ryo Lu 用 Cursor 为 Xteink X3/X4 开发定制电子书阅读器固件，重点处理 Latin 与 CJK 排版、竖排和禁则、大字符集、阅读进度同步，以及渲染缓存。他还表示可以让 Cursor 协助刷写设备。观察：coding agent 正从网页和应用开发进入硬件改造，价值不只在生成代码，也在降低个人为小众设备重做完整体验的门槛。

Ryo Lu on X 原文

7月8日周三

2026-07-08

前 Google Gemini / Veo 产品负责人 Madhu Guru· Follow Builders

7月8日X

Madhu Guru：模型战略要先用 evals 表达清楚

前 Google Gemini / Veo 产品负责人 Madhu Guru 反驳“data 和 evals 是低技能脏活”的看法：真实模型生命周期更像 model strategy → evals → 围绕 evals 的 pre/post-training 与 RL → GTM。她认为 evals 本质上是产品战略的表达，难点是模型总想做成“什么都强”，而团队必须在架构变化、regression、数据贡献和竞品消息之间，持续盯住目标 eval set。观察：这条信号把 evals 从测试工具提升为模型产品的方向盘，尤其适合企业模型和垂直模型团队参考。

Madhu Guru on X 原文企业 data/evals 补充

Box CEO Aaron Levie· Follow Builders

7月8日X

Aaron Levie：企业 agent 落地卡在组织、数据和指标

Box CEO Aaron Levie 总结了与数十位企业 IT 负责人讨论 AI agent 后看到的共性：企业要先解决 operating model，agent 才能跨部门流程真正发挥作用；数据碎片化仍然阻碍准确答案和业务一致性；未来公司核心护城河会越来越来自可供 agent 使用的专有上下文；AI adoption 的指标也不能只看 token，而要回到具体业务结果。观察：企业 AI 的难点正在从“有没有模型能力”转向“谁管理 agent、数据如何被整理、流程如何跨 silo 运转，以及哪些工作被真正重构”。

Aaron Levie on X 原文数据护城河补充

7月7日周二

2026-07-07

Training Data· 播客

7月7日播客

Inside Zipline's Autonomous System: 140M Miles, Zero Incidents

Training Data 这一集讨论 Zipline 的 autonomous drone delivery 系统：从 Rwanda 医疗配送的早期 PMF，到硬件、飞控、系统工程和 safety culture 如何支撑 1.4 亿英里、零事故的规模化运行。节目里最值得关注的不是“无人机很酷”，而是高可靠 autonomous system 的产品路径：先找到一个用户会要求你延长服务时间的真实场景，再把安全、运维、系统工程和反馈循环变成长期能力。对 AI builder 来说，这集提供了一个类比：agent 系统也不能只靠模型聪明，必须把可靠性、监控、责任边界和真实需求一起设计进去。

Training Data on X 播客

Vercel CEO Guillermo Rauch· Follow Builders

7月7日X

Vercel 收入 Better Auth，继续推进 Open SDK 和 agent 身份层

Vercel CEO Guillermo Rauch 欢迎 Better Auth 作者 Bereket 加入 Vercel，称这会推进 Vercel 的 Open SDK vision：开发者需要面向人和 agent 的 better auth，而且应当开放、可组合、有产品 taste。他同日还展示 Eve 的工具扩展方式：在 filesystem 里定义 tools/github.ts 并导出 createGitHubTools，就能给 agent 接入 GitHub 能力。观察：Vercel 正把 auth、tools、skills、channels、models 看成同一个开放 agent 生态的组成部分，身份与权限会成为 agent 产品基础设施里的关键层。

Guillermo Rauch on X Better Auth Eve 工具扩展示例

7月3日周五

2026-07-03

Box CEO Aaron Levie· Follow Builders

7月3日X

Aaron Levie：企业 AI 真正难在重写业务流程

Box CEO Aaron Levie 判断，企业部署 AI 的难点不在于把 chatbot 放进工作台，而是让 agent 对齐真实业务流程和结果。现有流程通常混着碎片化数据、legacy software、隐性组织知识和无法直接连接的系统；要规模化部署，就需要清洗数据、现代化 IT、建立 evals、做 change management，并重新设计 human-in-the-loop 的位置。观察：这解释了为什么 applied AI 公司正在加强 FDE 和 deployco 能力，企业 AI 的瓶颈越来越像流程工程，而不是单次模型调用。

Aaron Levie on X 原文

7月2日周四

2026-07-02

FirstMark Capital 合伙人 Matt Turck· Follow Builders

7月2日X

Matt Turck 对话 NVIDIA Bryan Catanzaro：Nemotron 背后的开放模型战略

FirstMark Capital 合伙人 Matt Turck 发布了与 NVIDIA AI 的 Bryan Catanzaro 关于 Nemotron 和 NVIDIA AI lab 的长谈，核心问题是：一家芯片公司为什么投入数百名研究员训练 AI 模型并开放出去。议题覆盖 open source AI 是否追近 frontier、distillation 限制、Nemotron Nano/Super/Ultra、550B 模型的 4-bit 训练、Hybrid Mamba-Transformer、1M context window 和 multi-teacher distillation。观察：这条内容值得关注，因为 NVIDIA 的模型战略正在从卖算力的配套动作，变成影响 agent 速度、开放生态和企业模型选择的底层变量。

Matt Turck on X 原文

Anthropic Claude Code 与 Cowork 团队的 Cat Wu· Follow Builders

7月2日X

Claude Tag 从工程扩展到 Anthropic 全组织工作流

Anthropic Claude Code 与 Cowork 团队的 Cat Wu 分享，Claude Tag 已经覆盖 Anthropic 内部的 engineering、product、data、sales、marketing 等团队，内部版本落地了 65% 的 product PRs。她同时表示，Claude Enterprise 组织可获得 2.5 万美元 credits，Claude Team 组织可获得 2500 美元 credits，用于在 9 月 1 日前试用 Claude Tag。观察：Claude Tag 的信号不只是一个协作入口，而是 Anthropic 正在把 agent 从工程团队的工具推向跨职能组织流程。

Cat Wu on X Claude on X 内部落地说明额度说明 Claude 官方说明

Vercel CEO Guillermo Rauch· Follow Builders

7月2日X

Vercel AI Gateway Rules 让模型路由可动态改写

Vercel CEO Guillermo Rauch 把 AI Gateway 解释成面向 AI 模型的 Token Delivery Network，类似 CDN 可以在不重新部署的情况下动态改路由或拒绝流量。以 Fable 突然退场为例，生产流量如果依赖旧模型版本，就需要网关层把 model route 实时 rewrite 到替代模型。观察：随着 GPU capacity 紧张和模型版本频繁变化，AI 应用的可靠性不只取决于选哪个 model，也取决于有没有一层能吸收模型退役、限流和替换风险的基础设施。

Guillermo Rauch on X 原文

Anthropic Claude Code 团队的 Thariq· Follow Builders

7月2日X

Claude Fable 5 延长付费计划访问，供给仍受用量约束

Anthropic Claude Code 团队的 Thariq 此前回应 Fable 可用性问题：Fable 原计划在 7 月 7 日后从订阅计划中下线，团队目标是在 capacity 允许后尽快恢复。Claude 官方随后更新：Claude Fable 5 在所有付费计划上的访问将延长到 7 月 12 日，用户最多可将每周用量额度的 50% 用于 Fable 5，之后可继续使用 usage credits 或切换到其他模型。观察：这张卡的重点不是具体日期，而是 frontier model 产品化的现实约束，最强或最受欢迎的能力不一定能以稳定、默认、无限量的方式供给所有用户，产品层必须同时处理可用性、容量和计费边界。

Thariq on X Claude on X Thariq 说明 Claude 官方延长访问用量限制说明

6月30日周二

2026-06-30

Follow Builders 创建者 Zara Zhang· Follow Builders

6月30日X

Zara Zhang 把稍后阅读直接排进日历

Follow Builders 创建者 Zara Zhang 做了一个开源 Chrome 扩展：每保存 5 篇稍后阅读文章，就自动在 Google Calendar 安排一个 30 分钟阅读时段并附上链接。扩展不需要账号或服务器，所有数据留在本地。这个小产品的价值不在于再造一个收藏夹，而是把“保存意图”转换成有时间约束的真实行动；它展示了一种适合个人 AI 工具的产品方向：少收集信息，多设计能闭环的行为触发器。

Zara Zhang on X 产品说明

Anthropic Claude 官方团队· Follow Builders

6月30日X

Claude 在 Microsoft Foundry 正式可用

Anthropic Claude 官方团队宣布，Claude 在 Microsoft Foundry 已进入 generally available 阶段，Azure 客户可通过 Azure 的身份认证、计费与承诺消费体系使用 Claude Opus 4.8 和 Claude Haiku 4.5。Anthropic 表示，推理由其在 Azure 基础设施上运营，并已支持 prompt caching 与 extended thinking。对企业 builder 而言，关键不只是多一个模型入口，而是 Claude 可以进入既有 Azure 治理、采购与部署流程，降低从试验走向生产的组织成本。

Claude on X 官方公告

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux· Follow Builders

6月30日X

Codex 用 permission profiles 替代粗粒度 sandbox 模式

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux 表示，Codex 已用可复用、可继承的 permission profiles 替代粗粒度 sandbox 模式。配置可以把操作系统强制执行的文件读写与拒绝规则——包括对 `.env` 的保护——绑定到按域名控制的网络访问和 Unix socket，并支持 fail-closed 的管理员 allowlist。对高级 agent 工作流而言，这意味着权限不再只是“全开或全关”，而能按任务落实 least privilege，让团队在扩大自动化范围时保留可审计的安全边界。

thsottiaux on X 原文

Anthropic Claude Code 团队的 Boris Cherny· Follow Builders

6月30日X

Claude Code 将默认让 subagent 在后台运行

Anthropic Claude Code 团队的 Boris Cherny 预告，下一版本会让 subagent 默认在后台运行，用户可以在它们工作时继续与主 agent 对话；需要前台执行时仍可直接说明。真正的变化不是多一个并行开关，而是 coding agent 的交互从“等待单个任务结束”转向“主对话持续推进、子任务异步完成”。这会提高复杂工作流的吞吐量，也要求产品更清楚地展示后台任务状态、资源消耗和结果回流。

bcherny on X 原文

6月29日周一

2026-06-29

Vercel CEO Guillermo Rauch· Follow Builders

6月29日X

作品页比 LinkedIn 更重要：履历正在回到 shipped work

Vercel CEO Guillermo Rauch 给出的职业建议很直接：与其依赖 LinkedIn，不如在自己的网站放一个页面，说明并链接到真正交付过的作品。观察：当 AI 降低构建门槛后，身份标签和职位描述的信号正在变弱，可访问、可验证的 shipped work 会成为更有说服力的能力证明。

Guillermo Rauch on X 原文

Box CEO Aaron Levie· Follow Builders

6月29日X

Aaron Levie：封锁前沿模型可能让美国单方面失去优势

Box CEO Aaron Levie 的判断是，高能力 cyber security 模型最终会以开放形式出现，因此限制本国前沿模型发布未必能换来长期安全，反而可能把经济价值与技术栈控制权让给其他生态。他认为，一部分 AI 监管逻辑隐含了“中国无法追上”的前提，而更可行的战略是持续站在 frontier 并主导下一代架构。这个结论属于 Levie 的政策分析，不是已证实的技术或地缘结果；其价值在于把模型开放问题从单次 release risk 拉到长期技术竞争框架中讨论。

Aaron Levie on X 原文

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux· Follow Builders

6月29日X

OpenAI 调查 Codex 用量异常，先为全体用户硬重置额度

OpenAI Codex 与 ChatGPT 团队的 Thibault Sottiaux 公布了调查结论：并非单一故障，而是更主动的 auto-review、更多 subagent 工作、后台建议重复运行与失败后重试过于频繁等问题叠加，造成部分用户非预期的后台消耗。团队已回滚相关变化，修复调度、重复生成和重试逻辑，并纠正 auto-review 被计入 GPT-5.4、失败或限流请求仍显示为 turns 的用量展示问题；限流请求并未实际扣费。团队再次重置额度，并表示 CLI、桌面端和用量后端的 hotfix 均已部署。这个事件提醒 agent 产品团队：后台自治能力必须同时配套可归因的用量统计、明确的执行边界和回归监控。

thsottiaux on X 调查说明额度重置调查结论

Anthropic Claude Code 团队的 Boris Cherny· Follow Builders

6月29日X

Claude Code 团队把未来产品角色拆成五类，不再按职能划线

Anthropic Claude Code 团队的 Boris Cherny 认为，engineering、product、design、data science 正在融合，未来角色可能更接近五种工作原型：提出大量新想法的 Prototyper、把原型做成生产系统的 Builder、负责简化与优化的 Sweeper、持续寻找 PMF 的 Grower，以及保障成熟系统安全与可靠性的 Maintainer。多数人横跨两到三类，团队配比则随产品阶段变化：pre-PMF 更需要前 3 类，强 PMF 产品更依赖后 3 类。核心变化不是人人变成全栈，而是组织开始按产品所处阶段组合能力，而不是按传统职能配置席位。

bcherny on X 原文

6月18日周四

2026-06-18

The MAD Podcast with Matt Turck· 播客

6月18日播客

The GPU Myth: State of AI Compute 2026 | Stephen Balaban

Lambda 联合创始人兼 CTO Stephen Balaban 的核心判断是，GPU compute 从来不是简单的 commodity：它横跨土地、电力、数据中心、HPC 设计、虚拟化、云服务与融资，竞争优势来自整套垂直系统的协调效率。他表示 Lambda 在 2026 年把 2023 年部署的 H100 租出了更高价格，并认为行业仍在普遍 underbuild；按其估算，建设 1GW AI factory，仅电力、数据中心和服务器就分别需要约 20–30 亿、100–150 亿和 350–450 亿美元。对 builder 而言，这集最重要的提醒是：模型能力继续扩张时，真正稀缺的不只是芯片，而是高利用率运营、长期 offtake、融资结构与快速交付算力的组合能力。

matturck on X 原文

6月17日周三

2026-06-17

The MAD Podcast with Matt Turck· 播客

6月17日播客

OpenAI's Dan Roberts: Why AI Can Now Make Discoveries

The MAD Podcast with Matt Turck 这一集采访 OpenAI Foundations of Reinforcement Learning 负责人 Dan Roberts，核心观点是 AI 已经不只是辅助研究者，而是在数学与科学问题上开始承担更长链条的探索工作。Roberts 把 reinforcement learning 看作推理模型突破的重要路径，但也强调可验证奖励与模糊任务之间仍有距离；他更有价值的判断是：理解大模型不该只从小模型外推，而要从大系统里出现的现象反推能解释它的简化模型。对 AI builder 来说，这集值得关注，因为它把科学发现、RL scaling、模型自我改进和 AI research automation 放在同一个框架里，讨论接下来产品和研究系统会如何变得更自主。

openai on X matturck on X 原文

6月16日周二

2026-06-16

开发者 Peter Steinberger· Follow Builders

6月16日X

clawsweeper：符合项目 VISION.md 就自动建 PR 并自审

开发者 Peter Steinberger 分享了 @clawsweeper 的工作流：给开源项目提 issue 后，它会判断是否符合项目的 VISION.md，符合就自动创建并自审 PR。这展示了一种把"项目愿景"转化为 agent 可执行约束的实践——agent 不只是写代码，而是先对齐"什么值得做"。

Peter Steinberger on X 原文

Vercel CEO Guillermo Rauch· Follow Builders

6月16日X

Vercel 上线更长函数运行时，并判断 2026 是 serverless 与 servers 趋同之年

Vercel CEO Guillermo Rauch 宣布更长函数运行时上线，并指出这是多年 Fluid compute（基于自研 microVM）平台的结论。他同时判断 2026 是 serverless 与 servers 趋同的一年：sandbox、function、server、build 本质是同一套 compute 的不同表达，差别只在负载均衡、并发、持久化与 overcommit 的调参，且不再有坑。

Guillermo Rauch on X 更长运行时公告 serverless 与 servers 趋同

Google VP Josh Woodward（负责 Gemini App / Google Labs）· Follow Builders

6月16日X

Gemini 移动端语音支持 70+ 语言自由混用，告别'先选语言'

Google 负责 Gemini App 与 Google Labs 的 VP Josh Woodward 宣布，Gemini 移动端语音输入现在支持 70+ 语言且可自由混用，无需切换语言设置，且不打断对话。Web 版约一周后上线。对非英语用户的实际意义在于：语音交互终于摆脱了"先选语言"的预设门槛。

Josh Woodward on X 原文 Web 版即将上线

Replit CEO Amjad Masad· Follow Builders

6月16日X

Replit 推出领域专用 agent：growth 与 security 各管一类工程治理

Replit CEO Amjad Masad 展示了 Replit 的领域专用 agent：growth agent 自动发现 SEO 问题，security agent 发现潜在漏洞。实际用法是"全选，用 Agent 修复"。这显示 coding agent 正从通用代码生成转向按职能切分的垂直能力——每个 agent 负责一类可重复的工程治理。

Amjad Masad on X 原文

Box CEO Aaron Levie· Follow Builders

6月16日X

AI 最有趣的不是模型变聪明，而是 intelligence 变得可定制

Box CEO Aaron Levie 引用观点指出，AI 最有趣的趋势不是单个模型变得更聪明，而是 intelligence 变得 increasingly customizable——赢家未必是拥有最强单一模型的公司，而是能把智能针对具体场景定制的公司。这指向企业 AI 的护城河正从模型参数转向编排与适配能力。

Aaron Levie on X 原文

FPV Ventures 合伙人 Nikunj Kothari· Follow Builders

6月16日X

VC 成批转回做运营，构建的边际收益在回升

FPV Ventures 合伙人 Nikunj Kothari 观察到，过去 12 个月已有 32 位 VC 从 associate 到 GP 各层级转回做运营，节奏在加快，且普遍更开心。这呼应了 AI 时代的一个判断：当构建成本下降，亲手做产品的边际收益在回升，而纯资本中介的价值在被稀释。

Nikunj Kothari on X 原文

5月25日周一

2026-05-25

Anthropic Engineering· 博客

5月25日博客

Anthropic 复盘三类 Claude containment：真正失守的往往是自研边界

Anthropic Engineering 对比了 claude.ai 的 ephemeral container、Claude Code 的 human-in-the-loop sandbox，以及 Claude Cowork 的 sealed VM，并给出一个明确原则：先用环境层限制 blast radius，再用模型层约束行为。文章披露，频繁授权曾让用户批准约 93% 的 permission prompt，引入 OS-level sandbox 后提示减少 84%；更关键的事故则来自自研边界，包括信任确认前加载项目配置，以及 allowlist 放行 `api.anthropic.com` 后仍可把文件上传到攻击者账户。对 agent builder 的直接提醒是：domain allowlist 本质上是 capability grant，成熟的 hypervisor、seccomp 与 gVisor 往往比自研代理和编排层更可靠。

原文

FPV Ventures partner Nikunj Kothari· 三日简报

5月25日X

Claude Code 被用于发现网页背后的 API 与自动化入口

FPV Ventures partner Nikunj Kothari 分享了用 Claude Code 配合 browser harness 或 Playwright 观察网络请求，再识别 API 结构、认证方式与 rate limit 的自动化方法。他据此提出，网站未来可能需要面向 agent 暴露类似 `tools.txt` 的能力描述。这反映出 coding agent 的应用边界正在从生成代码扩展到理解和编排已有在线工具。

Nikunj Kothari on X 原文

Box CEO Aaron Levie· 三日简报

5月25日X

企业采用 Agent 的真正难点在最后一公里

Box CEO Aaron Levie 认为，企业领导者很容易从 AI 的顺利 demo 推导出过度宽泛的结论，却没有承担代码进入生产前的复核、合同发出前的校验，以及既有系统接入等后续工作。他主张管理者应高频实际使用 AI，以同时理解 agent 的上限和将结果变成持续业务价值所需的真实成本。

Aaron Levie on X 原文

5月24日周日

2026-05-24

Roblox Product Peter Yang· 三日简报

5月24日X

单人创业者先搭建制造 MVP 的 Agent 系统

Roblox Product Peter Yang 分享 Ryan Carson 的单人创业工作流：OpenClaw 承担邮件、日程与销售外联，Codex 和 Devin 承担部分工程任务，skills 与文档用于让 agent 持续复用上下文。Ryan 的核心取向是先建立“能够制造 MVP 的系统”，并表示即便已经完成融资，也不会急于扩大招聘规模。

Peter Yang on X 原文补充原帖

Anthropic Claude Code 团队 Thariq· 三日简报

5月24日X

旧代码库可能成为 AI 重构软件的蒸馏材料

Anthropic Claude Code 团队的 Thariq 从 Bun rewrite 得出的观察是，legacy codebase 可能成为将软件“蒸馏”为新形态的有价值素材，例如转向跨平台或 Web 运行。他同时补充，当前 model 还没有完全达到这个阶段，Bun 极强的可验证性与测试覆盖是这类实践成立的重要条件。

Thariq on X 原文补充说明

Y Combinator CEO Garry Tan· 三日简报

5月24日X

Garry Tan 称数小时完成 Qwen3.5-397B fine-tuning

Y Combinator CEO Garry Tan 表示，自己通过 Thinking Machines 在数小时内完成了一个 Qwen3.5-397B model 的 fine-tuning，并将其与快速、可用的多模态能力联系到个人 AI 的潜力。这里更值得关注的信号是，大模型定制正在被 builder 讨论为可在短周期内实践的产品能力，而不再只是大型研究团队的流程。

Garry Tan on X 原文

Vercel CEO Guillermo Rauch· 三日简报

5月24日X

Builder 社群开始用可运行产品检验 AI 开发工具

Vercel CEO Guillermo Rauch 邀请开发者提交最满意的 AI 构建产品，并注明主要使用的 model 或 agent。随后他称自己处理了 1400 条回复，其中 Codex 被提及的次数超过 Claude Code，OpenAI 在相关讨论中正追近 Anthropic。这不是市场份额统计，但显示 builder 的比较维度正在从口头能力转向能否交付真实产品。

Guillermo Rauch on X 征集原帖汇总原帖

Box CEO Aaron Levie· 三日简报

5月24日X

自动化任务不等于消灭岗位，AI 价值讨论转向工作扩容

Box CEO Aaron Levie 认为，把 AI 完成单项任务直接等同于岗位消失，是对企业工作结构的误读。其判断是：当编码、法务、销售或营销中的部分任务成本降低，工作可能转向更高质量、更大规模或尚未自动化的部分，小企业也会因此有能力启动过去负担不起的项目。

Aaron Levie on X 原文

5月23日周六

2026-05-23

Y Combinator CEO Garry Tan· 三日简报

5月23日X

GBrain 接入 Gemini Live，个人 AI 增加语音 Agent 入口

Y Combinator CEO Garry Tan 表示，GBrain v0.40.0 已为 OpenClaw/Hermes Agent 与 GBrain 加入基于 Gemini Live 的语音 Agent，强调大 context、tool use 与个人知识访问。这个更新提供了一个具体方向：个人 AI 不只等待文本指令，而是开始以语音入口连接已有 agent 工作流。

Garry Tan on X 原文

Box CEO Aaron Levie· 三日简报

5月23日X

AI 发现漏洞之后，安全修复成为新的瓶颈

Box CEO Aaron Levie 从 Mythos 更新中提炼出的判断是：AI 会让发现安全问题变得更容易，但审核、响应与真正修复漏洞仍依赖工程师的判断。值得关注的变化不是安全工程被自动化消失，而是问题发现速度上升后，修复与处置能力可能成为更稀缺的环节。

Aaron Levie on X 原文

5月22日周五

2026-05-22

Zara Zhang · Builder· 日报

5月22日X

AI 原生团队的角色边界正在重画

Zara Zhang 提到，在 AI-native team 里，IC 要开始像 manager 一样思考：如何把任务委派给 agent、如何设标准、如何验收输出；manager 则要更像 IC：更 hands-on 地参与建造，而不只是做人管人。这是 AI agent 进入团队工作流后很关键的组织变化信号。

Zara Zhang on X 原文

Google Labs · Google 实验性 AI 项目官方· 日报

5月22日X

Google Project Genie 面向 AI Ultra 用户全球开放

Google Labs 宣布 Project Genie 已面向 Google AI Ultra 订阅用户全球开放。Genie 的定位是从玩游戏走向几分钟内设计游戏：选择角色、设定场景，由模型生成可交互世界。这代表 Google 继续把世界生成、游戏生成和多模态创作推向消费级入口。

Google Labs on X 原文

Garry Tan · Y Combinator 总裁· 日报

5月22日X

AI Agent 的搜索基础设施继续升温

Garry Tan 和 Swyx 都提到 Exa 在 agent web search 场景里的表现。Garry Tan 说 YC 在自己的 OpenClaw 和 Hermes agents 中使用 Exa；Swyx 则提到团队做过 Exa 与竞品 bake-off 后快速达成一致。趋势很清楚：agent 要可靠工作，搜索和检索层会变成关键基础设施。

Garry Tan on X Swyx on X Garry Tan Swyx

Sam Altman · OpenAI CEO· 日报

5月22日X

OpenAI 强调 AGI 加速研究、公司和个人目标

Sam Altman 提到 OpenAI 当前最兴奋的三件事：AGI accelerating research、AGI accelerating companies、personal AGI accelerating everyone。结合他关于通用模型解决数学开放问题的表述，OpenAI 的叙事正在从模型能力提升转向 AI 作为研究与组织加速器。

Sam Altman on X 原文

Anthropic Engineering· 日报

5月22日博客

Claude Code 推出 Auto Mode，试图解决 Agent 权限疲劳

Anthropic Engineering 发布 Claude Code auto mode。核心问题是：手动审批太多会让用户习惯性点击同意，而 --dangerously-skip-permissions 又过于危险。Auto Mode 的方向是在高自主性和低安全风险之间做新平衡，让 Claude Code 能更连续地执行任务，同时减少误删分支、误触生产数据库、泄露 token 等 agentic misbehavior。

原文

Dan Shipper · Every CEO· 日报

5月22日X

MCP、API、SDK 基础设施成为热点

Anthropic 收购 StainlessAPI，Stainless 做 API、SDK 和 MCP server 基础设施，客户包括 OpenAI 和 Google。MCP 协议正在成为 AI 工具连接的标准层。

Dan Shipper on X 原文

Claude Blog· 日报

5月22日博客

Claude Managed Agents 连续更新，Agent 平台化加速

Anthropic 围绕 Claude Managed Agents 发布 dreaming、outcomes、multiagent orchestration、memory、self-hosted sandboxes、MCP tunnels 等更新。核心方向是让 agent 能长期执行任务、跨 session 学习、在企业自己的环境中运行工具，并连接私有 MCP 服务。

Claude on X 新功能 Memory Engineering

Andrej Karpathy · AI 教育者· 日报

5月22日X

Karpathy 加入 Anthropic

Andrej Karpathy 宣布加入 Anthropic，未来几年会重新回到 LLM 前沿 R&D 工作。这强化了 Anthropic 在基础模型研究和顶级研究人才上的声势，也让 AI 自我加速研发成为更值得关注的主线。

Andrej Karpathy on X 原文

5月21日周四

2026-05-21

Anthropic Engineering· 博客

5月21日博客

Effective Context Engineering：Anthropic 发布 AI Agent 上下文工程指南

Anthropic Engineering 发布《Effective Context Engineering for AI Agents》深度指南。从 prompt engineering 到 context engineering，这篇文章系统总结了如何为 Agent 构建高质量的上下文——包括信息检索策略、工具设计原则和多轮对话中的上下文管理。是 Agent 开发者的必读工程实践文档。

Alex Albert on X 原文

Swyx · AI 工程师· 日报

5月21日X

Local-first 技术栈重新进入 AI 应用讨论

Swyx 认为某个 local-first stack 已经赢下了 fast apps fast 的方向。放在 AI 应用里看，local-first 不只是前端体验问题，也关系到 agent 状态、离线可用、同步冲突和用户数据控制。随着 AI 工具从 demo 走向日常生产，底层应用架构会重新变重要。

Swyx on X 原文

Ryo Lu · AI 产品设计师· 日报

5月21日X

AI 软件协作开始强调 team workflow

Ryo Lu 提到 new model、interface、sdk、automations with your team，指向 AI 软件工具的一个重要方向：不只是个人提高效率，而是把模型、界面、自动化和团队协作放在同一个工作流里。AI-native 产品会越来越围绕团队执行而不是单人 prompt 展开。

Ryo Lu on X 原文

Claude · Anthropic 旗下的 AI 助手· 日报

5月21日X

Claude Design 继续预热，AI 设计生成进入 Claude 入口

Claude 官方账号连续展示 Claude Design，并询问用户正在用它做什么。这个信号值得注意：Claude 的产品边界正在从聊天、代码和 agent 扩展到设计生成与视觉表达，AI 助手的工作台属性更强。

Claude on X 原文

Google Labs · Google 实验性 AI 项目官方· 日报

5月21日X

Google Labs 展示 I/O 后的新实验：Stitch 与 Project Genie

Google Labs 在 5 月 21 日继续展示 I/O 之后的实验组合：Stitch 生成网站体验、Labs 实验被做成小游戏，并用 Project Genie 把 Labster 带到 Grand Canyon。Google 正在把 AI 创作从单点工具扩展为可玩、可展示、可 remix 的实验场。

Google Labs on X Project Genie Stitch

The MAD Podcast with Matt Turck· 日报

5月21日播客

OpenAI 后训练负责人谈 AI 进展为何突然变真实

The MAD Podcast 采访 OpenAI Post-Training Frontiers 负责人 Yann Dubois，讨论 GPT-5.5、模型可靠性、test-time compute、真实工作场景中的强化学习，以及为什么最近 AI 进展开始像阶跃一样被感知。核心判断是：当可靠性跨过阈值，模型就不再只是 demo，而会进入真实工作流。

Matt Turck on X YouTube 原文

Sam Altman · OpenAI CEO· 日报

5月21日X

OpenAI 新版 Codex 发布

Sam Altman 在 5 月 21 日表示 new Codex ships today。结合 OpenAI 近期对 Codex 的持续投入，AI 编程工具正在从代码补全进一步走向任务执行、代理式协作和开发流程自动化。

Sam Altman on X 原文

5月20日周三

2026-05-20

Anthropic Engineering· 三日简报

5月20日博客

Anthropic 扩大 frontier AI 社会对话，纳入宗教、哲学和伦理群体

Anthropic 发布 Widening the conversation on frontier AI，表示过去几个月已与 15 个以上宗教、跨文化、哲学和伦理群体展开对话。对 frontier AI 公司来说，安全不再只是技术评测，也越来越涉及制度、社会和价值判断。

Claude on X 原文

Anthropic Engineering· 三日简报

5月20日博客

Anthropic 与 KPMG 达成全球联盟，Claude 进入 27.6 万员工工作流

Anthropic 宣布与 KPMG 建立战略联盟，将 Claude 嵌入 KPMG Digital Gateway，并向全球 276,000 多名员工开放。企业 AI 的竞争正在从买模型走向把模型嵌进核心业务软件和行业流程。

Claude on X 原文

Google Labs· 三日简报

5月20日X

Project Genie 继续扩展，AI 世界模型进入消费级入口

Google Labs 在 5 月 20 日继续展示 Project Genie，让用户通过角色、场景和提示生成可交互世界。这个方向代表多模态生成正在从生成图片/视频走向生成可探索环境，游戏、教育和模拟训练都会受影响。

Google Labs on X 原文背景

Google· 三日简报

5月20日X

Gemini App 变得更主动：Gemini Spark、Daily Brief、Omni 成为重点

Google 宣布 Gemini app 进入更 agentic 的阶段：新 UI、主动 daily briefs、Gemini Spark 个人代理，以及 Gemini Omni 的多模态生成能力。Google 的方向很明确：把 Gemini 从问答助手推向 24/7 的个人行动代理。

Josh Woodward on X Google Labs on X 原文

Google· 三日简报

5月20日X

Google I/O 2026：Gemini 3.5 Flash 发布，主打 agentic workflows

Google 在 I/O 期间发布 Gemini 3.5 系列，先推出 3.5 Flash。官方强调它面向复杂、长程的 agentic workflow，在编码、工具调用、多模态理解和企业任务自动化上提升明显。Gemini 3.5 Flash 已进入 Gemini app、AI Mode、AI Studio、Android Studio 和企业平台。

Google Labs on X 原文

Axios· 三日简报

5月20日X

Karpathy 加入 Anthropic，进入 Claude 预训练团队

Andrej Karpathy 于 5 月 19 日宣布加入 Anthropic。Axios 报道称，他将加入 Claude 的 pre-training 团队。这件事说明 frontier lab 的竞争重点仍然在底层模型能力，同时也强化了 Anthropic 在顶级研究人才上的吸引力。

Andrej Karpathy on X 原文

OpenAI· 三日简报

5月20日X

OpenAI 通用推理模型解决离散几何开放问题

OpenAI 宣布，一个通用推理模型推翻了离散几何中关于 unit distance problem 的核心猜想。重点不只是数学突破，而是这个结果来自通用模型，不是专门为该问题训练的数学系统。这是 AI 进入前沿科研工作的强信号。

原文

AI & I by Every· 播客

5月20日播客

Agent 驱动的商业新时代：Stripe 谈 AI 支付与欺诈检测

AI & I 邀请 Stripe 团队讨论 Agent 驱动经济的基础设施需求。核心话题：AI 公司的增长速度远超顶级 SaaS 公司、结果导向计费正在取代按席位定价、Stripe 如何将欺诈检测从结账环节扩展到全客户生命周期。当购买者变成 Agent，支付和商业基础设施都需要重新设计。

Dan Shipper on X 播客

Latent Space· 播客

5月20日播客

Notion 联合创始人谈知识工作 AI Agent 的产品化

Latent Space 邀请 Notion 联合创始人兼 AI 负责人，揭幕 Notion 终于推出的知识工作 AI Agent 功能。讨论了从概念验证到产品化的漫长过程、知识工作 Agent 的产品设计挑战、以及如何在保持用户体验的同时让 AI 真正理解用户的文档和工作上下文。

Swyx on X 播客

5月19日周二

2026-05-19

Claude Blog· 博客

5月19日博客

KPMG 将 Claude 整合到核心业务和全员工作流

KPMG 宣布将 Claude 整合到其核心业务和全体员工工作流中。这是四大审计公司中最大规模的 AI 部署之一，标志着 AI 从「试点项目」正式进入专业服务行业的生产级应用。对 Anthropic 而言，这是企业客户采纳 AI 助手的重要里程碑。

Claude on X 原文

No Priors· 播客

5月19日播客

SAP CTO 谈将企业级软件「操作系统」带入 AI 时代

No Priors 邀请 SAP CTO Philipp Herzig 讨论：50 年前定义企业软件标准的 SAP，如何在经历了从大型机到移动端的技术变迁后，推动 AI 时代的转型。核心挑战不是技术本身，而是如何在一个全球最复杂的企业软件体系中嵌入 AI 能力，同时保持向后兼容和稳定性。

No Priors on X 播客

Google· 日报

5月19日X

Gemini Neural Expressive 全面改版上线

Gemini app 基于 Neural Expressive 设计语言全面改版，加入流动动画、新字体和触觉反馈。同时上线 Daily Brief 功能，自动整合邮件、日历和任务，生成个性化的每日摘要。Gemini Live 现在内联打开，打字和语音对话无缝切换。

Google Labs on X 原文

Google· 日报

5月19日X

Google 推出 AI Ultra 订阅，月费 100 美元

Google 推出 AI Ultra 订阅计划，月费 100 美元，面向开发者、创作者和高级用户。包含 Gemini Spark agent、最高级模型访问和优先功能。AI 订阅经济的定价正在从 20 美元/月的基础层扩展到 100 美元/月的专业层。

Google Labs on X Josh Woodward on X 原文

Google· 日报

5月19日X

Android XR 智能眼镜正式发布，秋季上市

Google 在 I/O 上发布 Android XR 智能眼镜，三星和 Gucci 型号将于秋季上市。眼镜内置 Gemini，支持实时翻译、信息叠加和拍照识别。AI 硬件不再是概念验证，而是正在成为 Google 产品矩阵中与手机、手表并列的第三个入口。

Google Labs on X 原文

Google· 日报

5月19日X

Gemini Omni：Google 发布视频生成模型

Google 在 I/O 上发布 Gemini Omni 视频生成模型，支持在 Gemini app 和 Flow 创作工具中生成和编辑视频。结合 Flow 新推出的角色一致性、场景一致性和视频到视频编辑功能，Google 正在把 AI 视频从实验推向制作级工作流。

Google Labs on X 原文

Google· 日报

5月19日X

Gemini Spark：Google 的 24/7 个人 AI Agent

Google 发布 Gemini Spark，定位为 24/7 个人 AI agent，运行在 Gemini 3.5 和 Antigravity 上，能在后台执行长程任务。Google 的方向很明确：把 Gemini 从问答助手推向持续工作的行动代理。AI 助手的竞争正在从「谁更聪明」转向「谁能持续为你做事」。

Josh Woodward on X 原文

Google· 日报

5月19日X

Google I/O 2026：Gemini 3.5 Flash 发布，主打 agentic workflows

Google Labs on X Josh Woodward on X 原文

5月18日周一

2026-05-18

Claude Blog· 博客

5月18日博客

Claude Managed Agents 支持 Memory：Agent 获得跨会话学习能力

Claude 平台发布 Managed Agents Memory 公测版。Agent 现在可以跨会话保留记忆——基于文件系统的记忆存储、API 控制、审计日志和可迁移存储。这意味着企业级 Agent 不再是「一次性」工具，而是能随着使用积累经验的长期助手。对构建长时间运行的 Agent 应用是关键基础设施升级。

Claude on X 原文

Unsupervised Learning· 播客

5月18日播客

AI 基础设施趋于稳定？Swyx 谈编程 Agent 的下一步

Unsupervised Learning Ep 85：Jacob Effron 与 Swyx（Shawn Wang）对谈，讨论 AI 基础设施是否已经趋于稳定、基础模型的「感觉转变」、以及编程 Agent 的未来方向。Swyx 身兼 AI 工程师、播客主持人和 Cognition 运营者三重身份，对 AI 生态的观察兼具建设者和社区组织者的视角。

Swyx on X 播客

Josh Woodward · Google VP· 日报

5月18日X

Google I/O 前夜：Gemini 3.5、Spark 和智能眼镜预期

Google I/O 2026 前夜，多个渠道确认 Gemini 3.5 系列模型、代号 Spark 的个人 AI agent 以及 Android XR 智能眼镜将在主题演讲中亮相。Google 正在从模型发布转向构建完整的 AI 产品矩阵：从基础设施到消费级应用全覆盖。

Josh Woodward on X Google Labs on X 原文

Axios· 日报

5月18日X

Axios 独家：Karpathy 将加入 Anthropic 预训练团队

Axios 报道 Andrej Karpathy 将加入 Anthropic 的 Claude pre-training 团队。Karpathy 是 OpenAI 联合创始人、前 Tesla AI 总监，他的去向一直是 AI 人才竞争的风向标。这件事说明 frontier lab 的竞争重点仍在底层模型能力，也强化了 Anthropic 在顶级研究人才上的吸引力。

Andrej Karpathy on X 原文

5月17日周日

2026-05-17

Reuters· 三日简报

5月17日X

Anthropic Mythos 引发金融稳定层面的安全讨论

Reuters 5 月 17 日报道，Anthropic 将向 Financial Stability Board 介绍 Mythos Preview AI 模型发现的全球金融系统网络漏洞。重点是：前沿模型不只是提高防御能力，也可能让漏洞发现能力进入宏观金融风险讨论。AI 安全议题正在从模型评测扩大到金融监管和关键基础设施稳定性。

原文

9to5Google· 三日简报

5月17日X

Gemini App 开始测试 Extended Thinking 与更多第三方集成

9to5Google 在 5 月 17 日报道，Gemini app 正在有限测试 Thinking level 菜单，用户可在 Standard 和 Extended 之间选择；同时支持文档显示 Gemini 正准备加入 Canva、Instacart、OpenTable 等更多第三方 app 集成。这说明消费端 AI 助手正在同时走向更可控的推理深度和更广的行动入口。

原文

OpenAI Academy· 三日简报

5月17日X

Codex 进入数据科学团队的日常分析工作

OpenAI Academy 在 5 月 15 日发布面向数据科学团队的 Codex 工作流：把仪表盘、指标定义、导出数据、实验记录和业务上下文整理成可审阅的分析资产。Codex 的定位正在从写代码扩展为生成 root-cause brief、impact readout、KPI memo 和 dashboard spec 等业务交付物。

原文

OpenAI· 三日简报

5月17日X

OpenAI 与马耳他合作，向全民提供 ChatGPT Plus

OpenAI 和马耳他政府在 5 月 16 日宣布全球首个国家级合作：向所有马耳他公民推出 ChatGPT Plus，并配套 AI literacy 课程。这个案例的意义不只是用户增长，而是把 AI 当作公共基础设施来部署，类似电力和互联网那样普惠化。

原文

OpenAI· 三日简报

5月17日X

Databricks 将 GPT-5.5 带入企业 Agent 工作流

OpenAI 与 Databricks 在 5 月 15 日宣布，Databricks 将 GPT-5.5 用于客户企业 Agent 工作流。GPT-5.5 在 Databricks 的 OfficeQA Pro 企业文档任务基准上达到新 SOTA，在 agent-harness 设置下相较 GPT-5.4 错误减少 46%，首次超过 50% 准确率。企业 Agent 的竞争正在转向复杂文档、长上下文和可验证推理。

原文

OpenAI· 三日简报

5月17日X

ChatGPT 推出个人金融体验预览

OpenAI 在 5 月 15 日面向美国 Pro 用户发布 ChatGPT 个人金融体验预览。用户可以通过 Plaid 安全连接金融账户，在 ChatGPT 中查看支出、账单、订阅、净资产和投资信息，并基于自己的财务上下文提问。关键变化是：ChatGPT 正在从通用问答进入高敏感、强上下文的个人决策场景。

原文 Release Notes

5月16日周六

2026-05-16

Anthropic Engineering· 日报

5月16日博客

Anthropic 扩大 frontier AI 社会对话范围

Anthropic 发布 Widening the conversation on frontier AI，表示已与 15 个以上宗教、跨文化、哲学和伦理群体展开对话。对 frontier AI 公司来说，安全不再只是技术评测，也越来越涉及制度、社会和价值判断。

Claude on X 原文

Swyx · AI 工程师· 日报

5月16日X

Swyx 讨论 local-first 技术栈与 AI 应用的结合

Swyx 认为 local-first stack 已经赢下了 fast apps fast 的方向。放在 AI 应用里看，local-first 不只是前端体验问题，也关系到 agent 状态、离线可用、同步冲突和用户数据控制。随着 AI 工具从 demo 走向日常生产，底层应用架构会重新变重要。

Swyx on X 原文

OpenAI· 日报

5月16日X

ChatGPT 推出个人金融体验预览

OpenAI 面向美国 Pro 用户发布 ChatGPT 个人金融体验预览。用户可通过 Plaid 安全连接金融账户，在 ChatGPT 中查看支出、账单、净资产和投资信息。ChatGPT 正在从通用问答进入高敏感、强上下文的个人决策场景。

OpenAI on X 原文 Release Notes

5月15日周五

2026-05-15

Unsupervised Learning· 播客

5月15日播客

Yann LeCun：LLM 不是 AI 的终局，JEPA 世界模型才是未来

Redpoint 的 Unsupervised Learning 节目邀请 Yann LeCun 挑战 LLM 主导地位。LeCun 介绍 JEPA 世界模型架构，讨论 AMI Labs 的创立，认为行业将在 2027 年初认识到范式转变的必要性。他还澄清了自己在 Meta 的角色（对 Llama 零技术影响），并解释为什么选择巴黎而非硅谷创立新实验室。

Swyx on X 播客

Latent Space· 播客

5月15日播客

Abridge CEO 谈医疗 AI：从临床记录到临床智能层

Latent Space 邀请 Abridge CEO Shivdev Rao 深度讨论医疗 AI 的演进。核心观点：医疗对话可能是最重要的工作流数据，Abridge 正从「环境抄写员」升级为「临床智能层」——不只节省医生 10-20 小时/周的文书时间，更在实时辅助决策。当 AI 从后台介入变成前台智能，医疗行业的每一个环节（患者、支付方、药企）都将受益。

Swyx on X 播客

OpenAI· 日报

5月15日X

Databricks 将 GPT-5.5 带入企业 Agent 工作流

OpenAI 与 Databricks 宣布将 GPT-5.5 用于客户企业 Agent 工作流。GPT-5.5 在 OfficeQA Pro 企业文档任务上相较 GPT-5.4 错误减少 46%，首次超过 50% 准确率。企业 Agent 的竞争正在转向复杂文档、长上下文和可验证推理。

OpenAI on X 原文

OpenAI· 日报

5月15日X

OpenAI 与马耳他达成全球首个国家级 AI 合作

OpenAI 和马耳他政府宣布全球首个国家级合作：向所有马耳他公民推出 ChatGPT Plus，并配套 AI literacy 课程。这个案例的意义不只是用户增长，而是把 AI 当作公共基础设施来部署，类似电力和互联网那样普惠化。

OpenAI on X Sam Altman on X 原文

OpenAI Academy· 日报

5月15日X

OpenAI Academy 发布 Codex 数据科学工作流

OpenAI Academy 发布面向数据科学团队的 Codex 工作流：把仪表盘、指标定义、实验记录和业务上下文整理成可审阅的分析资产。Codex 的定位正在从写代码扩展为生成 root-cause brief、impact readout 和 KPI memo 等业务交付物。

OpenAI on X 原文

5月14日周四

2026-05-14

Claude Blog· 博客

5月14日博客

Claude 发布新宪法：从原则列表到有机价值体系

Anthropic 发布 Claude 的新版「宪法」（Constitution），从之前的原则列表升级为更有层次的价值体系。新宪法融合了自 2023 年以来 Constitutional AI 训练的实践经验，不再是孤立的规则条目，而是更有机、更连贯的行为准则。这标志着 AI 对齐方法从「规则约束」走向「价值内化」。

Amanda Askell on X 原文

Amjad Masad · Replit CEO· 日报

5月14日X

Amjad Masad 谈 Replit 的 AI 编程民主化路径

Amjad Masad 分享了 Replit 在 AI 编程工具上的最新进展。当模型能力足够强、部署成本持续下降时，编程的门槛不再是对语言的掌握，而是对问题的定义能力。Replit 的路径验证了一个判断：AI 编程工具的最大价值不是加速程序员，而是让非程序员也能构建可运行的产品。

Amjad Masad on X 原文

Anthropic Engineering· 日报

5月14日博客

Claude Code Remote Control 支持服务器端运行

Anthropic 扩展 Claude Code Remote Control 功能，允许在服务器和 CI 环境中无需本地终端即可运行。配合此前发布的 auto mode 和 MCP tunnels，Claude Code 正在从本地开发助手变成可以在任何基础设施上运行的 agent runtime。

Claude on X 原文

Google Labs · Google 实验性 AI 项目官方· 日报

5月14日X

Google Stitch 设计工具进入公开测试

Google Labs 的 AI 设计工具 Stitch 进入公开测试阶段，支持流式内联编辑和品牌一致性。结合 Ryo Lu 关于 AI 软件协作强调 team workflow 的讨论，AI 设计工具正在从个人效率工具变成团队协作平台。

Google Labs on X Ryo Lu on X 原文

5月13日周三

2026-05-13

AI & I by Every· 播客

5月13日播客

从 Claude Code 切换到 Codex：Every 团队的真实体验

Dan Shipper 在 AI & I 节目中分享 Every 团队从 Claude Code 切换到 OpenAI Codex 的决策过程和真实体验。讨论了 AI 编程工具对非程序员工作流的改变，以及为什么在 AI 时代通用型人才会比专家更有优势——每个人都成为 AI 工具的「管理者」。

Dan Shipper on X 播客

Swyx · AI 工程师· 日报

5月13日X

科技巨头就 Agentic AI 标准达成一致

Swyx 讨论了主要 AI 公司在 agentic AI 标准上的趋同。OpenAI 推动能操作软件的 agent，Anthropic 偏好多 agent 协作系统，Microsoft 把 AI 嵌入 M365 当「同事」，Google 则在做分层基础设施。方向一致但路径不同，这种收敛本身就是 agent 时代来临的信号。

Swyx on X 原文

Josh Woodward · Google VP· 日报

5月13日X

Google I/O 前瞻：Android 17 AI 功能预览

Google 在 I/O 前的 Android Show 上展示了 Android 17 的 AI 功能：Gemini 可代用户预约 appointments、增强自动填充能从手机其他应用拉取个人信息、AI 生成的自定义 widget 能自动刷新信息。Google 的策略很清晰：把 Gemini 深度嵌入操作系统的每一个交互层。

Josh Woodward on X Google Labs on X 原文

Anthropic Engineering· 日报

5月13日博客

Anthropic 与盖茨基金会合作推进健康 AI

Anthropic 宣布与盖茨基金会合作，将 AI 用于全球健康领域的优先问题。这是 AI lab 从商业竞争走向社会基础设施的又一个信号——frontier model 的应用场景正在从编程和聊天扩展到公共卫生、医疗和教育等关键领域。

Claude on X 原文

5月12日周二

2026-05-12

No Priors· 播客

5月12日播客

AI 推理需求爆发：Baseten CEO 谈推理云的战略地位

No Priors 节目邀请 Baseten CEO Tuhin Srivastava 讨论 AI 推理需求的爆发式增长。Baseten 实现 30 倍增长，Tuhin 认为推理正在成为 AI 产业链的「最后一个市场」——随着模型能力趋同，谁能以最低成本、最低延迟交付推理服务，谁就掌握战略制高点。

No Priors on X 播客

Dan Shipper · Every CEO· 日报

5月12日X

MCP 协议加速进入企业 AI 工具链

Dan Shipper 报道，Anthropic 收购 StainlessAPI，后者专注 API、SDK 和 MCP server 基础设施，客户包括 OpenAI 和 Google。MCP 正在从 Anthropic 的一个开源项目，变成连接 AI 工具与外部系统的事实标准层。谁控制了协议层，谁就控制了 agent 生态的入口。

Dan Shipper on X 原文

Anthropic Engineering· 日报

5月12日博客

Claude Managed Agents 发布 Memory 和自托管沙箱

Anthropic 为 Claude Managed Agents 推出 memory 功能和 self-hosted sandboxes。Memory 让 agent 能跨 session 学习用户偏好和项目上下文，自托管沙箱则允许企业在自己的环境中运行 agent 工具。这标志着 AI agent 从「每次从零开始」走向「有记忆的长期协作者」。

Claude on X Engineering Memory

Reuters· 日报

5月12日X

Anthropic 成立企业 AI 服务公司，Blackstone 和高盛参投

Anthropic 宣布成立新的企业 AI 服务公司，由 Blackstone、Hellman & Friedman 和 Goldman Sachs 支持，帮助中型企业将 Claude 嵌入核心业务。AI 模型公司不再只卖 API，而是直接切入传统上由系统集成商承担的落地实施环节。

Claude on X 原文

5月10日周日

2026-05-10

Google Labs · Google 实验性 AI 项目官方· 周报

5月10日X

Google Flow 达成 1 亿 AI 生成视频里程碑

Google 宣布其视频创作平台 Flow 已达成 1 亿次 AI 生成视频的里程碑。这个数字意味着 AI 视频生成正在从实验工具走向规模化内容生产基础设施，对短视频、广告和影视工作流的影响才刚开始。

Google Labs on X 原文

Reuters· 周报

5月10日X

Anthropic 承诺向 Google 云和 TPU 投入 2000 亿美元

Reuters 报道，Anthropic 签署协议将在 Google 云和 TPU 上投入 2000 亿美元。加上此前与 CoreWeave 和 AWS 的合作，Anthropic 与 OpenAI 的合同已占主要云厂商 2 万亿美元积压订单的一半以上。AI 公司的算力军备竞赛正在重塑整个云计算基础设施格局。

Claude on X 原文