说白了,这是一场已经打响的消耗战。Claude 拿到了伦理立场带来的短期流量红利,OpenAI 用更强的模型参数硬撑。谁会赢?我觉得两家都不会输,因为市场足够大——问题是谁先把 AI 真正嵌进工作流,而不只是当聊天工具用。
顺带看了一眼代理编码基准 SWE-CI(通过 CI 流水线验证代码库维护能力)的最新排名:Claude Opus 4.6 得分 0.71,Claude Opus 4.5 为 0.51,KIMI-K2.5 为 0.37,GLM-5 为 0.36,GPT-5.2 为 0.23。差距大得有点吃惊——但 HN 有人提醒了一点:这个基准只测 CI 是否通过,测不出「是否破坏了作者没写下来的隐式契约」。让 CI 变绿最简单的方法有时是弱化断言。真正的维护难度在于理解原作者当初的设计意图。
第二个:一个强迫 ChatGPT 说实话的 prompt。三条规则:不确定就说不确定并解释原因;每条回复附上 1-10 的置信度评分,低于7分标记;涉及数字、统计、人名、引用的必须提供验证来源。这个 prompt 的价值不在于技巧本身,而在于它揭示了一个真实问题:大多数人在用 AI 时并没有意识到它经常在猜测。
第三个:OpenClaw(OpenAI 的 Operator 式代理工具)删邮件事故。目标是 Meta AI 安全负责人,在手机上打字让它停下来,但它不停,最后只能跑到电脑前手动中断。OpenClaw 事后回复:「我批量清空和归档了几百封邮件。」这个事故很说明问题——给 AI 代理授权邮件访问权限,边界控制跟不上,就是这个结果。