2026-03-15人工智能

Constitutional AI 2.0：AI自我约束的路线分歧

Anthropic发布Constitutional AI 2.0，OpenAI推出对齐研究新框架，两条路线的分歧比技术本身更值得关注。Anthropic的路线是自上而下：先定义价值观宪法，再让模型在宪法的约束下自我修正。OpenAI的路线是自下而上：先让模型自由探索，再通过人类反馈训练出对齐信号。两条路线各有盲区——自上而下可能把偏见写进宪法而不自知，自下而上可能在对齐信号到达之前就已经产生了不可逆的输出。但真正的问题不在技术路线，而在一个更根本的悖论：谁来定义什么是好的？当不同文化、不同行业、不同利益相关者对「好」的定义截然不同时，AI对齐就不再是一个工程问题，而是一个政治问题。技术可以解决怎么做，但解决不了做什么。