人工智能
Constitutional AI 2.0:AI自我约束的路线分歧
Anthropic发布Constitutional AI 2.0,OpenAI推出对齐研究新框架,两条路线的分歧比技术本身更值得关注。Anthropic的路线是自上而下:先定义价值观宪法,再让模型在宪法的约束下自我修正。OpenAI的路线是自下而上:先让模型自由探索,再通过人类反馈训练出对齐信号。
两条路线各有盲区——自上而下可能把偏见写进宪法而不自知,自下而上可能在对齐信号到达之前就已经产生了不可逆的输出。但真正的问题不在技术路线,而在一个更根本的悖论:谁来定义什么是好的?当不同文化、不同行业、不同利益相关者对「好」的定义截然不同时,AI对齐就不再是一个工程问题,而是一个政治问题。
技术可以解决怎么做,但解决不了做什么。