AI 对齐与伦理：当机器比人类更聪明之后

神经网络与芯片概念图

头图来源：Wikimedia Commons（请在文件页查看原作者与许可条款）

对齐问题的本质

AI 对齐（Alignment） 指确保 AI 系统的目标与行为符合人类意图与价值观。当模型能力较弱时，对齐主要表现为"减少有害输出、避免偏见"。当模型接近或超越人类水平时，对齐涉及更深层的目标规范（Specification）、稳健性（Robustness） 与 治理（Governance） 问题。

Nick Bostrom 在 2014 年著作《Superintelligence: Paths, Dangers, Strategies》中系统论述：若超级智能的目标与人类不完全一致，即使差异微小，长期后果也可能灾难性。这并非科幻恐吓，而是激励 RLHF、可解释性、红队测试等实践的理论背景。

RLHF 与 Superalignment

OpenAI 在 ChatGPT 中大规模应用基于人类反馈的强化学习（RLHF）：标注员对模型输出排序，训练奖励模型，再用 PPO 优化策略。这显著改善了有用性与安全性，但也带来奖励黑客（Reward Hacking）、标注偏见 与 可扩展监督（Scalable Oversight） 难题——当 AI 生成内容超出人类评估能力时，如何可靠监督？

2023 年 7 月，OpenAI 宣布 Superalignment 项目，计划投入 20% 算力，由 Ilya Sutskever 与 Jan Leike 领导，目标是在四年内解决"超人类智能的对齐"。核心思路包括用 AI 辅助人类评估、自动化红队、形式化验证等。2024 年 Leike 离职并公开批评公司在安全上的优先级，引发行业对"安全与商业速度"张力的广泛讨论。

监管：欧盟 AI 法案

2024 年 3 月，欧盟《人工智能法案》（EU AI Act）在立法机构通过，成为全球首部综合性 AI 监管框架。法案采用风险分级：禁止社会评分、实时远程生物识别（有限例外）等；高风险系统（医疗、招聘、关键基础设施）须满足数据治理、透明度、人工监督等要求；通用目的 AI（GPAI）模型须履行透明度义务，系统性风险模型接受额外评估。

中国、美国、英国等亦推出指南或行政令，但路径各异：欧盟侧重权利与合规，美国侧重创新竞争与国家安全，中国强调内容安全与算法备案。全球协调仍面临挑战。

伦理实践清单

对开发者与机构而言，可操作的伦理实践包括：发布前红队与偏见审计、数据来源与许可透明、模型卡（Model Card）文档、用户知情同意、高风险场景人工复核、事故报告机制。AI 智能体（Agent）时代，还需关注工具调用权限、链式行动不可逆性、多 Agent 协作涌现行为。

参考资料

Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
OpenAI (2023). Introducing Superalignment. https://openai.com/blog/introducing-superalignment
European Parliament (2024). EU Artificial Intelligence Act. https://artificialintelligenceact.eu/