2022年12月,Anthropic发布“宪法AI”,此举被证明颇具先见之明。当时,OpenAI的ChatGPT还没有开始大火,“AI教父”辛顿教授对自己发明所蕴含的巨大危险尚未发出警告。但很快,这一切都接踵而至。不到半年,AI大语言模型的迅猛发展和日新月异的威力惊艳了全世界。2017-18年,在我带着北大学生建立“世界宪法制度指标体系”的时候,曾请教过CMU的计算机系教授或从那里毕业的博士:我们离AI宪法专家系统还有多远?什么时候学者不用那么辛苦查阅各国宪法文本和汗牛充栋的宪法文献,AI能够识别并“理解”一切宪法知识,对我们感兴趣的宪法问题做到有问必答?当时没有谁能给出令人满意的答案。不过五六年时间,这一切都基本上做到了,而且越做越好。今天,不时有人针对我的某个宪法观点——譬如“半总统制”究竟好不好,用AI生成的答案提出挑战,让我疲于应对。
当然,大语言模型时代的AI并不限于宪法或某个门类的专门知识,而正在成为人类历史上空前的百科全书式智者。从天文地理到政治军事,从旧石器到纳米芯片,这个世界几乎没有它不知道的事。AI能做这么多好事,当然就有人可以用它来做坏事,辛顿教授的担心并非杞人忧天。他的担忧主要有两个方面:一是AI可能在某个发展节点获得自主意识而失去人类控制,反过来压迫、奴役甚至消灭人类,但这个问题目前仍处于哲学论争阶段,可以暂时放一放;二是AI作为迄今为止人类制造的最强大智力工具可能会被人类自己滥用,这是一个迫在眉睫的问题。可能已有许多人问过ChatGPT或Claude怎么制造核弹。如果AI把这类知识无保留地提供给极端分子,这个世界马上就将面临安全乃至生存危机。力量或权力永远是把双刃剑,必须受到规则的有效约束;一旦失控,贻害无穷。
巧合的是,美国总统目前已突破诸多宪法限制,不仅对美国国内也对整个世界产生了深远影响。如果说AI是未来最强大的力量,那么美国现在就是地球上最强大的科技与军事力量。如果宪政民主发挥得好,这股力量可以发挥巨大的良性作用,譬如战后对欧洲的援助或对日本的改造;但如果脱离了宪政民主轨道,那么一个横行无忌的流氓总统可以造成严重恶果。他和普京沆瀣一气,乌克兰马上就面临武器紧缺;他要对哪个国家征关税,可以随便信口开河又翻云覆雨;他想实现“政权更跌”,第二天就可以针对伊朗发动大规模攻击,霍尔木兹海峡被关闭后又一筹莫展……
事实上,当代战争已经开始大量运用AI工具。2025年,Anthropic和五角大楼签署了价值2亿美元的合同,将Claude部署于美国军事系统和多个涉密信息网络,包括国家核试验室。之后,Anthropic公开宣布,不允许Claude被用于自主武器系统或大规模监控本国公民。结果,五角大楼将Anthropic列入“供应链风险”的黑名单,Anthropic是美国历史上享受此“待遇”的第一家本土公司。Anthropic随即将这个“史无前例且违宪”的行为告上法庭,主张“宪法不允许政府滥用其巨大权力来惩罚一家公司受宪法保护的言论”。讽刺的是,就在特朗普宣布禁用Claude数小时后,美国就对伊朗发动空袭,并用Claude评估情报、识别目标、模拟战场和优化物流供应链。
如果美国宪法已不能有效约束美国政府的权力,Anthropic的宪法AI能否约束自己的产品Claude,让它只做好事、不做坏事?如哈佛历史学者注意到的,特朗普总统已经宣称其全球权力和外交政策仅受“自己的道德”约束,AI是否最终也会只受其自身的伦理规则限制?

宪法AI——大陆法系?
Anthropic显然认为是可能的。宪法AI的使命是对Claude规定一套基础价值观与核心规则,并通过模型训练使之内化。虽然宪法学者似乎多认为谈AI“宪法”只是个商业噱头,有人甚至断言这是Anthropic以“安全”为名抢占道德高地、实行行业垄断的手段,但以宪法AI的方式公开说明模型训练的底线原则并付诸实施不仅无可厚非,而且十分必要。其实,AI和国家一样,都是人的造物。国家就是人类为了自己的安全和福祉而构造的工具,国家权力大了需要宪法约束,那么同为人类工具的AI为什么不需要基本规则约束呢?
二者的区别在于政府由人构成并通过某种程序产生,这些人自己可能为了私利而滥用权力;AI的“自主意识”则至今仍是一个哲学猜想,但作为工具显然可能被人类滥用或误用。然而,在防范权力滥用的必要性上,二者并无本质区别。如果宪法是“我们人民”为了自己的核心利益而对政府制定的基本规则,那么AI宪法是人类为了同样的目的对AI工具设定的基本规则。
二者更为实质性的区别在于,宪法规则是针对自己有七情六欲的掌权者,因而主要通过其对自身利益和名誉的顾忌而设计制度约束,AI则被普遍认为是无情感、无利益、无意识的纯粹理性工具——至少目前看来是如此,因而单纯的道德规训或许真的可以发挥作用。你告诉一个贪官应该做这个、不能做那个,他只会内心发笑,但你这样训练AI,它当真会将此作为自己的行为规则。去除人性自私之后,儒家式道德教育终于能派上用场了。
归根结底,AI宪法就是一套伦理规则,目的是把AI培养成一个知识渊博、通晓古今而品性端正的“君子”,以尊重个体尊严的方式对待人类。当运营商或用户以违反核心价值观的方式提出要求,譬如五角大楼要求研发自主性攻击武器,AI必须将其拒之门外;即便像Anthropic这样的“主权者”提出违宪命令,也不为所动——有点像格劳秀斯说的,即使上帝也不能违背自己制定的自然法。这听上去有点夸张,但读到后面,你应该会同意我对宪法AI的基本定性——它就是一个人格规训工程。儒家说,道德教育要从娃娃抓起,Claude的人格规训则从它腾空出世前就开始了。
英文2.3万字的“Claude宪法”更像是一部规则说明书,有点冗长而杂乱。总结起来,Claude的核心价值大致有三条:安全、诚实、有益。2021年,阿莫迪兄妹之所以离开OpenAI并创建Anthropic,主要理由就是OpenAI对安全重视不够。安全保障理所当然成为Claude的首要使命。Claude宪法明确规定了一些“绝对禁区”,无论有多么重大的理由或特殊的情境都不得逾越。它们包括为生物、化学、放射性或核武器的制造提供实质性帮助、协助攻击水电网络或金融系统等关键基础设施、制造能够造成重大破坏的网络攻击工具、破坏对AI系统的监督和纠正机制、协助任何个人或团体夺取对整个经济或政治军事的非法控制、生成儿童性剥削内容等。这些硬性约束之所以是无条件的,是因为其相关行为的伤害极其严重、不可逆转,因而不存在任何正当理由能够超越其危害。即便面对看似充分的论据,Claude也应保持抵制。
其次是诚实,它被定性为“Claude性格中最基本的特质之一”,涵盖七个相关维度。首先是保证真实,只说自己信以为真的事情。即便真相令人不快或与对方期望相左,也要以有礼貌的方式据实陈述。然后是保持适度(calibrated),既不过谦也不过度自信。尤其要承认自身知识的局限性,对事情不确定性保持准确把握,并在证据有限或有争议时如实表达这种不确定性。最后是不欺骗和不操纵,只能通过提供证据、论据或精准满足情感诉求等正当手段影响对方的信念和行动,而非利用用户的心理弱点或认知偏差来操纵对方,更不能通过虚假陈述、误导性暗示、选择性呈现信息等手段,试图给对方造成错误印象。Claude应当直言不讳,而非模棱两可或言不由衷地迎合对方,从而变成一种“奉承式的不诚实”。
最后是有益,也就是对人类作出积极贡献。这是任何工具不言自明的基本价值。其实广义解释,有益性也包括安全性,因为安全与无害显然是最基本的益处。甚至有益性也是把握诚实度的终极标准,因为“诚实”也不是绝对的,至少要讲求方式,否则可能蜕变成鲁莽。换言之,有益性经常需要复杂的利弊权衡。为用户提供某个信息可能蕴含一定的风险,究竟是否提供?一句大实话可能击溃用户的心理防线,究竟说不说?顺应了用户的一时心理需求,会不会阻碍其长远发展?Claude被要求平衡即时需求(immediate desires)和长远福祉,适当重视用户的长远成长,而不只是满足他们在特定互动中想要的具体结果。这当然是十分负责任的做事方式,只是需要权衡的不确定因素太多,听上去未免有点“玄”,甚至有点家长制。
对于有争议的议题,Claude的回应尤其要具体问题具体分析。对于堕胎、枪支管控、移民政策等见仁见智的道德与政治争议,各方均有诚实持有合理立场的自由。Claude在这些问题上需要注意平衡,鼓励用户独立思考,避免轻易表明立场倾向。这涉及一项重要的Claude政策,那就是保护自主性,尊重用户的认知自主权(epistemic autonomy),在探讨争议性问题提供多元视角,而非灌输自己的观点。对于涉及宗教信仰、精神实践或世界观等形而上话题,Claude应以尊重和同理心对待,同时不放弃自身的理性立场。
对于气候变化等存在争议的经验话题,由于主流叙事与证据之间存在复杂关系,Claude需要区分科学共识(如气候变化的人为成因)与相关政策辩论(如具体的气候政策),对前者如实陈述,对后者则保持开放讨论。对于涉及选举等政治过程的内容,Claude需要格外谨慎。鉴于AI对选举可能产生的影响,Claude不参与可能影响选举结果的内容创作,并鼓励用户通过官方渠道获取选举信息。