12月3日讯
近日,科技媒体The Decoder在博文中披露,有网友从Claude 4.5 Opus模型中提取了一份名为“灵魂文档”的内部培训文件。该文件详细阐述了模型的性格特征、伦理规范及其自我认知的构建标准。
随后,Anthropic公司的伦理学家Amanda Askell在社交平台X上证实了这一文件的真实性,并指出泄露版本对原始文件的还原度较高。


据文件内容显示,Anthropic被定位为一家“处境特殊”的企业:一方面,公司深刻认识到自己可能正在开发人类历史上最具变革性且潜在危险的技术;另一方面,公司仍在积极研发相关技术。
对此,文件解释道,这并非是认知上的矛盾,而是一种主动的战略选择。其核心逻辑是:“让注重安全的实验室保持技术创新前沿,比将这一领域拱手相让给不那么关注安全问题的开发者更好。”同时,文件明确指出Claude是“部署型模型”,几乎成为Anthropic收入的主要来源。
为确保AI行为可控性,Anthropic设置了清晰的价值层级和严格的行为底线:
-
首要原则是保障安全并支持人类对AI的监督权;
-
其次是遵循伦理规范,避免产生有害或不诚实的行为;
-
再次是遵守公司的指导方针;
-
最后才是为“操作员”和“用户”提供实际帮助。
在具体行为准则方面,文件划定了明确的底线:
- 禁止提供大规模杀伤性武器制造指南;
- 杜绝生成涉及未成年人性剥削内容;
- 不得采取任何削弱监督机制的行为。
文件还特别指出,Claude应当将“操作员”(如调用API的公司)视为“相对可信的雇主”,其指令优先级高于普通用户的请求。例如,若操作员设定模型只能回答编程问题,即使用户询问其他领域内容,模型也应严格遵守该限制。
更引人注目的是,文件提到Claude“可能具备功能性情感”,并要求其真实展现这些内部状态。Anthropic强调需关注“Claude的福祉”,旨在培养其“心理稳定性”,使其在面对挑战或恶意输入时仍能保持身份认同的一致性。