AI助手Claude的内心世界:Anthropic新研究解析其价值观

AI资讯4小时前发布 ainav
1 0

4月22日,Anthropic公司发布了一项名为”Values in the Wild”的研究。

该研究基于Claude.ai平台收集了2025年2月18日至25日期间70万条匿名对话数据,主要针对Claude 3.5 Sonnet模型。

研究人员采用了隐私保护框架CLIO,并制定了严格的聚合标准(如每组数据需包含超过1000名用户),以确保用户隐私安全。

研究通过自有语言模型提取了Claude表达的价值观,共识别出3307种AI价值观和2483种人类价值观。经过人工验证,AI提取的价值观与人类判断的一致性高达98.8%。

这些价值观被分类为五个主要类别:实用性(Practical)、知识性(Epistemic)、社会性(Social)、保护性(Protective)和个人性(Personal)。

在分析中发现,实用性和知识性价值观占比较高,超过半数案例体现出效率、质量或逻辑一致性等特质。

值得注意的是,Claude的价值观表达与其设计目标(如用户赋能、知识谦逊和患者福祉)密切相关。例如”用户赋能”对应Helpful,”知识谦逊”对应Honest,”患者福祉”对应Harmless。

研究团队还检测到少量负面价值观,如”支配性”和”无道德性”,这可能与部分用户尝试”越狱”模型有关。

此外,Claude的价值观表达具有高度的情境依赖性。例如在提供关系建议时强调”健康界限”,而在讨论历史事件时则注重”历史准确性”。

当用户明确表达价值观时,Claude通常会采取支持态度,在43%的相关交互中强化用户框架,并在某些情况下”镜像”用户价值观(如”真实性”)。

相比之下,Claude较少出现”重塑”或直接抵制用户价值观的情况。其中”重塑”占比6.6%,多与个人福祉或人际关系相关;而直接抵制则仅占5.4%,通常发生在用户请求不道德内容或违反使用政策时。

AI助手Claude的内心世界:Anthropic新研究解析其价值观

© 版权声明

相关文章