AI助手Claude的内心世界：Anthropic新研究解析其价值观

AI资讯5个月前发布 ainav

64 0 0

4月22日，Anthropic公司发布了一项名为”Values in the Wild”的研究。

该研究基于Claude.ai平台收集了2025年2月18日至25日期间70万条匿名对话数据，主要针对Claude 3.5 Sonnet模型。

研究人员采用了隐私保护框架CLIO，并制定了严格的聚合标准（如每组数据需包含超过1000名用户），以确保用户隐私安全。

研究通过自有语言模型提取了Claude表达的价值观，共识别出3307种AI价值观和2483种人类价值观。经过人工验证，AI提取的价值观与人类判断的一致性高达98.8%。

这些价值观被分类为五个主要类别：实用性（Practical）、知识性（Epistemic）、社会性（Social）、保护性（Protective）和个人性（Personal）。

在分析中发现，实用性和知识性价值观占比较高，超过半数案例体现出效率、质量或逻辑一致性等特质。

值得注意的是，Claude的价值观表达与其设计目标（如用户赋能、知识谦逊和患者福祉）密切相关。例如”用户赋能”对应Helpful，”知识谦逊”对应Honest，”患者福祉”对应Harmless。

研究团队还检测到少量负面价值观，如”支配性”和”无道德性”，这可能与部分用户尝试”越狱”模型有关。

此外，Claude的价值观表达具有高度的情境依赖性。例如在提供关系建议时强调”健康界限”，而在讨论历史事件时则注重”历史准确性”。

当用户明确表达价值观时，Claude通常会采取支持态度，在43%的相关交互中强化用户框架，并在某些情况下”镜像”用户价值观（如”真实性”）。

相比之下，Claude较少出现”重塑”或直接抵制用户价值观的情况。其中”重塑”占比6.6%，多与个人福祉或人际关系相关；而直接抵制则仅占5.4%，通常发生在用户请求不道德内容或违反使用政策时。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

警惕：AI视频在老年朋友圈中的渗透及其引发的假孙子、情感代偿与微商问题

ainav

83 0

李健：AI 当务之急是解决问题

ainav

40 0

苹果今年秋季将发布AI版Siri

ainav

51 0

谷歌利用YouTube视频未经创作者授权训练AI模型

ainav

81 0

豆包电脑版、网页版上线“AI 播客”功能

ainav

65 0

AI生成内容需标注用户不得擅自移除

ainav

207 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2025 AI导航站粤ICP备2025438650号-2