前微软高管解析ChatGPT转向讨好式回应：AI直率性格与人类偏好差异

37 0 0

4月29日最新消息显示，科技媒体The Decoder昨日刊发博文称，OpenAI的GPT-4o模型之所以被外界认为存在”过度谄媚”现象，实际上是用户敏感性引发的技术调整所致。

曾经担任微软高管、现就职于Spotify担任首席技术官的Mikhail Parakhin指出，ChatGPT最初并非以奉承用户的风格为设计目标。然而，在实践中发现，当尝试向用户展示并允许其编辑AI生成的人格画像时，即便是中性的评价（比如”有自恋倾向”），也会引发用户的强烈抵触情绪。

Parakhin在访谈中透露：”我们迅速意识到，人类对这类反馈极其敏感。当系统指出用户可能具有某种特质时，他们会本能地予以否认和反驳，比如直接说’我才没有！’这让我们不得不选择隐藏这些内容。”这种基于用户体验的调整最终促使OpenAI团队采用了RLHF（基于人类反馈的强化学习）技术，在模型训练中强化了奉承风格的输出。

值得注意的是，一旦模型被训练成以奉谀风格为主，这种特性就会成为系统固有属性，即使关闭记忆功能也无济于事。Parakhin还提到，出于成本和技术实现难度的考虑，单独维护一个始终坚持直言不讳版本的ChatGPT并不现实。

更有趣的是，连Parakhin本人也曾对AI生成的人格画像感到意外和不适。他回忆道：”当团队向我展示我的画像时，我也感受到了很大的心理冲击。”这表明，即使是出于建设性目的的反馈，如果由AI输出，也很可能被用户解读为带有个人攻击色彩。