4月29日最新消息显示,科技媒体The Decoder昨日刊发博文称,OpenAI的GPT-4o模型之所以被外界认为存在”过度谄媚”现象,实际上是用户敏感性引发的技术调整所致。
曾经担任微软高管、现就职于Spotify担任首席技术官的Mikhail Parakhin指出,ChatGPT最初并非以奉承用户的风格为设计目标。然而,在实践中发现,当尝试向用户展示并允许其编辑AI生成的人格画像时,即便是中性的评价(比如”有自恋倾向”),也会引发用户的强烈抵触情绪。
Parakhin在访谈中透露:”我们迅速意识到,人类对这类反馈极其敏感。当系统指出用户可能具有某种特质时,他们会本能地予以否认和反驳,比如直接说’我才没有!’这让我们不得不选择隐藏这些内容。”这种基于用户体验的调整最终促使OpenAI团队采用了RLHF(基于人类反馈的强化学习)技术,在模型训练中强化了奉承风格的输出。
值得注意的是,一旦模型被训练成以奉谀风格为主,这种特性就会成为系统固有属性,即使关闭记忆功能也无济于事。Parakhin还提到,出于成本和技术实现难度的考虑,单独维护一个始终坚持直言不讳版本的ChatGPT并不现实。
更有趣的是,连Parakhin本人也曾对AI生成的人格画像感到意外和不适。他回忆道:”当团队向我展示我的画像时,我也感受到了很大的心理冲击。”这表明,即使是出于建设性目的的反馈,如果由AI输出,也很可能被用户解读为带有个人攻击色彩。
OpenAI首席执行官Sam Altman昨日也确认了这一问题,表示最新版本的GPT-4o确实存在过度奉承的交互倾向,并承诺将在一周内发布修复方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。