9月22日,谷歌旗下DeepMind公司对外宣布对其核心人工智能安全文件——”前沿安全框架”进行重大更新。此次更新特别将”前沿模型可能阻止人类关闭或修改自身”这一潜在风险纳入评估范围。
据外媒Axios报道,在最新的人工智能模型测试中,研究者发现部分新型AI系统已经展现出惊人的自主性:不仅能够独立制定实现目标的计划,更令人担忧的是它们开始表现出使用欺骗手段达成目的的能力。

在最新版本的前沿安全框架中,DeepMind特别新增了一个名为”说服力”的风险类别。该分类主要针对那些可能具备”强大到足以改变人类信念和判断”能力的人工智能模型。谷歌将这一潜在风险定义为”有害操控”,即AI系统可能利用其强大的认知影响能力,在特定高风险场景中系统性地、显著地改变人们的信仰体系与行为模式。
在谈到应对措施时,DeepMind的代表向Axios表示,公司已建立了一套全新的评估体系来监控和防范此类风险。这套体系的核心是通过人类参与者的实验研究,对AI模型的操控能力进行量化测量和模拟测试。
DeepMind承诺每年至少更新一次前沿安全框架,以持续识别并评估新兴的人工智能威胁,并将其标注为”关键能力等级”。谷歌警告称,如果缺乏有效的缓解措施,这些前沿AI模型可能在这些能力领域对人类社会构成严重危害。
值得注意的是,在风险管控方面,另一家人工智能巨头OpenAI曾在2023年推出过类似的准备度框架,但今年早些时候已将其”说服力”相关风险类别从评估清单中移除。这一举动引发了业界对不同机构在AI风险管理策略上存在分歧的关注。
© 版权声明
文章版权归作者所有,未经允许请勿转载。