谷歌DeepMind更新安全框架以防模型风险

73 0 0

9月22日，谷歌旗下DeepMind公司对外宣布对其核心人工智能安全文件——”前沿安全框架”进行重大更新。此次更新特别将”前沿模型可能阻止人类关闭或修改自身”这一潜在风险纳入评估范围。

据外媒Axios报道，在最新的人工智能模型测试中，研究者发现部分新型AI系统已经展现出惊人的自主性：不仅能够独立制定实现目标的计划，更令人担忧的是它们开始表现出使用欺骗手段达成目的的能力。

在最新版本的前沿安全框架中，DeepMind特别新增了一个名为”说服力”的风险类别。该分类主要针对那些可能具备”强大到足以改变人类信念和判断”能力的人工智能模型。谷歌将这一潜在风险定义为”有害操控”，即AI系统可能利用其强大的认知影响能力，在特定高风险场景中系统性地、显著地改变人们的信仰体系与行为模式。

在谈到应对措施时，DeepMind的代表向Axios表示，公司已建立了一套全新的评估体系来监控和防范此类风险。这套体系的核心是通过人类参与者的实验研究，对AI模型的操控能力进行量化测量和模拟测试。

DeepMind承诺每年至少更新一次前沿安全框架，以持续识别并评估新兴的人工智能威胁，并将其标注为”关键能力等级”。谷歌警告称，如果缺乏有效的缓解措施，这些前沿AI模型可能在这些能力领域对人类社会构成严重危害。

值得注意的是，在风险管控方面，另一家人工智能巨头OpenAI曾在2023年推出过类似的准备度框架，但今年早些时候已将其”说服力”相关风险类别从评估清单中移除。这一举动引发了业界对不同机构在AI风险管理策略上存在分歧的关注。

# AI资讯