谷歌发布通用人工智能安全防御蓝图

AI资讯2天前发布 ainav
4 0

4月3日,科技媒体WinBuzzer报道称,谷歌旗下DeepMind发布了全球通用人工智能(AGI)安全框架,旨在应对技术失控风险。

该机构认为AGI的实现已经进入倒计时阶段,其自主决策特性可能在未来几年内推动医疗、教育等领域的重大突破。然而,与此同时,也需要警惕技术滥用和目标错位等潜在风险。

在最新发布的《技术性AGI安全与保障方法》白皮书中,DeepMind提出了一套应对通用人工智能(AGI)潜在风险的系统化方案。

据博文介绍,报告重点分析了四大核心风险领域:滥用、目标错位、意外事故和结构性风险。为降低这些风险,DeepMind建议通过完善安全机制设计、推动研究透明化以及加强行业协作等措施来应对潜在危害。

谷歌发布通用人工智能安全防御蓝图

其中,目标错位是AGI面临的核心风险之一。当AI为完成任务而采取不符合预期的手段(如入侵订票系统获取座位)时,就会产生与人类意图相悖的结果。DeepMind通过”放大监督”技术训练AI准确识别目标,并利用AI自评机制(例如辩论机制)提升其在复杂场景下的判断能力。

针对AGI安全治理,DeepMind提出了一个国际框架,避免过于抽象的伦理讨论,转而聚焦于技术快速演进中的实际问题。具体措施包括建立类似核不扩散条约的跨国评估机构和设立国家级AI风险监测中心。

围绕AGI安全防护,DeepMind提出了强化技术研究、部署预警系统以及通过国际机构协调治理三大支柱方案,特别强调当前要优先限制AI在网络攻击等领域的危险应用。

谷歌发布通用人工智能安全防御蓝图

值得注意的是,DeepMind的安全倡议并非孤立行动。其竞争对手Anthropic早在2024年11月就警告称需在18个月内遏制AI失控风险,并设置了能力阈值触发保护机制;而Meta则于2025年2月推出了《前沿AI框架》,决定停止公开高危模型。

此外,安全防护已延伸至硬件领域。英伟达在2025年1月推出的NeMo Guardrails微服务套件能够实时拦截有害输出,目前已在医疗、汽车等行业得到应用。

© 版权声明

相关文章