谷歌发布通用人工智能安全防御蓝图

98 0 0

4月3日，科技媒体WinBuzzer报道称，谷歌旗下DeepMind发布了全球通用人工智能（AGI）安全框架，旨在应对技术失控风险。

该机构认为AGI的实现已经进入倒计时阶段，其自主决策特性可能在未来几年内推动医疗、教育等领域的重大突破。然而，与此同时，也需要警惕技术滥用和目标错位等潜在风险。

在最新发布的《技术性AGI安全与保障方法》白皮书中，DeepMind提出了一套应对通用人工智能（AGI）潜在风险的系统化方案。

据博文介绍，报告重点分析了四大核心风险领域：滥用、目标错位、意外事故和结构性风险。为降低这些风险，DeepMind建议通过完善安全机制设计、推动研究透明化以及加强行业协作等措施来应对潜在危害。

其中，目标错位是AGI面临的核心风险之一。当AI为完成任务而采取不符合预期的手段（如入侵订票系统获取座位）时，就会产生与人类意图相悖的结果。DeepMind通过”放大监督”技术训练AI准确识别目标，并利用AI自评机制（例如辩论机制）提升其在复杂场景下的判断能力。

针对AGI安全治理，DeepMind提出了一个国际框架，避免过于抽象的伦理讨论，转而聚焦于技术快速演进中的实际问题。具体措施包括建立类似核不扩散条约的跨国评估机构和设立国家级AI风险监测中心。

围绕AGI安全防护，DeepMind提出了强化技术研究、部署预警系统以及通过国际机构协调治理三大支柱方案，特别强调当前要优先限制AI在网络攻击等领域的危险应用。

值得注意的是，DeepMind的安全倡议并非孤立行动。其竞争对手Anthropic早在2024年11月就警告称需在18个月内遏制AI失控风险，并设置了能力阈值触发保护机制；而Meta则于2025年2月推出了《前沿AI框架》，决定停止公开高危模型。

此外，安全防护已延伸至硬件领域。英伟达在2025年1月推出的NeMo Guardrails微服务套件能够实时拦截有害输出，目前已在医疗、汽车等行业得到应用。

文章版权归作者所有，未经允许请勿转载。

ainav

47 0

ainav

4 0

ainav

15 0

ainav

76 0

ainav

14 0

ainav

29 0