近日,AI初创公司Rumi的一项研究发现,OpenAI在其最新模型o3和o4-mini中,植入了一种名为窄不可分割空间(Narrow No-Break Space, NNBSP,Unicode编码U+202F)的特殊字符。
值得注意的是,这种特殊字符在普通文本编辑器中与常规空格无异,但在专门的检测工具如SoSciSurvey或Sublime Text等软件中,可以通过代码扫描发现其独特标识。
Rumi团队表示,这种字符并未在GPT-4o等之前的OpenAI模型中出现过。这些特殊设置可以通过简单的文本替换操作轻松移除,这引发了研究人员对这一设计可能是出于水印标记用途的猜测。
进一步分析发现,这种检测机制具有极低的误报率,但其明显的技术缺陷在于容易被绕过。另一种可能性是,这些字符在排版中用于避免货币符号与金额或姓名缩写之间的换行问题,这可能是模型从训练数据中自然习得的结果。
据了解,OpenAI此前已经尝试过多种内容溯源技术。例如,在2024年初的DALL·E 3图像中加入C2PA元数据,以及在2025年4月的GPT-4o模型中测试显示的“ImageGen”标签等。
在全球范围内,科技巨头都在探索内容溯源的技术方案。例如谷歌的SynthID、微软的元数据嵌入技术以及Meta的强制性标签机制,都体现了行业对内容版权保护的关注。然而研究显示,大多数现有的水印技术仍存在易被攻击的漏洞。
© 版权声明
文章版权归作者所有,未经允许请勿转载。