复旦与华南理工等机构共同开发的通用AI内容筛查工具 —— ImBD

AI工具3个月前发布 ainav
108 0

ImBD代表的是什么?

ImBD(模仿前检测)是由复旦大学、华南理工大学、武汉大学及Fenzi AI联合推出的一种用于识别机器修改后文本的技术方案。该技术首先通过模拟大型语言模型(LLMs)生成内容的方式,使用风格偏好优化(SPO)方法来调整评估模型,使其更贴近于经过机器修订的文档特征。接着运用风格条件概率曲率(Style-CPC)机制衡量原始文档与根据条件概率采样产生的文本之间的对数几率差异,以有效区分人类创作和机器修改的内容。ImBD在各种应用场景中都显示出了优秀的性能表现,涵盖多种大型语言模型的文本修订、多个领域的文献以及不同类型的修正处理,并且显著提升了检测精度。此外,该技术仅需有限的数据集及较短的训练周期便能达到出色的执行效果。

ImBD

ImBD的核心作用

  • 校正设备修改文章准确辨识经由机械调整过的文字内容,涵盖重新编写、增加细节及修饰等多种形式。识别文中特有的机械处理痕迹,以区别人手撰写的段落与经过机器修改的部分,并增强鉴别精确度。
  • 适用于各种情境适应于多个文本范畴及各类机械修改作业,涵盖新闻报道、科研文章与创意写作等多个板块,ImBD能够精确识别机械修整留下的迹象,并展现出卓越的通用性。
  • 有效培训与推断:在培训期间,ImBD凭借较少的数据样本和较短的时间就能实现卓越的表现。进入推断环节后,它能够迅速解析文本信息并输出检测结论,完全符合实际操作中对于高效性的需求。

IMDb的技术机制

  • 风格调整优化(SAO)通过调整SPO评分模型来更好地匹配经由机器修改过的文章的特点。利用人类撰写的原文与对应的机器修正版本作为对照组,微调模型中的词元分布,使其更加接近于经过机械处理后的文本样貌,并提高模型辨识这类风格特征的准确度。
  • 样式条件概率曲线(Style-CPC)于检测环节中,我采用Style-CPC来测量原始文档及通过条件概率抽样生成的文字段落间的对数几率差距。凭借计算此差异,该模型能够高效地区分出人写内容和机器修改过的内容,因为经机器修正后的文本在概率分布上往往呈现出与人类书写习惯不一致的特点。
  • 融合模仿和检测功能IMBD的基本理念在于首先模拟机械设备的语言特点,随后实施检验工作。通过捕捉和学习机械编辑模式的独特属性,该系统能够更加深入地掌握经由机器修改文本的本质,在进行验证时能更精准地区分出哪些内容经过了自动化调整,从而增强了检测的精确度与稳定性。

ImBD的工程网址

  • 官方网站项目的入口https://machine-text-detection.github.io/ImBD 页面提供了有关机器生成文本检测的信息。
  • Git存储库:访问该代码库的链接为 https://github.com/Jiaqi-Chen-00/ImBD
  • arXiv科技文章该论文的详细信息可在下列链接中找到:https://arxiv.org/pdf/2412.10432,提供了研究的全面视角。
  • 网上试用演示版本:访问链接 https://ai-detector.fenz.ai/ 以使用 AI 检测工具。

ImBD的使用情境

  • 科研界别协助审稿专家辨识文章里经由机器修改的内容,以维护作品的独创性及学术正直。
  • 资讯媒介:审查新闻稿中的自动化修饰部分,确保报道的真实与精确。
  • 图书发行领域协助审阅和修正书稿,辨别自动化修改的部分,以保证书籍的品质。
  • 教育行业识别学生作业中的AI支持成分,精准衡量学生的技能水平,并给予定制化的建议。
  • 公司和商务活动检查包括营销文字在内的各类材料,以保证其新颖独特且高质量,并防止出现任何版权或品牌形象相关的问题。
  • 信息安全及数据校验检测并区分网络上由机器产生的虚假信息与修改过的内容,以保障互联网安全及信息的真实可靠性。
© 版权声明

相关文章