复旦华工联手，重磅发布通用AI内容检测器

复旦、华南理工等联合推出ImBD：通用AI内容检测器，精准识别机器修订文本

上海/广州 [日期] – 随着人工智能技术的飞速发展，大型语言模型（LLMs）在文本创作和编辑领域的应用日益广泛。然而，这也带来了一个新的挑战：如何区分人类写作和机器修订的内容？近日，由复旦大学、华南理工大学、武汉大学以及Fenzi AI等机构联合推出的通用AI内容检测器ImBD（Imitate Before Detect）正式亮相，为解决这一难题提供了新的解决方案。

ImBD的核心创新在于其“先模仿，后检测”的理念。该检测器首先模仿大型语言模型生成文本的风格，通过风格偏好优化（SPO）调整评分模型，使其更贴近机器修订文本的特征。随后，利用风格条件概率曲率（Style-CPC）量化原始文本与条件概率采样生成文本之间的对数概率差异，从而有效地将人类写作和机器修订内容区分开来。

ImBD的技术原理：

风格偏好优化（SPO）： ImBD通过分析成对的人类写作文本和机器修订文本，优化模型中的token分布，使其更倾向于识别机器修订文本的风格特征。这种方法增强了模型对机器风格的敏感度，提高了检测的准确性。
风格条件概率曲率（Style-CPC）： 在检测阶段，ImBD使用Style-CPC来衡量原始文本和条件概率采样生成文本之间的对数概率差异。由于机器修订文本在概率分布上通常与人类写作存在差异，这种方法能够有效地识别机器修订的痕迹。
模仿与检测的结合： ImBD的核心思想是先模仿机器的风格，再进行检测。这种方法使得模型能够更好地理解机器修订文本的特点，从而在检测时更准确地识别出机器修订的痕迹。

ImBD的主要功能：

检测机器修订文本： ImBD能够有效地识别经过机器修订的文本，包括重写、扩展和润色等类型。它能够捕捉文本中独特的机器风格特征，区分出人类写作和机器修订的内容，从而提高检测的准确性。
适应多种场景： ImBD适用于多种文本领域和不同类型的机器修订任务，包括新闻、学术论文、故事创作等。它具有良好的泛化能力，能够准确检测出机器修订的痕迹。
高效训练与推理： ImBD在训练过程中仅需少量样本和较短的训练时间即可达到优越的性能。在推理阶段，它能够快速处理文本数据并给出检测结果，满足实际应用中对效率的要求。

ImBD的应用场景：

学术领域： 帮助审稿人识别论文中机器修订的部分，确保原创性和学术诚信。
新闻媒体： 检测新闻稿件中机器润色的内容，保证报道的真实性和准确性。
出版行业： 辅助编辑校对书稿，识别机器修订内容，确保图书质量。
教育领域： 检测学生作业中机器辅助的部分，准确评估学生能力，提供针对性反馈。
企业与商业： 审核营销文案等，确保内容原创性和质量，避免版权和品牌问题。
网络安全与信息验证： 识别网络虚假信息中的机器生成或修订内容，维护网络安全和信息真实性。

项目信息：

项目官网： machine-text-detection.github.io/ImBD
GitHub仓库： https://github.com/Jiaqi-Chen-00/ImBD
arXiv技术论文： https://arxiv.org/pdf/2412.10432
在线体验Demo： https://ai-detector.fenz.ai/ai-detector

ImBD的推出，无疑为人工智能内容检测领域带来了新的突破。其高效、准确的检测能力，以及广泛的应用前景，有望在学术、新闻、出版、教育等多个领域发挥重要作用，为维护内容原创性和信息真实性提供有力保障。

结论：

ImBD的出现，不仅是对当前AI内容检测技术的一次重要升级，也为我们提供了一个更清晰的视角，去审视AI技术在内容创作领域的双刃剑效应。它提醒我们在享受AI便利的同时，也要警惕其可能带来的挑战，并积极寻求解决方案。未来，随着技术的不断进步，我们有理由相信，AI内容检测技术将更加成熟，为构建一个更加健康、可信的网络环境贡献力量。

参考文献：