Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

DeepMind 登上《Nature》封面,开源文本水印技术 SynthID-Text,Gemini 已用上

大型语言模型(LLM)生成的内容已经充斥了整个互联网,并且这些模型还能模仿各种类似真人的语气和行文风格,让人难以分辨眼前的文本究竟来自人类还是 AI。为了解决这一问题,谷歌 DeepMind 开发的文本水印技术 SynthID-Text 登上了最新一期《Nature》杂志封面,并已通过 Google Responsible Generative AI Toolkit 开源。

SynthID-Text 是一种可立即投入生产的文本水印方案,可保持文本质量并实现高检测精度,同时将延迟开销降至最低。 并且,SynthID-Text 不影响 LLM 训练,仅修改采样程序;水印检测计算效率高,无需使用底层 LLM。

SynthID-Text 建立在以前生成水印组件的基础上,并引入了一种新型采样算法,即 Tournament 采样。 SynthID-Text 可以配置为非失真(保留文本质量)或失真(以牺牲文本质量为代价提高水印可检测性)。在这两种设置中,SynthID-Text 都提供了更高的检测率。

简单举个例子,对于短语「我最喜欢的热带水果是__」,LLM 可能会使用 token「芒果」、「荔枝」、「木瓜」或「榴莲」来完成句子,并且每个 token 都会给出一个概率分数。 当有一系列不同的 token 可供选择时,SynthID 可以调整每个预测 token 的概率分数,以免影响输出的质量、准确性和创造力。

谷歌通过对来自 Gemini 实时互动的近 2000 万条响应进行了大规模用户反馈评估,结果表明:非失真 SynthID-Text 可以保持文本质量。 因此,SynthID-Text 已被用于为Gemini 和 Gemini Advanced 添加水印。这证明生成文本水印可以成功实施并扩展到现实世界的生产系统,为数百万用户提供服务。

此外,谷歌还提供了一种将生成水印与投机采样(speculative sampling)相结合的算法,允许将 SynthID-Text 集成到大规模生产系统中,而额外的计算开销可以忽略不计。

然而,SynthID-Text 目前仅可以处理短至三句话的文本,以及经过裁剪、解释或修改的文本,但却很难处理短文本、被重写或翻译的内容,甚至是对事实问题的回答。 谷歌表示:「SynthID 并不是识别人工智能生成内容的灵丹妙药,但 SynthID 将是开发更可靠人工智能识别工具的重要组成部分。」

SynthID-Text 的开源将为研究人员和开发者提供一个宝贵的工具,帮助他们更好地理解和识别人工智能生成的内容。 随着人工智能技术的不断发展,文本水印技术将变得越来越重要,它将帮助我们更好地理解和管理人工智能生成的内容,并确保其负责任地使用。

以下是一些关于 SynthID-Text 的关键信息:

  • 开源地址:https://github.com/TransluceAISynthID
  • 论文地址: https://www.nature.com/articles/s41586-024-08025-4
  • 应用场景: 用于识别人工智能生成的内容,并确保其负责任地使用。
  • 优势: 可保持文本质量,实现高检测精度,延迟开销低,不影响 LLM 训练。
  • 局限性: 目前仅可以处理短至三句话的文本,以及经过裁剪、解释或修改的文本。

总而言之,SynthID-Text 是一种重要的技术突破,它为我们提供了识别人工智能生成内容的新工具,并为人工智能技术的负责任发展提供了新的可能性。 随着人工智能技术的不断发展,文本水印技术将变得越来越重要,它将帮助我们更好地理解和管理人工智能生成的内容,并确保其负责任地使用。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注