Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

开源词频数据库 wordfreq 宣布停止更新:生成式 AI污染数据,创始人怒斥 OpenAI 和谷歌

新闻摘要:

开源词频数据库 wordfreq 宣布停止更新,创始人 Robyn Speer 指责生成式 AI 污染了互联网数据,导致其无法准确反映人类语言使用情况。她认为 OpenAI 和谷歌应该为当前的混乱局面负责,并表示将不再为生成式 AI 项目贡献力量。

事件背景:

*wordfreq 是一个开源词频数据库,提供超过 40 种语言的单词频率数据,帮助研究人员分析语言使用情况。
* 该项目于 2015 年创建,一直致力于追踪人类语言使用方式的变化。
* 创始人 Robyn Speer 在近期发布的公告中宣布停止更新该项目,并解释了原因。

主要原因:

  • 生成式 AI 污染数据: Speer 认为,生成式 AI模型如 ChatGPT 生成的文本充斥着互联网,这些文本并非由人撰写,无法传达任何信息,却扭曲了 wordfreq 所关注的词汇使用频率。
  • 数据获取成本上升: Twitter 和 Reddit 等平台停止提供公共数据,并以高昂的价格出售数据,使得Speer 无法获取更新数据。
  • 生成式 AI 吞噬自然语言处理领域: Speer 认为,生成式 AI 占据了市场的大部分关注和资金,导致其他自然语言处理研究难以开展。

事件影响:

  • 影响自然语言处理研究: wordfreq 的停止更新将对自然语言处理研究造成一定影响,因为研究人员将难以获取准确的语言使用数据。
  • 引发对生成式 AI 的担忧: Speer 的言论引发了人们对生成式 AI 污染互联网数据的担忧,以及对数据隐私和知识产权的关注。

网友观点:

  • 网友普遍认为,生成式 AI 污染互联网数据是一个严重问题,需要引起重视。
  • 一些网友认为,谷歌等公司应该承担责任,因为他们的搜索引擎算法和商业模式导致了垃圾信息的泛滥。
  • 一些网友认为,需要制定新的规则和标准来规范生成式 AI 的发展,防止其对互联网造成负面影响。

新闻价值:

  • 该事件反映了生成式 AI 技术快速发展带来的挑战和风险。
  • 该事件引发了人们对数据隐私、知识产权和互联网未来发展的思考。
  • 该事件为自然语言处理研究领域敲响了警钟,提醒人们需要警惕生成式 AI 对数据的影响。

新闻建议:

  • 可以进一步采访 Robyn Speer,了解她对生成式 AI 的具体看法和未来计划。
  • 可以采访自然语言处理领域的专家,了解他们对 wordfreq停止更新的看法以及对生成式 AI 的未来发展趋势的预测。
  • 可以调查生成式 AI 对互联网数据的影响,以及如何解决数据污染问题。

关键词:

  • wordfreq
  • 生成式 AI
  • OpenAI
  • 谷歌
  • 数据污染
  • 自然语言处理
  • 互联网
  • 数据隐私
  • 知识产权


>>> Read more <<<

Views: 1

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注