开源词频数据库 wordfreq 宣布停止更新:生成式 AI污染数据,创始人怒斥 OpenAI 和谷歌

新闻摘要:

开源词频数据库 wordfreq 宣布停止更新,创始人 Robyn Speer 指责生成式 AI 污染了互联网数据,导致其无法准确反映人类语言使用情况。她认为 OpenAI 和谷歌应该为当前的混乱局面负责,并表示将不再为生成式 AI 项目贡献力量。

事件背景:

*wordfreq 是一个开源词频数据库,提供超过 40 种语言的单词频率数据,帮助研究人员分析语言使用情况。
* 该项目于 2015 年创建,一直致力于追踪人类语言使用方式的变化。
* 创始人 Robyn Speer 在近期发布的公告中宣布停止更新该项目,并解释了原因。

主要原因:

  • 生成式 AI 污染数据: Speer 认为,生成式 AI模型如 ChatGPT 生成的文本充斥着互联网,这些文本并非由人撰写,无法传达任何信息,却扭曲了 wordfreq 所关注的词汇使用频率。
  • 数据获取成本上升: Twitter 和 Reddit 等平台停止提供公共数据,并以高昂的价格出售数据,使得Speer 无法获取更新数据。
  • 生成式 AI 吞噬自然语言处理领域: Speer 认为,生成式 AI 占据了市场的大部分关注和资金,导致其他自然语言处理研究难以开展。

事件影响:

  • 影响自然语言处理研究: wordfreq 的停止更新将对自然语言处理研究造成一定影响,因为研究人员将难以获取准确的语言使用数据。
  • 引发对生成式 AI 的担忧: Speer 的言论引发了人们对生成式 AI 污染互联网数据的担忧,以及对数据隐私和知识产权的关注。

网友观点:

  • 网友普遍认为,生成式 AI 污染互联网数据是一个严重问题,需要引起重视。
  • 一些网友认为,谷歌等公司应该承担责任,因为他们的搜索引擎算法和商业模式导致了垃圾信息的泛滥。
  • 一些网友认为,需要制定新的规则和标准来规范生成式 AI 的发展,防止其对互联网造成负面影响。

新闻价值:

  • 该事件反映了生成式 AI 技术快速发展带来的挑战和风险。
  • 该事件引发了人们对数据隐私、知识产权和互联网未来发展的思考。
  • 该事件为自然语言处理研究领域敲响了警钟,提醒人们需要警惕生成式 AI 对数据的影响。

新闻建议:

  • 可以进一步采访 Robyn Speer,了解她对生成式 AI 的具体看法和未来计划。
  • 可以采访自然语言处理领域的专家,了解他们对 wordfreq停止更新的看法以及对生成式 AI 的未来发展趋势的预测。
  • 可以调查生成式 AI 对互联网数据的影响,以及如何解决数据污染问题。

关键词:

  • wordfreq
  • 生成式 AI
  • OpenAI
  • 谷歌
  • 数据污染
  • 自然语言处理
  • 互联网
  • 数据隐私
  • 知识产权


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注