词频数据库 wordfreq 宣布停更：网上全是垃圾，OpenAI 和谷歌要为此付出代价！

开源词频数据库 wordfreq 停止更新：生成式 AI 污染数据，创始人怒斥 OpenAI 和谷歌

导语：

开源词频数据库 wordfreq 宣布停止更新，其创始人 Robyn Speer 称，生成式 AI 污染了互联网数据，导致 wordfreq 无法准确反映人类语言使用情况。她指责 OpenAI 和谷歌为互联网垃圾信息泛滥负主要责任，并表示希望他们为此付出代价。

事件回顾：

wordfreq 是一个基于 Python 的开源库，自 2015 年创建以来，一直为自然语言处理和文本分析领域提供超过 40 种语言的单词频率数据。该项目旨在追踪语言使用方式的不断变化，为学者提供有用的资源。

然而，创始人 Robyn Speer 近日在 GitHub 页面上宣布停止更新该项目。她解释称，生成式 AI 污染了互联网数据，导致wordfreq 数据不再准确反映人类语言使用情况。

主要原因：

生成式 AI 污染数据： OpenAI 和谷歌等公司的大型语言模型生成大量垃圾信息，这些信息并非由人撰写，无法传达任何信息，但被伪装成真实语言，扭曲了 wordfreq 所关注的词汇使用频率。
信息获取成本上升： Twitter 和 Reddit 等平台停止提供公共数据归档，现在以高昂的价格出售数据，使得 wordfreq 无法获取更新的数据。
对生成式 AI 的抵制： Robyn Speer对生成式 AI 的发展感到失望，她认为生成式 AI 吞噬了自然语言处理领域，并导致了数据获取的困难和数据质量的下降。

影响和争议：

wordfreq 的停止更新引发了广泛的讨论。一些人认为，生成式 AI 污染数据是互联网发展面临的重大挑战，需要采取措施进行治理。另一些人则认为，wordfreq 的遭遇反映了互联网数据获取的难度日益增加，以及生成式 AI 对学术研究的影响。

结语：

wordfreq 的停止更新是一个警示，提醒人们关注生成式 AI对互联网数据的影响，以及数据获取和研究的挑战。未来，如何平衡生成式 AI 的发展和数据质量的维护，将成为一个重要的议题。

新闻价值：

建议：

补充信息：

wordfreq 项目的 GitHub 页面：https://github.com/rspeer/wordfreq
Robyn Speer 的公告：https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
Philip Shapira 的报告：https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/

关键词：