开源词频数据库 wordfreq 停止更新:生成式 AI 污染数据,创始人怒斥 OpenAI 和谷歌
导语:
开源词频数据库 wordfreq 宣布停止更新,其创始人 Robyn Speer 称,生成式 AI 污染了互联网数据,导致 wordfreq 无法准确反映人类语言使用情况。她指责 OpenAI 和谷歌为互联网垃圾信息泛滥负主要责任,并表示希望他们为此付出代价。
事件回顾:
wordfreq 是一个基于 Python 的开源库,自 2015 年创建以来,一直为自然语言处理和文本分析领域提供超过 40 种语言的单词频率数据。该项目旨在追踪语言使用方式的不断变化,为学者提供有用的资源。
然而,创始人 Robyn Speer 近日在 GitHub 页面上宣布停止更新该项目。她解释称,生成式 AI 污染了互联网数据,导致wordfreq 数据不再准确反映人类语言使用情况。
主要原因:
- 生成式 AI 污染数据: OpenAI 和谷歌等公司的大型语言模型生成大量垃圾信息,这些信息并非由人撰写,无法传达任何信息,但被伪装成真实语言,扭曲了 wordfreq 所关注的词汇使用频率。
- 信息获取成本上升: Twitter 和 Reddit 等平台停止提供公共数据归档,现在以高昂的价格出售数据,使得 wordfreq 无法获取更新的数据。
- 对生成式 AI 的抵制: Robyn Speer对生成式 AI 的发展感到失望,她认为生成式 AI 吞噬了自然语言处理领域,并导致了数据获取的困难和数据质量的下降。
影响和争议:
wordfreq 的停止更新引发了广泛的讨论。一些人认为,生成式 AI 污染数据是互联网发展面临的重大挑战,需要采取措施进行治理。另一些人则认为,wordfreq 的遭遇反映了互联网数据获取的难度日益增加,以及生成式 AI 对学术研究的影响。
结语:
wordfreq 的停止更新是一个警示,提醒人们关注生成式 AI对互联网数据的影响,以及数据获取和研究的挑战。未来,如何平衡生成式 AI 的发展和数据质量的维护,将成为一个重要的议题。
新闻价值:
- 科技发展与伦理问题: 生成式 AI 的快速发展带来了数据污染等问题,引发了对科技伦理的思考。
- 学术研究的挑战: wordfreq 的停止更新反映了生成式 AI 对学术研究的影响,以及数据获取和研究方法的挑战。
- 互联网生态变化: wordfreq 的遭遇揭示了互联网生态的变化,以及数据获取和使用规则的变化。
建议:
- 进一步研究生成式 AI 对互联网数据的影响,并提出相应的治理措施。
- 探索新的数据获取和分析方法,以应对生成式 AI 带来的挑战。
- 加强对生成式 AI 的伦理规范,确保其健康发展。
补充信息:
- wordfreq 项目的 GitHub 页面:https://github.com/rspeer/wordfreq
- Robyn Speer 的公告:https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Philip Shapira 的报告:https://www.404media.co/project-analyzing-human-language-usage-shuts-down-because-generative-ai-has-polluted-the-data/
关键词:
- wordfreq
- 生成式 AI
- 数据污染
- OpenAI
*谷歌 - 自然语言处理
- 文本分析
- 数据获取
- 伦理问题
- 学术研究
- 互联网生态
Views: 0