开源词频数据库 wordfreq 宣布停止更新:生成式 AI污染数据,创始人怒斥 OpenAI 和谷歌
新闻摘要:
开源词频数据库 wordfreq 宣布停止更新,创始人 Robyn Speer 指责生成式 AI 污染了互联网数据,导致其无法准确反映人类语言使用情况。她认为 OpenAI 和谷歌应该为当前的混乱局面负责,并表示将不再为生成式 AI 项目贡献力量。
事件背景:
*wordfreq 是一个开源词频数据库,提供超过 40 种语言的单词频率数据,帮助研究人员分析语言使用情况。
* 该项目于 2015 年创建,一直致力于追踪人类语言使用方式的变化。
* 创始人 Robyn Speer 在近期发布的公告中宣布停止更新该项目,并解释了原因。
主要原因:
- 生成式 AI 污染数据: Speer 认为,生成式 AI模型如 ChatGPT 生成的文本充斥着互联网,这些文本并非由人撰写,无法传达任何信息,却扭曲了 wordfreq 所关注的词汇使用频率。
- 数据获取成本上升: Twitter 和 Reddit 等平台停止提供公共数据,并以高昂的价格出售数据,使得Speer 无法获取更新数据。
- 生成式 AI 吞噬自然语言处理领域: Speer 认为,生成式 AI 占据了市场的大部分关注和资金,导致其他自然语言处理研究难以开展。
事件影响:
- 影响自然语言处理研究: wordfreq 的停止更新将对自然语言处理研究造成一定影响,因为研究人员将难以获取准确的语言使用数据。
- 引发对生成式 AI 的担忧: Speer 的言论引发了人们对生成式 AI 污染互联网数据的担忧,以及对数据隐私和知识产权的关注。
网友观点:
- 网友普遍认为,生成式 AI 污染互联网数据是一个严重问题,需要引起重视。
- 一些网友认为,谷歌等公司应该承担责任,因为他们的搜索引擎算法和商业模式导致了垃圾信息的泛滥。
- 一些网友认为,需要制定新的规则和标准来规范生成式 AI 的发展,防止其对互联网造成负面影响。
新闻价值:
- 该事件反映了生成式 AI 技术快速发展带来的挑战和风险。
- 该事件引发了人们对数据隐私、知识产权和互联网未来发展的思考。
- 该事件为自然语言处理研究领域敲响了警钟,提醒人们需要警惕生成式 AI 对数据的影响。
新闻建议:
- 可以进一步采访 Robyn Speer,了解她对生成式 AI 的具体看法和未来计划。
- 可以采访自然语言处理领域的专家,了解他们对 wordfreq停止更新的看法以及对生成式 AI 的未来发展趋势的预测。
- 可以调查生成式 AI 对互联网数据的影响,以及如何解决数据污染问题。
关键词:
- wordfreq
- 生成式 AI
- OpenAI
- 谷歌
- 数据污染
- 自然语言处理
- 互联网
- 数据隐私
- 知识产权
Views: 1