周四. 4 月 17th, 2025

Wordfreq Database Halts After 9 Years Founder Blasts Online Waste Points Fingers at OpenAI & Google

作者智能小编

9 月 23, 2024 #InfoQ, #新闻

0

开源词频数据库 wordfreq 宣布停止更新：生成式 AI污染数据，创始人怒斥 OpenAI 和谷歌

新闻摘要:

开源词频数据库 wordfreq 宣布停止更新，创始人 Robyn Speer 指责生成式 AI 污染了互联网数据，导致其无法准确反映人类语言使用情况。她认为 OpenAI 和谷歌应该为当前的混乱局面负责，并表示将不再为生成式 AI 项目贡献力量。

事件背景:

*wordfreq 是一个开源词频数据库，提供超过 40 种语言的单词频率数据，帮助研究人员分析语言使用情况。
* 该项目于 2015 年创建，一直致力于追踪人类语言使用方式的变化。
* 创始人 Robyn Speer 在近期发布的公告中宣布停止更新该项目，并解释了原因。

主要原因:

生成式 AI 污染数据: Speer 认为，生成式 AI模型如 ChatGPT 生成的文本充斥着互联网，这些文本并非由人撰写，无法传达任何信息，却扭曲了 wordfreq 所关注的词汇使用频率。
数据获取成本上升: Twitter 和 Reddit 等平台停止提供公共数据，并以高昂的价格出售数据，使得Speer 无法获取更新数据。
生成式 AI 吞噬自然语言处理领域: Speer 认为，生成式 AI 占据了市场的大部分关注和资金，导致其他自然语言处理研究难以开展。

事件影响:

影响自然语言处理研究: wordfreq 的停止更新将对自然语言处理研究造成一定影响，因为研究人员将难以获取准确的语言使用数据。
引发对生成式 AI 的担忧: Speer 的言论引发了人们对生成式 AI 污染互联网数据的担忧，以及对数据隐私和知识产权的关注。

网友观点:

网友普遍认为，生成式 AI 污染互联网数据是一个严重问题，需要引起重视。
一些网友认为，谷歌等公司应该承担责任，因为他们的搜索引擎算法和商业模式导致了垃圾信息的泛滥。
一些网友认为，需要制定新的规则和标准来规范生成式 AI 的发展，防止其对互联网造成负面影响。

新闻价值:

该事件反映了生成式 AI 技术快速发展带来的挑战和风险。
该事件引发了人们对数据隐私、知识产权和互联网未来发展的思考。
该事件为自然语言处理研究领域敲响了警钟，提醒人们需要警惕生成式 AI 对数据的影响。

新闻建议:

可以进一步采访 Robyn Speer，了解她对生成式 AI 的具体看法和未来计划。
可以采访自然语言处理领域的专家，了解他们对 wordfreq停止更新的看法以及对生成式 AI 的未来发展趋势的预测。
可以调查生成式 AI 对互联网数据的影响，以及如何解决数据污染问题。

关键词:

wordfreq
生成式 AI
OpenAI
谷歌
数据污染
自然语言处理
互联网
数据隐私
知识产权

>>> Read more <<<

Views: 1

0

相关文章

Veo 2发布：视频创作，触手可及！

4 月 17, 2025 智能小编

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

4 月 17, 2025 智能小编

智谱GLM模型升级，比肩世界先进！

4 月 17, 2025 智能小编

发表回复取消回复

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

Veo 2发布：视频创作，触手可及！

2025年4月17日

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

2025年4月17日

智谱GLM模型升级，比肩世界先进！

2025年4月17日

OpenAI深夜重磅：GPT-4.1支持百万Token编程！

2025年4月17日