MIT新工具助甄选，垃圾数据清道夫来袭

作者智能小编

9 月 7, 2024 #MIT, #麻省理工科技评论

90年代申花出租车司机夜晚在车内看文汇报

麻省理工学院（MIT）研究人员近日开发了一款名为“数据来源探索器”的新工具，旨在帮助大型语言模型（LLM）的开发者筛选合适的训练数据集，以提高模型性能并降低法律和伦理风险。

背景

在大型语言模型的训练过程中，研究者们通常会使用来自数千个网络来源的海量数据集。然而，随着数据集的组合和重新组合，关于数据来源的重要信息以及使用限制往往在过程中丢失或混淆。这不仅可能引发法律和伦理问题，还可能影响模型的性能。

研究团队发现

MIT 及其他机构的跨学科研究团队对 1800 多个常见数据集进行了系统审计，发现超过 70% 的数据集缺少某些许可信息，约 50% 的数据集包含错误信息。这些发现揭示了数据集在来源、许可和使用方式方面的不透明问题。

数据来源探索器

基于这些发现，研究团队开发了“数据来源探索器”工具。该工具能够自动生成数据集的创建者、来源、许可和允许使用方式的易于阅读的总结。MIT 媒体实验室人类动力学小组负责人 Alex“Sandy”Pentland 教授表示，这款工具可以帮助监管者和从业者在部署 AI 时做出明智决策，并推动 AI 的负责任发展。

以下是该工具的主要功能：

自动生成数据集总结：工具可以自动分析数据集的来源、创建和许可历史，生成结构化的概述。
数据集排序和筛选：用户可以根据特定标准对数据集进行排序和筛选。
下载数据来源卡：用户可以下载包含数据集特征简明概述的数据来源卡。

影响与意义

“数据来源探索器”可以帮助 AI 从业者选择适合模型目标的数据集，从而构建更有效的模型。长期来看，这有助于提升 AI 模型在实际应用中的准确性，例如在评估贷款申请或回应客户查询时。

MIT 人类动力学小组的研究生 Robert Mahari 指出：“了解 AI 模型的能力和局限性，最好的方式之一就是理解它所训练的数据；当数据来源不清或混淆时，透明性就成了一个严重的问题。”

未来展望

研究人员计划将他们的分析扩展到多模态数据，如视频和语音，并研究数据来源网站的服务条款如何在数据集中得到反映。同时，他们还在与监管者接触，讨论其发现以及微调数据所带来的独特版权问题。

这项研究已经发表在 Nature Machine Intelligence 杂志上，为 AI 领域的数据透明度和模型训练提供了新的视角和工具。随着“数据来源探索器”的推广和使用，未来 AI 模型的训练将更加精准和可靠。

>>> Read more <<<

智能新闻

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

MIT新工具助甄选，垃圾数据清道夫来袭

作者智能小编

背景

研究团队发现

数据来源探索器

影响与意义

未来展望

相关文章

Taiwan’s Youth in a Frenzy Over Pop Mart Toys

台湾Z世代“盲盒瘾”：泡泡玛特爆红

Koreans Flock to Late-Night Eateries But Is It Just for Melons?

发表回复取消回复

为您推荐

Taiwan’s Youth in a Frenzy Over Pop Mart Toys

台湾Z世代“盲盒瘾”：泡泡玛特爆红

Koreans Flock to Late-Night Eateries But Is It Just for Melons?

深夜瓜摊：半数顾客竟是韩国人？

作者智能小编

背景

研究团队发现

数据来源探索器

影响与意义

未来展望

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复