Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京—— 近日,人工智能领域再添新动向,OpenCSG开源了一项名为smoltalk-chinese的合成数据集,旨在为中文大型语言模型(LLM)的训练提供高质量的数据支持。该数据集包含超过70万条合成数据,覆盖了信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和头脑风暴等多种任务类型,被视为提升中文LLM性能的关键一步。

数据集的多样性与高质量

smoltalk-chinese数据集的突出特点在于其任务类型的多样性和数据质量的保证。OpenCSG团队采用了先进的生成模型,如deepseek-v2.5和qwen2.5-72b-instruct,并结合Distilabel库进行数据生成。这种组合确保了生成数据的丰富性和多样性,避免了单一数据来源可能带来的偏差。

为了保证数据质量,该团队还引入了严格的数据筛选机制。他们使用qwen2-7b-instruct模型对对话数据的第一条指令进行清晰度和流畅度评分,仅保留评分在2分及以上的数据。此外,为了避免数据重复,他们还使用了gte-large-zh模型对对话数据的第一条指令进行编码,并根据嵌入相似度进行去重处理,阈值设定为0.8。

技术原理与生成流程

smoltalk-chinese数据集的生成流程可概括为以下几个关键步骤:

  1. 数据生成:利用Magpie合成原始数据,并结合多种先进的生成模型,如deepseek-v2.5和qwen2.5-72b-instruct,以及Distilabel库,确保生成数据的多样性。
  2. 数据筛选:使用qwen2-7b-instruct模型对对话数据的第一条指令进行清晰度和流畅度评分,只保留评分在2分及以上的数据。
  3. 去重处理:使用gte-large-zh模型对对话数据的第一条指令进行编码,根据嵌入相似度(阈值设定为0.8)进行去重处理。
  4. 数据分类统计:对生成的数据进行分类和统计,以便更好地理解数据的分布和特性。

应用场景与未来展望

smoltalk-chinese数据集主要面向中文大型语言模型的监督微调(SFT)。通过高质量的合成数据,该数据集旨在提高模型在多种任务上的表现,并增强其在实际应用场景中的适应性。具体而言,其应用场景包括:

  • 语言模型微调:通过高质量的合成数据,支持模型在多种任务上的表现提升。
  • 多样化任务训练:涵盖信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和头脑风暴等多种任务类型,帮助模型在这些领域中更好地理解和生成文本。
  • 对话系统优化:通过模拟真实的用户交互场景,为对话系统提供丰富的训练材料,使其能够更好地理解和生成自然语言对话。
  • 数学推理能力提升:数据集中包含来自 Math23K 中文版的数学题数据,有助于增强模型在数学推理和问题解决方面的能力。

OpenCSG团队表示,他们希望通过smoltalk-chinese数据集的开源,能够促进中文大语言模型的发展,并推动人工智能技术在更广泛领域的应用。该数据集已在HuggingFace模型库上公开,供研究人员和开发者免费使用。

数据集的开源意义

smoltalk-chinese数据集的开源,无疑为中文大语言模型的研究和应用注入了新的活力。它不仅为研究人员提供了高质量的训练数据,也为开发者提供了更便捷的工具和资源。随着人工智能技术的不断发展,我们有理由相信,像smoltalk-chinese这样的开源数据集,将在推动人工智能技术进步的道路上发挥越来越重要的作用。

参考文献

结语

smoltalk-chinese数据集的发布,标志着中文大语言模型发展的一个重要里程碑。它不仅提供了高质量的训练数据,也为研究人员和开发者提供了新的思路和方向。随着人工智能技术的不断进步,我们期待看到更多像smoltalk-chinese这样的开源项目,为人工智能的未来发展贡献力量。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注