Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

SmolLM2: Hugging Face 推出的紧凑型大语言模型,为设备端应用带来新可能

引言: 在人工智能领域,大语言模型(LLM)正以前所未有的速度发展,但其庞大的体积和对高性能硬件的依赖,限制了其在设备端应用的普及。Hugging Face 近期推出的 SmolLM2,以其紧凑的体积和强大的功能,为解决这一难题提供了新的思路。

SmolLM2 简介: SmolLM2 是 Hugging Face 推出的紧凑型大语言模型,旨在为设备端应用提供高效的语言处理能力。它提供三种不同参数级别的模型:1.7B、360M 和 135M,以适应不同的应用场景和资源限制。SmolLM2 在理解和执行指令、进行知识推理及解决数学问题方面表现出色,并通过监督微调和超反馈优化技术,进一步提升了其准确性和响应能力。

SmolLM2 的主要功能:

  • 文本重写: SmolLM2 可以对文本进行重写,使其更加精炼或符合特定的风格和要求。
  • 摘要生成:模型可以从较长的文本中提取关键信息,生成简洁的摘要。
  • 函数调用: SmolLM2 支持函数调用,使其能够与现有软件无缝集成,并为自动编码助手或个人 AI 应用程序提供强大的功能。
  • 设备端运行: SmolLM2可以在本地设备上运行,无需依赖云基础设施,使其适合延迟、隐私和硬件限制重要的应用场景。
  • 多任务处理: 模型针对多种自然语言处理任务进行优化,使其能够胜任各种应用程序,尤其是在与云服务连接受限的设备上。

SmolLM2 的技术原理:

  • 后训练技术: SmolLM2 系列包含先进的后训练技术,如监督微调 (SFT) 和直接偏好优化 (DPO),增强模型处理复杂指令和提供更准确响应的能力。
  • 框架兼容性: SmolLM2 与 llama.cpp 和 Transformers.js 等框架兼容,使其能够在设备上高效运行,包括本地 CPU 处理和在浏览器环境中运行,无需专门的 GPU。
  • 数据集训练: SmolLM2 使用来自 FineWeb-Edu、DCLM 和 Stack 等数据集的 11万亿个标记进行训练,涵盖广泛的内容,主要侧重于英语文本。
  • 模型结构: SmolLM2 的 135M 和 360M 模型采用类似 MobileLLM 的设计,加入 Grouped-Query Attention 结构,而 1.7B 模型则采用相对传统的设计。所有模型均使用 embedding tying,上下文长度为 2048 个 token。

SmolLM2 的应用场景:

  • 设备端应用: SmolLM2 专为在资源有限的设备上运行设计,如智能手机或边缘设备,无需依赖云基础设施。
  • 延迟敏感和隐私保护: 适用于对延迟和数据隐私有高要求的应用,如边缘 AI 应用。
  • 文本处理任务: 包括文本重写、摘要生成和函数调用等,特别是在云服务连接受限的设备上。
  • 自动编码助手: 支持与现有软件无缝集成的自动编码助手或个人 AI 应用程序,特别是需要函数调用功能的场合。
  • NLP 任务: 在常见的自然语言处理任务中表现出色,适合需要实时设备处理的应用。

结论: SmolLM2的出现为设备端应用带来了新的可能,它能够为智能手机、边缘设备等资源有限的设备提供强大的语言处理能力,并满足延迟、隐私和硬件限制等方面的需求。未来,随着技术的不断发展,我们有理由相信,SmolLM2 将在更多领域发挥重要作用,推动人工智能应用的进一步普及。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注