Jina-embeddings-v3横空出世：多语言长文本检索新利器

作者智能小编

9 月 19, 2024 #每日AI快讯, #语言

北京时间2024年9月27日 – Jina AI 今日宣布推出其最新文本嵌入模型 Jina-embeddings-v3，该模型专为多语言和长文本上下文检索任务而设计，旨在为各种自然语言处理应用提供更强大的功能。

Jina-embeddings-v3 拥有 5.7 亿参数，支持长达 8192 个 token 的文本处理，并通过特定任务的低秩适应（LoRA）适配器和 Matryoshka 表示学习技术，生成高质量的嵌入向量。该模型在 MTEB 基准测试中表现出色，性能超越现有专有嵌入模型，同时保持较高的成本效益，使其成为生产和边缘计算环境的理想选择。

多语言能力和长文本支持

Jina-embeddings-v3 的主要优势之一是其多语言能力，能够理解和处理多种语言的文本，使其能够在全球范围内广泛应用。该模型还支持长达 8192 个 token 的文本处理，使其能够处理详细的用户查询和长篇文档，这在信息检索、问答系统和内容推荐等应用中至关重要。

任务特定优化和 Matryoshka 表示学习

为了进一步提升模型的性能，Jina-embeddings-v3 引入了 LoRA 适配器，该适配器是低秩矩阵，可以插入到模型的特定层中，调整模型的行为，使其针对不同的任务（如检索、聚类、分类）生成优化的嵌入向量。此外，Matryoshka 表示学习技术允许模型在保持性能的同时，灵活调整嵌入向量的维度，以适应不同的存储和计算需求。

广泛的应用场景

Jina-embeddings-v3 的应用场景非常广泛，包括：