向量嵌入概述

🔢 向量嵌入概述

向量嵌入（Vector Embedding）是将文本、图像等非结构化数据转换为高维数值向量的技术。这些向量能够捕获数据的语义信息，使得计算机可以理解和比较内容的含义。

嵌入向量示意图

人工智能

→

[0.023, -0.156, 0.892, ..., 0.234]

文本被转换为 1536 维的数值向量，语义相似的文本会有相近的向量表示

核心概念

🤖

嵌入模型

•OpenAI: text-embedding-3-small/large
•Cohere: embed-multilingual-v3
•通义千问: text-embedding-v3
•本地模型: BGE, M3E 等

📐

向量维度

•维度越高，表达能力越强
•常见维度：384, 768, 1536, 3072
•维度影响存储和计算成本
•需权衡精度与效率

为什么需要向量嵌入？

传统的关键词匹配无法理解语义。例如，"手机没电了"和"手机电量不足"表达相同意思，但关键词完全不同。向量嵌入能够捕获这种语义相似性，使搜索更加智能。

在 seekdb 中使用嵌入

seekdb 提供内置的 AI_EMBED 函数，自动调用配置的嵌入模型生成向量。

ai_embed.sql

1

2

3

4

5

6

7

8

9

10

11

12

13

14

-- 使用 AI_EMBED 生成嵌入向量
SELECT AI_EMBED('人工智能是计算机科学的一个分支') AS embedding;

-- 在 INSERT 中使用
INSERT INTO documents (content, embedding)
VALUES (
    '深度学习是机器学习的子领域',
    AI_EMBED('深度学习是机器学习的子领域')
);

-- 在查询中使用
SELECT * FROM documents
ORDER BY COSINE_DISTANCE(embedding, AI_EMBED('什么是深度学习'))
LIMIT 5;

运行结果

点击"运行"按钮查看结果

主流嵌入模型对比

模型	维度	多语言	特点
text-embedding-3-small	1536	✓	性价比高，适合大多数场景
text-embedding-3-large	3072	✓	最高精度，适合高要求场景
BGE-M3	1024	✓	开源模型，支持本地部署
M3E-base	768	中文优化	中文效果好，轻量级

最佳实践

1

选择合适的模型

根据语言、精度要求和成本选择嵌入模型。中文场景推荐使用 BGE-M3 或 M3E，通用场景可选择 OpenAI text-embedding-3-small。

2

保持模型一致性

存储和查询必须使用相同的嵌入模型。不同模型生成的向量无法直接比较。切换模型需要重新生成所有向量。

3

批量处理优化

batch_embed.sql

1

2

3

4

5

6

-- 批量生成嵌入以提高效率
INSERT INTO documents (content, embedding)
SELECT content, AI_EMBED(content)
FROM source_data
WHERE embedding IS NULL
LIMIT 1000;  -- 分批处理，避免超时

运行结果

点击"运行"按钮查看结果

以下哪个选项正确描述了向量嵌入的特点？

小测验

以下哪个选项正确描述了向量嵌入的特点？