混合搜索

🔀 混合搜索

混合搜索（Hybrid Search）结合了向量搜索和全文搜索的优势，既能理解语义含义，又能精确匹配关键词，提供更准确的搜索结果。

🧠

向量搜索

理解语义，找到意思相近的内容

➕

+

📝

全文搜索

精确匹配关键词，支持模糊搜索

为什么需要混合搜索？

❌ 单独使用向量搜索的局限

• 可能忽略重要的精确关键词匹配
• 对专有名词、产品型号处理不佳
• 需要嵌入模型支持

❌ 单独使用全文搜索的局限

• 无法理解同义词和语义
• 依赖用户输入准确的关键词
• 难以处理自然语言查询

混合搜索的优势

结合两者优势：既能理解「手机卡顿」和「手机运行慢」是相似的查询（语义），又能精确匹配「iPhone 15」这样的专有名词（关键词）。

实战练习

1

创建支持混合搜索的表

同时包含全文索引和向量索引

create_hybrid_table.sql

1

2

3

4

5

6

7

8

9

10

11

12

13

-- 创建产品表
CREATE TABLE products (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(255) NOT NULL,
    description TEXT,
    category VARCHAR(100),
    embedding VECTOR(1536),
    FULLTEXT INDEX ft_idx (name, description)  -- 全文索引
);

-- 创建向量索引
CREATE INDEX vec_idx ON products
USING HNSW (embedding);

运行结果

点击"运行"按钮查看结果

2

插入测试数据

添加一些产品数据用于测试

insert_products.sql

1

2

3

4

5

6

7

8

9

10

11

12

13

14

INSERT INTO products (name, description, category, embedding)
VALUES 
    ('iPhone 15 Pro Max', 
     '苹果最新旗舰手机，搭载 A17 Pro 芯片', 
     '手机',
     AI_EMBED('苹果最新旗舰手机，搭载 A17 Pro 芯片')),
    ('华为 Mate 60 Pro', 
     '华为新一代商务旗舰，卫星通讯', 
     '手机',
     AI_EMBED('华为新一代商务旗舰，卫星通讯')),
    ('MacBook Pro 16', 
     '专业级笔记本电脑，M3 Max 芯片', 
     '电脑',
     AI_EMBED('专业级笔记本电脑，M3 Max 芯片'));

运行结果

点击"运行"按钮查看结果

3

执行混合搜索

结合向量搜索和全文搜索

使用权重系数平衡向量搜索和全文搜索的结果

weighted_hybrid.sql

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

-- 混合搜索：加权融合
WITH vector_results AS (
    SELECT id, name,
           COSINE_DISTANCE(embedding, AI_EMBED('高性能手机')) AS vec_score
    FROM products
),
text_results AS (
    SELECT id, name,
           MATCH(name, description) AGAINST('iPhone Pro' IN BOOLEAN MODE) AS text_score
    FROM products
)
SELECT 
    v.id,
    v.name,
    -- 混合得分：向量 60% + 全文 40%
    (0.6 * (1 - v.vec_score) + 0.4 * COALESCE(t.text_score, 0)) AS hybrid_score
FROM vector_results v
LEFT JOIN text_results t ON v.id = t.id
ORDER BY hybrid_score DESC
LIMIT 10;

运行结果

点击"运行"按钮查看结果

融合策略对比

策略	优点	缺点	适用场景
加权融合	简单直观，易于调优	需要手动调节权重	已知偏好的场景
RRF 融合	无需调参，效果稳定	对得分差异不敏感	通用搜索场景
Rerank	效果最佳	需要额外模型，延迟较高	高精度要求场景

最佳实践

权重选择建议

短查询（1-3 词）：向量权重可适当提高到 70%
长查询（句子级）：可平衡使用 50:50
包含专有名词：全文权重可提高到 60%

性能优化

先用向量搜索召回候选集（如 Top 100）
再用全文搜索在候选集内精排
最终返回 Top K 结果

RRF (Reciprocal Rank Fusion) 算法的主要特点是什么？

小测验

RRF (Reciprocal Rank Fusion) 算法的主要特点是什么？

seekdb

🔀 混合搜索

向量搜索

+

全文搜索

为什么需要混合搜索？

❌ 单独使用向量搜索的局限

❌ 单独使用全文搜索的局限

混合搜索的优势

实战练习

创建支持混合搜索的表

运行结果

插入测试数据

运行结果

执行混合搜索

运行结果

融合策略对比

最佳实践

权重选择建议

性能优化