LIVE
完整源码 GitHub ↗在线体验
fin-doc-rag · 混合检索(BM25 + TF-IDF)
BM25 + TF-IDF 余弦两路信号融合(0.3:0.7)检索 14 个文档切片,答案抽取自最相关切片并标注来源。
我的角色
AI 产品 + 工程
年份
2024
团队
1 人(独立)
状态
原型 / Demo
01
项目概述
面向金融合规团队的多文档检索问答系统:混合 BM25 + 向量召回,支持中英文跨语言查询,并以结构化、带引用的形式输出答案,让结论可被追溯。
02
问题
P01
招股书、研报、年报跨文档查找耗时,关键信息散落在数百页 PDF 里。
P02
单一检索方式召回不全,答案缺引用、难以追溯与复核。
03
架构与流程
architecture.diagram
STEP 01
分块编码
文档切片并编码
STEP 02
BM25 召回
关键词稀疏召回
STEP 03
稠密向量
语义向量召回
STEP 04
重排
0.3:0.7 混合融合
STEP 05
带引用合成
结构化 JSON + 引用
04
核心功能
VIEW 01
混合检索
BM25 与向量按 0.3:0.7 融合,召回更全。
VIEW 02
跨语言查询
支持中英文混合提问。
VIEW 03
结构化输出
answer / sources / confidence 三段式 JSON。
VIEW 04
内联引用卡片
每条结论链接回原文片段。
05
量化成果
11
监管文档
PBOC / SAFE / 人大等多来源。
0.3:0.7
混合权重
稀疏:稠密召回融合比。
JSON
结构化答案
答案 / 来源 / 置信度可追溯。
06
技术栈
BM25EmbeddingsHybrid RetrievalClaude APIPythonNext.js
下一个项目