返回 / All projects
2024RAG · AI

金融文档 RAG 问答

招股说明书、研报、年报跨文档检索与对比

LIVE

在线体验

fin-doc-rag · 混合检索(BM25 + TF-IDF)

BM25 + TF-IDF 余弦两路信号融合(0.3:0.7)检索 14 个文档切片,答案抽取自最相关切片并标注来源。

我的角色
AI 产品 + 工程
年份
2024
团队
1 人(独立)
状态
原型 / Demo
01

项目概述

面向金融合规团队的多文档检索问答系统:混合 BM25 + 向量召回,支持中英文跨语言查询,并以结构化、带引用的形式输出答案,让结论可被追溯。

02

问题

P01

招股书、研报、年报跨文档查找耗时,关键信息散落在数百页 PDF 里。

P02

单一检索方式召回不全,答案缺引用、难以追溯与复核。

03

架构与流程

architecture.diagram
STEP 01
分块编码

文档切片并编码

STEP 02
BM25 召回

关键词稀疏召回

STEP 03
稠密向量

语义向量召回

STEP 04
重排

0.3:0.7 混合融合

STEP 05
带引用合成

结构化 JSON + 引用

04

核心功能

VIEW 01

混合检索

BM25 与向量按 0.3:0.7 融合,召回更全。

VIEW 02

跨语言查询

支持中英文混合提问。

VIEW 03

结构化输出

answer / sources / confidence 三段式 JSON。

VIEW 04

内联引用卡片

每条结论链接回原文片段。

05

量化成果

11
监管文档

PBOC / SAFE / 人大等多来源。

0.3:0.7
混合权重

稀疏:稠密召回融合比。

JSON
结构化答案

答案 / 来源 / 置信度可追溯。

06

技术栈

BM25EmbeddingsHybrid RetrievalClaude APIPythonNext.js
下一个项目

支付风险监控助手