有哪些新的需求需要多模态RAG
-
外宣合规 Agent
-
涉及一些插图或者图片式文字需要审核,需要对图片式文字进行OCR解析然后分析,插图进行图像理解的分析
-
ppt,xlsx等不同文件格式需要审核
-
-
国电投项目
- 有不可编辑的pdf,插图,或者表格,需要建立检索入库
-
开源合规 Agent
- sca输出的screen截图报告,需要进行图像理解的分析
建立多模态RAG技术能力,需要解决以下几点问题
如何有效地解析和索引多模态文档
MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素(如标题、段落、图像、视频等)。

如何建立多模态index与进行多模态检索
方法分为三类:
(a) 单模态单stream检索,将所有模态统一到单一(文本)的综合模态中;
(b) 跨模态单stream检索,将所有模态嵌入到一个共享的向量空间中;
(c) 单模态多stream检索,为每种模态分别维护独立的数据库。

2.3 如何在生成过程中整合多模态数据
多模态大型语言模型(MLLM)是基于Transformer的LLM,它们经过多模态数据(包括文本、图像、表格、音频和视频)的预训练和微调,以分析和理解各种数据格式 ,代表性模型包括GPT-4o。

2.4 MRAG系统的性能评价指标
评估MRAG系统的质量分为三个方面
检索评估:
-
命中率: 查询中正确文档出现在前N个结果中的百分比 。
-
平均倒数排名(MRR): 量化最有用的文档是否排名更高 。
-
相关性分数(RS): 评估检索到的条目与查询的相关性(适用于多模态数据),例如评估检索到的图像或文本与用户意图的对齐程度 。
-
上下文召回率: 衡量检索到的上下文与真实答案的匹配程度 。
-
上下文精度: 评估最相关的上下文项是否排名高于不相关的项 。
生成评估:
-
正确性分数(CS): 评估生成响应相对于原始上下文的准确性 。
-
多模态答案相关性: 衡量多模态RAG管道生成器输出与提供输入的关联程度 。
-
多模态忠实度: 评估生成输出是否与检索上下文的内容事实性对齐 。
-
图像连贯性: 评估图像与伴随文本的对齐程度 。
-
图像帮助性: 评估图像对用户理解的有效贡献 。
-
图像引用: 衡量文本引用或解释图像的准确性 。
-
传统的NLP指标(BLEU、ROUGE)可以使用,但单独使用往往不足 。事实一致性检查(例如使用BERTScore)至关重要 。
端到端性能:
-
延迟: 查询的端到端处理时间 。
-
吞吐量: 单位时间内处理的查询数量 。
-
资源利用率: CPU、GPU和内存使用情况 。
-
错误率、用户满意度和任务成功率(A/B测试) 。
-
人工评估对于判断正确性、清晰度、完整性以及识别幻觉至关重要 。
评估MRAG系统的基准与数据集
MRAG-Bench,以视觉为中心的LVLM基准
M2RAG,用于评估MLLM利用多模态检索文档能力的基准
TEMPRAGEVAL,针对时间敏感型问答
多模态RAG的演进版本
MRAG1.0
MRAG1.0 被称为”伪MRAG”,通过将多模态数据转换为统一的文本表示,利用现有的文本检索和生成机制实现了从RAG到MRAG的无缝衔接
框架图

MRAG2.0
MRAG2.0进入了”真正的多模态”时代,支持用户具有多模态输入的查询,并保留知识库中的原始多模态数据。通过利用MLLMs的能力,生成模块可以直接处理多模态数据,从而最小化数据转换期间的信息损
失。
框架图

在现有 Demo 中( dify) 需要补足的能力
| RAG流程 | 功能/模型 | 哪个版本需要(1指MRAG1.0版本) |
|---|---|---|
| 文档智能 | 多格式文档解码工具 | 1,2 |
| CV,目标检测,版面分析模型 | 1,2 | |
| CV,文本检测与识别ocr模型 | 1,2 | |
| CV,表格识别模型 | 1 | |
| MLLM模型,图像理解方向 | ### 2 | |
| image/table caption知识库,文本格式 | ### 1,2 | |
| 多模态知识库,图片格式 | 2 | |
| 检索 | 多模态embeding模型 | 2 |
| 多模态向量库 | 2 | |
| 多模态rerank模型 | 2 | |
| query与上下文 | 多轮对话文本中带有图片信息 | 2 |
| 生成 | 多模态prompt设计 | 2 |
| MLLM模型,文本生成方向 | 2 |
两个版本的区别
| 特性 | MRAG1.0 (伪MRAG) | MRAG2.0 (真多模态) |
|---|---|---|
| 数据处理方式 | 将多模态数据转换为统一的文本表示,再进行检索和生成 | 保留原始多模态数据,直接利用MLLMs处理多模态数据 |
| 检索能力 | 基于文本向量的检索技术,无法充分利用跨模态信息的优势 | 支持跨模态检索,能够结合文本和多模态数据进行更精确的检索 |
| 生成能力 | 生成纯文本答案,容易因数据转换导致信息丢失 | 能够生成结合多模态数据的答案,显著减少信息损失 |
| 主要局限性 | * 数据转换过程复杂 * 易丢失细粒度跨模式信息 * 检索准确率受限 |
* 业界多模态检索baseline能力不及文件检索 * 需要高效组织多样化数据格式 |
| 应用场景 | 主要适用于以文本为主、多模态为辅的应用场景 | 更适合需要结合多模态数据进行理解和生成的任务,如视觉问答(VQA) |
具体执行计划
基于当前dify的能力,分析外宣合规 Agent,国电投项目和开源合规 Agent的需求,初步选定使用MRAG1.0的方案即可满足
具体的方案设计流程:

OCR-base模型分类为两类,pipeline和end2end,依据项目需求选择适合自己的技术方向,具体了解参考链接
文档智能技术pipeline和end2end的区别
| 技术类型 | Pipeline(OCR-nofree) | End2End(OCR-free) |
|---|---|---|
| 代表工作 | PP-Structure、RagFlow、Miner-U、PPOCR v5.0 | 通用 VLM:GPT-4V,Qwen2.5-VL-72B 专用模型:Dolphine、Donut、Nougat、KOSMOS-2.5、Monkey、Vary |
| 优点 | 1. 模块化优化,灵活性强 2. 鲁棒性高(适应复杂版式) 3. 技术复用成本低 |
1. 端到端流程极简 2. 多任务兼容(Prompt 驱动) 3. 扩展性高(快速适配新场景) 4. 弱数据依赖(部分零样本) |
| 缺点 | 1. 流程复杂,维护成本高 2. 错误传播风险 3. 后处理逻辑复杂(布局检测、顺序还原) 4. 方案同质化 |
1. 数据瓶颈(语种偏向、噪声) 2. 模型缺陷(幻觉、延迟高) 3. 技术同质化(ViT+LLM 复用) 4. 可控性弱 |
具体使用的工具或者开源模型:
| RAG流程 | 功能/能力 | Pipeline方向 | End2End方向 | 拟选择方案 |
|---|---|---|---|---|
| 解析 | 多格式文档解码工具 | 基于markitdown(2024年)或者magic-doc(2024年)二次开发 | 基于markitdown或者magic-doc二次开发 | magic-doc二次开发 |
| CV,目标检测,版面分析模型 | PP-Structure(2022年,当前还在更新)、RagFlow(2023年)、Miner-U(2024年,当前还在更新) | 通用 VLM:Qwen2.5-VL-72B 专用模型:Dolphin(2025年)、Donut(2023年)、Nougat(2023年)、KOSMOS(2023年)、Monkey(2023年)、Vary(2023年) |
Dolphin,选择原因 | |
| CV,文本检测与识别ocr模型 | ||||
| CV,表格识别模型 | ||||
| image2caption模型 | 通用 VLM:GPT-4V、Claude、Gemini、Qwen2.5-VL-72B、internVL3-38B | 通用 VLM:GPT-4V、Claude、Gemini、Qwen2.5-VL-72B、internVL3-38B | Qwen2.5-VL-72B 选择原因 |
|
| 检索 | image/table caption知识库,文本格式 | dify内置向量库,milvus。 elasticsearch openSearch weaviate chroma qdrant |
dify内置向量库,milvus。 elasticsearch openSearch weaviate chroma qdrant |
dify内置向量库,milvus |
Miner-U与Dolphine比较结果,参考链接
参考资料
https://arxiv.org/pdf/2504.08748
https://gemini.google.com/app/4569e251136cfbd9?hl=zh
https://mp.weixin.qq.com/s/kA53TFmcRcrXq6tenVKapg
https://mp.weixin.qq.com/s/MEgilART1t9KNEi82BScGQ