暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

OCR噪声会对RAG效果产生严重影响吗?

AI 搜索引擎 2024-12-18
282
今天分享的是上海人工智能实验室发布的一篇论文:
OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation。
评估OCR对检索增强生成的级联影响。
论文链接:https://arxiv.org/pdf/2412.02592
代码链接:https://github.com/opendatalab/OHR-Bench

01

摘要

本文探讨了OCR技术对检索增强生成(RAG)系统的影响。RAG通过整合外部知识来增强大语言模型(LLM),减少虚构信息并纳入最新信息,而无需重新训练。研究中发现,由于OCR预测的不完美性和结构化数据的非均匀表示,知识库中不可避免地存在各种OCR噪声。

研究团队创建了OHRBench,这是首个用于理解OCR对RAG系统级联影响的基准,包含350份来自六个实际应用领域的非结构化PDF文档,以及基于文档中多模态元素的问答对。研究识别了两种OCR噪声类型:语义噪声和格式噪声,并通过扰动生成不同程度的噪声数据集。研究使用OHRBench全面评估了当前的OCR解决方案,发现没有一种方案能够构建高质量的RAG系统知识库,并系统地评估了这两种噪声类型的影响,揭示了RAG系统的脆弱性。此外,研究还讨论了在RAG系统中使用无需OCR的视觉语言模型(VLMs)的潜力。

02

OHRBench

OHRBench:量化OCR噪声对RAG系统的影响

OHRBench数据集由来自六个应用领域(教科书、法律、金融、报纸、手册、学术)的350份PDF文档组成,总页面数超过4000页。这些文档包含了多种模态元素,如表格、公式和复杂布局,给OCR和RAG系统带来挑战。
OHRBench的核心内容包括:
1. 基准数据集:350份PDF文档,总计4012页,其中1370页用于Q&A生成,剩余部分构成知识库。
2. 受扰动的结构化数据:基于OCR结果,生成带有不同噪声级别的扰动数据集,探索OCR噪声与RAG性能之间的关系。

数据集统计

  • 文档数量:350份PDF文档,涵盖六个领域
  • 页面数量:4012页,包含Q&A生成的1370页,剩余为知识库部分
  • 平均每页词汇数:482.61个
  • 问题和答案:4598个Q&A对,问题平均包含18.56个词汇,答案平均包含7.91个词汇

评测方法

OHRBench对OCR和RAG性能的评估包括以下几个方面:
1. OCR解决方案评估
通过计算OCR结果与ground_truth结构化数据的编辑距离,量化不同OCR解决方案的差异。
2. OCR噪声影响评估
生成不同噪声级别的扰动数据集,分析噪声类型(语义噪声和格式噪声)对RAG系统性能的影响。
3. RAG系统评估
使用LCS@1和LCS@5评估检索性能,使用EM和F1评估生成性能,综合评估RAG系统的整体表现。
4. VLMs评估
评估不同的视觉语言模型(VLMs)在RAG系统中的应用潜力,探索不同输入方式(图像、OCR文本或二者结合)对性能的影响。
实验结果

OHRBench的实验结果表明,OCR噪声对RAG系统的性能有显著影响。具体表现如下:

1. OCR解决方案评估
各OCR方案的表现存在差异,基于流程的OCR系统优于端到端模型和VLMs。即使是最优的OCR解决方案,其性能也远不及ground_truth数据。
2. OCR噪声影响评估
  • 语义噪声对RAG系统的影响最为显著,尤其是在检索和生成阶段,随着噪声级别的增加,性能显著下降。

  • 格式噪声主要影响与多模态元素相关的问题,如表格和公式。不同检索器和LLM对格式噪声的敏感性有所不同。

3. RAG系统评估
  • 检索性能:BGEM3和BM25是表现较好的检索器,但随着噪声增多,性能下降明显。

  • 生成性能:Qwen2和Llama-3.1表现较好,但噪声影响显著,尤其是与表格相关的问题。

  • 整体系统性能:语义噪声对系统性能的影响最大,格式噪声影响较小

4. VLMs评估
  • 使用图像输入时,VLMs的性能较差;

  • 使用OCR文本输入时,VLMs的表现提升;

  • 图像和OCR文本结合输入时,VLMs的性能最为接近ground_truth数据。

03

总结

本研究通过OHRBench深入评估了OCR噪声对RAG系统的影响,结果表明现有OCR解决方案在构建高质量RAG知识库方面仍存在局限。为提高RAG系统的性能,未来需要开发更鲁棒的OCR方案,并探索视觉语言模型在RAG中的潜力,尤其是在处理多模态数据时。

04

 编者简介

李剑楠:华东师范大学硕士研究生,研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发,代表公司参加 DTCC、WAIM 等会议进行主题分享。
▎往期推荐
最新公开: 大规模视频CoT推理数据集及其制作流程
ACL2024: 生成器+阅读器,大幅提升大模型协作能力
阿里多模态RAG新框架,快速提升图文检索准确率
对 AI 搜索、向量检索、RAG、Agent 等技术方向感兴趣的伙伴们,如想加入「向量检索实验室」技术交流群,可添加微信 15650753618,进行申请 ~

文章转载自AI 搜索引擎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论