在智能文档处理领域,传统 OCR 技术正遭遇复杂场景的全面挑战。矩阵起源副总裁赵晨阳在专访中直言,单一 OCR 模型在混合排版、表格重建等场景已触及天花板,而多模态大模型(VLM)凭借 Self-Supervised 预训练机制,仅需千级样本和个位数 GPU 小时即可完成领域迁移,彻底改写技术成本公式。
其团队实战案例印证了技术代差:某三甲医院的病历诊断书解析中,VLM 驱动方案通过 “OCR 粗加工 +VLM 精准补刀”混合架构,将手写体识别的人工标注成本削减超 50%,关键字段召回率 3 轮迭代跃升至 89%,总训练成本仅 500 元,周期压缩至 1 周!这一突破性成果背后,是 DocLLM 的 HTML 结构化生成、Q-Former 跨模态压缩等核心技术对语义关联瓶颈的粉碎。
面对私有化部署挑战,赵晨阳提出了蒸馏压参至 3B 级、INT4 量化感知训练减重 75%,让边缘设备单卡跑赢 7B 大模型的“小 - 快 - 分”三连击。更前瞻性地提出:Agent 军团(OCR 侦察兵 +VLM 特种部队)的动态路由机制、GPU 分舱式多模态 RAG 将接管复杂文档治理战场的思路。
在 7 月 25-26 日深圳 DA 数智技术大会上,赵晨阳将分享多模态大模型技术应用实践话题,在此之前我们采访了他,提前透露技术细节。
赵晨阳:传统 OCR 模型主要基于 CNN/RNN/LSTM 的模型架构训练,在训练过程中需要有高质量的已标注数据集来做训练,在选了阶段在处理复杂文档时,传统 OCR 单一模型能够覆盖的场景相对单一,比如排版,文字提取,以及对象识别。但是对于复杂文档,比如包含了表格,图片,文字以及图片描述的场景下,对于单份文档的识别往往需要借助个多个模型的协作来完成。
多模态大模型的训练方法,大多数是 Self-Supervised 训练模式,利用大量未标注的数据进行预训练,从而减少对人工标注数据的依赖。这种方法通过设计预训练任务(如遮盖语言建模、图像 - 文本对齐等)来学习数据的内在结构和跨模态的表示能力比如(LayoutLMv3,DiT)。
赵晨阳:首先要说明一点,传统 OCR 模型的训需要借助大量的已标注数据,那么在以往的落地过程中成本结构基本上可以分为:数据标注,清洗,计算资源需求,以及对场景适配的成本。其中标注成本相对较高。而基于大模型的架构去做 OCR 任务,则可以在已有的预训练模型基础上去做微调来适应场景需求,但是如果预训练部分是自己去实现的,那么成本一定是高于传统模式的。一般来说面对新的领域任务,凭借跨模态大规模预训练和 LoRA/Adapter 等参数高效微调技术,VLM 只需数百到一千级样本和个位数 GPU Hour 即可完成领域迁移。
赵晨阳:传统 OCR 在领域任务上有更好的表现,并且推理需要的资源小,时延低。我们在实践中将任务区分为两大类:区域分块,内容提取。可以类比人阅读书本的步骤,“先锁定区域,在仔细翻阅”。传统 OCR 做第一道粗加工,识别区域,做简单场景的 OCR,而复杂的分块,比如表格,图片,图表,不常见字符和多语言场景,依赖 VLM,VLM 只在难点或低置信片段上补刀。这样既保住 CPU 级毫秒级延迟,也能在复杂表格、多语混排、模糊拍照等场景下维持语义准确率。当然,我们希望的是在将来能够统一架构,利用 VLM 来统一处理多种场景。
赵晨阳:以 DocLLM 为例,生成式 Layout-Token 解码直接输出 HTML 结构,摆脱先检测再识别的链式误差。同时在“跨模态语义关联部分”,Transformer 在跨模态语义关联上经历了更细粒度的对齐目标、更加灵活的融合层设计,以及更高效可扩展的参数冻结 / 微调策略三轮进化,使得 VLM 既能秒级理解多张复杂图文,又能降低参量低成本扩展到新模态或小场景。BLIP-2 提出的 Querying Transformer (Q-Former) 通过 32–48 个可学习查询向量读取冻结视觉特征,再与 LLM 交互,把跨模态注意力收敛到百级 Token,既省显存又保精度。这里并不一定需要引入领域知识增强的预训练策略,领域知识增强可在后续的微调过程中实现。
以医疗报告为例,我们接触到一个有很多病例的场景,而病历中和诊断相关的内容基本固定在一个区域,如果通过常规的 VLM 或者 OCR 方式去识别,会出现幻觉,多识别,遗漏的情况。而正确的提取相关诊断信息,在 VLM 的背景下,实际上是一个相对固定的 VQA 的认为,因此我们在这个场景下同样的结合传统 OCR 做切割出有效识别部分,结合基于 VLM 的微调方案,来保证整个场景在数据识别部分的落地成功。
赵晨阳:在私有化部署 VLM 时,我们走的是“小 - 快 - 分”三步棋:我们首先大胆采用 Qwen-VL 7B 及其 2B 子系列,并在仅保留 Qwen 解码器的 Student-Tiny 模型上通过蒸馏把参数压到 3–5B,从而单卡 24GB 即可推理在极限压缩阶段,我们使用 INT4 量化感知训练(EdgeQAT 与 PyTorch QAT Flow),在 <1 % 精度损失下将权重尺寸再减 75 %。
赵晨阳:是的我认为是必要,这里更多的考验的是面向 RAG 的产品设计和落地能力。
多模态 RAG 要补足传统向量检索“只能比文本”的短板,关键是把图像与文本编码进同一个对比学习空间:将图片先经 CLIP/PaliGemma 等模型直接投射到跨模态嵌入,再与文本向量在同一 Index 内做 ANN 检索,可避免“先 Caption 再检索”的二次损耗。在检索路径上,用 IVF-PQ 在 CPU 侧过滤大段低相似向量、GPU 侧用 IVF-Flat 精排,若数据含大量影像,可再分配一张专用 GPU 建立 多模态子空间(图像 - 文本共嵌),文本库仍走原文字空间,通过路由网关按 Query 类型切换,从而既保旧系统稳定又获得跨模态召回提升。
赵晨阳:我们先以轻量 OCR 预处理 Agent 在 CPU 侧快速转写并输出置信度,再由路由 Agent 将低置信区域动态派发给经 VQA 范式微调的 Qwen-VL 解析 Agent,让后者通过“询问图像”一次性完成文字纠错、字段抽取与语义验证,从而把 OCR 与 VLM 协作统一到可观察 - 思考 - 行动的决策链里。
赵晨阳:以一个医疗行业的诊断数据为例,这里面我们大体上做了 2 层处理:提取和理解。提取部分有包括对于手写和机打内容的识别,而理解部分怎分为结构化信息抽取以及基于大模型的内容校验。如果放在以往的方案中,手写体的识别就需要长期的沟通和内容标注,通过监督学习来完成对于手写内容的准确识别,而基于 VLM 的方案,我们可以快速的形成 Zero Knowledge 到 Finetune 到小规模的 RLHF,再由大参数量的 LLM 基于 Fewshot 筛选结果,并且做数据合成,反馈到训练链路中来快速迭代模型本身。
初期 Recall 就达到 81%,经过 3 轮的训练之后,提升到了 89%,如果对比以往的模式,这个数字可能并不是很吸引人,但是从实现的周期上来说,只用去了 1 周左右的时间,消耗算力成本大概在 500 元左右,性价比相当高,不论是方案可行性,可拓展性还是规模化角度看,都有很大空间值得投入。
赵晨阳:首先从模型角度看,架构上越来越多的模型架构开始向 MOE 靠拢,并且从设计上就考虑了多模态的能力,但是对于开源模型来说,开放的权重和闭源模型比,缺乏了一个迭代的闭环。闭源模型的模型本身是会不断的做 Post Training(Continue Training) 的。而开源模型不会,因此这里对于落地方案来说,需要再不同的场景下考虑在哪个角度去迭代模型(FineTune,Continue Training etc.)。
同时显而易见的,私有化的敏感数据,尤其是对模型输出结果有很大影响的内容是很难走出私有云,用来做长期的训练和迭代的,这里可能考虑更多的不是技术上壁垒,而是数据主权的问题。回过头来看实际落地,或者说我们怎么去的话,我们还是尽量向社区靠拢,构建了一个相对简易的能够支撑我们本身业务的 MaaS 服务。做为我们在私有化环境的备选方案,以及公有云上部分模型的推理服务支撑。这里其实在开源社区也有很多很好的案例可以参考,比如 Anyscale Ray Serve,KServe 和 SGLang。
赵晨阳:个人认为,如果不是必要的话,可以优先采用闭源模型来尝试推进一些方案和构建能力。在尝试了 Prompting、评估、多轮迭代后,再去考虑是否基于一些开源模型来构建自己的方案。因为采用 SOTA 模型作为整个方案的基地,能够清楚的知道当前方案本身的缺陷和优势在哪,而不会浪费时间在探索模型能力上面。矩阵起源主要在数据的版本管理,内容提前和多模态数据的理解上,为下游的数据合成,微调和知识库构建提供了一个比较好的基础,能够快速的让多模态数据服务我们方案中的数据部分。
【嘉宾介绍】
赵晨阳:矩阵起源 AI 平台副总裁,硕士毕业于 Clark University,是一位在国际舞台上屡获殊荣的资深技术专家。曾在 Google 和电商巨头 Shopee 担任高级研发工程师,专注于遥感图像大数据和深度学习领域的研究与开发。精通深度学习 Pipeline 的构建,对中台技术的研发有着深刻的理解和丰富的实践经验。对 AI 与数据库应用的融合有丰富的实践经验。




