竞赛总结：科大讯飞2023 文档要素分类

Coggle数据科学 2024-01-29

377

赛题名称：学术文档要素分类挑战赛
赛题任务：对多种版式下的文档图像、要素位置及其文本内容进行分类
赛题类型：文档多模态分析

比赛链接：https://challenge.xfyun.cn/topic/info?type=academic-documents

答辩视频：https://www.bilibili.com/video/BV1nb4y1T7kr

赛事背景

随着数字化时代的发展，人们越来越依赖电子文档来记录、传递和分享信息。在学术场景中，文档的要素包括标题、作者、邮箱、参考文献、正文、图片、表格等，它们都是文档中不可或缺的元素。然而，在实际应用中，需要将这些要素进行分类，以便更好地管理和利用文档。例如，在学术出版机构中，需要将一篇文章中的标题、作者、摘要、正文、参考文献等进行识别与分类。

针对这个问题，本次比赛——“学术文档要素分类挑战赛”，旨在通过利用机器学习和深度学习等先进技术，在给定学术文档图像、要素位置和文本内容的情况下进行要素分类，从而实现对学术文档的结构恢复与自动化整理。该比赛涉及14种不同的分类类别，包括标题、作者、邮箱、章节标题、正文、图片、表格等。

本次比赛旨在为学术文档要素分类问题提供一个交流和切磋的平台，促进相关领域的研究和应用。希望通过本次比赛的努力，可以进一步为学术文档分类领域的研究和应用做出一定的贡献，提高分类的准确性和效率。

赛事任务

尽管在学术文档分类领域，已经有许多相关的研究成果，但是要素分类仍然是一个具有挑战性的问题。在实际应用中，许多学术文档中的要素种类繁多，位置和大小不一，同时还存在一定的混淆和噪声，这对于算法的准确性和鲁棒性都提出了更高的要求。因此，本次比赛将提供一个具有挑战性的数据集，以检验参赛者算法的准确性和鲁棒性。数据集中将会包含来自多个学科、多种版式下的文档图像、要素位置及其文本内容，比赛者需要构建分类系统来对各个要素进行分类。

数据说明

本次比赛为参赛选手提供了4类数据：文档图像、要素位置、文本内容、分类类别。文档图像为原始论文的PDF文件转换而成的图片，要素位置通过矩形框的左上、右下坐标给出，文本内容指由矩形框中的文本解析结果，分类类别一共包含标题、作者、邮箱、章节标题、正文、图片、表格在内的14种类别。训练数据包含来自500份文档的7043张文档图像，选手可以自由划分训练、验证集进行模型训练。此次比赛只包含一个阶段，测试集不含分类类别，其他的内容均与训练集数据相同。

数据类别	变量名称	数值格式	解释
文档图像	无	png	论文PDF文件通过PDF2IMG转换而成的图片
要素位置	box	list of int	[x1,y1,x2,y2]，(x1,y1)为矩形框左上角坐标，(x2,y2)为矩形框右下角坐标
文本内容	text	string	矩形框中的文本解析结果
分类类别	class	string	包含标题、作者、邮箱、章节标题、正文、图片、表格在内的14种类别

分类类别说明如下：

分类类别名称	解释
title	文章的主标题，一般只在首页出现
author	文章的作者名字
mail	文章作者的联系方式
affiliation	文章作者的所属机构
section	章节标题
fstline	段落的首行文本
paraline	段落中的其他行文本
table	表格区域
figure	图像区域
caption	图像或者表格的描述文本
equality	独立的公式区域
footer	页脚，例如页数、期刊名称等，位于页面正下方
header	页眉，例如页数、论文标题等，位于页面正上方
footnote	文章内容的注释，例如链接、作者信息等，位于正文区域的左下方或者右下方

评价指标

本模型依据提交的结果文件，采用对所有类别的F1-score取平均得到的Macro-F1-score进行评价。别) , (模型将X类别的要素预测为其他类别)

通过第一步的统计值计算该类别要素的precision和recall, 计算公式如下:

通过第二步计算结果计算该类别要素的F1-score, 计算方式如下:

通过第三步计算结果, 计算所有类别要素的的平均值作为最终评价指标, 计算方式如下, 此处 , 含义为类别数:

优胜方案

第一名

第一名的解决方案主要采用了一个基于VSR（Vision Semantic Releasing）方案的模型。这个方案于2021年提出，通过对文档图像中的文本内容和空间布局进行多模态分析和分类。

模型架构：采用了一个双分支网络结构。其中一个分支是语义分支，负责对文本进行编码，构建二维语义图，并提取空间上的语义信息；另一个分支是视觉分支，负责对原始图像进行视觉特征提取。
特征融合：两个分支之后进行多尺度特征融合，以获得更丰富和更准确的特征表达。
关系建模：采用了一个关系模型，构建了节点之间的图网络，利用隐层节点之间的关系进行特征增强和分类。
无监督预训练：在模型训练中，可能采用了无监督或半监督的预训练策略，以提高模型的泛化能力和鲁棒性。
模型改进：对原始模型进行了一些改进，包括更大的主干网络、引入外部数据进行训练、样本均衡和样本扩增等技巧，以提升模型性能。
多模型融合：采用了多模型融合的方法，使用了五个不同的模型（如BERT、DeBERTa等）进行投票，以提高分类准确性。
结果分析：该解决方案在单模型效果上可以达到95%到95.7%的准确率水平，在多模型投票后达到了96.88%的准确率。
工程实现：针对具体问题进行了工程上的优化，如类别均衡、样本扩增策略等，以提高模型的鲁棒性和泛化能力。
资源消耗：训练该模型需要大约两天的时间，在A100服务器上运行。