暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【顶会分享】MEACI-Net 探究多模态信息融合和增强

稷殿下 2022-06-28
91

在一些经典的任务领域,有一些方法几乎达到了性能的饱和点。在这样的选题上实验无疑困难重重,难以有突破性的进展,也不太会被同行认可。对此,我已饱受其害。 例如,在 skeleton-based action recognition 领域中,一些方法在 NTU 60 数据集上的精度已经达到了 96%,提升的空间就不大了。那么,如何在这样的大环境下做科研(大神戏称水论文,在没有顶会之前姑且称之为做科研吧)?个人愚见:可能的方案就是找一条不太卷的赛道或是创造一个新赛道。例如经典的基于视频的动作识别已经非常卷了,有人提出了一个压缩视频动作识别的新赛道,在这条新赛道上做文章相对没有那么卷。

由于原始视频流规模较大,且有高冗余, 真实有趣的信号经常被无用的数据淹没。通过视频压缩(使用H.264,HEVC等)可以将多余信息减少多达两个数量级,Wu等[1]首次提出直接在压缩视频上训练深度网络并取得了不错的效果。

现代编解码器将视频分成 帧(内嵌帧)、 帧(预测帧)和0个或多个B帧(双向帧)。 帧是常规图像,因此被压缩。 帧代表前面的帧,只对“更改”进行编码。变化的一部分——称为运动矢量——表示为像素块在时间 从源帧移动到目标帧。

在压缩视频中,只有少部分的 帧被完全解码,大部分帧被不完全解码为 帧。然而,压缩视频动作识别这项任务严重地受到粗糙和噪声的动态信息RGB 和运动模式融合不足的影响。

  • 前者是指压缩视频中记录的动态信息可能是不准确的;随着压缩视频中分辨率的降低,运动向量(motion vector)被引入噪声的影响;
  • 后者是指为了产生具有代表性的视频级特征,现有方法在处理不同模态信息(RGB信息和运动动态信息)时的融合不充分。

为此,Li等[2]提出 MEACI-Net 来解决这两个问题。

其实,这两个问题在其它任务中也可能存在,从而提供借鉴。例如,对于骨架动作识别问题中,骨架信息本身由于姿态估计算法的不精确从而存在噪声;结合 RGB 就是多模态的方法,考虑如何有效融合也可以作为一个出发点。

首先从压缩视频中解码出 帧和 帧,分别对应 RGB 和 MVR 两种模态信息。RGB 流被送入 I3D-ResNet50 骨干网络;MVR 流被送入堆叠 MSB 网络。

为了解决第一个问题,作者提出的 MSB 模块包括四个独立级联的分支,通过不同的内核大小(即1、3和5)捕获短期/长期动态,可以有效地提取多个空间粒度上的多尺度运动模式,而不会增加太多额外的计算成本;包含的 DM 模块利用门控机制在时间和空间上都抑制噪声。

为了解决第二个问题,作者分别提出 SMC 和 CMA 用以加强两个模态之间的信息交流。SMC 通过整合来自 MVR 模态的信息运动线索,增强了 RGB 模态的表征学习。通过交叉注意聚合多模态特征,CMA 进一步构建了一个跨模态表示,作为单模态表示的扩充。从两个独立的流中提取的高级特征与 CMA 学习到的特征在分数层面进行融合,最终进行预测。

SMC 其实质为门控注意力;CMA 其实质为交叉自注意力

最后,要证明所提出的方法有效,还得通过实验指标来验证。

与同类方法相比,涨点在 2% 以上。这样才能更加具有说服力,效果好而且性能提升要大。

参考资料

[1]

Wu, C.Y., Zaheer, M., Hu, H., Manmatha, R., Smola, A.J. and Krähenbühl, P., 2018. Compressed video action recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6026-6035).: https://arxiv.org/pdf/1712.00636.pdf

[2]

Li, B., Chen, J., Zhang, D., Bao, X. and Huang, D., 2022. Representation Learning for Compressed Video Action Recognition via Attentive Cross-modal Interaction with Motion Enhancement. arXiv preprint arXiv:2205.03569: https://arxiv.org/pdf/2205.03569.pdf


文章转载自稷殿下,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论