暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大模型GPT-4V实践:图像与时序异常检测

Coggle数据科学 2023-11-22
1001

论文介绍

Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead

https://arxiv.org/pdf/2311.02782.pdf

论文探讨了使用GPT-4V以通用方式解决异常检测任务的可能性。现有的异常检测模型通常专为特定领域和模态而设计。

论文分析了在多模态、多领域的异常检测任务中应用GPT-4V的可能性,包括图像、视频、点云和时间序列数据,涉及多个应用领域,如工业、医学、逻辑、视频、3D异常检测和定位任务。

为了提高GPT-4V的性能,在进行提问时引入了不同类型的附加线索,如类别信息、人类专业知识和参考图像作为提示。根据我们的实验,GPT-4V在零/一次异常检测中显示出高效的能力,能够检测和解释全局和细粒度的语义模式,从而准确区分正常和异常实例。

异常检测提示词设计

在有效引导GPT-4V关注异常检测任务的特定方面方面,提示的设计起着至关重要的作用。在这项研究中,我们主要考虑四种类型的提示:

  1. 任务信息提示: 为了有效地促使GPT-4V进行异常检测,提供清晰的任务信息是至关重要的。本研究将提示设计如下:“请确定图像是否包含异常或离群点。”

  2. 类别信息提示: 数据类型和类别的理解至关重要。在GPT-4V可能难以识别数据类别的情况下,可以提供明确的类别信息。例如:“请确定与{CLS}相关的图像是否包含异常或缺陷。”

  3. 正常标准提示: GPT-4V在回答与确定正常标准相关的问题时可能会遇到困难,有时候甚至需要人类专业知识才能检查这些标准。因此,本研究还明确提供了正常标准。例如,在MVTec-LOCO [7]中,早餐盒的正常标准可以表达如下:“1. 应包含两个橙子,一个桃子,以及一些谷物、坚果和香蕉片;2. 水果应位于午餐盒的左侧,谷物位于右上方,坚果和香蕉片位于午餐盒的右下方。”

  4. 参考图像提示: 为了确保正常标准与图像之间更好地对齐,语言提示旁边提供了正常的参考图像。例如:“第一张图像是正常的。请确定第二张图像是否包含异常或缺陷。”

工业图像异常检测

案例1:进行基础的异常分析


案例2:给定正常图片,进行异常分析


案例3:同时进行多个的物体的分析



案例4:给定正确提示下的多个的物体的分析

工业图像异常定位


案例5:区域位置定位

案例6:异常形状识别

点云异常检测

案例7:点云异常检测


案例8:给定正常图片,进行异常分析

逻辑异常检测

案例9:图文逻辑推理

医学图像异常检测

案例10:对X光进行分析


案例11:给定正常图片,进行异常分析


案例12:给定正常图片,进行异常分析


行人异常检测

案例13:分析行人行为


时间序列异常检测

案例13:离群点分析


案例13:时序趋势分析


 竞赛交流群 邀请函  #


△长按添加竞赛小助手

每天大模型、算法竞赛、干货资讯

与 36000+来自竞赛爱好者一起交流~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论