논문 리뷰

[논문리뷰] Segment Any Anomaly without Training viaHybrid Prompt Regularization

AIstarter 2024. 3. 19. 01:55

Cao, Yunkang, et al. "Segment any anomaly without training via hybrid prompt regularization." arXiv preprint arXiv:2305.10724 (2023).

 

[2305.10724] Segment Any Anomaly without Training via Hybrid Prompt Regularization (arxiv.org)

 

Segment Any Anomaly without Training via Hybrid Prompt Regularization

We present a novel framework, i.e., Segment Any Anomaly + (SAA+), for zero-shot anomaly segmentation with hybrid prompt regularization to improve the adaptability of modern foundation models. Existing anomaly segmentation models typically rely on domain-sp

arxiv.org

 

Abstract(ChatGPT 번역본):

본 논문은 새로운 프레임워크인 Segment Any Anomaly + (SAA+)를 제시합니다. 이는 현대적인 기초 모델의 적응성을 향상시키기 위한 하이브리드 프롬프트 규제를 사용한 제로샷 이상 세그멘테이션에 대한 것입니다. 기존의 이상 세그멘테이션 모델들은 주로 도메인 특정 파인튜닝에 의존하여, 무수히 많은 이상 패턴을 효과적으로 일반화하기 어렵습니다. 이번 연구에서는 Segment Anything와 같은 기초 모델들의 훌륭한 제로샷 일반화 능력에서 영감을 받아, 다양한 다중 모달 사전 지식을 활용하기 위해 이들을 조립하는 것을 먼저 탐구합니다. 파라미터 없는 기초 모델을 이상 세그멘테이션에 적응시키기 위해, 도메인 전문가 지식과 대상 이미지 컨텍스트에서 파생된 하이브리드 프롬프트를 규제로 추가로 소개합니다. 저희의 제안된 SAA+ 모델은 제로샷 설정에서 VisA, MVTec-AD, MTD, KSDD2를 포함한 여러 이상 세그멘테이션 벤치마크에서 최첨단 성능을 달성합니다. 코드는 https://github.com/caoyunkang/Segment-Any-Anomaly에서 공개될 예정입니다.


 

본 페이지에서는 해당 연구를 이해의 편의를 위해서 배경, 제안모델 요약, 평가 결과 분석, 논문의 기여점 및 한계점 순으로 정리합니다.  개인적인 분석이므로, 해당 논문에 대한 평가가 아닌 '해당 논문이 어떠한 내용이다'를 정리한 논문 리뷰로서 참고하고 봐주시면 감사하겠습니다. 더욱 자세한 내용을 위해서는 첨부된 논문을 읽어주세요:) 또한, 해당 모델의 코드가 논문에 첨부되어 있으니 참고하실 분은 참고바랍니다.

특히, 해당 모델의 코드가 공개되어 있습니다. IM-IAD의 소스 코드는 웹사이트https://github.com/caoyunkang/Segment-Any-Anomaly 에 업로드되었습니다. 확인하시고 싶으신 분들을 Github 링크 들어가서 확인해주시면 될 것 같습니다. 

 

*선행연구의 논문이 보고 싶다면, 본 논문의 references에서 확인 부탁드립니다:)

언제든 피드백은 환영입니다:)


배경

  • 이상 세그멘테이션은 다양한 산업 및 의료 분야에서 중요한 문제이다.
    • 세그멘테이션의 핵심: 이상 데이터 분포를 정상 데이터와 구별하는 것
  • 기존의 이상 세그멘테이션 모델들은 대부분 도메인 특정한 학습이 필요하여 새로운 이상 패턴에 대한 적응성이 제한된다.
    • 또한, 이상 샘플이 부족하기 때문에 자율/자가 감독 이상 세그멘테이션에 관심이 높아진 상황이다.
      zero-shot anomaly segmentation (ZSAS)
  • 특히, zero-shot anomaly segmentation (ZSAS) 은 정상 및 비정상 이미지가 훈련 중에 제공되지 않는 새로운 시나리오로, 이에 대한 적절한 접근 방법이 필요하다.
  • 최근에는 기초 모델과 같은 발전된 모델들이 프롬프팅을 통해 사전 지식을 활용하여 제로샷 시각 지각 능력을 보여주고 있다.

제안모델

 

 

[제안모델 작동순서]

 

1. (Anomaly Region Generator) 특정 쿼리 이미지가 주어지면, 언어를 초기 프롬프트로 사용하여 (언어 기반 시각적 그라운딩 기초 모델인) GroundingDINO [23]를 통해 거친 이상 영역 제안을 대략적으로 검색

 

- 시각적 그라운딩(visual grounding)은? 언어와 이미지 간의 상호 작용을 통해 이미지 내에서 언급된 대상을 찾아내는 프로세스

STEP1) 해당 네트워크는 먼저 텍스트 인코더와 비전 인코더를 통해 언어 프롬프트와 쿼리 이미지의 특징을 추출

STEP2) 모달리티 디코더를 사용하여 대략적인 객체 영역을 바운딩 박스 형식으로 생성

- 바운딩 박스 수준의 영역 집합 R^B과 해당하는 신뢰도 점수 집합 S가 주어진 경우, 이상 영역 생성기 (Generator) 모듈은 다음과 같이 정의될 수 있다.

 

2. (Anomaly Region Refiner)  SAM [19]을 사용하여 픽셀 단위의 고품질 세그멘테이션 마스크로 세밀하게 정제하여 이상영역 제안

SAM 모델은?

- ViT[56] 기반의 백본과 프롬프트 조건화 마스크 디코더를 가진 고급 이미지 세분화 기초 모델

- 대규모 이미지 세분화 데이터셋에서 훈련되어 open-set segmentation 설정에서 고품질 마스크 생성 능력을 갖춤

 

STEP1) 바운딩 박스 후보 R^B를 프롬프트로 취급하고 픽셀 단위의 세그멘테이션 마스크 R을 얻음

 - 이상 영역 리파이너 (Refiner) 모듈은 다음과 같이 정의됨

STEP2) 신뢰도 점수 S를 가진 고품질 세그멘테이션 마스크 세트 R을 얻게 됨.

- 이에 따라 프레임워크 (SAA)를 다음과 같이 요약

- 여기서 Tn은 SAA에서 사용되는 단순한 클래스 중립적인 언어 프롬프트

 

[제안 모델인 SAA+의 특징: 프롬프트]

 

바닐라 기초 모델 어셈블리의 ZSAS의 경우, 프롬프트로 제공한 언어에서 요구한 것과 다르게 해석할 수 있다. 이러한 "모호성 문제"는 ZSAS 데이터셋에서 심각한 거짓 경보를 초래한다. ☞ 이러한 언어의 모호함을 해결하고자 SAA+는 도메인 전문가 지식대상 이미지 컨텍스트를 활용한다.

 

1. Hybrid Prompts

 언어의 모호함을 해결하고자 하이브리드 프롬프트를 도입한다. 

 

클래스 중립적 프롬프트 & 클래스 특정 프롬프트, 두가지 유형으로 분리된다.

 

(1) 클래스 중립적 프롬프트 (Ta):  특정 범주에 특정되지 않은 이상을 설명하는 일반적인 프롬프트

(2) 클래스 특정 프롬프트 (Ts): 유사한 제품의 비정상 패턴에 기반하여 설계된 이상 세부 사항을 보완하는 프롬프트

 

도메인 전문가 지식에서 파생된 이상 언어 프롬프트 P^L = {Ta, Ts}로 SAA를 프롬프트함으로써, 보다 세분화된 이상 영역 후보 R과 해당하는 신뢰도 점수를 생성함

 

2. Object Property Prompts

객체의 특성에 관한 프롬프트도 활용하여 정확한 이상 세그멘테이션을 도와준다.
이는
이상의 위치와 크기에 대한 규칙을 사용하여 이상 후보를 걸러내고, 그 결과로 선택된 후보를 신뢰도 S와 함께 제공한다.

 

- 일반적으로,  검사된 객체의 크기 > 이상의 크기

-  전문가는 고려되는 특정 유형의 이상에 대한 적절한 임계값 θarea를 제공할 수 있으며, θarea · ObjectArea와 일치하지 않는 영역을 가진 후보는 걸러낼 수 있다.

 

두 속성 프롬프트 P^P = {θarea, θIoU}를 결합하여,
후보 영역 집합 R을 필터링하여 해당하는 신뢰도 점수 SP를 가진 선택된 후보의 하위 집합 RP를 얻을 수 있다.

이를 위해 아래와 같은 필터링 함수 (Filter)를 사용한다.

 

3. Image Context Utilization

도메인 전문가 지식을 통합하는 것 외에도, 입력 이미지 자체가 제공하는 정보를 활용하여 이상 영역 감지의 정확도를 향상시키는 방식이다. 대상 이미지의 컨텍스트를 활용하여 이상 세그멘테이션 예측을 신뢰성 있게 식별하고 조정한다.

 

대상 이미지 컨텍스트에서 파생된 두 가지 프롬프트를 제안한다.

- 정리: 이미지 돋보기와 영역 신뢰도 순위 등의 정보를 활용하여 이상 정도를 모델링하고 최종 이상 예측과 연관시킨다.

 

(1) 이상 특이성을 프롬프트: 사전 훈련된 언어-비전 데이터셋과 대상 이상 분할 데이터셋 간의 도메인 갭으로 인해 "결함"과 같은 프롬프트로 생성된 예측은 신뢰성이 떨어질 수 있다. 이를 보정하기 위해 인간의 직관을 모방한 이상 특이성 프롬프트를 제안했다. 이를 위해 입력 이미지에 대한 특이성 지도를 계산하고, 해당 지도를 이용하여 이상 영역의 신뢰도를 보정하는 과정을 설명한다.

 

(2) 이상 신뢰도를 프롬프트: 검사 대상 객체 내의 이상 영역 수는 일반적으로 제한적이다. 따라서 이미지 내용을 기반으로 가장 높은 신뢰도 점수를 가진 K개 후보를 선택하고, 이들의 평균 값을 사용하여 최종 이상 영역을 감지한다. 이를 통해 제안된 하이브리드 프롬프트로 SAA가 조정되어 더 신뢰할 수 있는 이상 예측을 제공하는 최종 프레임워크인 SAA+가 생성된다.

 

평가 결과 분석

 

비교 방법:

- 우리의 최종 모델인 Segment Any Anomaly + (SAA+)를 WinClip [25], UTAD [40], ClipSeg [24], 그리고 기본 베이스라인인 SAA와 비교함.

- WinClip의 경우 VisA와 MVTec-AD에서의 공식 결과를 보고한다. 나머지 세 가지 방법에 대해서는 공식 구현을 사용하고 이를 ZSAS 작업에 적응시킨다. 모든 방법이 훈련 과정이 필요하지 않기 때문에 성능은 ±0.00의 분산으로 안정적이다.

정량적 결과:

표 1에서 볼 수 있듯이, SAA+ 방법은 Fp와 Fr 모두에서 다른 방법들보다 훨씬 우수한 성능을 보인다.
WinClip [25], ClipSeg [24], 그리고 SAA도 모두 기초 모델을 사용하지만, SAA+는 기초 모델의 능력을 효과적으로 발휘하고 ZSAS를 해결하기 위해 적응시킨다. SAA+의 탁월한 성능은 훈련 없이 어떤 이상도 세그먼트화할 수 있다는 기대치를 충족시킨다.

질적 결과

그림 3은 SAA+와 이전의 경쟁적인 방법들 간의 질적 비교를 보여주는데, 여기서 SAA+가 더 나은 성능을 달성한다. 또한 시각화는 SAA+가 가죽의 작은 스크래치와 같은 질감 이상을 탐지할 수 있는 능력을 보여준다.

----

 

성능(Performance): 다양한 제로샷 설정에서 ,여러 이상 세그멘테이션 데이터셋에서 최신의 성능을 보여줌.
특히, 텍스처 관련 이상을 탐지하는 뛰어난 능력을 갖춤.

 

논문의 기여점 및 한계점

[기여점]

-  추가적인 훈련 없이 모든 이상을 세그먼트화하는 방법을 탐구했다.

- 다중 기반 모델을 성공적으로 조정하여 제로샷 이상 세그먼트화에 대한 새로운 최고 성능 결과를 달성

 

[한계점]

- 연산 제약으로 인해 현재 우리의 방법을 보다 대규모의 기반 모델에서 테스트하지 않았다. 대표적인 기반 모델로의 제안 방법론 탐구를 마친 상태