본문 바로가기
  • AI 개발자가 될래요
논문 리뷰

[논문 리뷰] Unsupervised Object Localization with Representer Point Selection

by 꿀개 2024. 8. 23.

Unsupervised Object Localization with Representer Point Selection

 

https://openaccess.thecvf.com/content/ICCV2023/papers/Song_Unsupervised_Object_Localization_with_Representer_Point_Selection_ICCV_2023_paper.pdf

 

Abstract

새로운 unsupervised object localization 방법을 소개한다.

기존의 unsupervised, self-supervised 모델은 class-agnostic activation map이나 self-similarity map 등을 사용했다. 이 방식은 가치 있었지만, 여전히 모델이 어떻게 추론을 하는지에 대한 설명을 하기엔 부족했다.

이 논문에서는, representer point selection을 사용하여 간단하지만 효율적인 unsupervised object localization 방식을 제안한다. 이 방식은 모델의 예측을 representer 값들의 linear combination으로 표현할 수 있다. 모델 예측의 가장 중요한 위치인 representer points를 선택함으로써, 모델이 어떻게 foreground object를 추정하는지 알아낼 수 있다. 

이 모델은 unsupervised, self-supervised object localization 방식에서 큰 성능 차이로 SOTA이다.

 

1. Introduction

최근 Object localization 분야의 발전에도 여전히 잔존하는 문제는 정확한 box-level annotations을 위한 시간, 노동이 많이 든다는 것이다. 이 문제를 해결하기 위해 less supervsion 방식들을 많이 사용하지만, 여전히 image-level class label이 필요하다.

최근의 연구는 human annotated label이 필요 없는 self-supervised 나 unsupervised에 주목하고 있다. 이 방법들은 어떤 지역이 foreground object를 나타내고 있는지를 구별해야 한다. 이를 위해, 몇 연구는 feature vector의 크기(magnitude)를 class-agnostic activation map으로 사용한 방식을 채택하고 있다 (CAAM). 이런 모델의 대부분은 image classification task로 학습된 pre-trained 모델에 크게 의존하는 경향이 있다. 하지만 object localization task에서는 foreground feature들이 background와 잘 구별되지 않기 때문에 어려움이 있다.

딥 뉴럴 네트워크는 모든 도메인에서 강력한 구조이지만, 설명 불가능한 black-box function인 경우가 많다. CAM(Class activation maps)은 시각적으로 모델을 설명하기 위해 주로 사용되지만, 어떻게 모델이 예측을 수행하는지에 대한 자세한 설명은 불분명하다. 이런 제약은 self-supervised object localizaion에 주로 사용되는 CAAM에서도 발생한다.

이 논문에서는 self-supervised representation learning을 이용한 representer 정리(theorem)에 기반하여 간단하고 효과적인 unsupervised object localization 방식을 소개한다. representer theorem는 test point에 대한 모델의 예측이 학습 예제로부터 기원한 linear combination of activations 표현을 찾는 것을 의미한다.

모델 예측에 가장 중요한 영향을 주는 representer points를 선택함으로써, 이 모델은 어덯게 모델이 foreground regions을 식별하는지에 대한 insight를 준다. 

 

2. Related Works

- Weakly Supervised Object Localization

Weakly supervised object localization (WSOL)은 image-level annotation만 사용해서 localization을 수행하는 것이다. 

CAM-based 방식들은 다음과 같다.

  • CAM(class activation map)은 classifier의 weights를 feature map에 project하여 이 work를 수행한다. 그러나 이 결과가 classification 결과와 연관이 없다는 제약이 있다.
  • HaS: random masking of image patches를 사용
  • ACoL: 두 개의 adversarial classifiers 사용
  • ADL, AE: 점진적으로 각 convolutional layer feature map의 discriminative part를 삭제
  • SPG, $ I^{2C} $: 얕은 convolutional feature map과 다른 두 이미지 간의 pixel-level correlations을 사용하여 activataion map을 조정
  • PSOL: pseudo-supervised object localization task 제안; class-agnostic object localizaion, object classification
  • PSOL, SEM: DDT로 생성된 바운딩 박스와 캐니 엣지로 생성된 엣지 정보를 이용한 localizer를 학습

최근 CAM-based 방식들은 foreground와 background를 구별하기 위한 연구를 하고 있다.

 

- Unsupervised Object Localization

Unsupervised object Localization은 co-localization, co-segmentation task과 연관이 있다. 

초기에는 off-the-shelf region proposal을 사용한 part-based region matching 방식을 사용했다.

딥러닝의 발전으로

  • DDT, SCDA: 물체 범위의 통계 특성(properties)을 찾아내는 방식을 소개
  • MO: multiscale feature map에서 빈번하게 발생하는 패턴을 찾아냄. 이 방식은 object discovery 뿐만 아니라 co-localization에서도 좋은 성능을 보임
  • PsyNet: self-supervised learning과 class-agnostic activation mapping을 사용하여 간단하고 실용적인 co-localization 프레임워크 제안
  • Ki et al.[21]: contrasive learning
  • Su et al.[36]: 페어된 이미지 feature graph에서 foreground 와 background를 구분하는 joint graph partition 방식 제안
  • $ C^{2}AM $: contrasive learning을 class-agnostic activation map으로부터 생성된 레이어로 foreground와 background를 구별하는 방식 제안
  • LOST, TokenCut: pretrained vision transformer(DINO) 사용

 

- Self-supervised Visual Representation Learning

Selfsupervised visual representation learning (SSL) 은 수동적인 annotation 없이 visual representation을 학습하는 방식이다. 

DINO: vision transformer 모델을 학습하기 위한 knowledge distillation 

Pre-trained SSL 모델들은 다양한 downstream task에 사용된다.

이 논문에서도 이를 사용하여 fine-tuning 없이 unsupervised object localization 수행한다.

 

3. Background

- Representer Theorem.

Representer Theorem은 전통적 머신러닝 기법 중 하나이다.

라고 할 때, representer theorem에서는 regularized empirical risk minimization (ERM) problem의  최적해는 입력 셋 X의 positive definite 커널 k의 linear combination으로 표현될 수 있다고 한다.

representer theorem

결국 Loss가 최소가 되게 한다~는 뜻

 

- Representer Point Selection for DNNs.

representer theorem은 원래 파라미터들이 reproducing kernel Hilbert space에 있는 non-parametric predictors를 위해 개발되었다. 그러나 딥러닝에서는 empirical risk minimization을 찾기가 어려웠다. 이 문제를 해결하기 위해, [47]은 pre-activation 예측들을 training points의 activation values의 linear combination으로 분해하는 방법을 제한했다.

 

이 방식은 representer points 선택을 가능하게 하여 모델의 예측에 대한 이해를 강화한다.

 

4. Method 

Pipelines of UOLwRPS

 

4.1. Representer Point Selection for UOL

Object localization (UOL) task

Representer point selection에 영감을 받아 이 논문에서는  object localization을 중요한 영역을 나타내는 것으로 형식화하고, 이를 representer points로 부른다. classification 같은 다른 task와는 다르게 UOL은 한 개의 이미지에서 dense prediction이 필요하다. 그래서 모든 feature map 요소들을 다 다룬다.

Unsupervised learning을 수행하기 때문에, empirical risk나 loss function은 다음과 같이 표현된다.

  • pre-trained encoder $ Φ $
  • training set $ D $
  • activation maps $ A_t $ for foreground regions

 

$ A_t $는 global sample importance를 사용하여 feature map을 aggregating 함으로써 얻어진다. 이는 얼마나 각 학습 예제가 foreground를 예측하는데 기여하는지를 보여준다.

representer value

 

- Global Sample Importance.

이는 global sample importance를 나타낸다. 테스트 예제에는 독립적이면서, 학습 셋의 empirical risk에는 의존적이기 때문이다.

이 논문은 unsupervised로 α를 찾기에 최적한 loss function을 디자인했다.

w를 feature vector에서 foreground 예측을 위한 binary classifier라고 하면 loss functiond은 아래와 같다.

 

Norm은 중요한 feature indicator 역할을 할 수 있기 때문에 feature vector의 norm을 기반으로 한 입력의 soft label을 추정한다. 다른 말로, feature vector의 높은 norm은 해당하는 특징이 모델 학습에서 더 큰 weight를 갖고 있다는 것이다. 

이 특징들은 영상에서 다른 인스턴스들과 확연히 구분되는 정보를 갖고 있는 경우에 추출된다. 이전의 self-supervised localization 연구들도 feature vector의 크기를 객체 region의 단서로 사용했다.

global sample importance

 

큰 representer 값을 얻기 위해선, global sampel importance와 두 features 사이 유사도가 큰 값을 가져야 한다. Representer value를 분석하면 어떻게 모델이 foreground 지역을 추정하는지에 대한 연관된 예제를 보여줌으로써 insight를 얻을 수 있다.

 

representer point selection

위 그림은 global sample importance, the similarity between features, and representer values for given points에 대한 예시를 보여준다. Representer value는 global sample importance and the similarity of features 사이의 곱으로 구해지고, 높은 값은 foreground 예측에 강한 기여를 나타낸다.

 

- Straightforward Computation of $ w^∗ $.

foreground predictor
representer point selection method to compute the foreground predictor

 

4.2. Towards WSOL and Zero-shot Transferring

이 모델은 activation map이 training points들의 activation의 linear combination으로 계산되기 때문에 쉽게 weakly supervised나 zero-shot learning으로 전향할 수 있다.

 

WSOL(Weakly Supervised Object Localization)은 image-level 레이블을 허용하지만, 저자는 off-the-shelf 분류 모델(기성 모델)을 사용하였다. 

zero-shot learning에서는 단순히 weight vector $ w^* $를 클래스가 겹치지 않은 다른 데이터셋에서 사요하면 된다.

 

5. Experiments

5.1. Implementation Details

- 백본으로 R50, ViT-S 사용

- input size:

  • 224x224 for representer point selection
  • OL을 위해선 480x480로 resize -> center crop 448x448
  • ImageNet-1K에서는 256x256으로 resize -> center crop 224x224

- 생성된 activation map으로부터 객체 바운딩 박스를 얻기 위해 min-max normalization 사용

 

5.2. Datasets and Evaluation Metrics

-OL: with the condition of GT-Known Loc

- For segmentation evaluation: Pixel-wise average precision (PxAP) computes the area under the pixel precisionrecall curve and Peak-IoU (PIoU) is the best IoU score with various thresholds.

 

5.3. Results

- Unsupervised Object Localization.

GT-Known Loc.

 

이 모델은 unsupervised임에도 불구하고 self-supervised 모델보다 더 성능이 좋다.

VGG16같은 얕은 모델에서도 다른 모델의 R50 결과모다 우리 모델의 결과가 더 좋다.

 

- Weakly Supervised Object Localization.

각 클래스 c 별 $ w_c^* $을 pre-trained classifier로 미리 세팅함으로 WSOL을 수행한다.

Top-1/5 Loc metrics을 평가하기 위해, WSOL을 두 가지 task로 나눈다: OL, Classfication.

 

object localization performance

 

우리 모델은 추가 학습 없이도 다른 모델들보다 더 좋다.

 

segmentation

 

세그멘테이션에서도 좋다.

 

5.4. Ablation Study

- Robustness across various SSL pre-trained models.

다양한 pretrained 모델에서 좋은 성능을 보인다. 

- Effectiveness of representer point selection.

effectiveness of representer point selection

기존 모델에 우리 방식 추가하면 성능 오른다.

- Zero-shot transferability across datasets.

다른 데이터셋끼리 across 한 실험 진행, 다른 기법들과 비슷비슷

 

5.5. Qualitative Results and Failure Cases

추가 학습 없이도 우리 모델 잘한다.

 

작은 타깃에서는 좋지 않다.

 

6. Conclusion

간단하고 효과적인 unsupervised object localization 모델 제안.

Representer point selection을 이용해 데이터 포인트의 activations 관점에서 어떻게 추론이 이루어지는지 설명할 수 있다. 

SSL, UOL 에서 SOTA.

weakly supervised 랑 few-shot에서는 미미.