[Paper Review] GRES: Generalized Referring Expression Segmentation 논문 정리

gomduribo 2023. 10. 31. 16:08

TNT 컴퓨터비전 스터디에서 이번주에는 GRES 논문을 정리하기로 했다.

**틀린내용 다수 존재합니다.

Abstract

- Referring Expression Segmentation (RES)는 자연어로 묘사된 객체에 대한 segmentation mask를 생성함

- 현재 RES의 데이터셋과 방법론은 단일 표현 - 단일 객체를 지원하기에 그 사용이 제한됨

- 논문에서 제시하는 GRES는 기존의 RES를 확장하여 여러개 또는 0개의 객체의 수에 대해서도 사용이 가능함

- 다수의 객체,0개의 객체, 단일 객체 expression을 포함하는 gRefCOCO 데이터셋을 구축

- GRES를 구축하는데 가장 큰 어려움은 complex relation modeling 이였음

- 위와 같은 문제를 이미지를 sub-instance clue를 가진 region으로 나누고 모델이 region-region 그리고 region-language 관계를 학습하도록 하는 ReLA로 해결함

Introduction

- 기존 RES는 자연어 표현이 주어졌을때 이미지 상에서 객체를 찾고 segmentation mask를 찾는 중요한 task임

Limitations of classic RES

- RES는 이미지상에 아무런 객체와 일치하지 않는 no-target expression을 고려하지 않음

- RefCOCO와 같이 대부분의 데이터셋은 multi-target expression을 포함하지 않기 때문에, 다수를 객체를 목표로 하는 자연어 표현은 하나씩 객체를 찾아야함.

- 위의 그림과 같이 GRES는 RES와 다르게 arbitrary number of target object를 찾을수 있게 해

New benchmark and dataset

- 논문에서는 GRES를 제안하는데, GRES는 RES와 동일하게 이미지와 해당하는 자연어 표현을 입력으로 받지만, 하나의 표현에 있는 다수의 객체를 잡아낼 수 있음

- 그러나 기존의 데이터셋에는 다중객체 표현이나 없는객체에 대한 표현이 없음

- 따라서 gRefCOCO라는 다중객체 표현과 없는객체에 대한 표현을 포함하 새로운 데이터셋을 생성

A baseline method

- 기존 RES에서는 하나의 객체만 탐지하면 되었기 때문에 많은 방법론들이 region-region 상호작용 모델링 없이도 좋은 성능 보임

- GRES에서는 multi-target expression에서 다중의 객체를 잡아내야하기 때문에, long- range region-region 의존성을 잡아내기 어려움

- 따라서 이미지를 region으로 나누고 그들이 서로 상호작용하게 하는 region-based method를 제시

- 기존 REF에서는 region을 입력받은 이미지의 hard-split으로 부터 region을 얻었는데, GREF에서는 각 regiond의 feature을 soft-collates하여 유연성이 높아짐

Task Setting and Dataset

GRES Settings

- 기존 RES는 객체가 없는 표현에 대해서 지원을 안하기 때문에 다중객체 표현이나 없는객체에 대한 표현이 들어왔을때 잘못된 ouput값을 뱉어냄

- GRES 데이터는 4가지 정보를 가지고 있음

1) 이미지 I

2) 자연어 표현 T

3) ground-truth segmentation mask Mgt

4) a binary notarget label Egt

-> T가 없는 객체에 대한 표현인지 알려줌

- GRES는 다중객체 표현과 없는객체에 대한 표현을 지원하여 모델이 실제 환경에서 더 강건하고 신뢰성있게 해줌

- 기존의 evaluation metric인 IoU와 Precision@X 외에 논문에서는 gIoU(no-target을 포함한 평균 IoU)를 제시함

gRefCOCO: A Large-scale GRES Dataset

- GRES task를 수행하기 위해서, gRefCOCO 데이터셋을 구축했는데, 이것은 19994장의 이미지에서 60287개의 객체를 표현하는 278232개 자연어표현(80022개 다중객체 표현, 32202 없는 객체 표현)으로 이루어져 있음

- 단일객체 표현은 RefCOCO에 있는것을 가져다가 사용

The Proposed Method for GRES

Architecture Overview

- 이미지는 Swin Transformer를 통해 vision feature Fi로 추출됨

- 입력 텍스트는 BERT를 통해서 language feature로 추출

- 추출된 vision feature Fi는 pixel decoder로 보내져 mask feature Fm으로 추출되어 mask 예측에 사용됨

- Fi와 Ft는 ReLA modeling block으로 보내짐

- ReLA에서는 feature map을 PxP=P^2 region(ViT와 비슷)으로 나누고 그들간의 interaction 모델링함

- ReLA는 region feature인 Fr과 region filter인 Ff를 만들어냄

-> region feature fr은 스칼라값인 xr을 찾는데 사용되는데, xr은 객체를 담고있는지에대한 확률을 알려줌

-> region filter는 mask feature Fm과 곱해져서 regional segmentation mask Mr를 생성해주고, 이것을 다 더해서 region을 영역을 알려줌

- 예측된 M은 ground-truth mask인 Mgt에 의해 지도학습 방식(cross-entropy loss)으로 학습됨

- xr은 Mgt로부터 downsample된 minimap에 의해 지도학습 방식(cross-entropy loss)으로 학습됨

- no-target값인 label E를 예측하기 위해 모든 region feature Fr의 global average를 구함

- 추론시에 E가 양수로 계산된다면 M은 empty

ReLAtionship Modeling

- ReLA는 크게 두가지 모듈이 있음

-> Region-Image Cross Attention (RIA): region image feature를 수집

-> RegionLanguage Cross Attention (RLA): region-region과 region-language 의존성 관계 파악(?)

- RIA는 vision feature인 Fi와 학습가능한 Region-based Query인 Qr을 입력받음

- 각 query는 이미지상의 공간에 해당하며, minimap에 의해 지도학습됨 또한 region을 feature decoding함

- RLA는 region-region 그리고 region-language 상호작용을 위해서 사용됨

- RLA는 region image feature인 Fr을 위한 self-attention과 multi-modal cross attention으로 구성되어 있음

*더 자세한 ReLA 내용과 이후 내용은 추후 정리 예정

'DL' 카테고리의 다른 글

[Paper Review] Grounded Language-Image Pre-training(GLIP) 논문 정리 (0)	2023.11.14
[Paper Review] Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision 논문 정리 (1)	2023.11.06
[Paper Review] Character Region Awareness for Text Detection(CRAFT) 논문 정리 (0)	2023.10.19
[Paper Review] PIX2SEQ: A Language Modeling Framework for Object Detection 논문 정리 (1)	2023.09.18
[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 논문 정리 (0)	2023.09.08

현재글[Paper Review] GRES: Generalized Referring Expression Segmentation 논문 정리

거대고슴도치

Today :
Yesterday :

거대고슴도치

[Paper Review] GRES: Generalized Referring Expression Segmentation 논문 정리

Abstract