TNT 컴퓨터비전 스터디에서 이번주에는 GRES 논문을 정리하기로 했다.
**틀린내용 다수 존재합니다.
Abstract
- Referring Expression Segmentation (RES)는 자연어로 묘사된 객체에 대한 segmentation mask를 생성함
- 현재 RES의 데이터셋과 방법론은 단일 표현 - 단일 객체를 지원하기에 그 사용이 제한됨
- 논문에서 제시하는 GRES는 기존의 RES를 확장하여 여러개 또는 0개의 객체의 수에 대해서도 사용이 가능함
- 다수의 객체,0개의 객체, 단일 객체 expression을 포함하는 gRefCOCO 데이터셋을 구축
- GRES를 구축하는데 가장 큰 어려움은 complex relation modeling 이였음
- 위와 같은 문제를 이미지를 sub-instance clue를 가진 region으로 나누고 모델이 region-region 그리고 region-language 관계를 학습하도록 하는 ReLA로 해결함
Introduction
- 기존 RES는 자연어 표현이 주어졌을때 이미지 상에서 객체를 찾고 segmentation mask를 찾는 중요한 task임
Limitations of classic RES
- RES는 이미지상에 아무런 객체와 일치하지 않는 no-target expression을 고려하지 않음
- RefCOCO와 같이 대부분의 데이터셋은 multi-target expression을 포함하지 않기 때문에, 다수를 객체를 목표로 하는 자연어 표현은 하나씩 객체를 찾아야함.
- 위의 그림과 같이 GRES는 RES와 다르게 arbitrary number of target object를 찾을수 있게 해
New benchmark and dataset
- 논문에서는 GRES를 제안하는데, GRES는 RES와 동일하게 이미지와 해당하는 자연어 표현을 입력으로 받지만, 하나의 표현에 있는 다수의 객체를 잡아낼 수 있음
- 그러나 기존의 데이터셋에는 다중객체 표현이나 없는객체에 대한 표현이 없음
- 따라서 gRefCOCO라는 다중객체 표현과 없는객체에 대한 표현을 포함하 새로운 데이터셋을 생성
A baseline method
- 기존 RES에서는 하나의 객체만 탐지하면 되었기 때문에 많은 방법론들이 region-region 상호작용 모델링 없이도 좋은 성능 보임
- GRES에서는 multi-target expression에서 다중의 객체를 잡아내야하기 때문에, long- range region-region 의존성을 잡아내기 어려움
- 따라서 이미지를 region으로 나누고 그들이 서로 상호작용하게 하는 region-based method를 제시
- 기존 REF에서는 region을 입력받은 이미지의 hard-split으로 부터 region을 얻었는데, GREF에서는 각 regiond의 feature을 soft-collates하여 유연성이 높아짐
Task Setting and Dataset
GRES Settings
- 기존 RES는 객체가 없는 표현에 대해서 지원을 안하기 때문에 다중객체 표현이나 없는객체에 대한 표현이 들어왔을때 잘못된 ouput값을 뱉어냄
- GRES 데이터는 4가지 정보를 가지고 있음
1) 이미지 I
2) 자연어 표현 T
3) ground-truth segmentation mask Mgt
4) a binary notarget label Egt
-> T가 없는 객체에 대한 표현인지 알려줌
- GRES는 다중객체 표현과 없는객체에 대한 표현을 지원하여 모델이 실제 환경에서 더 강건하고 신뢰성있게 해줌
- 기존의 evaluation metric인 IoU와 Precision@X 외에 논문에서는 gIoU(no-target을 포함한 평균 IoU)를 제시함
gRefCOCO: A Large-scale GRES Dataset
- GRES task를 수행하기 위해서, gRefCOCO 데이터셋을 구축했는데, 이것은 19994장의 이미지에서 60287개의 객체를 표현하는 278232개 자연어표현(80022개 다중객체 표현, 32202 없는 객체 표현)으로 이루어져 있음
- 단일객체 표현은 RefCOCO에 있는것을 가져다가 사용
The Proposed Method for GRES
Architecture Overview
- 이미지는 Swin Transformer를 통해 vision feature Fi로 추출됨
- 입력 텍스트는 BERT를 통해서 language feature로 추출
- 추출된 vision feature Fi는 pixel decoder로 보내져 mask feature Fm으로 추출되어 mask 예측에 사용됨
- Fi와 Ft는 ReLA modeling block으로 보내짐
- ReLA에서는 feature map을 PxP=P^2 region(ViT와 비슷)으로 나누고 그들간의 interaction 모델링함
- ReLA는 region feature인 Fr과 region filter인 Ff를 만들어냄
-> region feature fr은 스칼라값인 xr을 찾는데 사용되는데, xr은 객체를 담고있는지에대한 확률을 알려줌
-> region filter는 mask feature Fm과 곱해져서 regional segmentation mask Mr를 생성해주고, 이것을 다 더해서 region을 영역을 알려줌
- 예측된 M은 ground-truth mask인 Mgt에 의해 지도학습 방식(cross-entropy loss)으로 학습됨
- xr은 Mgt로부터 downsample된 minimap에 의해 지도학습 방식(cross-entropy loss)으로 학습됨
- no-target값인 label E를 예측하기 위해 모든 region feature Fr의 global average를 구함
- 추론시에 E가 양수로 계산된다면 M은 empty
ReLAtionship Modeling
- ReLA는 크게 두가지 모듈이 있음
-> Region-Image Cross Attention (RIA): region image feature를 수집
-> RegionLanguage Cross Attention (RLA): region-region과 region-language 의존성 관계 파악(?)
- RIA는 vision feature인 Fi와 학습가능한 Region-based Query인 Qr을 입력받음
- 각 query는 이미지상의 공간에 해당하며, minimap에 의해 지도학습됨 또한 region을 feature decoding함
- RLA는 region-region 그리고 region-language 상호작용을 위해서 사용됨
- RLA는 region image feature인 Fr을 위한 self-attention과 multi-modal cross attention으로 구성되어 있음
*더 자세한 ReLA 내용과 이후 내용은 추후 정리 예정