DL 30

[Paper Review] Grounded Language-Image Pre-training(GLIP) 논문 정리

NT 컴퓨터비전 스터디에서 이번주에는 Grounded Language-Image Pre-training(GLIP) 논문을 정리하기로 했다. **틀린내용 다수 존재합니다. Abstract - 본 논문은 grounded language-image pre-training(GLIP)을 제안 - GLIP은 object detection과 pretraining을 위한 phrase grounding을 통합, 이것은 두가지 장점이 있음 1) GLIP이 object detection과 grounding data로 부터 두 task를 모두 개선하도록 학습을 함 2) GLIP은 grounding box를 만들면서 image-text 쌍을 만들수있음 - GLIP은 2천7백만개의 이미지-텍스트 쌍 데이터로 학습 - 다양한 객체..

DL 2023.11.14

[Paper Review] Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision 논문 정리

TNT 컴퓨터비전 스터디에서 이번주에는 Learning Open-vocabulary Semantic Segmentation ModelsFrom Natural Language Supervision 논문을 정리하기로 했다. **틀린내용 다수 존재합니다. **2023.11.06 기준 내용 추가/보강 예정.. Abstract - 논문에서는 open-vocabulary semantic segmentation(OVS)의 문제에 대해서 고찰함 *OVS: 미리 정해진 카테고리 이외에 무작위 카테고리의 객체를 segmentation하는 task 1. 논문에서는 OVSegmentor라고 불리는 transformer에 기반한 OVS 모델을 제안 -> OVSegmentor는 웹에서 크롤링한 image-text 쌍을 사전학습하..

DL 2023.11.06

[Paper Review] GRES: Generalized Referring Expression Segmentation 논문 정리

TNT 컴퓨터비전 스터디에서 이번주에는 GRES 논문을 정리하기로 했다. **틀린내용 다수 존재합니다. Abstract - Referring Expression Segmentation (RES)는 자연어로 묘사된 객체에 대한 segmentation mask를 생성함 - 현재 RES의 데이터셋과 방법론은 단일 표현 - 단일 객체를 지원하기에 그 사용이 제한됨 - 논문에서 제시하는 GRES는 기존의 RES를 확장하여 여러개 또는 0개의 객체의 수에 대해서도 사용이 가능함 - 다수의 객체,0개의 객체, 단일 객체 expression을 포함하는 gRefCOCO 데이터셋을 구축 - GRES를 구축하는데 가장 큰 어려움은 complex relation modeling 이였음 - 위와 같은 문제를 이미지를 sub-i..

DL 2023.10.31

[Paper Review] Character Region Awareness for Text Detection(CRAFT) 논문 정리

TNT 컴퓨터비전 스터디에서 이번주에는 CRAFT 논문을 정리하기로 했다. **틀린내용 다수 존재합니다. Abstract - Scene text detection task를 수행할때, 각 글자를 rigid word-level bounding box로 잡는것은 다양한 모양의 글자를 잡아내는데 한계가 존재 - 논문에서는 각 글자와 그 관련성(affinity) 을 탐지하는 새로운 Scene text detection 방법을 제시 - 각 글자의 annotation의 부족을 해결하기 위해서, 합성된 이미지에서의 글자의 annotation과 실제 이미지에서의 중간학습된 이미지로 얻어진 글자의 ground truth를 사용 - 글자간의 관련성(affinity)을 예측하기 위해서 모델 새로운 representation..

DL 2023.10.19

[Paper Review] PIX2SEQ: A Language Modeling Framework for Object Detection 논문 정리

TNT 컴퓨터비전 스터디에서 이번주에는 Pix2Seq 논문을 정리하기로 했다. 논문: https://arxiv.org/pdf/2109.10852.pdf Abstract - 논문에서는 간단하고 범용적인 객체탐지 프레임워크인 Pix2Seq모델 제안 - 신경망이 객체가 무엇이고, 어디에 있는지 안다면, 어떻게 그것을 읽는지만 알려준다면 객체탐지가 가능할 것 - task-specific data augmentations을 사용하는것 이상으로, 이러한 접근법은 task에 대한 가정을 최소화하면서, COCO 데이터셋에서 타 객체탐지 알고리즘에 비해서 좋은 성능을 보임 Introduction - 기존의 object detection은 pre-defined된 카테고리의 객체들의 위치를 찾고 인지하는것을 목적으로함 - ..

DL 2023.09.18

[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 논문 정리

TNT 컴퓨터비전 스터디에서 이번주에는 Swin Transformer 논문을 정리하기로 했다. 논문: https://arxiv.org/pdf/2103.14030.pdf Abstract - 논문에서는 새로운 vision분야에 접목된 Transformer로써 Swin Transformer를 제시 - 기존에 자연어분야에서 쓰이던 Transformer가 컴퓨터 비전분야에 접목되는데에는 이미지 내에서의 큰 패턴변화나 텍스트에 비교했을때 많은량의 픽셀수 같은 어려움이 존재 - 논문에서 Shifted window를 통해 연산이 진행되는 계층적(hierarchical) Transformer를 제안 - Swin Transformer가 사용하는 계층적 구조는 self-attention 연산을 하면서 효율성과 다양한 이미지..

DL 2023.09.08

[Paper Review] Learning Transferable Visual Models From Natural Language Supervision(CLIP) 논문 정리

이번학기 TNT에서도 컴퓨터 비전팀으로 참여하게 되었다. 첫주차에는 CLIP논문을 리뷰해서 발표를 진행하기로 했다. **틀린내용 다수 존재합니다. ** representation learning 어떤 모델이 어떤 task인지에 따라서 input feature로부터 new feature(new representation)을 출력하게 됩니다. 이렇게 입력으로부터 new representation을 뽑도록 학습하는것을 representation learning이라고 합니다. 예를 들자면 CNN이 어떤 이미지를 분류한다고 했을때, 중간의 convolutional layer들은 최종단의 linear classifier가 이미지를 잘 분류할 수 있도록 feature vector를 잘 representation해주는..

DL 2023.09.03

[NLP] 자연어처리 기초부터 Attention까지: seq2seq

*사이토 고키의 밑바닥부터 시작하는 딥러닝2를 공부하고 정리하는 내용입니다. 정리하는 과정에서 혹여나 잘못된 내용이 들어가 있을수 있습니다. 기계번역, 음성인식 과 같이 시계열데이터를 또 다른 시계열 데이터로 변환해야하는 task들이 있습니다. 책에서는 이처럼입력과 출력이 시계열데이터인 문제를 해결하는 모델로 seq2seq(sequence to sequence)를 소개하고 있습니다. seq2seq seq2seq은 Encoder-Decoder 모델로 불리기도합니다. 예를 들어 위와 같이 '나는 고양이로소이다'라는 문장을 'I am a cat'이라는 문장으로 번역을 한다고 했을때, Encoder는 밑의 그림과 같이 LSTM(뿐만아니라 다른 모델로도 가능)으로 시계열데이터인 '나는 고양이로소이다'라는 문장을 ..

DL 2023.08.19

[NLP] 자연어처리 기초부터 Attention까지: LSTM

*사이토 고키의 밑바닥부터 시작하는 딥러닝2를 공부하고 정리하는 내용입니다. 정리하는 과정에서 혹여나 잘못된 내용이 들어가 있을수 있습니다. RNN은 BPTT에서 기울기 소실 또는 기울기 폭발이 일어나기 때문에, 시계열 데이터의 장기 의존 관계를 학습하기 어렵습니다. 이러한 문제를 해결하기 위해서 등장한 것이 RNN에 게이트를 추가한 LSTM과 GRU입니다. 책에서는 chap6에서 LSTM에 대해서 소개하고 있습니다. LSTM LSTM에는 RNN과 다르게 c라는 경로가 있습니다. 이것을 기억 셀(memory cell)이라고 합니다. 은닉상태에 해당하는 ht는 기억셀 ct에 tanh를 적용한 값입니다. output 게이트 tanh(ct)의 값에 해당하는 ht의 출력을 담당하는 게이트를 output게이트라고..

DL 2023.08.19

[NLP] 자연어처리 기초부터 Attention까지: RNN

*사이토 고키의 밑바닥부터 시작하는 딥러닝2를 공부하고 정리하는 내용입니다. 정리하는 과정에서 혹여나 잘못된 내용이 들어가 있을수 있습니다. word2vec모델인 CBOW모델은 맥락안의 단어의 순서가 무시되기 때문에, 시계열 데이터에 적합하지 않습니다. 책에서는 chap5에서 RNN에 대해서 소개합니다. RNN(Recurrent Neural Network) RNN은 순환하는 경로가 있는것이 특징입니다. 위의 그림은 RNN계층을 나타낸 사진입니다. RNN은 xt를 입력으로 받는데, 이것은 시각 t 에서의 시계열데이터(문장이라면 각 단어의 분산표현)를 나타냅니다. 위의 순환경로를 가지는 RNN을 펼쳐서 나타내게 된다면 다음과 같을 것입니다. 위의 그림에서 보면 각 RNN계층은 해당계층의 시간에 해당하는 데이..

DL 2023.08.18