-
[논문리뷰] (VDSR) Accurate Image Super-Resolution Using Very Deep Convolutional Networks / CVPR 2016공부/Super Resolution 논문리뷰 2020. 2. 24. 23:20
2016년 CVPR에서 발표된 이 논문은 VDSR구조로 유명하다.
깊은 레이어의 CNN구조를 SR problem에 성공적으로 적용하였다는데 큰 의미가 있는 논문이다.
ABSTRACT
이 논문은 매우 깊은 Convolutional neural network를 설계하여 높은 PSNR을 갖는 Super-resolution image를 생성하는 방법에 대해 다룬다.
INTRODUCTION
VDSR이 연구되기 전, SR problem에 딥러닝을 성공적으로 적용한 SRCNN이 있었지만 3가지 관점에서의 문제점이 있었다.
첫째, (레이어가 얕음으로 인해) 좁은 이미지 영역에 대한 정보만을 사용한다는것
둘째, Convergence가 매우 느리다는것
셋째, 단일 Scale 에 대해서만 가능하다는 점이다.
이 논문에서는 위와같은 문제점들을 다음과같이 해결한다.
Context. VDSR은 (레이어가 깊음으로 인해) 넓은 Receptive field덕에 넓은 영역에 퍼져있는 Contextual information을 사용하여 높은 Scale에서도 안정적인 성능을 보인다.
Convergence. 두가지 방법을 제시하여 빠른 Convergence를 이뤘는데, 첫째는 Residual learning 방식을 사용하였다는것 그리고 둘째는 매우 높은 Learning-rate를 사용했다는 것이다. Residual learning 방식은 LR이미지와 HR이미지가 매우 높은 유사도를 보임으로 인해 높은 효율을 보여주며, 높은 Learning-rate를 이용한 빠른 Convergence는 Residual learning과 Gradient clipping덕에 가능하게 된다. VDSR에서 사용한 Residual learning에 대한 자세한 설명은 아래에서 설명한다.
Scale Factor. VDSR은 단일 모델이지만 다양한 Scale 에 대응할 수 있다. 어떠한 방법으로 다양한 Scale에 대응할 수 있는지는 아래에서 설명한다.
PROPOSED METHOD
VDSR구조는 20개의 레이어로 구성되어 있다.
위 그림은 논문에서 제공하는 구조에대한 그림인데, 자세히 나와있지 않아 이해하는데 애를 좀 먹었다.
더군다나 VDSR의 LR 이미지는 HR 이미지와 해상도가 같기때문에 헷갈린다! VDSR에서 표현하는 LR 이미지는 단지 Bicubic interpolation 된 이미지임을 생각하고 논문을 읽어야 한다.
먼저, Input RGB image를 YCbCr로 변환한다.
이후, Y, Cb, Cr 각 채널을 Bicubic interpolation으로 원하는 scale factor로 upscale 한다.
여기서 upscale된 Y채널 이미지만을 VDSR 네트워크의 입력으로 사용한다.
LR image의 Y채널 이미지가 VDSR 네트워크를 통과한 이미지와 LR image의 Y채널 이미지를 더한 뒤 생성된 이미지와 HR image의 Y채널 이미지 사이의 차이를 줄여나가기 위해 MSE-loss를 사용하여 학습을 하게 되며 VDSR 네트워크의 output은 자연스럽게 Residual image가 된다.
UNDERSTANDING PROPERTIES
The deeper, the better. VDSR논문은 그 구조의 이름에서 알 수 있듯이 깊은 구조의 CNN이 SR에서도 좋은 성능을 보인다는것을 입증한 논문이다. 논문의 저자는 구조의 깊이에 대한 성능의 변화를 다양하게 실험하였는데, 그 중 핵심적인 결과는 다음과 같다.
x4 Scale의 경우 네트워크의 깊이가 깊어질수록 SR image의 PSNR이 높아지는것을 볼 수 있다.
Residual-learning. VDSR의 Residual-learning 은 높은 initial learning rate를 적용시켜도 빠른 Convergence가 가능하게 해준다.
'공부 > Super Resolution 논문리뷰' 카테고리의 다른 글