SHOT-VAE: Semi-supervised Deep Generative Models With Label-aware ELBO Approximations

일반적으로 우리가 데이터를 많이 모으고 하는데 있어서 어려움은 없기는 한데, 여기에 Labeling까지해서 데이터를 수집하는 일은 보통이 아님..
(Kingma et al. 2014) 에서 제안된 Semi-supervised VAE에서 이 문제를 제시 했었고, 이런 Semi-supervised VAE는 ELBO와 classification loss를 합쳐서 objective function으로 사용함으로써, 적은 수의 labelled 데이터만 가지고 classifier를 학습시켜서 unlabeled data에 대한 문제를 해결했었음. 거기애 더해서 data generation에 사용될 수 있는 disentangled factor를 보여도 주었음.

그런데 여기에는 “good ELBO, bad inference” 문제가 있음. ➔ (Zhao et al. 2017) 에 따르면, ELBO가 좋다 그래서, 이게 정확한 inference result를 준다는 것은 아님.. 이런 문제를 해결하기 위해서 여러 모델이 있었음.

어쨌거나 이 논문에서는 Semi-supervised learning 방식으로 학습과정을 중심적으로 살펴보면서, 위의 “good ELBO, bad inference” 문제를 해결하기 위해서 두가지 가능한 원인을 제시하였음.

  1. ELBO가 label information을 제대로 활용을 못한다는 것임
    ➔ Semi-Supervised VAE framework에서는 ELBO랑 classification loss가 label이 있는 데이터와 없는 데이터에 대해서 따로 학습을 한다. 그래서 이게 ELBO로는 Inference accuracy를 올리기 힘들게 한다.
  2. ELBO bottleneck 이 존재함
    ➔ 이건 적절한 이유가 아직은 안보임..

저자들은 그래서 SmootH-ELBO Optimal InTerpolation VAE (SHOT-VAE)을 제안한다. ➔ 이 모델로 “good ELBO, bad inference” 문제를 해결할거임. 이 모델은 게다가 prior knowledge도 요구하지 않음. 그래서 이 모델은 아래의 세가지 사항이 본 문제를 해결함에 있어 기여했다고 함.

  • The smooth-ELBO objective that integrates the classification loss into ELBO.
    ➔ ELBO에 classification loss를 혼합해서 만든 Smoothed ELBO 라는, Label-smoothing을 사용한 새로운 ELBO approximation을 제안.
  • The margin approximation that breaks the ELBO bottleneck.
    ➔ Optimal Interpolation approximation(OT-approximation)을 통해서 ELBO bottleneck 현상을 해결하고 inference accuracy를 높임.
  • Good semi-supervised performance.

Semi-supervised VAE

$D_u \ne D_L$ ddd