Meaning of PCA projection of DDIM inversion latent

PCA는 High-dimensional DDIM Inversion의 Trajectory를 정보 손실 없이 효과적으로 시각화할 수 있다

Why? Diffusion Trajectory는 실질적으로 초기 Latent $z_T$와 최종 Latent $z_0$가 Span하는 2D Subspace에 분포한다

📍이론📍 Diffusion Models Generate Images Like Painters (arXiv 2023)
- 수학적 유도: Denoising Process를 Signal($x_0$)과 Noise($x_T$) 축 사이의 2D Rotation (circular arc) 모델로 수식화
  - PC1: circular arc의 지름 방향 → trajectory의 이동 거리가 가장 긴 방향이므로 분산의 대부분(~95%) 차지
  - PC2: circular arc의 높이 방향 (궤적이 직선 경로에서 얼마나 휘어져 나가는지)
- 단일 Trajectory에 대해 PCA를 수행했을 때 상위 2개의 주성분(PC1, PC2)이 Trajectory 전체 분산의 ~99%를 설명

Why?

분산의 ~95%를 포착하는 principle axis로 projection (Experiment 1)
- PC1이 분산의 ~95%를 포착할 수 있는 이론적 원인?
  - UNet output → timestep에 대해 constant
  - span(x_0, epsilon) → PC1, PC2가 이론적으로 전체 분산 100% 설명
  - u^2 + v^2 = 1 특수케이스에 대해, PC1: y = -x 방향 PC2: y = x 방향 & corr < -0.9
DDIM inversion latent trajectory는 전체적으로 선형적이며 PC1과 정렬되어 있음 (Experiment 1, Experiment 2)

→ DDIM inversion latent를 통해 만들어진 PCA space는, DDIM inversion latent trajectory와 (비교하고자 하는) denoising step latent trajectory 간의 구조적 일치도를 확인할 수 있는 도구 (이때 better visualization을 위해, 상위 2개 축으로 정의된 2D PCA space 사용)

Experiment 1: 3000장의 이미지 Dataset에 대해,

step별 평균 $\text{abs}(\cos(z_{t+1}-z_{t}, e_{\text{PC1}}))$ 측정 (local path에 대한 cosine similarity 절댓값)
DDIM inversion latent들을 PCA 투영했을 때 PC1 수치 평균 측정

Result:

all datasets.png

→ PC1이 전체 분산의 약 96.7% 설명 (표준편차 $\downarrow$)

→ 코사인 유사도의 절댓값(최소 0, 최대 1)의 평균이 약 0.899 (표준편차 $\downarrow$)

Experiment 2: Qualitative Comparison에 사용할 이미지 1장에 대해,

PC1 축을 따라 Visualize: $\tilde{z}t=\mu+ \text{Proj}{\mathbf{e}_{\text{PC}_1}}(z_t-\mu)$
PC1을 제거한 나머지 축을 따라 Visualize: $\tilde{z}t=\mu+\{(z_t-\mu) - \text{Proj}{\mathbf{e}_{\text{PC}_1}}(z_t-\mu)\}$

Result: