Hypothesis

Denoising Step에서 “DDIM Inversion Latent의 Low-frequency Phase 교체”:

매 Timestep마다 모델이 예측한 Latent Space의 Trajectory를, 원본(DDIM Inversion)의 Trajectory로 강제로 재정렬하는 행위

<논문 초안>

위에서 살펴본 바와 같이, denoising initial latent를 만들기 위해 주입되는 random noise → 원본 이미지와는 다른 이미지를 만들어낼 가능성 내포

→ Denoising 초반에 Noise 에너지가 높을수록 신호를 신뢰할 수 없다고 판단

신뢰의 기준: Timestep별 Noise의 에너지 비율

기각 정도를 Timestep별 Noise의 에너지(분산)와 비례하도록 설정

$$ \text{SNR}_t\space(\text{in Diffusion})=\frac{(\sqrt{\bar\alpha_t})^2}{(\sqrt{1-\bar\alpha_t})^2}=\frac{\bar\alpha_t}{1-\bar\alpha_t}=\frac{\text{Signal Power}}{\text{Noise Power}} $$

total power 대비 noise 비율:

$$ \to \text{Gaussian Sigma} \space \sigma_t= \frac{1}{1+\text{SNR}(t)}=\frac{\bar\alpha_t}{\bar\alpha_t + (1-\bar\alpha_t)}= \sigma_0 \cdot (1-\bar\alpha_t) $$

gaussian sigma를 timestep t에 대해서 그려보면 → fig1 (c)와 같이 cosine/sigmoid decay 모양이 나옴

<aside>

<논문 초안 2>

Section 4.1에서 살펴본 것과 같이, Denoising 과정의 초기 단계에 주입되는 Random Noise는 원본 이미지의 기하학적 구조(Geometric Structure)와 상이한 구조적 편향을 유발할 수 있다.

특히 Diffusion model의 생성 특성상, low-frequency component가 먼저 복원되는 초기 denoising 단계에서 noise의 에너지가 높을수록, 모델이 예측한 구조적 성분의 신뢰도는 낮아지게 된다.

이러한 관점에서, 우리는 timestep별 noise power에 비례하여 low-frequency의 교체 bandwidth를 동적으로 조절하는 전략인 adaptive spectral alignment를 제안한다.

핵심 아이디어는 불확실성이 높은 High Noise Energy 구간에서는 저주파 교체 범위를 확장하여 원본의 구조적 정합성을 강제하고, 잡음이 제거되며 신뢰도가 높아지는 Low Noise Energy 구간으로 진행될수록 교체 범위를 점진적으로 축소하여 모델의 생성 자유도와 스타일 표현력을 허용하는 것이다.

이를 정량화하기 위해 우리는 각 지점 t에서의 signal-to-noise ratio (SNR)을 활용한다.

diffusion process의 정의에 따라 t 시점의 SNR은 다음과 같이 유도된다:

(SNR 수식)

여기서 \bar\alpha_t는 t 시점의 누적 신호 스케일(cumulative signal scale)을 의미한다.

우리는 phase 교체를 위한 gaussian filter의 bandwith sigma_t가 전체 signal power 대비 noise power의 비율에 비례하도록 설계하였다. 즉, 잡음의 variance가 지배적인 구간일수록 강한 구조적 제약을 가하며, 그 스케줄링은 다음과 같다:

(sigma scheduling 수식)

여기서 \sigma_max는 최대 교체 bandwidth를 결정하는 하이퍼파라미터이다.

Fig. 1(c)에 도식화된 바와 같이, \sigma_t는 \bar\alpha_t의 스케줄에 따라 단조 감소(monotonically decreasing)하는 경향을 보인다.

결과적으로, 구조 결정에 결정적인 초기 단계에서는 원본의 위상 정보가 지배적으로 주입되지만, denoising이 진행됨에 따라 sigma_t가 0에 수렴하며 모델이 세부적인 스타일을 자유롭게 생성할 수 있도록 유도한다.

(왜곡할 가능성을 내포한다.?)

Fig. 1(c)에 도식화된 바와 같이, \sigma_t는 cosine decay 혹은 sigmoid decay 형태의 schedule을 따르며, ??이에 따라 r_t 또한 Denoising이 진행됨에 따라 점진적으로 감소한다.??

</aside>

image.png