Vés al contingut

Distància inicial de Fréchet

De la Viquipèdia, l'enciclopèdia lliure

La distància inicial de Fréchet (FID) és una mètrica que s'utilitza per avaluar la qualitat de les imatges creades per un model generatiu, com una xarxa adversa generativa (GAN).[1] A diferència de la puntuació inicial (IS), que només avalua la distribució de les imatges generades, el FID compara la distribució d'imatges generades amb la distribució d'un conjunt d'imatges reals ("veritat bàsica").[1]

La mètrica FID es va introduir el 2017,[2] i és la mètrica estàndard actual per avaluar la qualitat dels models generatius a partir del 2020. S'ha utilitzat per mesurar la qualitat de molts models recents, incloses les xarxes d'alta resolució StyleGAN1 [3] i StyleGAN2.

Definició

[modifica]

Per a dues distribucions de probabilitat qualsevol acabat tenint una mitjana i variàncies finites, la seva distància de Fréchet és [4]on és el conjunt de totes les mesures amb marginals i en el primer i segon factors respectivament. (El conjunt també s'anomena el conjunt de tots els acoblaments de i ). En altres paraules, és la distància 2-Wasserstein activada . Per a dues distribucions gaussianes multidimensionals i , es pot resoldre explícitament com [5]Això ens permet definir el FID en forma de pseudocodi:

INPUT una funció .

INPUT dos conjunts de dades .

Calcular .

Ajustar dues distribucions gaussianes , respectivament per .

RETORNAR .

En la majoria dels usos pràctics del FID, és l'espai de les imatges, i és un model Inception v3 entrenat a ImageNet, però sense la seva capa de classificació final. Tècnicament, és el vector d'activació de 2048 dimensions de la seva última capa d'agrupació. Dels dos conjunts de dades , un d'ells és un conjunt de dades de referència, que podria ser el mateix ImageNet, i l'altre és un conjunt d'imatges generades per un model generatiu, com ara GAN, o model de difusió.[6]

Interpretació

[modifica]

En lloc de comparar directament les imatges píxel per píxel (per exemple, com ho fa la norma L2), el FID compara la mitjana i la desviació estàndard de la capa més profunda a Inception v3. Aquestes capes estan més a prop dels nodes de sortida que corresponen a objectes del món real, com ara una raça específica de gossos o un avió, i més lluny de les capes poc profundes properes a la imatge d'entrada.

Referències

[modifica]
  1. 1,0 1,1 Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (en anglès) Advances in Neural Information Processing Systems, 30, 2017. arXiv: 1706.08500.
  2. Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (en anglès) Advances in Neural Information Processing Systems, 30, 2017. arXiv: 1706.08500.
  3. Karras, Tero; Laine, Samuli; Aila, Timo IEEE Transactions on Pattern Analysis and Machine Intelligence, PP, 12, 2020, pàg. 4217–4228. arXiv: 1812.04948. DOI: 10.1109/TPAMI.2020.2970919. PMID: 32012000.
  4. Fréchet., M C. R. Acad. Sci. Paris, 244, 1957, pàg. 689–692.
  5. Dowson, D. C; Landau, B. V (en anglès) Journal of Multivariate Analysis, 12, 3, 01-09-1982, pàg. 450–455. DOI: 10.1016/0047-259X(82)90077-X. ISSN: 0047-259X [Consulta: free].
  6. Heusel, Martin; Ramsauer, Hubert; Unterthiner, Thomas; Nessler, Bernhard; Hochreiter, Sepp (en anglès) Advances in Neural Information Processing Systems, 30, 2017. arXiv: 1706.08500.