En théorie des probabilités et en théorie de l'information, la divergence de Kullback-Leibler[1],[2] (ou divergence K-L ou encore entropie relative) est une mesure de dissimilarité entre deux distributions de probabilités. Elle doit son nom à Solomon Kullback et Richard Leibler, deux cryptanalystes américains. Selon la NSA[réf. nécessaire], c'est durant les années 1950, alors qu'ils travaillaient pour cette agence, que Kullback et Leibler ont inventé cette mesure. Elle aurait d'ailleurs servi à la NSA dans son effort de cryptanalyse pour le projet Venona.

Introduction et contexte

[modifier | modifier le code]

Considérons deux distributions de probabilités P et Q. Typiquement, P représente les données, les observations, ou une distribution de probabilités calculée avec précision. La distribution Q représente typiquement une théorie, un modèle, une description ou une approximation de P. La divergence de Kullback-Leibler s'interprète comme la différence moyenne du nombre de bits nécessaires au codage d'échantillons de P en utilisant un code optimisé pour Q plutôt que le code optimisé pour P.

Définition

[modifier | modifier le code]

Il existe plusieurs définitions selon les hypothèses sur les distributions de probabilités.

Premières définitions

[modifier | modifier le code]

Pour deux distributions de probabilités discrètes P et Q sur un ensemble X. La divergence de Kullback–Leibler de P par rapport à Q est définie par[3]

où P(x) est Q(x) sont les valeurs respectives en x des fonctions de masse pour P et Q. En d'autres termes, la divergence de Kullback-Leibler est l'espérance de la différence des logarithmes de P et Q, en prenant la probabilité P pour calculer l'espérance.

Pour des distributions P et Q continues de densités respectives p et q, on utilise une intégrale

.

Définitions générales

[modifier | modifier le code]

On peut généraliser les deux cas particuliers ci-dessus en considérant P et Q deux mesures définies sur un ensemble X, absolument continues par rapport à une mesure  : le théorème de Radon-Nikodym-Lebesgue assure l'existence des densités p et q avec et , on pose alors

sous réserve que la quantité de droite existe. Si P est absolument continue par rapport à Q, (ce qui est nécessaire si est finie) alors est la dérivée de Radon-Nikodym de P par rapport à Q et on obtient

,

où l'on reconnait l'entropie de P par rapport à Q.

De même, si Q est absolument continue par rapport à P, on a

Dans les deux cas, on constate que la divergence de Kullback-Leibler ne dépend pas de la mesure .

Lorsque les logarithmes de ces formules sont pris en base 2 l'information est mesurée en bits; lorsque la base est e, l'unité est le nat.

Exemple

[modifier | modifier le code]

Kullback[4] donne l'exemple suivant (Table 2.1, Example 2.1). Soit P et Q les distributions données dans la table et la figure. P est la distribution sur la partie gauche de la figure, il s'agit d'une distribution binomiale avec N = 2 et p = 0.4. Q est la distribution de la partie droite de la figure, une distribution uniforme discrète avec trois valeurs x = 0, 1, ou 2, chacune de probabilité p = 1/3.

Two distributions to illustrate Kullback–Leibler divergence

Le tableau suivant donne les fonctions de masse des distributions P et Q. Par exemple, pour la distribution P, la probabilité d'avoir la valeur 1 est 0.48.

0 1 2
Distribution P 0.36 0.48 0.16
Distribution Q 0.333 0.333 0.333

La divergence KL est calculée comme suit. On utilise le logarithme naturel.

Propriétés

[modifier | modifier le code]

Discussion

[modifier | modifier le code]

Bien que perçue souvent comme une distance, elle n'en remplit pas les conditions : elle n'est pas symétrique et ne respecte pas l'inégalité triangulaire.

La divergence de Kullback-Leibler entre dans la catégorie plus large des f-divergences, introduite indépendamment par Csiszár[6] en 1967 et par Ali et Silvey[7] en 1966. Par son appartenance à cette famille, elle respecte des propriétés de conservation de l'information : invariance, monotonicité[8].

De manière complémentaire, la divergence de Kullback-Leibler est également une divergence de Bregman[9], associée à la fonction potentiel . La conséquence est que cette divergence, par transformation de Legendre de est associée à un couple dual de système de coordonnées permettant de représenter les distributions de la famille exponentielle.

Notes et références

[modifier | modifier le code]
  1. Kullback et Leibler 1951.
  2. Kullback 1959.
  3. MacKay, David J.C., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, , First éd. (ISBN 9780521642989, lire en ligne), p. 34
  4. S. Kullback, Information Theory and Statistics, John Wiley & Sons, . Republished by Dover Publications in 1968; reprinted in 1978: (ISBN 0-8446-5625-9).
  5. Amari et Nagaoka 2000.
  6. Csiszár 1967.
  7. Ali et Silvey 1967.
  8. Amari 2010.
  9. Bregman 1967.

Annexes

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]

Voir aussi

[modifier | modifier le code]