Développement de Von Mises

En statistiques, le développement de Von Mises d'une statistique T ( X ) {\displaystyle T(X)} , est un analogue du développement de Taylor de cette statistique vue comme une fonctionnelle, c'est-à-dire comme une fonction d'une distribution. Le développement de T ( X ) {\displaystyle T(X)} au voisinage de la distribution F 0 {\displaystyle F_{0}} (par exemple la distribution de X {\displaystyle X} ) s'écrit donc comme une somme de terme de degrés croissants en P X F 0 {\displaystyle \mathbb {P} _{X}-F_{0}} , où P X {\displaystyle \mathbb {P} _{X}} désigne la distribution empirique de ces données. Le développement de Von Mises d'une statistique permet une meilleure compréhension de sa distribution asymptotique.

Le développement de Von Mises a été introduit pour la première fois par Richard Von Mises en 1947[1].

Statistique fonctionnelle

La plupart des statistiques (estimateurs, statistiques de tests, etc.) peuvent être définies en tant que fonctionnelles, c'est ce qu'on appelle des statistiques fonctionnelles.

Une statistique T {\displaystyle T} est généralement vue comme une fonction prenant en entrée un jeu de données X {\displaystyle X} et retournant une valeur ou un vecteur de valeurs T ( X ) {\displaystyle T(X)} . On peut l'écrire T : X T ( X ) {\displaystyle T:X\to T(X)} .

Mais il est aussi possible de décrire cette statistique comme une fonction prenant en entrée une distribution de probabilité F {\displaystyle F} et retournant une valeur ou un vecteur de valeurs T ( F ) {\displaystyle T(F)} , il s'agit alors d'une statistique fonctionnelle T : F T ( F ) {\displaystyle T:F\mapsto T(F)} . Cette fonctionnelle est définie de sorte que pour tout jeu de données X {\displaystyle X} , si nous appelons P X {\displaystyle \mathbb {P} _{X}} la distribution empirique de X {\displaystyle X} , alors T ( X ) = T ( P X ) {\displaystyle T(X)=T(\mathbb {P} _{X})} . Le terme de droite de cette égalité considère T {\displaystyle T} comme une fonctionnelle alors que le terme de gauche comme une statistique classique.

Exemples

Pour un jeu de données X = ( X 1 , , X n ) {\displaystyle X=(X_{1},\ldots ,X_{n})} comprenant n {\displaystyle n} observations :

  • la moyenne s'écrit classiquement comme M ( X ) = 1 n i = 1 n X i {\displaystyle M(X)={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} . La fonctionnelle associée s'écrit : M ( F ) = t d F ( t ) {\displaystyle M(F)=\int t\mathrm {d} F(t)} d F {\displaystyle \mathrm {d} F} est la densité de probabilité associée à F {\displaystyle F} .
  • la variance s'écrit classiquement comme V ( X ) = 1 n i = 1 n ( X i M ( X ) ) 2 {\displaystyle V(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-M(X))^{2}} , la fonctionnelle associée s'écrit : V ( F ) = ( t M ( F ) ) 2 d F ( t ) {\displaystyle V(F)=\int (t-M(F))^{2}\mathrm {d} F(t)} .
  • le α {\displaystyle \alpha } -quantile de X {\displaystyle X} s'écrit comme Q α ( X ) = inf { x R : c a r d { X i : X i x } n α } {\displaystyle Q_{\alpha }(X)=\inf \left\{x\in \mathbb {R} :{\frac {\mathrm {card} \{X_{i}:X_{i}\leq x\}}{n}}\geq \alpha \right\}} (plus petite valeur x {\displaystyle x} telle qu'une proportion d'au moins α {\displaystyle \alpha } des données lui soit supérieure). La fonctionnelle associée s'écrit Q ( F ) = F 1 ( α ) {\displaystyle Q(F)=F^{-1}(\alpha )} F {\displaystyle F} est identifiée à sa fonction de répartition (au cas, où F 1 ( α ) {\displaystyle F^{-1}(\alpha )} n'est pas unique, on peut prendre inf F 1 ( { α } ) {\displaystyle \inf \,F^{-1}(\{\alpha \})} , le plus petit antécédent de α {\displaystyle \alpha } par F {\displaystyle F} ).

Dérivabilité d'une fonctionnelle

Comme pour des fonctions classiques, il est possible de parler de continuité et de dérivabilité d'une statistique fonctionnelle. On peut définir la dérivée de T {\displaystyle T} en F 0 {\displaystyle F_{0}} dans la direction de F {\displaystyle F} comme

d 1 T ( F 0 , F F 0 ) = lim t 0 T ( F 0 + t ( F F 0 ) ) T ( F 0 ) t = d T ( F 0 + t ( F F 0 ) ) d t | t = 0 {\displaystyle \mathrm {d} _{1}T(F_{0},F-F_{0})=\lim _{t\to 0}{\frac {T(F_{0}+t(F-F_{0}))-T(F_{0})}{t}}=\left.{\frac {\mathrm {d} T\left(F_{0}+t(F-F_{0})\right)}{\mathrm {d} t}}\right|_{t=0}} .

Les dérivées d'ordres supérieurs peuvent être définies d'une manière analogue par

d k T ( F 0 , F F 0 ) = d k T ( F 0 + t ( F F 0 ) ) d t k | t = 0 {\displaystyle \mathrm {d} _{k}T(F_{0},F-F_{0})=\left.{\frac {\mathrm {d} ^{k}T(F_{0}+t(F-F_{0}))}{\mathrm {d} t^{k}}}\right|_{t=0}} .

Il est possible de montrer que d 1 ( F , G F ) {\displaystyle \mathrm {d} _{1}(F,G-F)} est linéaire en G F {\displaystyle G-F} .

Exemples

  • Dérivée de la moyenne : d 1 M ( F 0 , F G ) = M ( F ) M ( F 0 ) {\displaystyle \mathrm {d} _{1}M(F_{0},F-G)=M(F)-M(F_{0})} . Les dérivées d'ordre supérieur sont égales à 0.
  • Dérivée de la variance : d 1 V ( F 0 , F F 0 ) = x 2 d F ( x ) x 2 d F 0 ( x ) + 2 M ( F ) 2 2 M ( F ) M ( F 0 ) {\displaystyle \mathrm {d} _{1}V(F_{0},F-F_{0})=\int x^{2}\mathrm {d} F(x)-\int x^{2}\mathrm {d} F_{0}(x)+2M(F)^{2}-2M(F)M(F_{0})} .

Dérivée de Gateaux et dérivée de Fréchet

Article détaillé : Dérivée de Gateaux.

Il existe en réalité plusieurs notions de dérivées pour les fonctionnelles. La dérivée, définie telle qu'au-dessus, correspond à la dérivée de Gateaux, ou dérivée directionnelle. On peut aussi définir la dérivée de Fréchet, ou dérivée fonctionnelle, d'une statistique fonctionnelle T {\displaystyle T} . Cette dérivée est l'unique application linéaire d T F {\displaystyle \mathrm {d} T_{F}} telle que

T ( G ) = T ( F ) + d T F ( F G ) + O ( F G ) {\displaystyle T(G)=T(F)+\mathrm {d} T_{F}(F-G)+{\mathcal {O}}(\|F-G\|)}

{\displaystyle \|\cdot \|} désigne la norme infini. Dans le cas où les dérivées au sens de Fréchet et au sens de Gateaux existent toutes les deux, elles coïncident nécessairement:

d T F ( F G ) = d 1 T ( F , F G ) {\displaystyle \mathrm {d} T_{F}(F-G)=\mathrm {d} _{1}T(F,F-G)} .

Cela permet de justifier que la dérivée de Gateaux est linéaire par rapport à F G {\displaystyle F-G} , puisque d T F {\displaystyle \mathrm {d} T_{F}} est linéaire.

Comme la dérivée de Gateaux se ramène à une dérivée unidimensionnelle calculable en utilisant les règles basiques de dérivation, elle est d'un meilleur usage pratique.

Lien avec la fonction d'influence

Dans de nombreux cas, la dérivée de T {\displaystyle T} en F 0 {\displaystyle F_{0}} dans la direction de F {\displaystyle F} peut s'écrire d 1 T ( F 0 , F F 0 ) = h F 0 ( x ) ( d F ( x ) d F 0 ( x ) ) {\displaystyle \mathrm {d} _{1}T(F_{0},F-F_{0})=\int h_{F_{0}}(x)(\mathrm {d} F(x)-\mathrm {d} F_{0}(x))} . La fonction h F 0 {\displaystyle h_{F_{0}}} est alors appelée la fonction d'influence de la statistique T {\displaystyle T} en F 0 {\displaystyle F_{0}} . La définition de h F 0 ( x ) {\displaystyle h_{F_{0}}(x)} est d'ailleurs très similaire à celle de la dérivée de T {\displaystyle T}  : la distribution F {\displaystyle F} y est simplement remplacée par une distribution de Dirac centrée en x {\displaystyle x} .

Développement de Von Mises

Étant donnés deux distributions de probabilités F {\displaystyle F} et G {\displaystyle G} , le développement de Von Mises d'une statistique T {\displaystyle T} en F {\displaystyle F} correspond à l'approximation de T ( G ) T ( F ) {\displaystyle T(G)-T(F)} par

T ( G ) T ( F ) k = 1 m 1 k ! d k T ( F , G F ) {\displaystyle T(G)-T(F)\approx \sum _{k=1}^{m}{\frac {1}{k!}}\mathrm {d} _{k}T(F,G-F)}

pour un certain entier positif k {\displaystyle k} .

Cette approximation est en réalité le développement de Taylor en 0 {\displaystyle 0} de la fonction réelle t T ( F + t ( G F ) ) {\displaystyle t\mapsto T(F+t(G-F))} , évalué en t = 1 {\displaystyle t=1} .

Étant donné un échantillon X {\displaystyle X} supposé issu de variables aléatoires indépendantes et identiquement distribuées selon une distribution F {\displaystyle F} , le développement de Von Mises est souvent appliqué pour approximer T ( P n ) {\displaystyle T(\mathbb {P} _{n})} par T ( F ) + k = 1 m d k T ( F , P n F ) {\displaystyle T(F)+\sum _{k=1}^{m}\mathrm {d} _{k}T(F,\mathbb {P} _{n}-F)} . Comme T ( P n ) = T ( X ) {\displaystyle T(\mathbb {P} _{n})=T(X)} , cela permet une approximation de la T ( X ) {\displaystyle T(X)} . En particulier, ça permet une meilleur intuition sur la distribution asymptotique de T ( X ) {\displaystyle T(X)} [2].

Lien avec la distribution asymptotique

Normalité asymptotique

Supposons que l'échantillon X = ( X 1 , , X n ) {\displaystyle X=(X_{1},\ldots ,X_{n})} soit composé de n {\displaystyle n} variables aléatoires indépendantes et identiquement distribuées suivant une distribution F {\displaystyle F} .

Alors, sous certaines conditions de régularité, si le terme d'ordre 1 du développement de Von Mises de T {\displaystyle T} en F {\displaystyle F} est non nul, T ( X ) {\displaystyle T(X)} sera asymptotiquement normale.

Pour s'en rendre compte informellement, il suffit de se rappeler que T ( X ) = T ( P n ) {\displaystyle T(X)=T(\mathbb {P} _{n})} P n = 1 n Δ X i {\displaystyle \mathbb {P} _{n}={\frac {1}{n}}\sum \Delta _{X_{i}}} est la distribution empirique de X {\displaystyle X} , puis d'écrire le développement de Von Mises au voisinage de F {\displaystyle F}  :

T ( P n ) T ( F ) + d 1 T ( F , P n F ) T ( F ) + d 1 T ( F , 1 n i = 1 n Δ X i F ) T ( F ) + d 1 T ( F , 1 n i = 1 n ( Δ X i F ) ) T ( F ) + 1 n i = 1 n d 1 T ( F , ( Δ X i F ) ) {\displaystyle {\begin{array}{ccl}T(\mathbb {P} _{n})&\approx &T(F)+\mathrm {d} _{1}T(F,\mathbb {P} _{n}-F)\\&\approx &T(F)+\mathrm {d} _{1}T(F,{\frac {1}{n}}\sum _{i=1}^{n}\Delta _{X_{i}}-F)\\&\approx &T(F)+\mathrm {d} _{1}T\left(F,{\frac {1}{n}}\sum _{i=1}^{n}(\Delta _{X_{i}}-F)\right)\\&\approx &T(F)+{\frac {1}{n}}\sum _{i=1}^{n}\mathrm {d} _{1}T\left(F,(\Delta _{X_{i}}-F)\right)\end{array}}}

en utilisant la linéarité de d 1 T ( F , ) {\displaystyle \mathrm {d} _{1}T(F,\cdot )} . Puisque les X i {\displaystyle X_{i}} sont indépendants et identiquement distribués, d 1 T ( F , Δ X i F ) {\displaystyle \mathrm {d} _{1}T(F,\Delta _{X_{i}}-F)} le sont aussi le théorème central limite s'applique et indique que 1 n i = 1 n d 1 T ( F , ( Δ X i F ) ) {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\mathrm {d} _{1}T\left(F,(\Delta _{X_{i}}-F)\right)} est asymptotiquement normalement distribué, et donc T ( X ) {\displaystyle T(X)} aussi.

Distribution asymptotique suivant une combinaison de χ²

Lorsque le premier terme non nul du développement de Von Mises est le second terme, sous certaines conditions de régularité, la distribution asymptotique de T ( X ) {\displaystyle T(X)} peut s'écrire comme une combinaison linéaire de variables aléatoires indépendantes distribuées suivant une loi du χ² à un degré de liberté.

Autres distributions asymptotiques

Lorsque le premier terme non nul du développement de Von Mises est le troisième ou plus, il existe des expressions plus complexes de la distribution asymptotique de T ( X ) {\displaystyle T(X)} . Toutefois, ces distributions ne s'expriment pas simplement en utilisant des lois de probabilité usuelles[3].

Voir aussi

Références

  1. (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, no 3,‎ , p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le )
  2. Serfling, Robert J. Verfasser, Approximation Theorems of Mathematical Statistics (ISBN 978-0-470-31719-8 et 0-470-31719-1, OCLC 959994695, lire en ligne)
  3. H. Rubin et R. A. Vitale, « Asymptotic Distribution of Symmetric Statistics », The Annals of Statistics, vol. 8, no 1,‎ (ISSN 0090-5364, DOI 10.1214/aos/1176344898, lire en ligne, consulté le )
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l'analyse