Chernoff-Ungleichung

Dieser Artikel oder Abschnitt bedarf einer grundsätzlichen Überarbeitung:
Der Artikel betrachtet zur Zeit nur zwei der zahlreich existierenden Chernoff-Ungleichungen, insbesondere nur für Bernoulli-Experimente mit identischem Parameter (im allgemeinen ist dies jedoch keine Voraussetzung für Chernoff-Schranken), wobei auch für in diesem Falle schärfere Chernoff-Schranken existieren.
Bitte hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

In der Wahrscheinlichkeitstheorie beschreibt der Begriff Chernoff-Ungleichung eine obere Schranke für die Wahrscheinlichkeit, dass eine Sequenz unabhängiger Zufallsvariablen von ihrer erwarteten Anzahl an Erfolgen abweicht. Die Ungleichung wurde nach Herman Chernoff benannt, geht jedoch auf Herman Rubin zurück.[1][2]

Die Chernoff-Ungleichung ist ein vielseitiges und vielfach verwendetes Hilfsmittel bei der Analyse von randomisierten Algorithmen in der Informatik.

Allgemeine Formulierung

Die allgemeinste Form der Chernoff-Ungleichung für eine Zufallsvariable X {\displaystyle X} erhält man durch Anwenden der Markov-Ungleichung auf e t X {\displaystyle e^{tX}} :

Für alle t > 0 {\displaystyle t>0} gilt

Pr ( X a ) = Pr ( e t X e t a ) E [ e t X ] e t a {\displaystyle \Pr(X\geq a)=\Pr(e^{t\cdot X}\geq e^{t\cdot a})\leq {\frac {\operatorname {E} \left[e^{t\cdot X}\right]}{e^{t\cdot a}}}}

und somit auch

Pr ( X a ) inf t > 0 E [ e t X ] e t a . {\displaystyle \Pr(X\geq a)\leq \inf _{t>0}{\frac {\operatorname {E} \left[e^{t\cdot X}\right]}{e^{t\cdot a}}}.}

Diese Form der Chernoff-Ungleichung verwendet die momenterzeugende Funktion von X {\displaystyle X} . Für eine gegebene Verteilung von X {\displaystyle X} kann durch Ausrechnen dieser Funktion eine spezifische Chernoff-Ungleichung errechnet werden.

Chernoff-Ungleichung für Binomialverteilungen

Sei X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}} eine Sequenz von n {\displaystyle n} unabhängigen Bernoulli-Experimenten mit P [ X i = 1 ] = p {\displaystyle P[X_{i}=1]=p} und P [ X i = 0 ] = 1 p {\displaystyle P[X_{i}=0]=1-p} . Demnach beschreibt p n {\displaystyle pn} die erwartete Anzahl an Erfolgen ( X i = 1 {\displaystyle X_{i}=1} ) des Experiments.

1. Dann gilt für jedes δ > 0 {\displaystyle \delta >0}
P [ X i ( 1 + δ ) p n ] exp ( min { δ , δ 2 } 3 p n ) {\displaystyle P\left[\sum X_{i}\geq (1+\delta )\cdot pn\right]\leq \exp \left(-{\frac {\min\{\delta ,\delta ^{2}\}}{3}}pn\right)}
2. Für jedes δ [ 0 , 1 ] {\displaystyle \delta \in [0,1]} gilt:
P [ X i ( 1 δ ) p n ] exp ( δ 2 2 p n ) {\displaystyle P\left[\sum X_{i}\leq (1-\delta )\cdot pn\right]\leq \exp \left(-{\frac {\delta ^{2}}{2}}pn\right)}
3. Für alle t 2 e p n {\displaystyle t\geq 2e\cdot pn} :
P [ X i t ] 2 t {\displaystyle P\left[\sum X_{i}\geq t\right]\leq 2^{-t}}

Beweis

Erste Chernoff-Schranke

Sei t > 0 {\displaystyle t>0} eine zunächst beliebige Konstante. Bezeichne Y {\displaystyle Y} im Folgenden zur Vereinfachung der Schreibweise eine neue Zufallsvariable vermöge Y = exp ( t X i ) {\displaystyle \textstyle Y=\exp \left(t\sum X_{i}\right)} . Auf Grund der Monotonie der Abbildung x exp ( t x ) {\displaystyle x\mapsto \exp(tx)} folgt dann

P [ X i ( 1 + δ ) p n ] = P [ Y exp ( t ( 1 + δ ) p n ) ] = P [ Y k E [ Y ] ] 1 k {\displaystyle P\left[\sum X_{i}\geq (1+\delta )\cdot pn\right]=P\left[Y\geq \exp \left(t(1+\delta )\cdot pn\right)\right]=P\left[Y\geq k{\textrm {E}}\left[Y\right]\right]\leq {\frac {1}{k}}} ,

wobei k {\displaystyle k} als k = exp ( t ( 1 + δ ) p n ) E [ Y ] {\displaystyle k={\tfrac {\exp(t(1+\delta )pn)}{{\textrm {E}}[Y]}}} definiert ist und die letzte Abschätzung mittels Markow-Ungleichung folgt. Nun gilt

E [ exp ( t X i ) ] = ( 1 p ) e 0 + p e t = 1 + ( e t 1 ) p {\displaystyle {\textrm {E}}\left[\exp(tX_{i})\right]=(1-p)e^{0}+pe^{t}=1+(e^{t}-1)p}

und somit

E [ Y ] = E [ exp ( t X i ) ] = E [ exp ( t X i ) ] = E [ exp ( t X i ) ] = ( 1 + ( e t 1 ) p ) n {\displaystyle {\textrm {E}}\left[Y\right]={\textrm {E}}\left[\exp(t\sum X_{i})\right]={\textrm {E}}\left[\prod \exp(tX_{i})\right]=\prod {\textrm {E}}\left[\exp(tX_{i})\right]=\left(1+(e^{t}-1)p\right)^{n}} .

Damit folgt

1 k = e t ( 1 + δ ) p n ( 1 + ( e t 1 ) p ) n e t ( 1 + δ ) p n e ( e t 1 ) p n = e t ( 1 + δ ) p n + ( e t 1 ) p n {\displaystyle {\frac {1}{k}}=e^{-t(1+\delta )pn}\left(1+(e^{t}-1)p\right)^{n}\leq e^{-t(1+\delta )pn}\cdot e^{(e^{t}-1)pn}=e^{-t(1+\delta )pn+(e^{t}-1)pn}} .

Betrachte nun t = log ( 1 + δ ) {\displaystyle t=\log(1+\delta )} . Dann gilt

1 k e ( log ( 1 + δ ) ) ( 1 + δ ) p n + δ p n = e ( δ ( 1 + δ ) log ( 1 + δ ) ) p n {\displaystyle {\frac {1}{k}}\leq e^{-(\log(1+\delta ))(1+\delta )pn+\delta pn}=e^{(\delta -(1+\delta )\log(1+\delta ))pn}} .

Für einen Teil des Exponenten des rechten Terms

L ( δ ) = ( 1 + δ ) log ( 1 + δ ) {\displaystyle L(\delta )=(1+\delta )\log(1+\delta )}

kann man mittels Kurvendiskussion und Taylor-Reihenentwicklung zeigen, dass stets L ( δ ) δ + 1 3 min { δ , δ 2 } {\displaystyle L(\delta )\geq \delta +{\tfrac {1}{3}}\min\{\delta ,\delta ^{2}\}} gilt. Auf Grund der Monotonie der Exponentialfunktion gilt

1 k e ( δ ( δ + 1 3 min { δ , δ 2 } ) ) p n = exp ( min { δ , δ 2 } 3 p n ) {\displaystyle {\frac {1}{k}}\leq e^{(\delta -(\delta +{\frac {1}{3}}\min\{\delta ,\delta ^{2}\}))pn}=\exp \left(-{\frac {\min\{\delta ,\delta ^{2}\}}{3}}pn\right)} .

Zusammen mit der ersten Abschätzung folgt die Behauptung.

Zweite Chernoff-Schranke

Der Beweis der zweiten Schranke folgt technisch analog zur ersten Schranke.


Dritte Chernoff-Schranke

Die Beweisidee besteht darin die Markow-Ungleichung auf Y = 4 X 0 {\displaystyle Y=4^{X}\geq 0} anzuwenden, wobei X = X i {\displaystyle X=\sum X_{i}} .

P [ X i t ] = P [ X t ] = P [ Y 4 t ] E [ Y ] 4 t {\displaystyle P\left[\sum X_{i}\geq t\right]=P\left[X\geq t\right]=P\left[Y\geq 4^{t}\right]\leq {\frac {E[Y]}{4^{t}}}}

Dann gilt aufgrund der Unabhängigkeit der Bernoulli-Experimente:

E [ Y ] = E [ 4 X ] = E [ 4 X i ] = E [ 4 X 1 ] . . . E [ 4 X n ] {\displaystyle E[Y]=E[4^{X}]=E[4^{\sum X_{i}}]=E[4^{X_{1}}]...E[4^{X_{n}}]}

Was abgeschätzt werden kann durch:

E [ 4 X 1 ] . . . E [ 4 X n ] e 3 p 1 . . . e 3 p n = e 3 E [ X ] {\displaystyle E[4^{X_{1}}]...E[4^{X_{n}}]\leq e^{3p_{1}}...e^{3p_{n}}=e^{3E[X]}}

Durch die Zusatzbedingung, dass t 2 e p n = 2 e E [ X ] {\displaystyle t\geq 2e\cdot pn=2e\cdot E[X]} , folgt:

e 3 E [ X ] ( e 3 2 e ) t 2 t {\displaystyle e^{3E[X]}\leq (e^{\frac {3}{2e}})^{t}\leq 2^{t}}

Also gilt:

P [ X i t ] E [ Y ] 4 t 2 t 4 t = 2 t {\displaystyle P\left[\sum X_{i}\geq t\right]\leq {\frac {E[Y]}{4^{t}}}\leq {\frac {2^{t}}{4^{t}}}=2^{-t}}

Chernoff-Ungleichung mithilfe der Standardabweichung

Eine allgemeine Variante der Chernoff-Ungleichung lässt sich mittels der Standardabweichung formulieren. Seien X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\ldots ,X_{n}} diskrete, unabhängige Zufallsvariablen mit E [ X i ] = 0 {\displaystyle {\textrm {E}}[X_{i}]=0} und | X i | 1 {\displaystyle |X_{i}|\leq 1} . Bezeichne σ 2 {\displaystyle \sigma ^{2}} die Varianz von X = X i {\displaystyle \textstyle X=\sum X_{i}} . Dann gilt für jedes 0 < λ 2 σ {\displaystyle 0<\lambda \leq 2\sigma } :

P [ | X i | λ σ ] 2 exp ( λ 2 4 ) {\displaystyle P\left[\left|\sum X_{i}\right|\geq \lambda \sigma \right]\leq 2\exp \left(-{\frac {\lambda ^{2}}{4}}\right)} .

Der Beweis ist technisch analog zu dem oben gezeigten Beweis.

Beispiele

  • Betrachte die folgende Frage: Wie wahrscheinlich ist es, beim zehnmaligen Wurf einer fairen Münze wenigstens siebenmal das Ergebnis „Zahl“ zu erhalten? Die Münzwürfe stellen Bernoulli-Experimente X 1 , X 2 , , X 10 {\displaystyle X_{1},X_{2},\ldots ,X_{10}} mit p n = 1 2 10 = 5 {\displaystyle pn={\tfrac {1}{2}}\cdot 10=5} dar. Somit folgt nach der ersten Chernoff-Ungleichung:
P [ X i 7 ] = P [ X i ( 1 + 4 10 ) 5 ] {\displaystyle P\left[\sum X_{i}\geq 7\right]=P\left[\sum X_{i}\geq \left(1+{\frac {4}{10}}\right)\cdot 5\right]}
exp ( min { 4 10 , 16 100 } 3 5 ) = exp ( 4 15 ) 0,766 {\displaystyle \leq \exp \left(-{\frac {\min\{{\frac {4}{10}},{\frac {16}{100}}\}}{3}}\cdot 5\right)=\exp \left(-{\frac {4}{15}}\right)\approx 0{,}766\ldots }
  • Man formuliere das obige Beispiel nur leicht um und frage stattdessen: Wie wahrscheinlich ist es, bei hundertmaligem fairen Münzwurf wenigstens siebzigmal das Ergebnis „Zahl“ zu erhalten? Sofort erweist sich die erste Chernoff-Schranke als deutlich stärker:
P [ X i 70 ] = P [ X i ( 1 + 4 10 ) 50 ] {\displaystyle P\left[\sum X_{i}\geq 70\right]=P\left[\sum X_{i}\geq \left(1+{\frac {4}{10}}\right)\cdot 50\right]}
exp ( min { 4 10 , 16 100 } 3 50 ) = exp ( 8 3 ) 0,069 {\displaystyle \leq \exp \left(-{\frac {\min\{{\frac {4}{10}},{\frac {16}{100}}\}}{3}}\cdot 50\right)=\exp \left(-{\frac {8}{3}}\right)\approx 0{,}069\ldots }

Literatur

  • Christian Schindelhauer, Algorithmen für Peer-to-Peer Netzwerke (Vorlesungsmaterialien), http://wwwcs.upb.de/cs/ag-madh/WWW/Teaching/2004SS/AlgoP2P/skript.html, Universität Paderborn, 2004.
  • Kirill Levchenko, Notizen, http://www.cs.ucsd.edu/~klevchen/techniques/chernoff.pdf

Einzelnachweise

  1. John Bather: A Conversation with Herman Chernoff. In: Statistical Science. 11. Jahrgang, Nr. 4, November 1996, S. 335–350, doi:10.1214/ss/1032280306. 
  2. Herman Chernoff: A career in statistics. In: Xihong Lin, Christian Genest, David L. Banks, Geert Molenberghs, David W. Scott, Jane-Ling Wang (Hrsg.): Past, Present, and Future of Statistics. CRC Press, 2014, ISBN 978-1-4822-0496-4, S. 35 (crcpress.com).