Kwartiel

In de statistiek is een kwartiel een van de drie waarden die een geordende set data, de steekproef of populatie, in vier (zo goed mogelijk) gelijke delen opdeelt. Elk deel is in dat geval een kwart van de dataset. Men spreekt van eerste, tweede en derde kwartiel en noteert deze als Q 1 {\displaystyle Q_{1}} , Q 2 {\displaystyle Q_{2}} en Q 3 {\displaystyle Q_{3}} .

In deze systematiek worden de uitersten van de dataset, het minimum en het maximum wel genoteerd als Q 0 {\displaystyle Q_{0}} en Q 4 {\displaystyle Q_{4}} . Met de zo bepaalde vijf kwartielen kan een dataset kort samengevat worden in wat de vijf-getallensamenvatting heet.

Definitie

Kwartielen van een set data

Voor het eerste kwartiel Q 1 {\displaystyle Q_{1}} geldt:

  • ten minste 1/4 van de data is niet groter dan Q 1 {\displaystyle Q_{1}}
  • ten minste 3/4 van de data is niet kleiner dan Q 1 {\displaystyle Q_{1}}

Voor het tweede kwartiel Q 2 {\displaystyle Q_{2}} geldt:

  • ten minste 1/2 van de data is niet groter dan Q 2 {\displaystyle Q_{2}}
  • ten minste 1/2 van de data is niet kleiner dan Q 2 {\displaystyle Q_{2}}

Voor het derde kwartiel Q 3 {\displaystyle Q_{3}} geldt:

  • ten minste 3/4 van de data is niet groter dan Q 3 {\displaystyle Q_{3}}
  • ten minste 1/4 van de data is niet kleiner dan Q 3 {\displaystyle Q_{3}}

Formeel genoteerd geldt dus voor de kwartielen van de n {\displaystyle n} data x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} :

# { k x k Q 1 } 1 4 n {\displaystyle \#\{k\mid x_{k}\leq Q_{1}\}\geq {\tfrac {1}{4}}n}
# { k x k Q 1 } 3 4 n {\displaystyle \#\{k\mid x_{k}\geq Q_{1}\}\geq {\tfrac {3}{4}}n}
# { k x k Q 2 } 1 2 n {\displaystyle \#\{k\mid x_{k}\leq Q_{2}\}\geq {\tfrac {1}{2}}n}
# { k x k Q 2 } 1 2 n {\displaystyle \#\{k\mid x_{k}\geq Q_{2}\}\geq {\tfrac {1}{2}}n}
# { k x k Q 3 } 3 4 n {\displaystyle \#\{k\mid x_{k}\leq Q_{3}\}\geq {\tfrac {3}{4}}n}
# { k x k Q 3 } 1 4 n {\displaystyle \#\{k\mid x_{k}\geq Q_{3}\}\geq {\tfrac {1}{4}}n}

Kwartielen van een kansverdeling

Voor de kwartielen van de kansverdeling van een stochastische variabele X {\displaystyle X} geldt:

  • P ( X Q i ) i 4 {\displaystyle P(X\leq Q_{i})\geq {\frac {i}{4}}} ;
  • P ( X Q i ) 1 i 4 {\displaystyle P(X\geq Q_{i})\geq 1-{\frac {i}{4}}} .

Bepaling

De bovenstaande definitie bepaalt niet in alle gevallen eenduidig de kwartielen. In het geval van een eindige dataset bijvoorbeeld die bestaat uit 8 data, delen de kwartielen weliswaar de dataset in precies vier gelijke delen, maar zijn de kwartielen niet eenduidig bepaald. Voor het eerste kwartiel komen alle getallen in aanmerking tussen de tweede en derde in grootte. Voor de hand liggend is het gemiddelde van het 2e en het 3e getal als Q 1 {\displaystyle Q_{1}} te kiezen, maar men moet zich terdege realiseren dat er daarbij sprake is van een keuze. Is het aantal data geen viervoud, dan is een verdeling van de dataset in vier gelijke delen onmogelijk. Ook in dat geval moet men kiezen voor een specifieke methode voor het bepalen van de kwartielen.

Er zijn meerdere methoden bekend voor het berekenen van de kwartielen. In ieder statistisch softwarepakket is gekozen voor een specifiek algoritme, waardoor verschillende pakketten ook verschillende waarden voor de kwartielen kunnen leveren.

Kwartielen vormen een bijzonder geval van percentielen. In het lemma over percentielen worden tien verschillende methoden voor het berekenen van percentielen, en dus ook van kwartielen, gegeven. Zie ook de website van Mathworld.

Een van de methoden waarmee kwartielen worden berekend

Een veel gebruikte manier om van een geordende set x ( 1 ) x ( n ) {\displaystyle x_{(1)}\leq \ldots \leq x_{(n)}} van n {\displaystyle n} data de kwartielen te bepalen is als volgt:

Q 1 = x ( k ) , met  k = [ n + 1 4 ] {\displaystyle Q_{1}=x_{(k)},{\text{met }}k=\left\lbrack {\tfrac {n+1}{4}}\right\rbrack }
Q 2 = x ( k ) , met  k = [ n + 1 2 ] {\displaystyle Q_{2}=x_{(k)},{\text{met }}k=\left\lbrack {\tfrac {n+1}{2}}\right\rbrack }
Q 3 = x ( k ) , met  k = [ 3 n + 3 4 ] {\displaystyle Q_{3}=x_{(k)},{\text{met }}k=\left\lbrack {\tfrac {3n+3}{4}}\right\rbrack } ,

daarin is [ ] {\displaystyle \lbrack \,\cdot \,\rbrack } de nintfunctie, voor het afronden naar de dichtstbijzijnde gehele waarde.

Interkwartielafstand

Het verschil tussen het eerste en het derde kwartiel Q 3 Q 1 {\displaystyle Q_{3}-Q_{1}} wordt interkwartielafstand genoemd, een maat voor de spreiding van de data.

Zie ook

  • kwintielen, die de set in 5 gelijke delen opdelen;
  • decielen die de set in 10 gelijke delen opdelen;
  • percentielen, die de set in 100 gelijke delen opdelen

Externe link

  • (en) Quartile, Mathworld
· · Sjabloon bewerken
Onderwerpen uit de beschrijvende statistiek
Gemiddelden:rekenkundig gemiddelde · meetkundig gemiddelde · harmonisch gemiddelde · kwadratisch gemiddelde · gewogen gemiddelde · getrimd gemiddelde · Winsorgemiddelde
Andere liggingsmaten:mediaan · modus · kwartiel · deciel · percentiel
Spreidingsmaten:variantie · standaardafwijking · variatiecoëfficiënt · interkwartielafstand
Grafische beschrijvingen:histogram · boxplot · Q-Q plot
Overig:moment · scheefheid · kurtosis · vijf-getallensamenvatting