Word een
Expert in Spirometrie

Verklaarde variantie

Regression of dependent upon independent variableDe meest toegepaste statistische technieken om het verband tussen Y en X te ontrafelen gaan er van uit, dat er alleen fouten in de afhankelijke variabelen zijn: de verklarende variabelen bevatten geen fout. Dat is nooit het geval, maar zolang de fouten in de verklarende variabele(n) klein zijn hoeven we hier niet zwaar aan te tillen. Andere veronderstellingen zijn dat er een rechtlijnig verband bestaat, en dat de spreiding normaal is verdeeld. Normaal is een statistische term: hij hoort bij een bepaalde klokvormige verdeling van de gemeten grootheid, zo ongeveer als in bijgaande figuren (ref. 1). Bij een normale verdeling is de bel symmetrisch en kan deze worden gekenmerkt door de gemiddelde waarde van alle waarnemingen, en een maat voor de spreiding (standaard deviatie, SD) daar omheen. Bij inspectie van het X-Y diagram (bijgaande figuren) is aannemelijk dat aan beide voorwaarden voldaan wordt. In statistische programma's wordt de lijn die het verband tussen Y en X aangeeft zo berekend, dat het verschil tussen de waargenomen (y) en voorspelde (Y) waarde minimaal is (ref. 2).

Residual standard deviationBij de best passende lijn zijn de afwijkingen (deviaties) y - Y geminimaliseerd: er zijn negatieve en positieve verschillen, hun gemiddelde waarde is 0. Na deze berekening kunnen we de bel in twee stukken opdelen: een deel van de totale variantie wordt verklaard door het berekende verband tussen de afhankelijke variabele (de IVC in ons voorbeeld) en de verklarende variabele (de lengte), wat er over blijft is onverklaarde variantie. De onverklaarde variantie (residuele variantie, dat wat er aan variantie over blijft) is als een donkere bel geprojecteerd in de oorspronkelijke verdeling. De sterkte van het gevonden verband wordt weergegeven door de correlatiecoëfficiënt. Hoe de berekeningen in hun werk gaan laten we buiten beschouwing, het is soms nuttig te weten dat de correlatiecoëfficiënt (aangegeven met r) de vierkantswortel is uit de verklaarde variantie. Is r = 0,80, dan is 0,80² = 0,64 of 64% van de variantie verklaard. Bij r = 0,10 hoort slechts 1% verklaarde variantie.

We kennen nu van de regressielijn Y = a + b·X de coëfficiënt a (intercept) en b (helling). Tevens is bekend hoeveel spreiding (RSD, residuele standaarddeviatie) er over is gebleven. We kunnen nu voor elke waarde van X de verwachte waarde van Y berekenen en via de RSD bij een normale (Gaussiaanse) verdeling aangeven hoe in de praktijk de waargenomen waarden daar omheenzullen spreiden.

In het voorbeeld hebben we ons beperkt tot het verband tussen IVC en lengte. Bij volwassenen is de IVC kleiner naarmate de onderzochte ouder is. Een deel van de variantie die we overhouden als we de lengte in rekening hebben gebracht, komt op rekening van de leeftijd. We kunnen de leeftijd ook in de regressie-analyse betrekken en onderzoeken of toevoeging van de leeftijd de residuele variantie nog op zinvolle ("significant" is een statistische term) wijze vermindert. Worden volwassenen van jong tot oud onderzocht, dan blijkt de leeftijd altijd bij te dragen aan het verklaren van de verschillen in IVC tussen mensen. Een zinvolle lineaire regressieformule voor volwassenen ziet er dus zo uit:

IVC = a + b·lengte + c·leeftijd

Hierin is b, de regressiecoëfficiënt voor de lengte, positief, omdat de IVC toeneemt met de lengte. Maar c, de regressiecoëfficiënt voor de leeftijd, is negatief, aangevend dat bij volwassenen de IVC met de leeftijd afneemt.

Ref. 1 - De normale verdeling
Altman DG, Bland JM. The normal distribution. BMJ 1995; 310: 298.

Ref. 2 - Regressie analyse
Greenhalgh T. Statistics for the non-statistician. II: “Significant” relations and their pitfalls. BMJ 1997; 315: 422-425.

Top pagina | | | ©Philip H. Quanjer