z-Transformation
z-Transformation Definition
Durch eine z-Transformation bzw. Standardisierung von Merkmalen / Variablen werden diese in der Statistik in eine andere Form verwandelt, um sie vergleichbar zu machen.
Dazu subtrahiert man von jedem Messwert den arithmetischen Mittelwert, teilt die resultierende Differenz durch die Standardabweichung und erhält dadurch die sogenannten z-Werte (z-scores).
Als Formel (mit x für den jeweiligen Messwert, μ für den arithmetischen Mittelwert und σ für die Standardabweichung):
$$z = \frac{x - \mu}{\sigma}$$
Nach der z-Transformation ist
- das arithmetische Mittel der transformierten Messreihe immer Null und
- die Varianz sowie die Standardabweichung sind immer 1.
Beispiel
Beispiel: z-Standardisierung durchführen
Auf Basis der Beispieldaten zur Varianz:
Bei der Familie mit 5 Kindern im Alter von 1, 3, 5, 9 und 12 Jahren war der arithmetische Mittelwert 6, die Varianz war 16 und die Standardabweichung als Quadratwurzel der Varianz war 4.
Hier noch mal die Berechnungen:
Der arithmetische Mittelwert ist (1 + 3 + 5 + 9 + 12)/5 = 6.
Die Varianz ist: σ2 = ((1-6)2 + (3-6)2 + (5-6)2 + (9-6)2 + (12-6)2)/5 = (25 + 9 + 1 + 9 + 36) / 5 = 80/5 = 16.
In der Varianz-Formel werden die Abweichungen aller Alter vom durchschnittliches Alter quadriert, aufsummiert und anschließend durch die Anzahl der Kinder geteilt.
Die Standardabweichung als Quadratwurzel der Varianz von 16 ist 4.
z-Werte berechnen
Führt man die oben genannten Rechenschritte für jede Merkmalsausprägung / für jeden Meßwert durch, erhält man folgende z-Werte:
- (1 Jahr - 6 Jahre) / 4 Jahre = -5 Jahre /4 Jahre = - 5/4 (die Ergebnisse sind jetzt dimensionslos, die Jahre wurden herausgekürzt)
- (3 - 6) / 4 = -3/4
- (5 - 6) / 4 = -1/4
- (9 - 6) / 4 = 3/4
- (12 - 6) / 4 = 6/4
Interpretation
Der erste z-Wert -5/4 bedeutet beispielsweise, dass das Alter des ersten Kindes (1 Jahr) um 5/4 Standardabweichungen, das heißt 5/4 × 4 Jahre = 5 Jahre unterhalb des arithmetischen Mittelwerts von 6 liegt.
Das Alter des fünften Kindes (12 Jahre) liegt um 6/4 Standardabweichungen, das heißt 6/4 × 4 Jahre = 6 Jahre oberhalb des Mittelwerts von 6 Jahren.
Würden zum Beispiel für eine vergleichbare Altersanalyse für eine andere Familie die Alter in Monaten (statt Jahren) gemessen, hätte dies Einfluss auf die Höhe der Varianz und Standardabweichung, die Auswertungen wären nicht vergleichbar; mittels der z-Transformation können sie nun vergleichbar gemacht werden.
z-Werte und Standardnormalverteilung
Liegt eine Normalverteilung vor, können auf Basis der z-Werte entsprechende Wahrscheinlichkeiten in einer Tabelle für die Standardnormalverteilung abgelesen werden.
Negative z-Werte
Die z-Werte können natürlich auch negativ sein; die Tabelle der Standardnormalverteilung enthält aber meist nur positive z-Werte.
Aufgrund der Symmetrie der Normalverteilung gilt zum Beispiel (die 1,5 sind beliebig gewählt):
P (z < - 1,5) = P (z > 1,5)
Das heißt, es kann der positive z-Wert für 1,50, das heißt 0,933193, aus der Tabelle verwendet werden, allerdings ist die Wahrscheinlichkeit jetzt eine ">"-Relation.