Kurs
Haben Sie schon einmal einen t-Test durchgeführt, einen sauberen p-Wert erhalten und dann festgestellt, dass Sie nie geprüft haben, ob Ihre Daten normalverteilt sind?
Statistische Tests sagen Ihnen nicht, wenn ihre Annahmen verletzt werden. Sie liefern einfach nur den Wert zurück. Das Problem ist, dass Tests wie t-Tests und ANOVA voraussetzen, dass Ihre Daten einer Normalverteilung folgen. Wenn das nicht der Fall ist, bauen Sie Ihre Schlussfolgerungen auf einem wackeligen Fundament auf.
Normalitätstests bieten Ihnen eine Möglichkeit, diese Annahme zu überprüfen. Es gibt sowohl visuelle als auch statistische Methoden dafür, und zu wissen, welche man verwendet – und wie man die Ergebnisse liest – ist das, was es Ihnen ermöglicht, selbstbewusst hinter Ihren Ergebnissen zu stehen.
In diesem Artikel führe ich Sie durch die gängigsten visuellen und statistischen Methoden zur Überprüfung der Normalverteilung, zeige Ihnen, wie Sie diese in Python und R ausführen, und erkläre, was zu tun ist, wenn Ihre Daten den Test nicht bestehen.
Was ist Normalverteilung in der Praxis?
Sie haben wahrscheinlich schon einmal die Glockenkurve gesehen – aber hier ist, was sie tatsächlich für Ihre Daten bedeutet.
Eine Normalverteilung ist ein Muster, bei dem sich die meisten Werte um die Mitte gruppieren und weniger Werte erscheinen, je weiter man sich in beide Richtungen bewegt. Wenn man sie grafisch darstellt, erhält man eine symmetrische, glockenförmige Kurve. Die linke Seite spiegelt die rechte Seite wider.

Normalverteilungsdiagramm
Das Einzigartige an der Normalverteilung ist, dass Mittelwert, Median und Modus alle auf demselben Punkt liegen – dem Zentrum der Glocke. Es gibt keine Schiefe nach links oder rechts. Mit anderen Worten: Die Daten sind ausgewogen.
Dies zeigt sich ständig bei realen Messdaten. Körpergröße, Blutdruckwerte, Fertigungstoleranzen, Testergebnisse – all dies neigt dazu, einer Normalverteilung zu folgen, wenn man genügend Stichproben sammelt. Natürliche Variationen in biologischen und physikalischen Systemen führen tendenziell zu dieser Form.
Allerdings verhalten sich nicht alle Daten so. Einkommensdaten sind rechtsschief. Website-Antwortzeiten haben lange Ausläufer (Long Tails).
In der realen Welt kann es katastrophal enden, wenn man Normalität voraussetzt, ohne sie zu prüfen.
Warum die Prüfung auf Normalverteilung wichtig ist
Das Problem, wenn man nicht auf Normalverteilung prüft, ist, dass die meisten gängigen statistischen Tests – t-Tests, ANOVA – parametrische Tests sind.
Das bedeutet, sie basieren auf Annahmen über die Verteilung Ihrer Daten. Normalität ist eine davon. Wenn diese Annahme bricht, bricht auch die Mathematik des Tests zusammen. Sie erhalten zwar immer noch das Ergebnis des Tests, aber es könnte Sie zu falschen Schlussfolgerungen führen.
Parametrische Tests funktionieren, indem sie mathematische Annahmen über die Grundgesamtheit treffen, aus der Ihre Stichprobe stammt. Wenn diese Annahmen zutreffen, sind diese Tests nützlich und genau. Wenn nicht, werden Ihre p-Werte unzuverlässig und Sie können keine genauen Schlussfolgerungen ziehen.
Hier kommen nicht-parametrische Tests ins Spiel.
Tests wie der Mann-Whitney-U-Test oder der Kruskal-Wallis-Test setzen keine Normalverteilung voraus – sie arbeiten mit Rängen statt mit Rohwerten. Sie sind flexibler, aber tendenziell weniger nützlich, wenn Ihre Daten normalverteilt sind. Ein unnötiger Wechsel zu diesen Tests ist also nicht die Lösung.
Das eigentliche Problem, das so viele Neulinge in der Data Science machen, ist, die Prüfung komplett zu überspringen.
Die Normalitätsprüfung erfordert nur wenige Zeilen Code. Nicht zu testen bedeutet, dass Sie entweder Ihren Daten blind vertrauen – oder gar nicht darüber nachdenken.
Visuelle Methoden zur Überprüfung der Normalverteilung
Bevor Sie einen formellen Test durchführen, stellen Sie Ihre Daten grafisch dar. Visualisierungen verraten Ihnen viel darüber, womit Sie arbeiten.
Histogramm
Ein Histogramm zeigt Ihnen die Form Ihrer Verteilung.

Beispiel-Histogramm
Wenn Ihre Daten normalverteilt sind, sollte das Histogramm wie eine Glockenkurve aussehen – hoch in der Mitte, symmetrisch zu beiden Seiten abfallend. Worauf Sie achten müssen, ist die Schiefe (Skewness): Ein langer Ausläufer nach rechts bedeutet eine positive Schiefe, ein Ausläufer nach links eine negative Schiefe. In jedem Fall ist das ein Zeichen dafür, dass Ihre Daten möglicherweise nicht normalverteilt sind.
Das Problem bei Histogrammen ist, dass ihre Form von der Anzahl der Klassen (Bins) abhängt:
- Zu wenige Bins und die Verteilung sieht flach aus
- Zu viele und sie sieht zerklüftet aus
Probieren Sie immer ein paar verschiedene Bin-Größen aus, bevor Sie Schlussfolgerungen ziehen.
Q-Q-Plot
Ein Q-Q-Plot (Quantil-Quantil-Diagramm) vergleicht die Quantile Ihrer Daten mit den Quantilen einer theoretischen Normalverteilung.

Beispiel-Q-Q-Plot
Wenn Ihre Daten normalverteilt sind, liegen die Punkte entlang einer geraden diagonalen Linie. Abweichungen von dieser Linie zeigen Ihnen, wo die Normalität nicht mehr gegeben ist. Punkte, die sich an den Enden nach oben krümmen, deuten auf schwere Ausläufer (Heavy Tails) hin. Eine S-förmige Kurve deutet auf Schiefe hin.
Q-Q-Plots sind präziser als Histogramme, um subtile Abweichungen von der Normalität zu erkennen – insbesondere in den Ausläufern, wo Histogramme dazu neigen, Dinge zu übersehen.
Boxplot
Ein Boxplot zeigt Ihnen Median, Streuung und Ausreißer in einer Ansicht.

Beispiel-Boxplot
Ein normalverteilter Datensatz erzeugt einen Boxplot, bei dem der Median ungefähr in der Mitte der Box liegt und die Antennen (Whiskers) auf beiden Seiten etwa gleich lang sind. Wenn der Median nicht mittig ist oder eine Antenne viel länger ist als die andere, liegt eine Schiefe vor. Punkte außerhalb der Antennen sind Ausreißer.
Das allgemeine Problem bei Visualisierungen ist, dass sie subjektiv sind. Zwei Personen können sich dasselbe Histogramm ansehen und zu unterschiedlichen Ergebnissen kommen. Nutzen Sie sie, um ein Gefühl für Ihre Daten zu bekommen, und bestätigen Sie dies dann mit einem formellen Test.
Gängige Normalitätstests in der Statistik
Es gibt keinen einzelnen Normalitätstest, der in jeder Situation am besten funktioniert. Der richtige hängt von Ihrer Stichprobengröße und dem ab, was Sie erkennen möchten.
Shapiro-Wilk-Test
Der Shapiro-Wilk-Test ist die erste Wahl für kleine bis mittlere Stichproben, im Allgemeinen bis zu einigen hundert Beobachtungen.
Er misst, wie genau Ihre Daten einer Normalverteilung entsprechen, indem er die beobachteten Werte mit dem vergleicht, was man erwarten würde, wenn die Daten normalverteilt wären. Er ist weit verbreitet, gut verstanden und in jeder größeren Statistik-Bibliothek verfügbar. Für die meisten Analysten ist dies der erste Test, zu dem sie greifen.
Seine Haupteinschränkung ist, dass er bei großen Stichprobengrößen überempfindlich wird. Er neigt dazu, winzige, praktisch bedeutungslose Abweichungen als statistisch signifikant zu markieren.
Kolmogorov-Smirnov-Test
Der Kolmogorov-Smirnov-Test (KS-Test) vergleicht die kumulative Verteilung Ihrer Stichprobe mit einer theoretischen – in diesem Fall der Normalverteilung.
Er ist allgemeiner als der Shapiro-Wilk-Test und kann gegen jede Verteilung testen, nicht nur gegen die Normalverteilung. Der KS-Test ist für die Normalitätsprüfung weniger leistungsfähig als der Shapiro-Wilk-Test, was bedeutet, dass er subtile Abweichungen weniger wahrscheinlich erkennt. Er erfordert außerdem, dass Sie die Verteilungsparameter im Voraus angeben, was zu Verzerrungen führt, wenn Sie diese aus denselben Daten schätzen.
Verwenden Sie ihn, wenn Sie eine schnelle, allgemeine Überprüfung benötigen – nicht als Ihren primären Normalitätstest.
Anderson-Darling-Test
Der Anderson-Darling-Test ist eine Variante des KS-Tests, jedoch mit einem entscheidenden Unterschied: Er gewichtet die Ausläufer der Verteilung stärker.
Dies macht ihn besser darin, Abweichungen zu erkennen, die an den Extremen auftreten – schwere Ausläufer, Ausreißer oder nicht-normales Verhalten, das der KS-Test übersehen würde. Wenn Ihr Anwendungsfall empfindlich auf das Verhalten in den Ausläufern reagiert, ist der Anderson-Darling-Test eine gute Wahl.
D'Agostino-Pearson-Test
Der D'Agostino-Pearson-Test verfolgt einen anderen Ansatz.
Anstatt Verteilungen direkt zu vergleichen, misst er zwei Eigenschaften Ihrer Daten: Schiefe (Asymmetrie) und Kurtosis (wie schwer oder leicht die Ausläufer sind).
Er kombiniert beides zu einer einzigen Teststatistik. Das macht ihn gut darin, genau zu bestimmen, warum Ihre Daten möglicherweise nicht normalverteilt sind – nicht nur, ob sie es sind. Er funktioniert am besten bei größeren Stichproben, bei denen die Schätzungen für Schiefe und Kurtosis zuverlässig sind.
Jarque-Bera-Test
Der Jarque-Bera-Test verwendet ebenfalls Schiefe und Kurtosis, ähnlich wie der D'Agostino-Pearson-Test.
Er ist in der Ökonometrie und Zeitreihenanalyse üblich. Wie der D'Agostino-Pearson-Test benötigt er eine ausreichend große Stichprobe, um zuverlässige Ergebnisse zu liefern. Bei kleinen Stichproben ist der Test nicht sehr zuverlässig. Wenn Sie im Finanz- oder Wirtschaftskontext arbeiten, werden Sie diesen wahrscheinlich häufig sehen.
Zusammenfassend lässt sich sagen: Beginnen Sie bei kleinen Stichproben mit dem Shapiro-Wilk-Test und kombinieren Sie ihn mit einem Q-Q-Plot. Verwenden Sie den Anderson-Darling-Test, wenn das Verhalten in den Ausläufern wichtig ist, und den D'Agostino-Pearson-Test, wenn Sie die Art der Abweichung verstehen möchten.
Wie man Normalitätstestergebnisse interpretiert
Jeder Normalitätstest ist ein Hypothesentest.
Die Nullhypothese bei jedem Normalitätstest lautet, dass Ihre Daten normalverteilt sind. Der Test fragt dann: Wie wahrscheinlich ist diese Nullhypothese angesichts dessen, was wir in den Daten sehen?
Die Antwort kommt als p-Wert zurück:
- p > 0,05 – Sie haben nicht genügend Beweise, um die Normalität zu verwerfen. Gehen Sie davon aus, dass die Daten normalverteilt sind, und fahren Sie mit parametrischen Tests fort.
- p < 0,05 – die Daten weichen so stark von der Normalität ab, dass dies statistisch nachweisbar ist. Verwerfen Sie die Normalitätsannahme.
Klingt einfach, aber viele Leute machen hier Fehler.
Ein niedriger p-Wert sagt Ihnen nicht, wie stark Ihre Daten von der Normalität abweichen – nur, dass ein Unterschied festgestellt wurde. Bei großen Stichproben werden Normalitätstests extrem empfindlich. Sie markieren Abweichungen, die so klein sind, dass sie keinen wirklichen Einfluss auf Ihre Analyse haben.
Das gegenteilige Problem existiert ebenfalls. Bei kleinen Stichproben können selbst sichtbar schiefe Daten einen p-Wert > 0,05 erzeugen, weil der Test nicht genug Power hat, um die Abweichung zu erkennen.
Statistische Signifikanz und praktische Signifikanz sind nicht dasselbe.
Ein p-Wert sagt Ihnen, ob eine Abweichung von der Normalität vorliegt. Er sagt Ihnen nicht, ob diese Abweichung für Ihre spezifische Analyse von Bedeutung ist. Kombinieren Sie Ihr Testergebnis immer mit einem Q-Q-Plot – wenn die Punkte der Linie eng folgen, sind Ihre Daten wahrscheinlich normal genug, unabhängig davon, was der p-Wert sagt.
Normalitätstests in Python
Das Modul scipy.stats in Python bietet alles, was Sie benötigen, um Normalitätstests mit wenigen Zeilen Code durchzuführen.
Für alle folgenden Beispiele verwende ich denselben Datensatz – 100 Stichproben aus einer Normalverteilung –, damit Sie den Code ausführen und mitverfolgen können.
import numpy as np
from scipy import stats
np.random.seed(42)
data = np.random.normal(loc=0, scale=1, size=100)
Shapiro-Wilk-Test
Verwenden Sie shapiro() als Ihre erste Prüfung, insbesondere bei kleineren Datensätzen.
stat, p_value = stats.shapiro(data)
print(f"Statistic: {stat:.4f}, p-value: {p_value:.4f}")
Das ist das Ergebnis:

Ausgabe eines Shapiro-Wilk-Tests in Python
Der p-Wert liegt deutlich über 0,05, daher verwerfen wir die Normalität nicht. Die Daten sehen normal aus – was sinnvoll ist, da wir sie aus einer Normalverteilung generiert haben.
Kolmogorov-Smirnov-Test
kstest() vergleicht Ihre Stichprobe mit einer benannten Verteilung. Für Normalität übergeben Sie "norm" zusammen mit dem Mittelwert und der Standardabweichung der Stichprobe.
stat, p_value = stats.kstest(data, 'norm', args=(data.mean(), data.std()))
print(f"Statistic: {stat:.4f}, p-value: {p_value:.4f}")

Ausgabe eines Kolmogorov-Smirnov-Tests in Python
Wieder p > 0,05 – kein Hinweis gegen Normalität.
Übergeben Sie bei diesem Test in Python immer den Mittelwert und die Standardabweichung explizit über args. Wenn Sie das überspringen, verwendet kstest() standardmäßig eine Standardnormalverteilung (Mittelwert=0, Std=1), was zu unzuverlässigen Ergebnissen führt, es sei denn, Ihre Daten sind bereits standardisiert.
D'Agostino-Pearson-Test
normaltest() testet auf Normalität, indem Schiefe und Kurtosis kombiniert geprüft werden. Er funktioniert am besten bei größeren Stichproben.
stat, p_value = stats.normaltest(data)
print(f"Statistic: {stat:.4f}, p-value: {p_value:.4f}")

Ausgabe eines D'Agostino-Pearson-Tests in Python
Wieder p > 0,05. Die Daten bestehen hier alle drei Tests, aber das ist zu erwarten – ich habe sie so generiert, dass sie normalverteilt sind. In der Praxis werden Sie oft sehen, dass diese Tests widersprüchliche Ergebnisse liefern, besonders nahe der 0,05-Grenze. Wenn das passiert, greifen Sie auf Ihren Q-Q-Plot zurück, um die Entscheidung zu treffen.
Normalitätstests in R
R verfügt über integrierte Funktionen für Normalitätstests. Für die Grundlagen sind keine zusätzlichen Pakete erforderlich.
Wie bei den Python-Beispielen verwende ich durchgehend denselben Datensatz: 100 Stichproben aus einer Normalverteilung.
set.seed(42)
data <- rnorm(100, mean = 0, sd = 1)
Shapiro-Wilk-Test
shapiro.test() ist die erste Wahl für kleine bis mittlere Stichproben. Übergeben Sie einfach Ihren Datenvektor:
shapiro.test(data)

Ausgabe eines Shapiro-Wilk-Tests in R
p > 0,05 – kein Hinweis gegen Normalität. Die W-Statistik reicht von 0 bis 1, wobei Werte nahe 1 darauf hindeuten, dass die Daten eng einer Normalverteilung folgen.
Kolmogorov-Smirnov-Test
ks.test() vergleicht Ihre Stichprobe mit einer theoretischen Verteilung. Geben Sie für Normalität "pnorm" an und übergeben Sie den Mittelwert und die Standardabweichung der Stichprobe.
ks.test(data, "pnorm", mean(data), sd(data))

Ausgabe eines Kolmogorov-Smirnov-Tests in R
Wieder p > 0,05. Dieser Test in R hat dieselbe Einschränkung wie in Python: Übergeben Sie immer mean(data) und sd(data). Das Überspringen würde standardmäßig eine Standardnormalverteilung annehmen, was das Ergebnis verzerrt, es sei denn, Ihre Daten sind bereits standardisiert.
Q-Q-Plot
Die integrierten Funktionen qqnorm() und qqline() von R liefern Ihnen mit zwei Zeilen Code einen Q-Q-Plot.
qqnorm(data, main = "Q-Q Plot")
qqline(data, col = "steelblue", lwd = 2)

Q-Q-Plot in R
qqnorm() stellt Ihre Stichprobenquantile gegen theoretische Normalquantile dar. qqline() zeichnet die Referenzlinie. Wenn die Punkte dieser Linie eng folgen, verhalten sich Ihre Daten normal. Abweichungen an den Enden signalisieren Probleme in den Ausläufern, die eine Untersuchung wert sind.
Was tun, wenn Daten nicht normalverteilt sind?
Wenn Ihre Daten einen Normalitätstest nicht bestehen, haben Sie einige solide Optionen.
Daten transformieren
Manchmal besteht die Lösung darin, Ihre Daten so zu transformieren, dass sie sich normal verhalten, und dann Ihre ursprünglichen Tests mit den transformierten Werten durchzuführen.
Log-Transformation ist die häufigste Wahl. Sie funktioniert gut bei rechtsschiefen Daten – denken Sie an Einkommen, Antwortzeiten oder biologische Messungen, die einen langen Ausläufer auf der rechten Seite haben. Die Funktion in Python ist np.log(data), und das R-Äquivalent ist log(data).
Quadratwurzel-Transformation ist eine mildere Option für moderate Schiefe und praktisch, wenn Ihre Daten Nullen enthalten (da man den Logarithmus von Null nicht bilden kann). Verwenden Sie np.sqrt(data) in Python oder sqrt(data) in R.
Führen Sie nach der Transformation Ihren Normalitätstest erneut durch. Wenn die transformierten Daten den Test bestehen, fahren Sie mit Ihren parametrischen Tests fort – denken Sie nur daran, die Ergebnisse im Kontext der transformierten Skala zu interpretieren.
Nicht-parametrische Tests verwenden
Wenn eine Transformation nicht funktioniert oder für Ihre Daten nicht sinnvoll ist, wechseln Sie zu nicht-parametrischen Tests. Diese setzen keine Normalität voraus – sie ordnen die Daten (Ränge), anstatt mit Rohwerten zu arbeiten.
- Mann-Whitney-U-Test ist die nicht-parametrische Alternative zum t-Test für unabhängige Stichproben. Verwenden Sie ihn, wenn Sie zwei Gruppen vergleichen.
- Kruskal-Wallis-Test ist die nicht-parametrische Version der einfaktoriellen ANOVA. Verwenden Sie ihn, wenn Sie drei oder mehr Gruppen vergleichen.
Beide sind in scipy.stats (mannwhitneyu() und kruskal()) sowie im Basis-Paket von R (wilcox.test() und kruskal.test()) verfügbar.
Auf große Stichprobengrößen verlassen
Bei ausreichend großen Stichproben können Sie die Normalitätsbedenken oft ignorieren.
Der zentrale Grenzwertsatz besagt, dass mit zunehmender Stichprobengröße die Stichprobenverteilung des Mittelwerts gegen eine Normalverteilung konvergiert – unabhängig davon, wie die ursprünglichen Daten verteilt sind. In der Praxis bedeutet dies, dass parametrische Tests bei großen Stichproben tendenziell zuverlässig sind, selbst wenn die zugrunde liegenden Daten nicht perfekt normalverteilt sind.
Häufige Fehler bei der Normalitätsprüfung
Normalitätsprüfung ist einfach – Sie haben gesehen, dass es nur eine Zeile Code erfordert. Dennoch gibt es einige Möglichkeiten, es falsch zu machen.
Hier sind einige häufige Fehler, die Neulinge in der Data Science oft machen:
- Sich nur auf p-Werte verlassen: Ein p-Wert sagt Ihnen, ob eine Abweichung von der Normalität festgestellt wurde, nicht wie groß diese Abweichung ist oder ob sie von Bedeutung ist. p > 0,05 als grünes Licht und p < 0,05 als rotes Licht zu behandeln, ist zu grob. Kombinieren Sie Ihr Testergebnis immer mit einem Q-Q-Plot.
- Effekte der Stichprobengröße ignorieren: Bei kleinen Stichproben können Normalitätstests echte Abweichungen übersehen und p > 0,05 zurückgeben, selbst wenn Ihre Daten sichtbar schief sind. Bei großen Stichproben wird der Test so empfindlich, dass er winzige, bedeutungslose Abweichungen als statistisch signifikant markiert. Die Stichprobengröße kann die Bedeutung des p-Werts verändern.
- Übermäßiges Testen auf Normalität: Nicht jede Analyse benötigt einen formellen Normalitätstest. Wenn Sie explorative Arbeit leisten, reichen ein Histogramm und ein Q-Q-Plot meist aus.
- Leichte Abweichungen falsch interpretieren: Reale Daten sind fast nie perfekt normalverteilt. Eine geringfügige Abweichung von der Referenzlinie in einem Q-Q-Plot oder ein p-Wert, der knapp unter 0,05 liegt, bedeutet nicht, dass Ihre Daten weit von der Normalität entfernt sind. Die Frage ist, ob sie normal genug für den Test sind, den Sie durchführen.
Zusammenfassend lässt sich sagen: Die Normalitätsprüfung ist nur eine einzelne Überprüfung Ihrer Daten. Nutzen Sie sie als einen Input unter vielen, nicht als das letzte Wort.
Wann Sie die Normalitätsprüfung überspringen können
Normalitätsprüfung ist nicht immer notwendig. Wenn Sie unter Zeitdruck stehen, kann es Ihnen Zeit sparen, zu wissen, wann Sie sie überspringen können, ohne die Ergebnisse zu beeinträchtigen.
Große Datensätze
Wenn Sie eine große Stichprobe haben, garantiert der zentrale Grenzwertsatz, dass die Stichprobenverteilung des Mittelwerts annähernd normal ist, unabhängig von der Form Ihrer Rohdaten. Parametrische Tests sind in dieser Situation im Allgemeinen zuverlässig, daher bringt ein formeller Normalitätstest wenig Mehrwert.
Einige statistische Methoden sind auch robust gegenüber Nicht-Normalität. Techniken wie die lineare Regression halten sich gut, wenn die Stichprobengrößen angemessen sind und die Verletzungen nicht extrem sind. (Die lineare Regression setzt dennoch Normalität in den Residuen voraus.)
Explorative Analyse
Wenn Sie Daten nach Mustern durchsuchen, Intuition aufbauen oder entscheiden, welche Variablen weiter untersucht werden sollen, reicht ein schnelles Histogramm oder ein Q-Q-Plot aus. Formelle Tests sind für die konfirmatorische Analyse gedacht – wenn Ihre Schlussfolgerungen Bestand haben müssen.
Denken Sie daran, dass die Normalitätsprüfung dazu dient, Sie davor zu schützen, falsche Schlussfolgerungen zu ziehen. Wenn Sie sich in einem Kontext befinden, in dem eine falsche Schlussfolgerung keine wirklichen Konsequenzen hat oder in dem Ihre Methode nicht von Normalität abhängt, ist der Test optional.
Fazit
Bei der Normalitätsprüfung geht es darum zu prüfen, ob Ihre Annahmen gut genug sind, um Ihren Ergebnissen zu vertrauen.
Kein Datensatz ist perfekt normalverteilt. Das Ziel ist es, zu verstehen, wie sich Ihre Daten verhalten, und Ihre Methoden entsprechend zu wählen. Ein Q-Q-Plot zeigt Ihnen, wo die Abweichungen liegen. Ein formeller Test informiert Sie darüber, ob sie statistisch nachweisbar sind. In Kombination ergeben sie ein klareres Bild als jeder für sich allein.
Der richtige Test hängt von Ihrem Kontext ab. Verwenden Sie Shapiro-Wilk für kleine Stichproben, Anderson-Darling, wenn Ausläufer wichtig sind, nicht-parametrische Alternativen, wenn Normalität nicht angenommen werden kann. Und manchmal – bei großen Stichproben oder robusten Methoden – gar keinen Test.
Finden Sie das gesamte Konzept von p-Werten verwirrend? Lesen Sie unseren Artikel Hypothesentests einfach erklärt, um sicherzustellen, dass Sie sie richtig interpretieren.
FAQs zum Normalitätstest
Was ist ein Normalitätstest?
Ein Normalitätstest ist eine statistische Methode, die prüft, ob Ihre Daten einer Normalverteilung (Gauß-Verteilung) folgen. Die meisten gängigen statistischen Tests – wie t-Tests, ANOVA und lineare Regression – setzen Normalität voraus. Die Überprüfung dieser Annahme vor der Analyse hilft Ihnen daher, falsche Schlussfolgerungen zu vermeiden.
Muss ich immer auf Normalverteilung testen?
Nicht immer. Bei großen Stichproben macht der zentrale Grenzwertsatz parametrische Tests unabhängig von der zugrunde liegenden Verteilung zuverlässig. Für explorative Analysen reicht ein schnelles Histogramm oder ein Q-Q-Plot meist aus – formelle Normalitätstests sind am nützlichsten, wenn Sie eine konfirmatorische Analyse durchführen und Ihre Schlussfolgerungen Bestand haben müssen.
Was soll ich tun, wenn meine Daten einen Normalitätstest nicht bestehen?
Sie haben einige Möglichkeiten. Sie können die Daten mithilfe einer Log- oder Quadratwurzel-Transformation transformieren und dann erneut testen. Wenn die Transformation nicht funktioniert, wechseln Sie zu nicht-parametrischen Tests wie dem Mann-Whitney-U-Test (für zwei Gruppen) oder dem Kruskal-Wallis-Test (für drei oder mehr Gruppen), die keine Normalität voraussetzen.
Was ist der Unterschied zwischen dem Shapiro-Wilk- und dem Kolmogorov-Smirnov-Test?
Shapiro-Wilk wurde speziell für die Normalitätsprüfung entwickelt und funktioniert am besten bei kleinen bis mittleren Stichproben. Der Kolmogorov-Smirnov-Test ist allgemeiner – er kann eine Stichprobe mit jeder theoretischen Verteilung vergleichen, nicht nur mit der Normalverteilung –, aber er ist für die Normalitätsprüfung weniger leistungsfähig als Shapiro-Wilk, wodurch er subtile Abweichungen eher übersehen kann.
Wie interpretiere ich einen Q-Q-Plot für Normalität?
Ein Q-Q-Plot vergleicht die Quantile Ihrer Daten mit den Quantilen einer theoretischen Normalverteilung. Wenn die Punkte nahe an der diagonalen Referenzlinie liegen, verhalten sich Ihre Daten normal. Abweichungen an den Enden der Linie signalisieren Probleme in den Ausläufern – eine S-förmige Kurve deutet auf Schiefe hin, während Punkte, die an beiden Enden von der Linie wegkrümmen, auf schwerere oder leichtere Ausläufer hindeuten, als es bei einer Normalverteilung der Fall wäre.



