Was ist ein Boxplot?

Geschrieben von Coursera Staff • Aktualisiert am

Erfahren Sie, was Boxplots sind, wie man sie liest, welche Vor- und Nachteile Boxplots haben und wie Sie Ihre Daten in diese leistungsstarke Visualisierung umwandeln können.

[Hauptbild] Ein Datenwissenschaftler sitzt an seinem Computer und verwendet ein Boxplot, um Datensätze zu vergleicht.

Read in English (Auf Englisch lesen).

Boxplots (es kann auch Box-Plot geschrieben werden) sind eine weitverbreitete Art der Datenvisualisierung. Als Fachmann können Sie Boxdiagramme verwenden, um einen Überblick über Ihre Daten zu geben, Datensätze zu vergleichen und eine schnelle Visualisierung zu erstellen, ohne viel Platz zu beanspruchen. In diesem Artikel erfahren Sie mehr darüber, was ein Boxplot ist, welche Art von Daten geeignet ist, welche Vor- und Nachteile er hat und wie Sie ihn selbst erstellen können. 

Was ist ein Boxplot?

Boxdiagramme oder Box-and-Whisker-Diagramme sind ein visuelles Hilfsmittel zur Darstellung der Verteilung eines Datensatzes. Diese Art von Diagramm zeigt die wichtigsten Statistiken Ihrer Daten, einschließlich des Medians, der Quartile und der Ausreißer. Mithilfe von Boxdiagrammen können Sie Einblicke in einige Aspekte der Häufigkeitsverteilung Ihrer Daten gewinnen, z. B.:

  • Zentrale Tendenz: Dieses Maß stellt die gesamte Verteilung der Daten dar. Im Fall von Boxdiagrammen ist dies der Median, der durch eine in der Box gezeichnete Linie dargestellt wird.

  • Streuung: Dies ist der Bereich des Datensatzes. In einem Box-Diagramm wird dies durch einzelne Punkte dargestellt, die die höchsten und niedrigsten Werte in Ihrem Datensatz repräsentieren. So können Sie erkennen, wie weit Ihre Daten gestreut sind.

  • Variabilität: Dies zeigt, wie stark oder schwach die Daten geclustert sind. Wenn die Box Ihres Boxdiagramms lang ist, zeigt dies, dass die Werte Ihrer Daten sehr variabel sind. Wenn sie kurz ist, können Sie erkennen, dass die Datenpunkte um einen bestimmten Wert herum stärker gebündelt sind (weniger variieren).

Arten von Daten, die in Boxplots verwendet werden

Aufgrund der statistischen Maße, die durch Boxplots dargestellt werden, eignen sie sich normalerweise am besten für numerische Daten. Dies liegt daran, dass Sie Metriken wie den Median, das obere und untere Quartil und die Streuung der Daten verwenden, um sie angemessen darzustellen. Diese Art der visuellen Darstellung erfordert eine natürliche Ordnung der Daten und ist weniger geeignet für kategorische Daten oder Daten ohne natürliche Ordnung.

Wie man ein Boxplot liest

Wenn Sie ein Boxplot sehen, kann es Ihnen helfen, relevante Erkenntnisse aus der Darstellung zu gewinnen, wenn Sie wissen, wie Sie das Diagramm richtig lesen. Gehen Sie beim Betrachten des Diagramms die folgenden Schritte durch.

1. Nehmen Sie sich Zeit, um die Box zu verstehen

Anhand des Kastens in der Mitte des Diagramms können Sie mehrere Elemente des Datensatzes erkennen. Der Kasten stellt die mittleren zwei Quartile der Daten dar, d. h. die mittleren 50 Prozent der Daten. Die Länge des Kastens ist der Interquartilsbereich (IQR). 

Die obere Linie des Kastens stellt das 75. Perzentil der Daten dar (Quartil 3 oder Q3), was bedeutet, dass 75 Prozent der Werte im Datensatz unter diesen Wert fallen. Entsprechend stellt die untere Linie des Kastens das 25. Perzentil der Daten dar (Quartil 1 oder Q1), wobei 25 Prozent der Daten unter diese Linie fallen. 

Wie bereits erwähnt, steht ein längerer Kasten für eine größere Variabilität in Ihren Daten und zeigt, dass die mittleren 50 Prozent der Daten breit gestreut sind. Ein kürzeres Kästchen zeigt, dass die mittleren 50 Prozent der Daten nahe beieinander liegen und eine geringere Streuung aufweisen.

Der Median ist Ihr Maß für die zentrale Tendenz und zeigt den Punkt an, an dem 50 Prozent der Daten darüber und 50 Prozent darunter liegen. 

2. Untersuchen Sie die Whisker

Sie finden die Whisker, die von den Rändern der Box ausgehen. Diese Whisker erstrecken sich auf den kleinsten und größten Wert in Ihrem Datensatz innerhalb des 1,5-fachen IQR. Dies zeigt den Bereich Ihrer Daten, ohne Ausreißer. 

3. Suchen Sie nach Ausreißern

Jenseits der Whisker können Sie einzelne Datenpunkte mit einem Punkt oder einer anderen Markierung in Ihrem Diagramm darstellen. Dies zeigt, welche Werte innerhalb Ihres Datensatzes erheblich von den typischen Werten abweichen. Sie sollten sich Ihre Ausreißer genau ansehen, um sicherzustellen, dass sie keine Fehler in Ihrem Datensatz sind und tatsächliche, unverzerrte Daten darstellen.

Vor- und Nachteile von Boxplots

Wenn Sie sich für die Verwendung eines Boxdiagramms entscheiden, sollten Sie sich der Vor- und Nachteile bewusst sein. Je nach Art Ihrer Daten und Ihren Bedürfnissen können verschiedene Vor- und Nachteile für Sie von größerer Bedeutung sein. 

Vorteile von Boxplots

Einfacher Vergleich zwischen Datensätzen: Mit Boxplots können Sie numerische Datensätze nebeneinander darstellen, um zu sehen, wie sie sich in Bezug auf Zentralität, Verteilung und Variabilität unterscheiden. 

  • Visualisierung von Verzerrungen: Durch die Untersuchung der Quartile und des Medians sowie der Whiskers können Sie feststellen, ob Ihr Datensatz eine bestimmte Schiefe oder Tendenz aufweist.

  • Kann große Datensätze darstellen: Da nur bestimmte Maße des Datensatzes in einem Boxplot dargestellt werden (z. B. Median, Quartile), können Sie große Datensätze einfach darstellen. Auf diese Weise kann einem allgemeinen Publikum ein Überblick auf hohem Niveau gegeben werden.

Nachteile von Boxplots

Einfacher Überblick über die Daten: Sie können keine genaueren Angaben zu den Daten machen, z. B. ob es in Ihrer Verteilung mehrere Cluster gibt.

  • Nicht für alle Datensätze geeignet: Wenn Sie Daten haben, die nicht numerisch sind, nur wenige Datenpunkte haben oder nur einen kleinen Wertebereich darstellen, ist ein Boxdiagramm möglicherweise nicht die richtige Wahl.

  • Kann bei bestimmter Software eingeschränkt sein: Bestimmte Softwarepakete können Ausreißer ausschließen oder die Daten auf andere Weise falsch darstellen, wenn Ihre Daten ungewöhnliche Datenpunkte enthalten. In diesem Fall könnten Sie bestimmte Aspekte Ihrer Daten übersehen.

Erstellen Sie Ihr eigenes Boxplot.

Die Erstellung eines eigenen Boxplots umfasst mehrere Schritte, einschließlich Berechnungen und Datenvisualisierung. Gehen Sie folgendermaßen vor, um ein Boxdiagramm zu erstellen:

  1. Sammeln Sie Ihre Daten: Vergewissern Sie sich, dass Ihr Datensatz vollständig ist und genügend Datenpunkte in einem numerischen Bereich enthält, um effektiv dargestellt werden zu können. Um Ihre Daten in Viertel zu unterteilen, sollten Sie sie in aufsteigender oder absteigender Reihenfolge ordnen.

  2. Berechnen Sie Ihre wichtigsten Box-Statistiken: Sie sollten den Median, Q1, Q3 und IQR berechnen.

  3. Berechnen Sie Ihre wichtigsten Whisker-Statistiken: Bestimmen Sie die untere und obere Grenze für potenzielle Ausreißer mithilfe des IQR. Die untere Grenze ist gleich Q1 - 1,5 * IQR, während die obere Grenze gleich Q3 + 1,5 * IQR ist.

  4. Identifizieren Sie Ihre Ausreißer: Nachdem Sie Ihre Whisker-Statistiken berechnet haben, werden Datenpunkte, die außerhalb dieses Bereichs liegen, in der Regel als Ausreißer eingestuft.

  5. Erstellen Sie Ihr Boxplot: Sie können dies in einer Software wie R oder Excel oder per Hand tun. Wenn Sie das Diagramm von Hand erstellen, gehen Sie wie folgt vor:

  • Zeichnen Sie eine Zahlenlinie (vertikal oder horizontal) für Ihre Achse.

  • Zeichnen Sie einen Kasten mit Q1 als unterem und Q3 als oberem Rand.

  • Zeichnen Sie Ihre Whisker.

  • Zeichnen Sie alle potenziellen Ausreißer als einzelne Datenpunkte jenseits der Whisker ein.

Verwandte Begriffe

  • UX-Designer

  • Computergrafik

  • Datenbank-Administrator

  • Salesforce-Administrator

  • Projektplan

Erfahren Sie mehr auf Coursera.

Sie können Ihre Fähigkeiten zur Datenvisualisierung auf Coursera weiter ausbauen. Als Anfänger sollten Sie sich einen Überblick über die Kurse verschaffen, die von führenden Universitäten und Organisationen angeboten werden, wie z. B. Datenvisualisierung mit erweitertem Excel oder Datenvisualisierung und Kommunikation mit Tableau.

Weiterlesen

Aktualisiert am
Geschrieben von:

Redaktion

Das Redaktionsteam von Coursera besteht aus äußerst erfahrenen professionellen Redakteuren, Autoren ...

Diese Inhalte dienen nur zu Informationszwecken. Den Lernenden wird empfohlen, eingehender zu recherchieren, ob Kurse und andere angestrebte Qualifikationen wirklich ihren persönlichen, beruflichen und finanziellen Vorstellungen entsprechen.