Grundlagen der Datenanalyse
Grundbegriffe
Eine statistische Erhebung ist das Sammeln und Erfassen von Daten.
Folgende Begriffe werden in der Analyse (=Auswertung) dieser Daten verwendet:
Grundgesamtheit | Alle relevanten Personen oder Objekte einer Untersuchung |
Stichprobe | Teil der Grundgesamtheit |
Stichprobenumfang | Anzahl an Personen oder Objekten der Stichprobe |
Merkmale/Variable | Eigenschaft, die an einer Person oder einem Objekt untersucht wird (z.B. Alter) |
Ausprägung | Wert, den das untersuchte Merkmal aufweist (z.B. Alter in Jahren) |
Datenerhebung
Allgemein ist die Qualität der Datenerhebung umso besser, je größer die Stichprobe und je genauer die Messung der Daten ist.
Voll- und Teilerhebung
Untersucht man bei einer statistischen Erhebung die Grundgesamtheit, spricht man von einer Vollerhebung (z.B. eine Volkszählung). Betrachtet man nur eine Stichprobe, also einen Teil der Grundgesamtheit, handelt es sich um eine Teilerhebung (z.B. es werden zufällig 40 von 1000 Personen befragt).
Arten von Datenerhebung
Daten kann man mit folgenden Techniken gewinnen:
-
mündliche Interviews
-
schriftliche Fragebogen
-
Beobachtungen/Messungen
Anzahl der untersuchten Merkmale
Bei einer Datenerhebung können verschieden viele Merkmale untersucht werden.
UNIVARIATE DATENERHEBUNG | ein untersuchtes Merkmal |
BIVARIATE DATENERHEBUNG | zwei untersuchte Merkmale |
MULTIVARIATE DATENERHEBUNG | mehr als zwei untersuchte Merkmale |
Arten von Merkmalen
Es gibt verschiedene Arten von Merkmalen, die untersucht werden können.
qualitative (kategorielle) Merkmale |
| quantitative Merkmale |
Mit den Werten kann man nicht sinnvoll rechnen (alphanumerische Werte). |
| Die Ausprägungen sind Zahlenwerte, mit denen man rechnen kann (kardinale Merkmale). |
nominal | ordinal |
| diskret | stetig (kontinuierlich) |
Werte können nicht der Größe nach geordnet werden. | Werte können der Größe nach geordnet werden. |
| Zählbar viele Werte. | Unzählbar viele Werte. |
Beispiel Augenfarbe, Haarfarbe | Beispiel Kleidergrößen |
| Beispiel Anzahl Stifte | Beispiel Wasserkonsum |
Daten ordnen
Gewonnene Daten werden in einer Urliste gesammelt.
Urliste | Die Ausprägungen der Merkmale in der Reihenfolge der Erhebung. |
geordnete Stichprobe | Daten der Urliste der Größe nach geordnet. |
Strichliste | Dieselben Ausprägungen wie in der geordneten Stichprobe werden in einer Strichliste mit Strichen aufgeführt. |
Häufigkeitstabelle | Tabelle der geordneten Stichproben mit: -
Nummerierung
-
Ausprägung oder Bereich von Ausprägungen
-
Anzahl der Ausprägung
-
Relative Häufigkeit der Ausprägung
(wie oft die Ausprägung im Verhältnis zur Anzahl aller möglichen Ausprägungen vorkommt) |
Beispiel – Das untersuchte Merkmal ist das Alter von 10 Kindern/Jugendlichen:
Urliste:
13 | 7 | 8 | 10 | 10 | 7 | 8 | 10 | 13 | 11 |
Geordnete Stichprobe:
7 | 7 | 8 | 8 | 10 | 10 | 10 | 11 | 13 | 13 |
Strichliste:
7: II | 8: II | 10: III | 11: I | 13: II |
Häufigkeitstabelle:
Rangliste
Bei einer Rangliste wird jeder Ausprägung in einer geordneten Stichprobe ein Rang zugeordnet. Der Rang gibt die Position von jeder Ausprägung an. Gleiche Ausprägungen haben den gleichen Rang.
RANG BESTIMMEN
-
Für Werte, die einmal vorkommen: der Rang entspricht der Stelle des Werts
-
Für Werte, die mehrmals vorkommen: der Rang entspricht dem Durchschnittswert der Stellen
Beispiel - Das untersuchte Merkmal ist wieder das Alter von Kindern/Jugendlichen:
Geordnete Stichprobe:
Ränge bestimmen:
-
6 und 8 haben Rang bzw. 4, da sie einmal vorkommen
-
7 kommt zweimal vor, an zweiter und dritter Stelle, der Rang ergibt sich als: 22+3=2,5
-
10 kommt an Stelle 5, 6 und 7 vor und hat somit den Rang: 35+6+7=6
Rangliste:
Rang | 6 | 7 | 7 | 8 | 10 | 10 | 10 |
1 | 2,5 | 2,5 | 4 | 6 | 6 | 6 |