Grundlagen der Datenanalyse
Grundbegriffe
Eine statistische Erhebung ist das Sammeln und Erfassen von Daten. Folgende Begriffe sind Grundlage der Datenanalyse:
Grundgesamtheit | Alle relevanten Personen oder Objekte einer Untersuchung |
Stichprobe | Teil der Grundgesamtheit |
Stichprobenumfang | Anzahl Personen oder Objekte der Stichprobe |
Merkmale/Variable | Eigenschaft, die an einer Person oder einem Objekt untersucht wird (z.B. Alter) |
Ausprägung | Wert, der das untersuchte Merkmal aufweist (z.B. Alter in Jahren) |
Datenerhebung
Allgemein ist die Qualität der Datenerhebung umso besser, je grösser die Stichprobe und je genauer die Messung der Daten ist.
Voll- und Teilerhebung
Untersucht man bei einer statistischen Erhebung die Grundgesamtheit, spricht man von einer Vollerhebung (z.B. eine Volkszählung). Betrachtet man nur eine Stichprobe, also einen Teil der Grundgesamtheit, handelt es sich um eine Teilerhebung.
Arten von Datenerhebung
Daten wer man mit folgenden Techniken gewinnen:
- mündliche Interviews
- schriftliche Fragebogen
- Beobachtung/Messungen
Anzahl der untersuchten Merkmale
Bei einer Datenerhebung können verschieden viele Merkmale untersucht werden.
UNIVARIATE DATENERHEBUNG | ein untersuchtes Merkmal |
BIVARIATE DATENERHEBUNG | zwei untersuchte Merkmale |
MULTIVARIATE DATENERHEBUNG | mehr als zwei untersuchte Merkmale |
Arten von Merkmalen
Merkmale besitzen bestimmte Ausprägungen, die sich teils durch Worte, teils durch Zahlen beschreiben lassen.
qualitative (kategoriell) Merkmale |
| quantitative Merkmale |
Mit den Werten kann man nicht sinnvoll rechnen (alphanumerische Werte). |
| Die Ausprägungen sind Zahlenwerte, mit denen man rechnen kann (kardinale Merkmale). |
nominal | ordinal |
| diskret | stetig (kontinuierlich) |
Werte können nicht der Grösse nach geordnet werden. | Werte können der Grösse nach geordnet werden. |
| Zählbar viele Werte. | Unzählbar viele Werte. |
Beispiel Augenfarbe, Haarfarbe | Beispiel Kleidergrössen |
| Beispiel Anzahl Stifte | Beispiel Zimmergrösse |
Daten ordnen
Gewonnene Daten werden in einer Urliste gesammelt.
Urliste | Die Ausprägungen der Merkmale in der Reihenfolge der Erhebung. |
geordnete Stichprobe | Daten der Urliste der Grösse nach geordnet. Die einzelnen Daten werden mit beschriftet, wobei der Index die Stelle in der Stichprobe ist. |
Strichliste | Gleiche Ausprägungen in der geordneten Stichprobe werden in einer Strichliste mit Strichen aufgeführt. |
Häufigkeitstabelle | Tabelle der geordneten Stichproben mit: - Nummerierung (j),
- Ausprägung oder Bereich von Ausprägungen (xj),
- Anzahl der Ausprägung (nj),
- Relative Häufigkeit der Ausprägung (hj).
Hinweis: Mit dem Index j werden die verschiedenen Ausprägungen nummeriert, nicht alle Strichprobenwerte einzeln. |
Beispiel - Urliste:
Rangliste
Bei einer Rangliste wird jeder Ausprägung in einer geordneten Stichprobe ein Rang zugeordnet. Der Rang gibt die Position von jeder Ausprägung an. Gleiche Ausprägungen haben den gleichen Rang.
RANG BESTIMMEN
-
Für Werte, die einmal vorkommen: der Rang entspricht der Stelle des Werts
- Für Werte, die mehrmals vorkommen: der Rang entspricht dem Durchschnittswert der Stellen
Beispiel - Geordnete Stichprobe: