Analyse de données : variables qualitatives et quantitatives
Définitions
Une étude statistique comprend la collecte et l’analyse de données. Voici quelques termes fréquemment utilisés en statistique :
Population | Ensemble des personnes ou objets concernés par la recherche en question |
Échantillon | Partie de la population |
Taille de l’échantillon | Nombre de personnes ou d’objets dans l’échantillon |
Caractéristique/ Variable | Caractéristique ou particularité analysée durant l’étude (âge, taille etc.) |
Attribut | Valeur correspondant à la caractéristique étudiée (âge en années, taille en etc.) |
Collecte de données
Plus l’échantillon est grand et plus les mesures sont précises, plus la qualité des données sera bonne.
Relevé complet et partiel
On parle de « relevé complet » si les données sont collectées sur l’ensemble de la population (dans le cas d’un recensement de la population par exemple). Si les données proviennent d’un échantillon, on parle de « relevé partiel ».
Types de collectes de données
On peut collecter des données de plusieurs façons :
-
Interviews orales
-
Sondages écrits
-
Observations et mesures
Nombre de caractéristiques analysées
Il est possible d’étudier plusieurs données à la fois.
COLLECTE DE DONNÉES UNIVARIÉE | Une seule caractéristique étudiée |
COLLECTE DE DONNÉES BIVARIÉE | Deux caractéristiques étudiées |
COLLECTE DE DONNÉES MULTIVARIÉE | Plusieurs caractéristiques étudiées |
Types de variables/caractéristiques
Des variables peuvent être qualitatives (décrites par des mots) ou quantitatives (décrites par des nombres).
Variables qualitatives |
| Variables quantitatives |
Valeurs avec lesquelles on ne peut pas calculer | Valeurs avec lesquelles on peut calculer |
Nominales | Ordinales | Discrètes | Continues |
On ne peut pas ordonner les valeurs. | On peut ordonner les valeurs. | Les quantités sont dénombrables. | Les quantités sont indénombrables. |
Exemple Couleur des yeux | Exemple Taille des vêtements (S, M, L) | Exemple Nombre de crayons | Exemple Taille d’une pièce |
Organiser les données
Les données obtenues sont rassemblées dans une liste.
Données brutes | Liste de la collecte des variables et attributs |
Données ordonnées | Les données brutes sont classées par taille et dénotées x(i). L’indice i représente le numéro de l’échantillon. |
Dénombrement | On dénombre la fréquence de chaque attribut. |
Tableau d’occurrences | Données ordonnées avec : -
numérotation (j),
-
attribut correspondant (xj),
-
nombre de mesures de cet attribut (nj),
-
fréquence relative de l’attribut (fj)
|
Exemple
Données brutes :
13 | 7 | 8 | 10 | 10 | 7 | 8 | 10 | 13 | 11 |
Données ordonnées :
| | | | | | | | | |
7 | 7 | 8 | 8 | 10 | 10 | 10 | 11 | 13 | 13 |
Dénombrement :
7 : II | 8 : II | 10 : III | 11 : I | 13 : II |
Tableau d’occurrences :
Statistique d’ordre
On peut ordonner les données et faire correspondre chaque attribut à un nombre servant de classement : le rang de la statistique d’ordre. Deux attributs identiques possèdent le même rang.
DÉTERMINER LE RANG
-
Pour les valeurs qui n’apparaissent qu’une fois, le rang correspond à la position de la valeur dans la liste ordonnée.
-
Pour les valeurs qui apparaissent plusieurs fois, le rang est la moyenne des positions.
Exemple – Échantillon ordonné :