close

Se connecter

Se connecter avec OpenID

2 acétates par page

IntégréTéléchargement
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
École de bibliothéconomie et des sciences de l’information
SCI6060 Méth. de recherche sc. de l'information
Statistiques descriptives
(partie 2 de 2)
Faculté des arts et des sciences
18 mars 2016
18 mars 2016
1 / 20
© Christine Dufour, 2016
SCI6060
2 / 20
Caractérisation d'une distribution [1/2]
Distribution
Comment les données sont réparties
Moyen pour la visualiser
Histogramme
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
1
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
3 / 20
Caractérisation d'une distribution [2/2]
Point de comparaison pour décrire une
distribution
Distribution normale
18 mars 2016
SCI6060
4 / 20
Caractérisation d'une distribution
Distribution normale
COURBE NORMALE
Moyenne/Médiane/Mode = 0
Écart-type = 1
68% de l'échantillon
entre + ou - 1 écart-type
-1 écart-type
-4
-3
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
-2
-1
+1 écart-type
0
Moyenne
Médiane
Mode
1
2
3
4
2
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
5 / 20
Caractérisation d'une distribution
Dans Excel
=coefficient.asymetrie(plage)
Symétrie
Courbe symétrique
mode = médiane = moyenne
Courbe asymétrique (étalée) à droite,
(asymétrie positive)
Courbe asymétrique (étalée) à gauche,
(asymétrie négative)
mode < médiane < moyenne
18 mars 2016
mode > médiane > moyenne
SCI6060
Caractérisation d'une distribution
Aplatissement
6 / 20
Dans Excel
=kurtosis(plage)
Courbe régulière
Kurtosis nul
Aplatissement faible
Kurtosis positif
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
Aplatissement élevé
Kurtosis négatif
3
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
7 / 20
Illustration des mesures de
tendance centrale et de
dispersion
18 mars 2016
SCI6060
8 / 20
Tendance centrale et
dispersion : deux
dimensions pour
caractériser des données
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
4
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
9 / 20
Médiane = 25
Équité
Soit 16 personnes ayant
dans leur portefeuille
10$, 20$, 30$, 40$ ou
50$ : 3 personnes ont
10$, 5 en ont 20$, …
Mode = 20
Popularité
10
20
30
40
50
Moyenne = 26,4
Équilibre
Différents indicateurs de centralité
18 mars 2016
SCI6060
10 / 20
Seule une distribution symétrique aura la même valeur
pour sa médiane, son mode et sa moyenne. La
distribution symétrique est parfaitement équilibrée!
Médiane = Mode = Moyenne
10
20
30
40
50
Différents indicateurs de centralité
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
5
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
Tendances centrales : Impact des valeurs aux extrémités
1
1
5
Médiane = Équité
(10)
5
5
Mode =
le plus fréquent
(5)
10
10
25
32
40
40
0
40
20
60
50
Moyenne = point d'équilibre
(18,67)
1
1
Médiane = Équité
(10)
5
5
5
Mode =
le plus fréquent
(5)
10
10
40
40
50
50
0
18 mars 2016
20
Moyenne = point d'équilibre
(23,08)
40
60
SCI6060
60
14 / 20
Impact de l'asymétrie sur la moyenne et la médiane
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
6
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
15 / 20
Choix des mesures de tendance centrale
Mesures de dispersion
0
5
Moyenne = 30
Médiane = 30
Étendue = 60
Mode = aucun
Écart-type = 19,5
10
Moyenne
15
Écart-type
20
25
30
35
40
45
50
0
40
20
60
55
60
Moyenne
0
30
Moyenne = 30
Médiane = 30
Étendue = 60
Mode = 30
Écart-type = 12,2
30
Écart-type
30
30
30
30
30
30
30
30
0
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
20
40
60
30
60
7
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
Cas 1
18 mars 2016
Moyenne
Moyenne - 1 écart-type
Moyenne + 1 écart-type
Illustration du lien
entre la dispersion
des données et
l’écart-type
Exemples de distribution des notes
pour 2 examens différents dans un cours
Cas 2
Moyenne
Moyenne - 1 écart-type
Moyenne + 1 écart-type
Cas 1 (examen fictif) :
Moyenne = 82
Nbre étudiants = 79
Presque tous les étudiants entre 80 et 85
Écart-type = 3,26991
Coefficient de variation = 3,99%
Cas 2 (final) :
Moyenne = 82
Nbre étudiants = 79
Notes sont plus étendues entre 77 et 86
Écart-type = 4,7231
Coefficient de variation = 5,76%
18 mars 2016
SCI6060
18 / 20
Interprétation de l'écart-type [1/2]
Soit les deux indicateurs suivants :
A) Somme mensuelle dépensée pour les transports en commun ($)
B) Longueur de la repousse des cheveux par mois (cm)
10 personnes vous fournissent leurs données pour ces deux
indicateurs et vous calculez leur moyenne ainsi que leur écart-type
Transports ($)
Cheveux (cm)
Moyenne
100
1,13
Écart-type
6,67
0,49
Selon vous, pour lequel de ces indicateurs vos répondants diffèrentils le plus (i.e. que les données sont les plus dispersées)?
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
8
Cours 10 ‐ Statistiques descriptives (partie 2 de 2)
18 mars 2016
18 mars 2016
SCI6060
19 / 20
Interprétation de l'écart-type [2/2]
0,5
1,5
1,0
2,0
Repousse des cheveux (cm)
Rép.
90
100
2
90
0,8
3
100
0,9
4
100
1,1
5
100
2,0
6
100
0,9
7
100
1,3
8
100
0,7
9
110
2,0
10
110
0,9
Moyenne
100
1,13
Écart-type
6,67
0,49
Transport en commun ($)
18 mars 2016
Cheveux (cm)
90
110
L’écart-type ne s’interprète pas uniquement sur la grandeur
de son chiffre, mais doit s’interpréter par rapport à la
moyenne et en fonction de son unité de mesure. Ici, il
s’avère que c’est pour la repousse des cheveux que l’écarttype est le plus grand!
Transports ($)
1
SCI6060
0,7
20 / 20
Coefficient de variation (COV)
Aide à interpréter l’écart-type en le ramenant en %
COV = écart-type / moyenne
Rép.
Transports ($)
1
90
Cheveux (cm)
0,7
2
90
0,8
3
100
0,9
4
100
1,1
5
100
2,0
6
100
0,9
7
100
1,3
8
100
0,7
9
110
2,0
10
110
0,9
1,13
Moyenne
100
Écart-type
6,67
0,49
COV
6,67%
43,56%
SCI6060 (H2016) / Christine Dufour & Vincent Larivière (EBSI, UdeM)
Plus le COV est grand, plus l’écart-type
représente une grande proportion de la
moyenne, plus les données sont
dispersées autour de la moyenne.
Ici, le COV nous permet de facilement voir
que c’est l’indicateur sur la repousse des
cheveux qui a la plus grande dispersion
des données.
Si COV < 15%, les données sont
considérées comme homogènes par
rapport à l’indicateur.
Si COV > 15%, les données sont
hétérogènes par rapport à l’indicateur.
9
Auteur
Document
Catégorie
Uncategorized
Affichages
0
Taille du fichier
503 KB
Étiquettes
1/--Pages
signaler