close

Se connecter

Se connecter avec OpenID

Analyse exploratoire d’entrevues de groupe : quand …

IntégréTéléchargement
Analyse exploratoire d’entrevues de
groupe : quand ALCESTE, DTM,
LEXICO et SATO se donnent la
main
François Daoust
Gaëlle Dobrowolski
Monique Dufresne
Claire Gélinas-Chebat
JADT 2006 – Besançon
1
Analyse exploratoire d’entrevues de
groupe : les jeunes français et le
tabac
Claire Gélinas-Chebat
François Daoust
Monique Dufresne
Karine Gallopel
Marie- Élaine Lebel
JADT 2004 – Louvain-la-Neuve
2
OBJECTIFS
3
• 1 : Montrer comment on peut combiner
plusieurs logiciels de lexicométrie
(ALCESTE, DTM et LEXICO3) pour
valider et compléter une analyse SATO.
4
• 2 : Mettre à l'épreuve des chaînes de
traitement qui font appel à des passerelles
de conversion développées dans le contexte
du réseau ATONET.
5
CORPUS
6
Corpus Gallopel
•
Entrevues enregistrées de neuf groupes de jeunes
rencontrés à Rennes en 2000 (48 jeunes Français)
7
• Chacun des 9 groupes comprend 5 à 6
jeunes et un intervenant :
– âgés entre 15 à 25 ans
– fumeurs et non fumeurs
– hommes et femmes
8
Entrevues semi dirigées
Discussion précédée d’une période de
familiarisation avec le tabagisme
• 1
Discussion suite à l’introduction d’une
brochure
• 2
9
ANALYSE AVEC
SATO
Nature
10
• Analyse sémantico statistique basée sur une
construction itérative d’une grille
catégorielle
11
ANALYSE AVEC
SATO
Démarche
12
Démarche (1)
• Comparaison de lexiques associés à des
sous-textes établis selon :
– sexe
– fumeur / non-fumeur
– avant / après message anti-tabac
13
Démarche (2)
• Indices statistiques simples :
– Distance du Chi2
– Mesure d'écart à la moyenne (score Z)
14
Démarche (3)
L’Algorithme de distance lexicale (basée sur la distance du
Chi2)
- évalue l’écart dans l’utilisation d’un vocabulaire donné
entre deux lexiques
- peut être appliqué aux formes lexicales ou
aux valeurs de propriétés catégorielles
Approche dichotomique de comparaison de
sous-textes via les lexiques respectifs
15
Démarche (4)
L’Algorithme de participation
calcule les moyennes normalisées d’un
ensemble de formes lexicales qui peuvent
être définies par les propriétés catégorielles
16
ANALYSE AVEC
SATO
Étapes
17
Étapes (1)

Va et vient entre les données lexicales
brutes et leurs contextes d’utilisation
(Kwic)
- Approche univariée : saisir la spécificité de la
stratification induite par chacune des variables
sociologiques
- Approche multivariée : tenir compte de
l’interaction de ces variables
18
Étapes (2)
• Émergence d'une grille catégorielle
sémantique :
– apparence, arrêt, négation, concret, danger,
dépendance, soc-je*, maladie, mort, plaisir, …
– soc-ami, soc-famille, soc-gens, soc-jeune, liberté,
envie, conscience, volonté, …
*(Le préfixe soc- renvoie à un ensemble de catégories
référant aux rapports sociaux identifiés par les jeunes.)
19
ANALYSE AVEC
SATO
Résultats
20
Résultats (1)
Analyse de* distance sur les formes lexicales
Fréqtot
A
B
explique cumul
brutes0,14
avant\après
l’introduction
0,07
0,02
0,44
0,44
clair *de la
0,23
0,38
0,18
0,40
0,84
aussi *
brochure
0,05
0,11
0,02
0,31
1,15
plaisir *
0,06
0,02
0,09
0,01
0,02
0,06
0,02
0,37
0,59
0,03
0,01
0,09
0,11
0,00
0,04
0,03
0,05
0,01
0,05
0,45
0,62
0,01
0,00
0,13
0,02
0,05
0,15
0,00
0,00
0,09
0,00
0,25
0,87
0,06
0,04
0,04
0,31
0,28
0,28
0,26
0,25
0,24
0,24
0,24
0,23
0,23
0,23
0,22
1,46
1,75
2,02
2,28
2,54
2,78
3,02
3,25
3,49
3,72
3,95
4,17
dépendance *
témoignage
"
3ème *
doigts *
risques
primaire *
ils *
j'
concret
cinq
santé *
21
Résultats (2)
Analyse de distance sur les formes de la
*
catégorie
sujet
avant\après
de la
Fréqtot
A
B
explique l’introduction
cumul
0,21
0,43
0,11
31,23
31,23 apparence *
brochure
0,09
0,02
0,16
13,85
45,08 Concret
0,08
0,13
0,14
0,11
0,18
0,10
1,95
0,05
0,17
0,32
0,75
0,21
0,11
0,14
0,21
0,19
0,17
0,11
0,08
2,19
0,10
0,25
0,28
0,59
0,26
0,14
0,05
0,10
0,08
0,08
0,22
0,17
1,82
0,05
0,16
0,40
0,72
0,20
0,11
6,75
6,63
5,64
5,39
5,12
4,75
4,53
3,26
3,12
2,81
1,44
1,37
0,84
51,83
58,46
64,10
69,49
74,61
79,36
83,89
87,15
90,27
93,09
94,53
95,90
96,74
plaisir *
dépendance *
santé *
éducation *
Volonté
Mort
tabac *
soc-ami *
coûts *
Maladie
Publicité
soc-famille *
drogue *
22
Résultats (3)
Analyse de distance avant\après pour les fumeurs
et les non-fumeurs (tableau III)
Comparaison « avant – après » pour les
Mode propriété objet
Fréqtot
Afu
Bfu
explique cumul
0,21
0,47
0,11
32,55
32,55
0,09
0,03
0,19
18,05
50,60
0,11
0,20
0,06
10,15
60,75
0,13
0,20
0,08
6,26
67,01
0,18
0,07
0,21
5,79
72,79
0,08
0,15
0,06
4,85
77,64
0,48
0,35
0,53
3,96
81,60
0,17
0,15
0,25
3,77
85,37
0,75
0,71
0,51
2,70
88,07
1,95
2,09
1,81
2,23
90,30
0,21
0,28
0,20
1,79
92,08
0,10
0,09
0,15
1,74
93,83
0,14
0,18
0,12
1,60
95,43
0,22
0,18
0,12
0,99
96,42
0,63
0,57
0,67
0,98
97,41
2,14
2,74
2,93
0,91
98,32
fumeurs
Comparaison « avant – après » pour les non-fumeurs
Mode propriété objet
Fréqtot
Afn
Bfn
explique cumul
apparence *
0,75
0,42
0,99
15,22
15,22 publicité
concret
0,21
0,38
0,10
12,52
27,74 apparence *
éducation *
0,05
0,14
0,02
10,64
38,38 soc-ami *
dépendance *
0,17
0,37
0,15
9,73
48,11 coûts *
volonté
0,14
0,20
0,03
8,21
56,32 santé *
plaisir *
0,32
0,29
0,54
6,94
63,26 maladie
fumeur
0,10
0,06
0,19
5,96
69,22 mort
envie
0,08
0,14
0,04
4,51
73,72 plaisir *
publicité *
1,95
2,32
1,82
4,38
78,11 tabac *
tabac *
0,09
0,01
0,11
4,01
82,11 concret
soc-famille *
0,48
0,57
0,34
4,00
86,12 fumeur *
mort
0,13
0,24
0,13
3,15
89,27 dépendance *
santé *
0,11
0,19
0,11
2,32
91,59 drogue *
début *
0,20
0,20
0,13
1,09
92,68 liberté *
arrêt
0,05
0,08
0,04
1,05
93,73 nicotine *
soc-je
2,14
2,25
2,01
0,93
94,66 soc-je
23 *
Résultats (4)
Propriété
Fréqtot
A
B
Afu
Bfu
Anf
Bnf
Aho
Bho
Afe
Bfe
Analyseur PARTICIPATION
(sujet = apparence)
Couverture
Lexèmes
Occurrences
78703/78703 (100.00%) 37/3985 (0.93%) 168/78703 (0.21%)
23544/78703 (29.91%) 30/2087 (1.44%) 101/23544 (0.43%)
28074/78703 (35.67%) 18/2351 (0.77%) 30/28074 (0.11%)
13758/78703 (17.48%) 24/1580 (1.52%) 64/13758 (0.47%)
15923/78703 (20.23%) 13/1749 (0.74%) 18/15923 (0.11%)
9786/78703 (12.43%) 19/1240 (1.53%)
37/9786 (0.38%)
11898/78703 (15.12%)
8/1425 (0.56%) 12/11898 (0.10%)
14468/78703 (18.38%) 16/163 (4 0.98%) 44/14468 (0.30%)
16010/78703 (20.34%) 11/1797 (0.61%) 19/16010 (0.12%)
9076/78703 (11.53%) 24/1153 (2.08%)
57/9076 (0.63%)
11811/78703 (15.01%)
9/1379 (0.65%) 11/11811 (0.09%)
Cote Z
0.00
7.17
-3.87
6.40
-2.75
3.53
-2.66
2.36
-2.60
8.56
-2.8324
Résultats (5)
Propriété
Fréqtot
A
B
Afu
Bfu
Anf
Bnf
Aho
Bho
Afe
Bfe
Analyseur PARTICIPATION
Couverture
Lexèmes
Occurrences
Cote Z
(sujet
= mort)
78703/78703 (100.00%)
9/3985
(0.23%) 80/78703 (0.10%) 0.00
23544/78703 (29.91%) 4/2087 (0.19%)
28074/7870335 (67%) 6/2351 (0.26%)
13758/78703 (17.48%) 4/1580 (0.25%)
15923/78703 (20.23%) 6/17490.(34%)
9786/7870312.(43%) 2/1240 (0.16%)
11898/78703 (15.12%) 3/1425 (0.21%)
14468/78703 (18.38%) 4/1634 (0.24%)
16010/78703 (20.34%) 4/1797 (0.22 %)
9076/78703 (11.53%) 2/1153 (0.17%)
11811/78703 (15.01%) 5/1379 (0.36%)
19/235440 (0.8%)
47/28074 (0.17%)
13/13758 (0.09%)
24/15923 (0.15%)
6/9786 (0.06%)
23/11898 (0.19%)
8/14468 (0.06%)
21/16010 (0.13%)
11/9076 (0.12%)
26/1181 (0.22%)
-1.01
3.46
-0.26
1.94
-1.25
3.14
-1.75
1.17
0.58
4.04
25
ANALYSES AVEC
SATO
Conclusions
26
Conclusions (1)
• Construction d'une grille catégorielle
transparente et respectueuse de la spécificité
du contexte d'énonciation.
27
Conclusions (2)
• Démarche itérative combinant :
– une approche inductive (qualitative)
– une utilisation d'outils simples de statistique
lexicale
– une approche plus sensible à la pragmatique
textuelle.
28
Conclusions (3)
• Production de données qualifiées
(catégories) qui traduisent la démarche
interprétative de l’analyste
29
VALIDATION
30
• Validation de notre démarche et de nos
résultats par divers logiciels de statistique
textuelle :
– ALCESTE (Reinert)
– LEXICO 3 (Salem)
– DTM (Lebart)
31
Chaîne de traitement (1)

Format initial des données : balises SATO
(propriétés)
– identification du locuteur et des caractéristiques
sociologiques
– identification des sections pré ou post
«brochure»
.
32
Chaîne de traitement (2)
*page=gallo02/11
*pub=brochure *locuteur=s36 *fumeur=non *sexe=h Bah,
la brochure là, elle nous présente ce qui nous
attend si on fume. Mais c ’est très… quoi, moi
j ’ai lu ça, mais je ne sais pas je ne suis pas
fumeur, donc je ne ressens peut-être pas ça de la
même façon..
33
Chaîne de traitement (3)
• Exportation par SATO en XML-TEI de
diverses éditions du corpus
• Conversion de la version TEI vers les
formats propriétaires ALCESTE, LEXICO et
DTM
34
ANALYSE
AVEC
ALCESTE
35
ALCESTE (1)
• méthode complètement automatique qui vise à
faire émerger des mondes lexicaux
• s'appuie sur des régularités statistiques pour
faire émerger la structure du discours à partir
des énoncés
(Avec SATO, nous étions partis d'hypothèses structurantes du
discours pour faire parler les données)
36
ALCESTE (2)
• Résultats corpus Initial* : deux classes
– Classe 1 (1/3 des UCE) :
• surtout les interventions exprimées après l'exposition au
message antitabac (Chi2=33.82).
• plus faiblement une présence significative des UCE des
non-fumeurs
*(transcription des entrevues dans leur découpage original en
interventions; sont exclues les interventions des intervenants)
37
ALCESTE (3)
– Classe 2 (2/3 des UCE) :
• surtout des interventions précédant la présentation
du message antitabac (Chi2=33.82)
• aussi, mais plus faiblement, une présence
significative des UCE des fumeurs (Chi2=8.81)
38
ALCESTE (4)
Formes représentatives de la classe n°1
Formes représentatives de la classe n°2
Chi2 u.c.e. dans la classeFormes réduites
Chi2 u.c.e. dans la classeFormes réduites
102.21
446
fum+er
100.00
51
cancer+
68.65
233
arret+er
93.85
38
image+
28.50
95
commenc+er
83.51
31
choc+
28.44
170
fum+eur
82.20
38
poumon+
22.54
64
essa+yer
21.46
87
envi+e
81.60
35
choqu+er
20.22
69
arrete+
73.64
42
preventi+f
19.36
108
cigarette+
61.71
23
routier+
17.11
61
paquet+
53.58
20
temoign+23 16.34
64
volonte+
53.47
107
voir.
16.04
68
prendre.
50.88
49.69
46.79
45.39
42.83
42.16
19
39
22
24
23
46
tele
pub+
femme+
mort+
mourir.
tabac+
39
ALCESTE (5)
• CONCLUSIONS :
– ALCESTE confirme que la variable avant/après
le message antitabac représente le premier
élément de structuration du corpus, ce qui
constitue pour nous le résultat le plus significatif.
– ALCESTE relève la présence de l’opposition
fumeur/non-fumeur, deuxième variable prise en
compte dans l'analyse SATO.
40
ALCESTE (6)
– ALCESTE a donc retrouvé ce que nous avions
observé lors de la comparaison de lexiques
construits sur la base d’un découpage global
du corpus.
– Ce point de rencontre entre les approches
ascendantes et descendantes est un outil
important de validation de l’interprétation.
41
ANALYSE AVEC
LEXICO
O
42
LEXICO (1)
• LEXICO :
– calcule les spécificités lexicométriques de
parties d'un corpus d'après un modèle
probabiliste basé sur la loi hypergéométrique
(cf. Lebart, Salem 1994)
– rend possibles des analyses factorielles de
correspondances (AFC) sur un corpus
partitionné
43
LEXICO (2)
• Première approche :
– Analyse du corpus Participant* : découpage du
corpus selon le profil des répondants
* ensemble des interventions de chaque participant identifié par un
nom résumant son profil et suffixé par a ou b pour identifier le
discours du participant avant et après le message antitabac;
Élimination des participants dont le profil sociologique est
incomplet
44
Corpus Participant : individus sur le plan des 2 premiers axes de
l'AFC
45
LEXICO (4)
• Deuxième approche :
– calcul des spécificités reportées sur la sortie de
l'analyseur DISTANCE de SATO appliqué au
lexique avant et après la brochure.
46
LEXICO (5)
Fréqtot
0.08
0.05
0.25
0.46
0.07
0.77
0.02
0.05
0.06
0.06
1.65
0.02
0.01
0.16
0.11
0.03
0.13
0.01
0.03
0.05
0.42
0.26
0.08
0.61
0.44
0.02
avant
0.15
0.00
0.37
0.60
0.12
0.95
0.04
0.01
0.10
0.10
1.88
0.05
0.03
0.09
0.06
0.00
0.18
0.03
0.00
0.09
0.32
0.33
0.04
0.49
0.34
0.03
Comparaison entre les spécificités et la distance du Chi2
après explique
0.03
0.55
0.09
0.50
0.17
0.49
0.36
0.40
0.03
0.39
0.64
0.39
0.00
0.32
0.09
0.31
0.03
0.31
0.03
0.31
1.49
0.30
0.00
0.28
0.00
0.26
0.21
0.25
0.15
0.24
0.05
0.24
0.09
0.23
0.00
0.23
0.04
0.23
0.03
0.22
0.49
0.22
0.20
0.22
0.11
0.21
0.69
0.21
0.51
0.21
0.00
0.20
cumul
0.55
1.05
1.54
1.94
2.33
2.72
3.03
3.35
3.66
3.96
4.26
4.54
4.80
5.05
5.30
5.53
5.76
5.99
6.22
6.44
6.66
6.88
7.09
7.30
7.50
7.70
clair * (lexico 6)
brochure
aussi * (lexico 6)
t' * (lexico 5)
santé * (lexico 5)
ouais * (lexico 3)
appelle * (lexico 4)
risques (lexico -5)
dépendance * (lexico 5)
plaisir * (lexico 5)
je * (lexico 3)
doigts * (lexico 4)
odeur * (lexico 4)
elle (lexico -5)
beaucoup (lexico -3)
lire (lexico -4)
toi * (lexico 4)
3ème * (lexico 3)
témoignage
grave * (lexico 3)
!
ben * (lexico 3)
"
peut (lexico -3)
caractère * (lexico 3)
47
LEXICO (6)
• Conclusion :
– Très large recouvrement entre les formes lexicales qui
contribuent le plus à la distance et les spécificités
calculées par LEXICO :
• parmi les mots manquants, il y a les ponctuations qui, apparemment,
ne sont pas prises en compte par LEXICO, de même que les formes
absentes dans le corpus Avant
• la mesure de spécificité de LEXICO fournit un bon complément à la
DISTANCE du Chi2 par l'ajout d'un seuil statistique
48
ANALYSE AVEC
DTM
49
DTM (1)
• DTM :
– Outil dédié à l’analyse exploratoire de données
numériques multivariées et de données textuelles
(par exemple un sondage avec questions ouvertes
et fermées)
– Comptage des mots du texte brut produisant des
variables représentant le nombre d’occurrences
du mot
50
DTM (2)
• Expérimentation # 1 :
– Analyse du corpus Participant : le corpus est vu
comme un ensemble de 87 individus.
• Le profil sociologique est enregistré comme autant de réponses
catégorielles à des questions fermées : pub (nil, brochure), sexe
(homme, femme) et fumeur (non, oui).
• Les interventions avant et après le message antitabac donnent lieu à
deux questionnaires distincts.
• L'ensemble des interventions d'un individu pour chaque
questionnaire constitue la réponse à une question ouverte unique.
51
Corpus Participant : variables catégorielles sur le plan des 2 premiers
axes de l'AFC
52
DTM (4)
• Confirmation de l'influence du message
antitabac et des variables catégorielles sur
la structure du discours
53
DTM (5)
• Expérimentation # 2 :
– Production d'un corpus artificiel (Participant
catégorisé) par substitution des catégories aux
unités lexicales catégorisées
54
DTM (6)
– Calcul de l'AFC en croisant :
• les 87 participants avec 702 variables textuelles,
soit les formes lexicales non catégorisées et
catégorisées sémantiquement (propriété thème).
Cette substitution recouvre 12,26 % des
occurrences.
55
Corpus Participant catégorisé: variables catégorielles sur le plan des 2
premiers axes de l'AFC
56
DTM (8)
• La projection des variables sociologiques sur le
plan factoriel suit le même jeu d'oppositions
57
DTM (9)
• Expérimentation # 3 :
– Production d'un autre corpus artificiel (Participant
réduit) par substitution des catégories à toutes les
unités lexicales
58
DTM (10)
– Calcul de l'AFC en croisant :
• les 87 participants avec 29 variables textuelles,
soit l’ensemble des occurrences du corpus Initial
Les 28 catégories utiles représentent un peu plus de
12% des occurrences.
59
Corpus Participant réduit : variables catégorielles et lexique sur le plan
des 2 premiers axes de l'AFC
60
DTM (12)
• Visualisation simultanée du lexique des
catégories et les modalités des questions
fermées:
– répartition aux quatre points cardinaux des
catégories les plus excentriques : apparence,
dépendance, coûts, éducation, mort et soc-ami
– concentration des catégories banales (qui
constituent les référents communs du discours)
au centre du plan
61
DTM (13)
• Outil de validation de la construction de la
grille de catégories lexicales
• La visualisation des catégories sémantiques
dans le plan factoriel ouvre aussi de
nouvelles fenêtres d'investigation pour
revenir aux contextes et affiner la grille si
nécessaire
62
CONCLUSIONS
63
• Cette première utilisation combinée de
logiciels d'analyse textuelle a été
grandement facilitée par les protocoles
d'échange de données réalisées par le
réseau ATONET.
64
• Il est possible de créer de multiples chaînes
de traitement qui permettent de reconfigurer
les données et de faire appel aux points forts
de chaque logiciel.
65
• Par la combinaison des méthodes d'analyse :
– plus grande fiabilité des conclusions en
fournissant des moyens de corroborer ou
d'infirmer des hypothèses et des conclusions
– aller au-delà des impressions et des
commentaires descriptifs pour produire des
représentations de discours sociaux susceptibles
d'agir comme modèles
66
Merci de votre attention.
67
Auteur
Документ
Catégorie
Без категории
Affichages
4
Taille du fichier
772 Кб
Étiquettes
1/--Pages
signaler