close

Se connecter

Se connecter avec OpenID

Article 2 - Université Laval

IntégréTéléchargement
Un algorithme de fouille dans
une représentation des
données par objets: une
application médicale
SIMON, Arnaud & NAPOLI, Amedeo, Ingénierie des
connaissances : Évolutions récentes et nouveaux défis, p.195-207
Olivier Leclair, Université Laval
2003
1
Plan de présentation

Introduction
 Description d’un système de fouille de données
 Système de fouille de données pour
l’épidémiologie du cancer des enfants
–
–
–
–
Notions de la représentation par objet
Algorithme « ALFREDO »
Discussion sur le fonctionnement de l’algorithme
Résultats

La cartographie médicale
 Conclusion
Olivier Leclair, Université Laval
2003
2
Introduction
Enquête épidémiologique base de
données & techniques d’analyse de données
 hypothèses
 Hypothèses doivent être statistiquement
confirmées et vérifiées avec les données
d’une autre base, avant d’être considérées
comme de la connaissance.

Olivier Leclair, Université Laval
2003
3
Introduction (suite)

Épidémiologie des cancers de l’enfant
–
2 bases de données:
1.
2.
–
Registre Lorrain des cancers de l’enfant:
circonstance de découverte, confirmations,
diagnostiques et traitements entrepris
Enquête « cas témoin » sur les facteurs de risque
des cancers de l’enfant: antécédents médicaux et
expositions diagnostiques des enfants et leurs
parents
Analyse avec méthodes statistiques
Olivier Leclair, Université Laval
2003
4
Système de fouille de
données

Fouille de données: extraction de connaissances
potentiellement exploitables à partir de données
brutes
 Système s’articule autour de 4 composantes:
– Bases de données et leur système de gestion
– Système à base de connaissances d’aide à la résolution
de problème
– Système d’étude et d’analyse de données symboliques
– Interface pour l’interaction et visualisation des données
et des résultats
Olivier Leclair, Université Laval
2003
5
Système de fouille de
données (suite)
L’analyste (médecin) joue un rôle
important, car il sélectionne les données à
analyser.
 Il est aidé par un outil de visualisation et
d’organisation des données (cartographie).
 Ensuite, il choisit la méthode pour analyser
les données (régression linéaire, arbres de
décision, réseaux de neurones).

Olivier Leclair, Université Laval
2003
6
Épidémiologie du cancer des
enfants

Notions de représentation par objets
– Système de représentation de connaissance par
objets:



Unité de connaissance = Classe
Classes organisées en hiérarchies conceptuelles
Processus de classification fait partie des opérations
de raisonnement
Olivier Leclair, Université Laval
2003
7
Épidémiologie du cancer des
enfants (suite)
– Opérations de raisonnement:




Subsomption: relation qui permet d’organiser les classes en
hiérarchie.
C subsume D = C est un fils de D
Classification: établir la position d’un objet, classe ou instance
dans une hiérarchie.
APS = Ascendant plus spécifique
Cohérence et instanciation: classe doit pouvoir avoir des
instances et vice versa.
Recherche d’information: trouver les propriétés détenues par
une classe, les restrictions des propriétés et leurs valeurs.
Olivier Leclair, Université Laval
2003
8
Épidémiologie du cancer des
enfants (suite)

Algorithme ALFREDO:
– Utilise les techniques de construction d’arbres de
décision et les principes de l’apprentissage par
généralisation.
– But: Construire à partir d’un ensemble de n classes
cibles, une procédure de classification représentée par
un arbre de décision.
– Feuilles de l’arbre de décision est le nom des classes
cibles et à un nœud est associée une fonction test.
Olivier Leclair, Université Laval
2003
9
Épidémiologie du cancer des
enfants (suite)
France
Lorraine
Alsace
Personne
lieu-habitation
âge
Meuse
Moselle
Maladie
Adulte
Enfant
diplôme
maladie
Virale
Homme Femme Garçon
Bactérienne
Fille
Olivier Leclair, Université Laval
2003
B1
pB1
B2 10
pB2
Épidémiologie du cancer des
enfants (suite)
– Détermination des propriétés significatives:
 Déterminer APS de nos classes cibles (I)
 Determiner descendants de APS(I)
 Supprimer les classes cibles de Desc(APS(I))
 Considérer les fonctions test portant sur les
propriétés de APS(I)
Olivier Leclair, Université Laval
2003
11
Épidémiologie du cancer des
enfants (suite)

Discussion:
– L’utilisation d’un système RCO peut se justifier
par:


Le mode de représentation des données est proche
de celui utilisé par l’être humain.
L’utilisateur est assité lors de la création et
l’évolution de la hiérarchie de classes.
– Les résultats validés par l’utilisateur sont
utilisés pour créer de nouvelles classes.
Olivier Leclair, Université Laval
2003
12
Épidémiologie du cancer des
enfants (suite)

Résultats non retrouvés dans l’analyse
statistique:
– Le rôle chez les filles de la non-contraction
d’infections durant la petite enfance
– L’influence des maladies virales
– Le faible poids à la naissance
Olivier Leclair, Université Laval
2003
13
La cartographie médicale

La cartographie joue un rôle important pour
l’analyse des données relatives à une répartition
géographique ou démographique.
 La cartographie répond aux caractéristiques d’un
système de fouille de données:
– Adaptable à tous les types de données géographiques.
– L’analyste joue un rôle important dans la sélection des
données, méthodes et paramètres.
– L’étude des cartes permet d’émettre des hypothèses à
confirmer.
Olivier Leclair, Université Laval
2003
14
Conclusion

Les méthodes proposées par le système de fouille
de données permet d’exploiter les connaissances
du domaine étudié, ce qui est un atout majeur pour
la recherche d’hypothèses.
 La cartographie permet de mettre en évidence des
risques environnementaux.
 Grâce à ce projet, diverses voies de recherche sont
envisagées: l’adaptation de techniques de
raisonnement temporel et la production
d’explications à la fouille de données.
Olivier Leclair, Université Laval
2003
15
Merci!
Olivier Leclair, Université Laval
2003
16
Auteur
Document
Catégorie
Uncategorized
Affichages
6
Taille du fichier
95 KB
Étiquettes
1/--Pages
signaler