Chapitre 1 A

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 102

Data Mining

Apprentissage et Fouille de données

Dr. Sana Hamdi [email protected]


2

Plan
I. Concepts et notions de base
II. Apprentissage supervisé
III. Apprentissage non supervisé
Concepts et Notions de Base
• Introduction
• Le processus ECD Extraction des Connaissances a partir des Données
• Définition du Data Mining
• Applications du Data Mining
• Les méthodes Data Mining
 L’apprentissage non supervisé
 L’apprentissage supervisé
• Les méthodologies de travail
Sana Hamdi 3
4

Introduction
Exemple introductif (1/3)
• Demande de crédit bancaire:
 divorcé
 5 enfants
 chômeur enfin de droits
 compte à découvert

Sana Hamdi 5
Exemple introductif (2/3)
• Demande de crédit bancaire:
 Analyse de dossier de prêt
 Variables explicatives (âge, salaire, statut, nombre d’enfants,…)
 Une fonction pour prévoir une prédiction

Sana Hamdi 6
Exemple introductif (3/3)
• Expert humain :
 Ayant accumulé une expérience considérable
 Connu par ses décisions justes
• Système expert :
 Cogniticien extrait les connaissances
 Capable de reproduire les mécanismes cognitifs d'un expert
 Ne dépasse pas le niveau des experts
• Système d’apprentissage :
 Extrait tout seul l’expertise à partir de données
 Découverte de nouvelles connaissances
Sana Hamdi 7
Objectif

• Extraire des nouvelles connaissances


 Remplacer ou aider l’expert humain ou le décideur dans un
domaine spécifique dans le cadre de prise de décision.

Sana Hamdi 8
Motivations (1/4)
• Explosion des données: Une minute sur le Web, c’est:

Sana Hamdi 9
Motivations (2/4)
• Explosion des données
 Masse importante de données (millions de milliards d’instances) : elle double tous les 20
mois.
 BD très larges: VeryLargeDatabases (VLDB)
 Données multi-dimensionnelles (milliers d’attributs)
 BD denses
 Besoin de traitement en temps réel de ces données

Sana Hamdi 10
Motivations (3/4)
• Masse importante de données sur des supports hétérogènes  Manque de connaissances!

Sana Hamdi 11
Motivations (4/4)
Ce dont on a besoin:
• Automatisation

• Extraction des connaissances des bases de données

• Génération d’hypothèses
Sana Hamdi 12
13

Le processus ECD
Solution: Le processus ECD
(Extraction de connaissances à partir de données)
Objectifs :
• Limiter l’intervention de l’utilisateur
• Développer des techniques et systèmes efficaces et extensibles pour :
 l’exploration des données distribuées et des BD larges et multi-dimensionnelles
 L’extraction des informations cachées
• Découvrir des modèles (« patterns ») difficiles à percevoir

Sana Hamdi 14
ECD vs Fouille de Données
• L’ECD (Extraction de Connaissances à partir de Données) est un
processus itératif de découverte, dans les BD larges, de modèles de
données valides, utiles et compréhensibles.
 Itératif : nécessite plusieurs passes
 Valides : valables dans le futur
 Utiles : permettent à l’utilisateur de prendre des décisions
 Compréhensibles : présentation simple
• L’un de ses traitements est la Fouille de données (Data Mining)
La fouille de données (Data Mining) est l'une des étapes de l'ECD. Elle implique l'application de techniques statistiques, d'IA ou de ML pour identifier des
motifs cachés, des corrélations, et des relations au sein des données.
Sana Hamdi 15
Le processus de découverte de connaissances

• Extraction de la connaissance intéressante à partir de données (règles, régularités, patterns,


contraintes) à partir de grandes bases de données (ECD/KDD)

Nettoyer, préparer, et structurer les données pour éliminer les erreurs ou les incohérences.
Missing Values Modifier les données pour améliorer leur représentation ou les adapter
doublons à un algorithme particulier.
normalisation de formats (dates) Normalisation ou standardisation
filtrage des donnees bruités ou incorrectes Encodage
Discrétisation
Sana Hamdi Feature engineering 16
17

Définition du Data Mining


Définition du Data Mining
• Le data Mining ou la fouille de données présente la découverte d'une
connaissance (information intéressante) à partir de grandes quantités de
données, par des méthodes automatiques.
structurés, spatiales, structurés
 Quels types de données? vectorielles, sequentielle..

 Qu’est ce qu’une connaissance? modèles intéressants extraits des données


 Qu’entend-on par découverte? trouver des relations inattendues ou inconnues dans les données
 Fortement lié à l’apprentissage automatique!
L'apprentissage automatique se base sur la construction d'algorithmes capables de :
*Apprendre des exemples ou des données passées (étiquetées ou non).
*Prédire ou généraliser à partir des nouvelles données non observées.
Sana Hamdi 18
Quels types de données?
• Tableau de données:
 N lignes: les individus, les objets d’études
 M colonnes: les variables, les caractéristiques des objets, les attributs
• Base de données relationnelles:
 Des tables
 Des liens entre les tables (un client (dans la table des clients) a acheté des produits (dans la table des produits))
• Entrepôt de données:
 Mise en commun (fusion) des bases de données
 Agrégation des valeurs: nombre de commandes par client (par mois (d’un produit…))
Données complexes, hétérogènes, volumineuses et évolutives! Comment interpréter et exploiter toutes ces
données?
L'agrégation des valeurs consiste à combiner plusieurs valeurs individuelles en une seule valeur récapitulative ou statistique. C'est une technique couramment utilisée en analyse d
de données et en fouille de données pour synthétiser l'information et faciliter son interprétation, particulièrement lorsqu'on travaille avec de grandes quantités de données. SUM AVG MIN
Sana Hamdi 19
Les données: type (1/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 20
Les données: type (2/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 21
Les données: type (3/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 22
Les données: type (4/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 23
Les données: type (5/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 24
Les données: type (6/6)
• Vectorielles
• Séquences
• Structurées
• Temporelles
• Spatiales

Sana Hamdi 25
Les données : valeur
• Types des valeurs des données:
 discrètes: données binaires (sexe, …), données énumératives (couleur, …),
énumératives ordonnées (réponses 1:très satisfait, 2:satisfait, …).
 continues: données entières ou réelles (âge, salaire, …)
 Dates
 Données textuelles
 Pages/liens web, Multimédia, …

Sana Hamdi 26
Les données: exemples
• Sciences de la vie
 médecine : patients et maladies, essais cliniques
 génomique : gènes, patients, tissus
• Marketing
 fiches clients
 traces d’usage (site web, communication mobile)
 Achats
• Industrie
 senseurs : température, vibration
 Images
 analyse physico-chimique
Sana Hamdi 27
Qu’est ce qu’une connaissance?
Données intéressantes
• liens entre variables
 Corrélation
 dépendance non linéaire
 capacité de prédiction
• liens entre individus
 interactions significatives
 groupes homogènes
• liens entre évènements
 dépendance logico-temporelle

Sana Hamdi 28
Données intéressantes : exemples
• Sciences de la vie
 lien entre tabagisme et maladies cardio-vasculaires
 lien entre tabagisme et cancer du poumon
 maladies génétiques : mutation , gène détérioré
• Marketing
 évaluation du risque de défaillance pour un crédit
 typologie des clients
 recommandation de produits
• Industrie
 identification de modes de fonctionnement normaux d’un matériel
 qualité d’un produit à partir de mesures objectives
Sana Hamdi 29
Qu’entend-on par découverte?
• Exploration des données: Savoir produire de la valeur ajoutée à partir de ses propres
données:
- Rapports
- Outils visuels
Fortement lié à l’apprentissage automatique!
- algorithmes d’apprentissage : inférence à partir d’exemples de résultats voulus
- intervention minimale de l’analyste : choix d’une méthode et analyse des résultats

Sana Hamdi 30
Découverte : exemples
• Exploration
- statistiques classiques : moyenne, médiane, coefficient de corrélation
- version visuelle : histogrammes, diagramme à bâtons
• Semi-automatique
- segmentation d’un ensemble de clients
• Automatique
- reconnaissance d’empreintes digitales
- recherche de cooccurrences fréquentes
- recommandations
Sana Hamdi 31
32

Applications du Data Mining


Domaines d’application

Sana Hamdi 33
Exemple1: Marketing direct
• Vous êtes gestionnaire marketing d’un opérateur de télécommunications
mobiles :
Les clients reçoivent un téléphone gratuit (valeur 150€) avec un contrat d’un an;
vous payez une commission de vente de 250€ par contrat
• Problème: Taux de renouvellement (à la fin du contrat) est de 25%
 Donner un nouveau téléphone à toute personne ayant expiré son contrat coûte cher.
 Faire revenir un client après avoir quitter est difficile et coûteux.

Sana Hamdi 34
Exemple1: Marketing direct

• Trois mois avant l’expiration du contrat, prédire les clients qui vont quitter :
 Si vous voulez les garder, offrir un nouveau téléphone.

Sana Hamdi 35
Exemple 2: Assurances
• Vous êtes un agent d’assurance et vous devez définir un paiement mensuel
adapté à un jeune de 18 ans qui a acheté une Ferrari.
Qu’est ce qu’il faut faire ??
Oh oui!
J’aime ma
Ferrari

Sana Hamdi 36
Exemple 2: Assurances
• Analyser les données de tous les clients de la compagnie .
 La probabilité d’avoir un accident est basée sur … ?
 Sexe du client (M/F) et l’âge, …
 Modèle de la voiture, âge, …
 etc.
 Si la probabilité d’avoir un accident est supérieure à la moyenne:
 initialiser la mensualité suivant les risques.

Sana Hamdi 37
Exemple 3: Banque et Télécom
• Si quelqu’un vous a volé votre carte de crédit ou votre mobile …
 Compagnies bancaires
Utiliser les données historiques pour construire un modèle de comportement
frauduleux et utiliser le data mining pour identifier des instances similaires.
 Compagnies téléphoniques
Analyser les “patterns” qui dérivent du comportement attendu (destinataire,
durée, etc.)…

Sana Hamdi 38
Exemple 4: Web
• Les logs des accès Web sont analysés pour …
Bonne expérience
 Découvrir les préférences des utilisateurs de surfing!

 Améliorer l’organisation du site Web


• De manière similaire…
 L’analyse de tous les types d’informations sur les logs
 Adaptation de l’interface utilisateur/service

Sana Hamdi 39
Quelques applications concrètes (1/2)
• Visualisation de l’information : liens entre profils facebook (Paul Butler 2010)

Sana Hamdi 40
Quelques applications concrètes (2/2)
• Amazon, lastfm, netflix…
- Recommandations par co-achats
- Recommandations personnalisées

Sana Hamdi 41
Exercice : Data Mining ou non?

Oui Non
Rechercher le salaire d’un employé X
Les hommes achètent de coca et des couches bébé le samedi X
Interroger un moteur de recherche Web pour avoir des informations X
sur le Data Mining
Regrouper ensemble des documents retournés par un moteur de
X
recherche en fonction de leur contenu

Sana Hamdi 42
43

Les Méthodes Data Mining


Définition du Data Mining
• Le data Mining ou la fouille de données présente la découverte d'une
connaissance (information intéressante) à partir de grandes quantités de
données, par des méthodes automatiques.
 Quels types de données?
 Qu’est ce qu’une connaissance?
 Qu’entend-on par découvrir ou extraire ?
 Fortement lié à l’apprentissage automatique!
Sana Hamdi 44
Apprentissage Automatique
• Apprentissage automatique (Machine Learning)
 discipline visant à la construction de règles d’inférence et de décision pour le traitement
automatique des données.
 Une méthode pour créer un modèle de la réalité à partir de données.
 Elle génère ce modèle soit en améliorant un modèle partiel soit en construisant
complètement le modèle.
• Cette méthode déployée sur un ordinateur offre à ce dernier la capacité
d’apprendre.

Sana Hamdi 45
Apprentissage Automatique-Définition
« On dit qu’un programme apprend de l'expérience E en ce qui concerne une tâche T
et une mesure de performance P, si sa performance sur T, mesurée par P, s'améliore
avec l'expérience E ».
Tom Mitchell (1997)
Trois caractéristiques:
 tâche T
 mesure de performance à améliorer P
 source d'expérience E
Sana Hamdi 46
Apprentissage Automatique-Exemple1
Exemple1: Supposons que votre programme de messagerie électronique
surveille les courriels que vous marquez ou non comme indésirable (spam).
Ainsi, en fonction de ça, votre programme apprend mieux à filtrer les courriers
indésirables. Quelle est la tâche T dans ce cadre?
 Classification des e-mails comme spam et non-spam
 Vous observer marquant vos e-mails comme spam ou non-spam
 Le nombre (la fraction) des e-mails correctement classifiés comme spam ou non spam.
 Aucune de ces réponses, ce n’est pas du machine-learning.
Sana Hamdi 47
Apprentissage Automatique-Exemple1
Exemple1: Supposons que votre programme de messagerie électronique
surveille les courriels que vous marquez ou non comme indésirable (spam).
Ainsi, en fonction ça, votre programme apprend mieux à filtrer les courriers
indésirables. Quelle est la tâche T dans ce cadre?
 Classification des e-mails comme spam et non-spam Task
 Vous observer marquant vos e-mails comme spam ou non-spam Expérience
 Le nombre (la fraction) des e-mails correctement classifiés comme spam ou non spam. Performance
 Aucune de ces réponses, ce n’est pas du machine-learning.
Sana Hamdi 48
Apprentissage Automatique-Exemple2
Exemple2: Jeu d’échecs

 E = l’expérience de jouer plusieurs fois ce jeu


 T = Jouer le jeu d’échecs
 P = La probabilité que le programme gagnera le prochain jeu

Sana Hamdi 49
Apprentissage Automatique-Exemple3
Exemple3: Supposons que nous concevons un algorithme d'apprentissage avec
d’historique de nombreuses données météorologiques et que nous lui apprenions à
prévoir la météo. Que peut être P?

 La probabilité de prédire correctement le temps d'une date future.


 La tâche de prévision météorologique.
 Le programme examine une grande quantité de données climatiques historiques.
 Aucun d'eux.

Sana Hamdi 50
Apprentissage Automatique-Exemple3
Exemple3: Supposons que nous concevons un algorithme d'apprentissage avec
d’historique de nombreuses données météorologiques et que nous lui apprenions à
prévoir la météo. Que peut être P?

 La probabilité de prédire correctement le temps d'une date future.


 La tâche de prévision météorologique.
 Le programme examine une grande quantité de données climatiques historiques.
 Aucun d'eux.

Sana Hamdi 51
Apprentissage Automatique-Exemple4
Exemple 4: La reconnaissance de l’écriture manuscrite (handwriting recognition)
 T = reconnaissance et classification des mots écrits manuellement à partir des images.
 E = une base de données des mots écrits manuellement avec les classifications convenables.
 P = Le nombre de mots correctement classifiés.

Sana Hamdi 52
Apprentissage Automatique-Exemple5

Exemple 5: Conduite d’un robot autonome

 T = conduite sur autoroute publique à 4 voies à l'aide de capteurs de vision


 P = distance moyenne parcourue avant une erreur (à en juger par le surveillant
humain)
 E = une séquence d'images et de commandes de pilotage enregistrées lors de
l'observation d'un conducteur humain
Sana Hamdi 53
Apprentissage Automatique-Approches
• Les algorithmes d’apprentissage peuvent se catégoriser selon le type
d’apprentissage qu’ils emploient :
 L'apprentissage supervisé
 L'apprentissage non-supervisé
 L'apprentissage par renforcement
 L’apprentissage profond (deep learning)

Sana Hamdi 54
Apprentissage Automatique-Approches
• Les algorithmes d’apprentissage peuvent se catégoriser selon le type
d’apprentissage qu’ils emploient :
 L'apprentissage supervisé
 L'apprentissage non-supervisé
 L'apprentissage par renforcement
 L’apprentissage profond (deep learning)
car ce n'est pas un type d'apprentissage distinct, mais une méthode employée dans divers types d'apprentissage

Sana Hamdi 55
Apprentissage supervisé

Sana Hamdi 56
Apprentissage supervisé
• L'apprentissage supervisé se base sur des observations étiquetées ou classées.
• Un expert (superviseur) est employé pour fournir correctement ces étiquettes.
• L’apprenant doit alors trouver ou approximer la fonction qui permet d’affecter la
bonne étiquette à ces observations afin de déterminer l’output d'une observation
inconnue.
• Il existe 2 types d’algorithmes:
• Régression (Prédire l’âge d’un embryon à partir de sa taille, son poids, etc)
• Classification (Prédire qui gagne plus de 50.000$ à partir de données de recensement )

Sana Hamdi 57
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 58
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 59
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 60
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 61
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 62
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous possédez une maison de 750 pieds carrés et vous espérez vendre la maison. Vous voulez savoir
combien vaut votre maison. Alors, comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Régression: Prédire des valeurs continues (output: prix) 63
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous connaissez quelqu’un qui a une tumeur. Vous voulez prédire si c’est malin ou bénin. Alors,
comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Classification: Prédire des valeurs discrètes ( 0 ou 1  malin ou bénin) 64
Apprentissage supervisé: « réponses correctes » offertes

Supposons que vous connaissez quelqu’un qui a une tumeur. Vous voulez prédire si c’est malin ou bénin. Alors,
comment l’algorithme d’apprentissage peut-il vous aider ?
Sana Hamdi
Classification: Prédire des valeurs discrètes ( 0 ou 1  malin ou bénin) 65
Apprentissage non supervisé

Sana Hamdi 66
Apprentissage non supervisé
• Aucun expert n’est disponible.
• L'algorithme doit découvrir par lui-même la structure des données.
• Par exemple, grouper des exemples de manière à ce que les exemples au sein d'un même groupe se ressemblent
suffisamment, et que les exemples de groupes différents soient suffisamment différents.
• Si on veut automatiquement grouper les utilisateurs du Facebook selon leurs réputations, de sorte que les utilisateurs
les plus dignes de confiance (les plus réputés) appartiennent au même cluster  on peut avoir 5 clusters différents
(very high, high, medium, low, very low).

• Il existe deux approches de l’apprentissage non supervisé:


 Le Clustering (regroupement)
 Les règles d’associations
Sana Hamdi 67
Exemple: Google News: chercher des dizaines de milliers de reportages et les regrouper automatiquement

Sana Hamdi 68
Exemple: La chaine météo: prédire le temps pour Mercredi le 13/02/2019 (date de consultation est 28/01/2019)
et l’affecter à tous les clusters avec des degrés d’appartenances différentes  Fuzzy clustering

Le fuzzy clustering (ou clustering flou) est une méthode de classification non-
supervisée qui diffère des méthodes traditionnelles de clustering en
permettant à un même point de données d'appartenir à plusieurs clusters
avec des degrés d'appartenance. Contrairement au clustering dur (comme le
K-means), où chaque point de données est assigné à un seul cluster, le fuzzy
Sana Hamdi 69
clustering attribue à chaque point un score de similarité à chaque cluster,
plutôt qu'une seule appartenance absolue.
Logiciels Data Mining
• WEKA
• ORANGE
• TANAGRA
• SIPINA
• Logiciel R
• RapidMiner
• KNIME
• AlphaMiner
• Statistica dataMiner
• http://eric.univ-lyon2.fr/~ricco/tanagra/fr/contenu_tutoriaux_comparaison_logiciels.html
• http://chirouble.univ-lyon2.fr/~ricco/data-mining/logiciels/revue_rapide_des_logiciels_sur_le_site_kdnuggets.pdf

Sana Hamdi 70
71

Méthodologies de travail
Démarche Méthodologique
KDD/ECD
KNOWLEDGE DATA DISCOVERY
EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES

Sana Hamdi 72
KDD: Définition
• Un processus proposé par Ossama Fayyad en 1996
• Un processus pour la fouille de données qui a bien répondu aux besoins
d’entreprises, et qui est devenu rapidement très populaire
• KDD a comme but l’extraction des connaissances et des motifs valides, utiles
et exploitables à partir des grandes quantités de données et par des méthodes
automatiques ou semi-automatiques

Sana Hamdi 73
KDD: Définition
• Le processus de KDD est itératif et interactif.
• Le processus est itératif : il peut être nécessaire de refaire les pas précédents.
• Le problème de ce processus, comme pour les autres présentés dans la
section suivante, est le manque de guidage de l’utilisateur, qui ne choisit pas à
chaque étape la meilleure solution adaptée pour ses données.

Sana Hamdi 74
KDD: Illustration

Sana Hamdi 75
KDD: Phases principales
1. Développer et comprendre le domaine de l’application
• C’est le pas initial de ce processus.
• Préparer la scène pour comprendre et développer les buts de l’application.

Sana Hamdi 76
KDD: Phases principales

2. Sélection des données


• La sélection et la création d’un ensemble de données sur lequel va être
appliqué le processus d’exploration.
Données ciblées

Sana Hamdi 77
KDD: Phases principales

3. Le prétraitement et le nettoyage des données


informations ou des valeurs qui ne sont pas pertinentes,

• Cette étape inclut des opérations comme l’enlèvement du bruit et des valeurs
erronées ou aléatoires

aberrantes -si nécessaire, des décisions sur les stratégies qui vont être utilisées
pour traiter les valeurs manquantes...
Données prétraitées

Sana Hamdi 78
KDD: Phases principales
4. La transformation des données
• Cette étape est très importante pour la réussite du projet et doit être adaptée en
fonction de chaque base de données et des objectifs du projet.
• Dans cette étape nous cherchons les méthodes correctes pour représenter les
données. Ces méthodes incluent la réduction des dimensions et la transformation
des attributs (changer nominal à numérique par exemple).
Données transformées
Une fois que toutes ces étapes seront terminées, les étapes suivantes seront liées à la
partie du Data Mining, avec une orientation sur l’aspect algorithmique.
Sana Hamdi 79
KDD: Phases principales

5. Choisir la meilleure tâche pour Datamining


• Nous devons choisir quel type de Datamining sera utilisé, en décidant le but
du modèle.
Par exemple : classification, régression, regroupement...

Sana Hamdi 80
KDD: Phases principales

6. Choisir l’algorithme de Datamining


• Dans cette étape nous devons choisir la méthode spécifique pour faire la
recherche des motifs, en décidant quels modèles et paramétrés sont
appropriés.
Modèles

Sana Hamdi 81
KDD: Phases principales

7. Implémenter l’algorithme de Datamining


• Dans cette étape nous implémentons les algorithmes de Datamining choisis
dans l’étape antérieure.
• Peut être il sera nécessaire d’appliquer l’algorithme plusieurs fois pour avoir
le résultat attendu.

Sana Hamdi 82
KDD: Phases principales

8. Evaluation
• Evaluation et interprétation des motifs découverts.
• Cette étape donne la possibilité de:
- Retourner à une des étapes précédentes
- Avoir une représentation visuelle des motifs, enlever les motifs redondants ou non-
représentatifs et les transformer dans des termes compréhensibles pour l’utilisateur.
Connaissances
Sana Hamdi 83
KDD: Phases principales

9. Utiliser les connaissances découvertes


• Incorporation de ces connaissances dans des autres systèmes pour d’autres
actions.
• Nous devons aussi mesurer l’effet de ces connaissances sur le système,
vérifier et résoudre les conflits possibles avec les connaissances antérieures.

Sana Hamdi 84
Démarche Méthodologique
SEMMA
SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS

Sana Hamdi 85
SEMMA: Contexte

• L’Institut SAS définit le data mining comme le processus utilisé pour révéler
des informations précieuses et des relations complexes qui existent dans de
grandes quantités de données (BIG DATA, OPEN DATA).
• SAS divise la fouille de données en cinq étapes représentées par l’acronyme
SEMMA « Sample, Explore, Modify, Model, Asses »

Sana Hamdi 86
SEMMA: Illustration

Sana Hamdi 87
SEMMA: Phases principales

1. Sample (Echantillon des données)


• extrait des échantillons d’un vaste ensemble de données, en nombre
suffisamment grand pour contenir l’information importante, mais assez petit
pour être manipulé rapidement.

Sana Hamdi 88
SEMMA: Phases principales

2. Explore (Exploitation des données)


• cette étape consiste dans l’exploration des données en recherchant les
tendances et les anomalies imprévues afin de mieux comprendre les données.

Sana Hamdi 89
SEMMA: Phases principales

3. Modify (Modifier)
• modifie les données en créant, en sélectionnant et en transformant les
variables afin de s’axer sur le processus de sélection de modèles..

Sana Hamdi 90
SEMMA: Phases principales

4. Model (Modélisation)
• modélise les données en permettant au logiciel de rechercher
automatiquement une combinaison des données qui prédit de façon fiable le
résultat souhaité.
• Il y a plusieurs techniques de modélisation : les réseaux de neurones, arbres
de décision, modèles statistiques: l’analyse en composantes principales,
l’analyse de séries temporelles, etc.

Sana Hamdi 91
SEMMA: Phases principales

5. Assess (Evaluer)
• évalue l’utilité et la fiabilité des résultats du processus de Data Mining et
estime comment il va s’exécuter

Sana Hamdi 92
Démarche Méthodologique
CRISP-DM
CRoss-Industry Standard Process for Data Mining

Sana Hamdi 93
CRISP: Démarche méthodologique

CRISP (Cross Industry Standard Process for Data Mining) est développée au
départ (années 60) par IBM pour réaliser les projets Data Mining. Elle présente
aujourd’hui l’unique méthode utilisable efficacement pour tous les projets Data
Mining et Data Science en général.

Sana Hamdi 94
CRISP: Illustration

Sana Hamdi 95
CRISP: Étapes
1. La compréhension du problème métier (de l’application)
• La première étape consiste à bien comprendre les éléments métiers et
problématiques que le Data Mining vise à résoudre ou à améliorer.
2. La compréhension des données
• Cette phase vise à déterminer précisément les données à analyser (cibles), à
identifier la qualité des données disponibles et à faire le lien entre les données
et leur signification d’un point de vue métier.

Sana Hamdi 96
CRISP: Étapes
3- La construction du Data Hub
• Cette phase de préparation des données regroupe les activités liées à la construction de
l’ensemble précis des données à analyser, faite à partir des données brutes. Elle inclut ainsi le
classement des données en fonction de critères choisis, le nettoyage des données, et surtout
leur recodage pour les rendre compatibles avec les algorithmes qui seront utilisés.
• La paramétricité des données numériques et leur recodage en données catégorielles sont
extrêmement importantes et à réaliser avec soin afin d’éviter que les algorithmes utilisés
donnent des résultats faux dans la phase suivante. Toutes ces données doivent en effet être
centralisées dans une base de données structurée et qui porte le nom de Data Hub

Sana Hamdi 97
CRISP: Étapes
4. La modélisation
• C’est la phase de Data Mining proprement dite. La modélisation comprend le choix, le
paramétrage et le test de différents algorithmes ainsi que leur enchaînement, qui constitue un
modèle. Ce processus est d’abord descriptif pour générer de la connaissance, en expliquant
pourquoi les choses se sont passées. Il devient ensuite prédictif en expliquant ce qu’il va se
passer, puis prescriptif en permettant d’optimiser une situation future.
5. L’évaluation
• L’évaluation vise à vérifier le(s) modèle(s) ou les connaissances obtenues afin de s’assurer
qu’ils répondent aux objectifs formulés au début du processus. Elle contribue aussi à la
décision de déploiement du modèle ou, si besoin est, à son amélioration. A ce stade, on teste
notamment la robustesse et la précision des modèles obtenus.
Sana Hamdi 98
CRISP: Étapes
6- Le déploiement
• Il s’agit de l’étape finale du processus. Elle consiste en une mise en production pour
les utilisateurs finaux des modèles obtenus. Son objectif : mettre la connaissance
obtenue par la modélisation, dans une forme adaptée, et l’intégrer au processus de
prise de décision.
• Le déploiement peut ainsi aller, selon les objectifs, de la simple génération d’un
rapport décrivant les connaissances obtenues jusqu’à la mise en place d’une
application, permettant l’utilisation du modèle obtenu, pour la prédiction de valeurs
inconnues d’un élément d’intérêt.

Sana Hamdi 99
Discussion
• Une similitude importante entre les processus est l’aspect itératif
• Les processus se différentient plutôt pour la première étape de « Business
Understanding » et la dernière étape de « Using discovery knowledge » qui
existent dans CRISP-DM et KDD mais pas dans SEMMA.
• L’utilisation de CRISP-DM et KDD a diminué parce qu'ils définissent ce
qu’il faut faire et pas comment le faire. A cause de ça, plusieurs équipes ont
commencé à développer leur propre méthodologie de leur côté.

Sana Hamdi 100


Merci pour votre attention !

Dr. Sana Hamdi

Maitre Assistante en Informatique à l’INSAT

Membre du Laboratoire LIPAH (FST-Tunisie)


et du Laboratoire SAMOVAR (Telecom SudParis-France)
Sana Hamdi 102

Vous aimerez peut-être aussi