C3 Machine Learning
C3 Machine Learning
Hakim AKEB
PGE 3A – ISC Paris
Sommaire
Introduction
1. Data Science
3. Machine Learning
Conclusion
3A Machine Learning 2
Introduction
- Souvent destinées aux data scientists (le data scientist peut programmer
et personnaliser des solutions)
Exemples (e-commerce):
• Prédire trafic site web
• Profils consommateurs très précis => publicité ciblée
• Etc.
3A Machine Learning 3
1. Data Science
1. Data Science
Data Science (science des données)
Source Oracle
3A Machine Learning 5
1. Data Science
Situer la Data Science
Machine
Informatique Learning Maths et
Stats
Data
Science
Logiciels Analyse de
standards données
Domaine
d’expertise
3A Machine Learning 6
1. Data Science
Data Scientist
- Ce titre est apparu vers 2008
- Universités: proposent des cursus en data science
- Actuellement: pénurie de data scientists
3A Machine Learning 7
1. Data Science
Défis de la DS
3A Machine Learning 8
2. Cycle de vie projet
Data Science
2. Cycle de vie projet DS
Collecter/
source et
format des Exploration et Développe-
données visualisation ment
3A Machine Learning 10
2.1.
Source et format des données
2. Cycle de vie projet DS
2.1. Source et format des données
- BDDs payantes
- Etc.
3A Machine Learning 12
2. Cycle de vie projet DS
2.1. Source et format des données
Variété
- Texte, logs, images, sons, vidéos, etc.
3A Machine Learning 13
2.2.
Préparation des données
2. Cycle de vie projet DS
2.2. Préparation des données
2.2.1. Nettoyage
3A Machine Learning 15
2. Cycle de vie projet DS
2.2. Préparation des données
Exemples:
- Etc.
3A Machine Learning 16
2.3.
Exploration et visualisation des
données
2. Cycle de vie projet DS
2.3. Exploration et visualisation des données
Méthodes et outils:
- Tableaux de synthèse
- Visualisation (graphiques, …)
- Etc.
3A Machine Learning 18
2.4.
Modélisation solution
2. Cycle de vie projet DS
2.4. Modélisation
3A Machine Learning 20
2.5.
Développement
2. Cycle de vie projet DS
2.4. Développement
3A Machine Learning 22
2.6.
Déploiement
2. Cycle de vie projet DS
2.6. Déploiement
3A Machine Learning 24
3. Machine Learning
3. Machine Learning
Définition 1
Méthodes (algorithmes) permettant à un ordinateur
d’apprendre pour prédire.
Définition 2
Ensemble d’outils statistiques et d’algorithmes informatiques permettant
d’automatiser la construction d’une fonction de prédiction à partir d’un
ensemble d’observations appelé « ensemble d’apprentissage »
3A Machine Learning 26
3. Machine Learning
3A Machine Learning 27
3. Machine Learning
Quelques exemples d’application du Machine Learning
3A Machine Learning 28
3. Machine Learning
3A Machine Learning 29
3. Machine Learning
3.3. Types de Machine Learning
Machine Learning
Supervisé Non-supervisé
3A Machine Learning 31
3. Machine Learning
3.3. Types de Machine Learning
3A Machine Learning 32
3. Machine Learning
3.3. Types de Machine Learning
Classification:
Variable cible à prédire qualitative =étiquette de classe (fruit, légume, …)
= choix parmi une liste prédéfinie
Régression:
Variable à prédire (cible) = quantitative.
Exemple: prédire le CA en fonction de l’historique, conjoncture
économique, prix mat premières, nombre clients,…
3A Machine Learning 33
3. Machine Learning
3.3. Types de Machine Learning
3.3.1. Supervisé : exemples
3A Machine Learning 34
3. Machine Learning
3.3. Types de Machine Learning
3.3.1. Supervisé :
3A Machine Learning 35
3.3.2.
Machine Learning non-supervisé
3A Machine Learning 36
3. Machine Learning
3.3. Types de Machine Learning
3A Machine Learning 37
3. Machine Learning
3.3. Types de Machine Learning
2 types :
3A Machine Learning 38
3. Machine Learning
3.3. Types de Machine Learning
OU ALORS
3A Machine Learning 39
3. Machine Learning
3.3. Types de Machine Learning
3A Machine Learning 40
3. Machine Learning
3.3. Types de Machine Learning
Clustering
- Partitionnement en K-Moyennes (K-Means)
- DBSCAN
Réduction de dimension
- Analyse en composantes principales (ACP)
3A Machine Learning 41
3. Machine Learning
3.3. Types de Machine Learning
Remarques:
- Demande une très bonne connaissance du pb à résoudre
- Algorithmes plus complexes et utilisés en IA (Google DeepMind, Chat
GPT, …)
3A Machine Learning 42
3. Machine Learning
3.3. Types de Machine Learning
3.3.3. ML par renforcement (Reinforcement Learning):
Exemples
- DeepMind (société):
- A aidé Google à réduire de plus de 40% sa consommation énergétique
- A créé AlphaGo (a battu le recordman du jeu de Go)
- Google Bard
- Lancé par Google (précipitamment?) pour contrer Chat-GPT
3A Machine Learning 43
4. Méthodes de
Machine Learning
4.1. Algorithmes supervisés
4. Méthodes de Machine Learning
4.1. Algos supervisés
3A Machine Learning 46
4. Méthodes de Machine Learning
4.1. Algos supervisés
Remarques:
- Les valeurs des variables 𝑋𝑖 sont indiquées dans un
tableau (colonnes)
- Chaque ligne du tableau = individu
- Le tableau entier = échantillon
- Régression : très utilisée en Marketing
On peut écrire 𝑭 = 𝒃 + 𝒂𝟏 𝑷 + 𝒂𝟐 𝑺
On doit alors calculer 𝑏, 𝑎1 , 𝑎2
3A Machine Learning 47
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.2. K plus proches voisins (K Nearest Neighbors = KNN)
Algorithme de classification
Principe:
- Une population d’individus (points) associés à plusieurs classes
- On voudrait affecter un nouvel individu X à l’une des classes
- On calcule la « distance » entre X et les k « plus proches » voisins de X
- On affecte X à la classe la plus représentée par les k voisins.
X
Exemple : k=3, et on a 2 classes (C1, C2)
Parmi les 3 plus proches voisins,
2 sont de la classe C1.
On affecte alors X à la classe C1.
C1 C2
3A Machine Learning 48
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.2. K plus proches voisins (K Nearest Neighbors = KNN)
Remarques:
- La distance est une métrique qui dépend du cas traité.
- Donc pas nécessairement la distance euclidienne
Exemples d’applications:
- Netflix : prévoir score donné à un film par un téléspectateur selon les scores qu’il
a donnés aux films similaires.
3A Machine Learning 49
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.3. Arbres de décision (classification)
Exemple: diagnostic en médecine
Individu Toux Fièvre Poids Douleur
1 Non Oui Normal Gorge
2 Non Oui Normal Abdomen
3 Oui Oui Maigre Aucune
4 Oui Non Surpoids Poitrine
3A Machine Learning 50
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.3. Arbres de décision : suite
Avantages:
- Les variables peuvent être quantitatives et/ou qualitatives
- Facile à utiliser
- On peut visualiser l’arbre (graphiquement)
Inconvénients (défauts):
- Arbres parfois complexes et déséquilibrés
- Une simple modification des données peut changer totalement le résultat
3A Machine Learning 51
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.4. Réseaux de neurones (Neural networks) = supervisé, régression +
classification
- L’un des modèles les plus utilisés en Deep Learning (apprentissage profond)
Deep learning : supervisé et/ou non-supervisé et/ou renforcement
Principe : simuler le fonctionnement du cerveau humain
Applications
- Analyse du langage naturel
- Reconnaissance vocale
- Reconnaissance faciale (images)
- Prévisions sur les marchés financiers
- Diagnostics en santé
- Conduite automatique
- Assistants vocaux, chatbots
- Détection de fraude
- Etc.
3A Machine Learning 52
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.4. Réseaux de neurones artificiels (ANN)
Fonctionnement en multicouches
3A Machine Learning 53
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.4. Réseaux de neurones (Neural networks)
Exemple:
3A Machine Learning 54
4. Méthodes de Machine Learning
4.1. Algos supervisés
4.1.4. Réseaux de neurones (Neural networks)
3A Machine Learning 55
4.2. Algorithmes non-supervisés
4. Méthodes de Machine Learning
4.2. Algos non-supervisés
Clustering
4.2.1. K-Moyennes (K-Means) = Méthode de clustering (partitionnement)
Principe (Algorithme)
Données : nuage de points;
Objectif: Construire k clusters C1, …, Ck (affecter chaque point à 1 cluster);
Initialisation :
- On génère k barycentres (points) au hasard dans le nuage
- On affecte chaque point du nuage au barycentre le plus proche, on obtient k clusters;
Mise à jour des clusters:
1- On recalcule le barycentre de chaque cluster;
2- On affecte chaque point au barycentre le plus proche;
Répéter étapes 1 et 2 jusqu’à ce que les barycentres soient stables
3A Machine Learning 57
4. Méthodes de Machine Learning
4.2. Algos non-supervisés
Clustering
4.2.1. K-Moyennes (K-Means): suite
Exemple:
On génère 3 barycentres au On affecte chaque point On calcule le barycentre de On réaffecte les points aux
hasard au barycentre le plus chaque cluster, on corrige nouveaux barycentres, etc.
proche les barycentres
Applications:
- Tous les domaines
Voir exemple
- Marketing: segmenter les consommateurs en catégories/profils
JavaScript
3A Machine Learning 58
4. Méthodes de Machine Learning
4.2. Algos non-supervisés
Clustering
4.2.2. DBSCAN (Density-Based Spatial Clustering of Applications with
Noise)
- Divise un ensemble de points en clusters
- Ne demande pas a priori à l’utilisateur le nombre de clusters
- Permet d’identifier des clusters de formes plus complexes
- Permet d’identifier des points n’appartenant à aucun cluster (bruit)
Principe:
- Identifier d’abord les régions denses
(avec beaucoup de points)
- Ces clusters sont séparés par des régions
relativement vides
- Points éloignés des régions identifiées =
bruit
Estimated number of clusters: 3
Estimated number of noise points: 18
3A Machine Learning 59
4. Méthodes de Machine Learning
4.2. Algos non-supervisés
Réduction de dimension
Objectif: représenter les données avec le moins d’information possible
3A Machine Learning 60
5. Etude de cas
La régression linéaire
5. Etude de cas: la régression linéaire
Objectif:
Expliquer la variable Y grâce à la variable X
On écrit : 𝒀 = 𝒂. 𝑿 + 𝒃
𝑎 = pente de la droite
𝑏 = ordonnée à l’origine
𝑟 2 = Qualité de la régression = coeff de détermination (entre 0 et 1)
3A Machine Learning 62
5. Etude de cas: la régression linéaire
3A Machine Learning 63
5. Etude de cas: la régression linéaire
Modélisation Excel
a = 0,9538
b = 0,2743
r2 = 0,84 (très bonne approximation linéaire).
r =Corrélation(X,Y) = 0,91 (lien fort)
3A Machine Learning 64
5. Etude de cas: la régression linéaire
Modélisation Excel
3A Machine Learning 65
6. Logiciels de
Machine Learning
6. Logiciels de Machine Learning
Logiciel / langage Commentaire
Sources:
https://www.predictiveanalyticstoday.com/top-free-data-mining-software/
https://www.capterra.com/machine-learning-software/
3A Machine Learning 67
Conclusion
Importance de la Data Science pour les entreprises
3A Machine Learning 68
Bibliographie
J. Dean. Big Data, Data Mining, and Machine Learning: Value Creation for Business Leaders and Practitioners.
Createspace Independent Pub, 2014.
P. Ghavami. Big Data Analytics Methods: Analytics Techniques in Data Mining, Deep Learning and Natural Language
Processing. Walter de Gruyter GmbH & Co KG, 2019.
E Jakobovicz. Python pour le Data Scientist – des bases du langage au machine learning. 2è éd. Dunod, 2020.
H. Jones. Data Science: The Ultimate Guide to Data Analytics, Data Mining, Data Warehousing, Data Visualization,
Regression Analysis, Database Querying, Big Data for Business and Machine Learning for Beginners. Bravex
Publications, 2020.
A Massih-Reza. Machine learning - 2e édition: Programmes libres (gplv3) essentiels au développement de solutions
big data. Editions Eyrolles, 2020.
A C Müller et S Guido. Le Machine Learning avec Python, la Bible des Data Scientists. Editions First, 2021.
Sites internet:
https://www.predictiveanalyticstoday.com/top-free-data-mining-software/
https://www.capterra.com/machine-learning-software/
https://www.oracle.com
3A Machine Learning 69