Cours MM Chap1 2020
Cours MM Chap1 2020
Cours MM Chap1 2020
1. Introduction
1.1 Généralités sur la science des données (Data science)
LA science des données (ou data science) est le mélange entre trois domaines : La science des
mathématiques, l’expertise et la programmation.
Mathématiques
Expertise
Programmation
Expertise
Mathématiques
Expertise
Analyse Apprentissage
classique auto.
SD
Expertise Traitement Programmation
données
Remarque
Il faut savoir que tous ces domaines reposent essentiellement sur une base de données pour pouvoir
modéliser, programmer et faire de l’expertise.
L’apprentissage automatique connu sous le nom de « Machine learning » est l’application des
connaissances mathématiques dans la programmation informatique. Il appartient au champ de
l’intelligence artificielle. Son but est de donner à un algorithme la capacité d’apprendre sans
programmer des contraintes ou des règles. Ceci n’est pas comme dans le cas de la programmation
classique dans laquelle il faudrait programmer des milliers des cas possibles.
D’une façon générale la question classique à poser est : quand on utilise l’apprentissage
automatique ? La réponse se résume selon les points suivants :
Quand l’humain ne peut pas reconnaitre et ne peut pas expliquer son expertise
Exemple : prise de décision dans les processus industriels.
La finance,
La sécurité,
L’agriculture,
L’industrie,
Le traitement du son,
Le domaine médical,
Le Marketing, etc…
Structuration &
Collecte des Développement
Environnement
données brutes des données
Industrie, Capteur,
Filtrage,
Médicale, Image,
Organisation,
Réseaux sociaux, Son,
Quantification,
Finance, Textes,
etc…
etc… Valeurs,
etc..
Après la collecte des données et la structuration de la base de données, il faut les unifier et les
uniformiser. Cette phase est la phase du prétraitement des données. Cette étape influe
considérablement sur les performances du modèle. En effet, les variables sont exprimées en ordre de
grandeurs différentes et en unités différentes. Pour que des données reçoivent la même attention
dans la phase de construction, elles doivent être normalisées. Il suffit que la base de données est
prête, l’étape suivante consiste à utiliser ces données pour ajuster les paramètres du modèle à
construire: c’est la phase d’apprentissage. Cette phase est évaluée par la suite avec un critère
quantifiable. Si l’objectif n’est pas atteint l’étape d’ajustement se répète pour se rapprocher de
l’objectif. Dans le cas où l’objectif d’apprentissage est atteint le modèle est fixé et utilisé pour l’aide à
la prise de décision.
Non
Evaluation
Base de Prétraitement Apprentissage Performance du
données des données du modèle acceptable Modèle
oui
Prédiction
et aide à la Modèle final
décision
C’est la technique d’apprentissage la plus courante. Elle s’inspire de l’apprentissage de l’être humain
qui se base sur l’apprentissage selon des exemples. Dans le cas pratique cette technique se base sur
une base de données formée par des caractéristiques d’entrées (‘Features’) et des caractéristiques
de sortie. Le but de cet algorithme est de faire la prédiction de la ou les sorties à partir des
caractéristiques d’entrées. En d’autre termes, c’est de trouver une relation entre la ou les sorties en
fonction des caractéristiques d’entrées. Ce qui nous ramène à appeler cette technique par la
régression.
Il faut noter que les capacités des algorithmes supervisés se concentrent principalement sur le
régression et sur la classification qui sont utilisés dans les domaines de reconnaissance des images,
de reconnaissance vocale, de prédiction des données des séries temporelles, d’aide à la décision
dans les processus industriels, etc …
Exemple 1
Soit la base de données suivante qui décrit la valeur d’une voiture en fonction de son âge.
Age [mois] 12 24 48 36 60
Valeur [DT] 40 30 21 16 14
50
40 y = -0,5083x + 42,5
R² = 0,8006
30
20
10
0
0 10 20 30 40 50 60 70
Figure : Variation de la valeur de voiture [en dt] en fonction de l’âge [en mois]
Par la suite on peut déterminer pour n’importe quelle âge (ou valeur de A) le prix de la voiture. A
partir de ce type de raisonnement on entre dans la logique de l’apprentissage automatique.
Exemple 2
Réellement on est dans un cas plus compliqué dans lequel la marque de la voiture, le kilométrage, la
puissance et plusieurs autres facteurs interviennent dans le prix. Par conséquent, la relation de la
sortie devient :
On remarque que le modèle devient plus complexe et par la suite plusieurs paramètres à trouver ou
à ajuster. Ceci décrit la régression multiple qu’on peut l’écrire selon l’équation suivante :
Dans ce cas, la base de données est composée que par des caractéristiques d’entrées seulement.
C’est la principale différence avec celle de l’apprentissage supervisé. Cette technique consiste a
construire un modèle d’apprentissage automatique capable d’extraire des caractéristiques
intrinsèques des entrées du modèles. D’une façon générale, le groupement des données (ou
clustering des données) est l’utilisation la plus courante de ce type de méthode. Une deuxième
application es cette technique est la réduction de dimension. Elle est utilisée dans le cas où l’objectif
se concentre sur la réduction des données caractéristiques. En effet, dans certains cas la dimension
des données est aussi importante qu’on devrait la réduire. La détection d’anomalie fait partie des
applications de l’algorithme non supervisé. Un exemple sera présenté dans la suite pour mieux
expliquer son utilité.
Exemple 1
L’exemple suivant montre le groupement d’une base de données selon deux groupements. Cet
exemple compte 6 entrées, chacune est caractérisé par deux critères qui sont le poids et la vitesse
maximale (tableau ci-dessous).
Groupe 1 :
Animaux
Modèle de
clustering
Groupe 2 :
Machine
10000
3000
1000 1500
800
100
40
10
1,8 1,2
1
0 50 100 150 200
Remarque :
Il faut tenir en compte que lorsqu’on associe la classe de chaque observation on parle alors de
classification supervisée.
Exemple 2
Dans cet exemple, La prise d’échantillons de la valeur de la température d’un four pendant des
intervalles de temps fixes. Le tableau suivant donne les différentes valeurs suivantes.
Heure de
9h 10h 11h 12h 13h 14h 15h 16h 17h
l’échantillonnage
Température [103°C] 0.38 0.32 0.31 0.25 0.36 0.61 0.78 0.96 1.75
Température [x1000°C]
2
1,5
0,5
0
6 8 10 12 14 16 18
Dans ce cas l’anomalie est de détecter par la présence d’un point hors groupe. Ceci permet de
conclure qu’il y a un problème de mesure ou un problème de process.
Modèle Action
Observation
Récompense A(t)
O(t)
R(t)
Environnement
Récupération et collecte
des données
Structuration et
transformation des données
Modèle
Evaluation Non
de la généralisation
Oui
Modèle final
Modèle d’apprentissage
automatique (ML)
Concernant les plateformes des outils prêts (framework), ils sont représentés principalement par
tensorflow, Caffé et CNTK.