Data Livre Blanc Data Sciance Intelligence Artificielle Guide Dune Ia Decomplexee Pour Votre Entreprise
Data Livre Blanc Data Sciance Intelligence Artificielle Guide Dune Ia Decomplexee Pour Votre Entreprise
Data Livre Blanc Data Sciance Intelligence Artificielle Guide Dune Ia Decomplexee Pour Votre Entreprise
Introduction
Le 8 novembre 2021, le Gouvernement lançait la Une proportion alarmante mais néanmoins étonnant quand on sait
deuxième phase de sa stratégie nationale pour l’IA. qu’en 2021, 71 % des entreprises exploraient ou exploitaient déjà
Objectif : accroître le nombre de talents formés dans ce le potentiel de l’IA ! L’IA n’est aujourd’hui plus une chimère ou un
domaine, et transformer le potentiel de recherche et fantasme hollywoodien, mais bel et bien une technologie de plus en
développement en succès économiques. Une ambition à plus mature et surtout un levier de création de valeur hors norme…
laquelle l’État prévoit de consacrer au total 2,22 milliards à condition de réussir sa mise à l’échelle. En effet, passer du PoC à
d’euros sur cinq ans. la phase d’industrialisation implique de maîtriser les algorithmes et
surtout de ne pas brûler les étapes.
Pourquoi un tel plan en faveur de l’intelligence artificielle ? Parce
que le constat est aujourd’hui sans appel : 85 % des projets d’IA C’est là que les entreprises bloquent le plus souvent, faute de
échouent et aboutissement à des résultats erronés en raison ressources et de moyens en interne, mais aussi de « savoir faire ». Par
de préjugés dans les données, des algorithmes ou des équipes où commencer ? Quels prérequis pour réussir son passage à l’IA ?
responsables. Résultat, seuls 15 % des cas d’utilisation tirant parti Quelles sont les best practices et les erreurs à éviter ? Comment
des techniques d’IA impliquant des environnements Edge et IoT faire de l’IA un facteur d’aide à la décision stratégique ? Autant de
parviennent à passer en production. questions auxquelles elles ont souvent du mal à répondre et qui
affectent les performances de leurs modèles intelligents.
Comment créer
un modèle IA efficient ?
[Partie 1]
des milliers voire des millions de données ? Voilà l’atout n°1 de l’IA : faciliter et Les principaux cas d’usage de l’IA
accélérer les prises de décision en triant les données selon leur pertinence et en
apportant rapidement aux décideurs une information qualifiée.
La liste est loin d’être exhaustive, mais certains
secteurs sont déjà bien avancés dans l’utilisation de
l’IA. Par exemple :
2 Exploiter les données de façon optimale è La finance avec la détection des fraudes ou la
prédiction du stock market pour les jours à venir ;
Collecter les données, c’est bien, mais savoir les exploiter, c’est mieux. Or
impossible désormais de traiter les Téraoctets de data qui transitent sur l’ensemble
è La médecine pour trouver des anomalies dans les
molécules, détecter des facteurs à risque dans
des canaux de l’entreprise (réseaux sociaux, objets connectés, service client,
certaines maladies…
site e-commerce...). Le risque pour l’organisation ? Passer à côté d’informations
stratégiques. Un agent intelligent permettra alors d’identifier de nouvelles pistes è Le retail via la recommandation automatique :
d’exploration auxquelles n’auront pas accès vos concurrents. suggestion de visites à effectuer ou de contenus
à visionner, services associés à un achat, produits
complémentaires…
L’avis de l’expert
Les entreprises les plus matures
Nous faisons face aujourd’hui à de en IA ont vu leur chiffre d’affaires
très gros volumes de données. Pour Amady Ba
Consultant
augmenter jusqu’à
effectuer des analyses prédictives,
50
Data Scientist
%
les entreprises n’ont désormais & Machine
Learning
plus le choix et doivent recourir à Engineer
des modèles IA, notamment dans
des campagnes de prévention
santé. Pour accompagner au mieux leurs adhérents,
des mutuelles anticipent ainsi leurs potentiels
problèmes de santé par le biais de campagnes de par rapport
prévention faisant appel à des modèles IA. À la clé :
la capacité à détecter les pathologies à risque pour
à celui de leurs pairs.
l’adhérent et lui proposer un accompagnement adapté.
Source : Rapport de recherche Accenture, juin 2022
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 7
[Question #2]
Quels types de données Avant de mettre en place un modèle intelligent,
la première étape consiste à dresser un état des
ai-je en ma possession ? lieux précis des différents types de données
disponibles afin d’opter par la suite pour le
modèle le plus adapté.
[Partie 1]
1 Les données structurées Que souhaitez-vous faire de vos données ? Quel est l’objectif
Il s’agit des données disponibles dans les bases de données souhaité ? Quel est le cas d’usage associé ? Vos données sont-elles
relationnelles, bien organisées sous forme de ligne de table étiquetées ou non ? Pour mettre en place un modèle d’intelligence
artificielle efficient, vous devez au préalable décider quelles données
(par exemple : nom, prénom, âge…).
utiliser et dans quel contexte.
Les données semi-structurées è D’abord, il importe de comprendre le métier autant que vos données :
2
si vous souhaitez construire un modèle, vous devez d’abord connaître le
Ces données font écho à un format particulier de type clé- domaine concerné et son contexte. Dans un environnement médical par
valeur le plus souvent utilisé pour envoyer des messages exemple, seul un expert sera capable de dire quelle donnée est fausse,
entre serveurs et clients. incomplète…
è Puis, vous pouvez collecter, nettoyer et enrichir les données.
è Enfin, vous pouvez passer à la construction des indicateurs (ou des
features) selon les différents scénarios établis.
3 Les données non structurées
Un travail souvent négligé alors qu’il représente 80 % de la performance
De quoi s’agit-il ? Tout simplement de tous les autres types
d’un modèle. De la qualité de vos données découle l’efficacité de
de format de données : images, vidéos, PDF, documents,
votre agent intelligent. La préparation et l’exploration des données
e-mails, etc. constituent ainsi la première phase de construction de votre modèle.
L’avis de l’expert
78
Artificielle
structuration, il est nécessaire de
prendre le temps d’analyser les
données pour éviter de créer des biais dans le modèle.
Dans le cadre d’une mission chez un assureur, nous
avions créé un agent intelligent afin d’automatiser le
%
processus d’intégration des informations issues des
documents d’identité de leurs adhérents. La première
étape consistait à reconnaître le type de document des entreprises
dont il s’agissait : passeport, permis de conduire, carte de tirer pleinement parti
d’identité... Or nous n’avions entraîné le modèle que sur de leurs données.
des papiers français. Par conséquent, les documents
étrangers n’étaient pas reconnus. Dans ce processus,
il est important de savoir que d’autres types de sources Source : ‘‘State of Enterprise CRM Data Management’’,
de données existent même si on ne les traitera jamais. réalisé par Forrester pour Odaseva, 2021
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 9
[Question #3]
Quel type d’IA Maintenant que vous avez une vision claire sur la nature de
vos données, que souhaitez-vous que la machine prédise ?
mettre en place ? La question peut paraître simple, mais dont la réponse aura
un impact direct sur le mode d’apprentissage retenu.
[Partie 1]
d’entre eux sont le plus souvent utilisés par les data scientists.
Attention de ne pas choisir le modèle avant les données ! Vous devez
au contraire définir le mode d’apprentissage le plus adapté selon les
données vous avez à disposition. Voici les questions à vous poser
1 L’apprentissage supervisé pour pouvoir créer le modèle adéquat :
Cette méthode s’emploie avec des données étiquetées, è Quelle tâche souhaitez-vous que le modèle intelligent exécute ?
c’est-à-dire qui contiennent déjà une valeur observée. Ici, è Quelle architecture de modèle sera la plus fonctionnelle ?
vous connaissez précisément le type d’information ou de
è Souhaitez-vous faire du deep learning ou du machine learning ?
résultat que vous voulez obtenir en sortie. Prenez alors le
(Voir section suivante pour plus de précisions sur ce point).
temps de labelliser correctement les données, c’est ce qui
vous permettra d’avoir des résultats cohérents, et de tester
Pour vous aider dans vos choix, il est important de mener une veille
ensuite. active sur les techniques déjà existantes, de lire des articles, de vous
renseigner sur ce qui se fait dans d’autres langues… pour savoir
comment ça va marcher et s’il sera facile de faire ingérer la donnée
L’apprentissage non supervisé par le modèle.
2
Autre option : le mode non supervisé lorsque vous ne savez
pas ce que vous souhaitez faire de vos données, ni comment
les exploiter. Des données qui, ici, ne sont pas étiquetées.
L’idée est alors de construire un modèle reposant sur des
habitudes de comportement pour détecter les anomalies
ou recommander un contenu similaire.
L’avis de l’expert
1entreprise2
données est étiquetée. Prenons Chercheur en
Data Science
l’exemple d’un détecteur de navette
spatiale : vous devez disposer de
suffisamment de photos pour la différencier d’un avion.
Ici, seule une partie des données est étiquetée et on
risque très certainement de se heurter à un problème de
manque de données. En effet, une méthode supervisée
imposerait de classifier les images étiquetées « non- est dans l’incapacité d’exploiter
navette spatiale » et les photos de « navette spatiale »
pour lesquelles peu de données sont disponibles.
ses propres données clients.
Certaines méthodes dites semi-supervisée existent
alors pour contourner la problématique, comme la Source : Rapport ‘‘State of Enterprise CRM Data
méthode SVM 1-class qui permet d’apprend malgré le Management’’, réalisé par Forrester pour Odaseva, 2021
manque de données.
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 11
[Question #4]
Quelle application Un seul algorithme ne peut pas répondre
à toutes les problématiques. Quel modèle
et quel algorithme associer algorithmique alors mettre en œuvre selon
l’application souhaitée, le type de données
à quel type d’apprentissage ? et les objectifs souhaités ?
[Partie 1]
catégories en sortie. Par exemple : reconnaître si l’image est celle d’un
en matière de clustering (également appelé clusterisation chat ou d’un chien, si une donnée représente une personne malade ou
ou association). L’idée est d’associer au sein d’un même en bonne santé, etc.
dataset des données qui se ressemblent en regroupant un
On peut également y associer la notion de segmentation qui consiste
ensemble d’éléments hétérogènes sous forme de sous-
à identifier tous les pixels associés à l’objet de la recherche dans une
groupes homogènes ou aux caractéristiques similaires.
image. On classifie alors par rapport aux pixels et non à l’image entière.
Algorithmes
Algorithmes
K-Means / Isolation Forest / DB Scan / Local Outlier
Factor (LOF) Régression logistique / Support Vector Machine (SVM) / Arbre de
décision / Random Forest / GBM / Naïve Bayes
L’avis de l’expert
50
problématique et du type de données, Abdelkader
%
Hamadi
et impose de bien connaître l’état de Ingénieur
l’art. Certains modèles algorithmiques Chercheur en
Data Science
fonctionnent très bien pour certaines
problématiques données. Cette
connaissance peut vous faire gagner beaucoup de
temps. Essayez donc toujours d’observer la performance
de vos modèles sur des données similaires ou à partir des décideurs déclarent que leur
de problématiques semblables. Si votre modèle n’a organisation est engagée dans
jamais été traité, élaborez des hypothèses et testez des
une démarche de valorisation des
modèles différents pour voir quelle catégorie donne la
meilleure performance. données.
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 13
[Partie 2]
Comment
implémenter son modèle ?
[Partie 2]
attendent. Dès lors, à vous d’identifier les cas complexes et de les checker avec la MOA travailler avec des données actuelles et passées,
pour être certain de bien cadrer les objectifs souhaités. et prévoir comment elles peuvent évoluer dans
les années à venir.
L’avis de l’expert
Le manque de données ou
Vous devez prendre soin de bien les problèmes de qualité des
Amady Ba
choisir à chaque fois les informations
Consultant données représentent
les plus pertinentes et de gérer les
20
Data Scientist
%
données manquantes. Si on prend & Machine
Learning
l’exemple de la santé : vous devez Engineer
identifier les variables qui influent
véritablement sur la maladie, comme
l’âge ou le statut socio-professionnel, pour ne retenir
que les données dont vous avez véritablement besoin.
C’est pourquoi il est intéressant de mener les deux des principaux goulots
étapes de préparation et d’analyse de front : dans la 1re,
j’identifie les informations manquantes, et dans la 2e, je
d’étranglement à l’adoption
sélectionne les plus pertinentes au regard de mon cas de l’IA.
d’usage.
Source : Rapport sur l’adoption de l’IA en entreprise,
O’Reilly, 2022
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 16
[Question #2] Trouver quel type Le rôle du data scientist consiste à identifier le meilleur
modèle à utiliser pour un cas d’usage donné. Comment ?
de modèle tester À cette fin, plusieurs techniques sont possibles.
[Partie 2]
Pour choisir quel algorithme tester, optez toujours par le plus simple en premier proportion des items pertinents parmi l’ensemble
(par exemple, les arbres de décision, ou les modèles aléatoires et linéaires pour des items proposés ; le rappel1 (ou sensibilité)
est la proportion des items pertinents proposés
la régression) avant d’aller vers le plus complexe (la forêt aléatoire, les réseaux de
parmi l’ensemble des items pertinents. Ces deux
neurones) jusqu’à ce que vous trouviez le bon.
notions correspondent ainsi à une conception et
à une mesure de la pertinence.
1 000
[Question #2]
è Pour des modèles rapides mais moins performants, optez plutôt pour
les arbres de décision, la régression logistique, ou le SVM linéaire.
Pour vous aider à choisir, sachez que pour les réseaux de neurones
sont majoritairement utilisés pour les données non structurées et
les big data.
[Partie 2]
modèles en local. Vous n’aurez pas de frais supplémentaires à payer. En revanche, è Céder à la facilité : les data scientists sont souvent tentés
si votre modèle est complexe et nécessite d’importants volumes de données, vous de choisir le dernier modèle tendance même s’il n’est
serez alors plus limités. pas aligné avec leurs besoins. Résultat, le test ne sera
pas probant et il faudra recommencer avec un algorithme
Si vous souhaitez en revanche bénéficier d’un environnement de travail plus différent.
configurable, plus rapide et plus flexible, privilégiez des machines virtuelles dans è Mettre en place une architecture avant le cas d’usage :
le cloud sur des serveurs dédiés. Mais attention au coût qui peut vite grimper selon c’est tout l’inverse qu’il faut faire.
la configuration souhaitée et à la sécurité des données sensibles.
è Tester le modèle sur des données non représentatives :
vous aurez alors des résultats décorrélés de la phase
d’apprentissage du modèle.
2 Tester la fonctionnalité du modèle algorithmique è Négliger la préparation et l’analyse des données :
beaucoup veulent aller trop vite et vont directement à
Quand un modèle semble suffisamment robuste, testez-le dans l’application finale
l’étape construction du modèle. Ils sont donc obligés
mais dans un environnement de préproduction pour corriger les bugs ou les biais.
d’itérer à chaque fois, soit une perte de temps énorme.
è Mal faire son jeu de test : attention à ce que votre jeu de
test soit suffisamment complet et équilibré pour s’appliquer
3 Comprendre les erreurs correctement à la vie réelle.
En cas d’erreur, il est indispensable de comprendre pourquoi le modèle les è Mélanger jeu de testing et jeu d’entraînement : si vous
a commises. Donc n’hésitez pas à retester et à réentraîner, voire à réinjecter de testez des images que le modèle connaît déjà, le résultat
sera nécessairement meilleur (et donc biaisé).
nouvelles données. Cette étape d’explicabilité du modèle est fondamentale à la fois
pour comprendre les décisions prises par le modèle.
L’avis de l’expert
12
Abdelkader
%
difficile d’obtenir la vérité terrain : le
Hamadi
recueil de données peut s’avérer très Ingénieur
complexe car il implique des accords Chercheur en
Data Science
avec de multiples parties prenantes,
impose de nombreux déplacements,
etc. Résultat, certaines organisations
déploient parfois une vérité terrain… sans aller sur le
terrain ce qui rend les résultats approximatifs. Autre
des entreprises en 2022 utilisent
écueil fréquent : ne pas disposer de la puissante l’IA à un niveau de maturité
suffisante pour exploiter la masse de données à leur octroyant un avantage
disposition. Résultat, il est parfois nécessaire de retester
concurrentiel significatif.
sur une nouvelle plateforme plus performante, soit une
perte de temps conséquente. Les capacités matérielles
représentent un point critique de l’industrialisation de
l’IA. Source : ‘‘The Art of AI Maturity: Advancing from Practice to
Performance’’, Accenture, 2022
Intelligence artificielle
Asset management : guidel’ESG
: pourquoi d’uneest
IA devenu
décomplexée
un passage
pour votre
obligéentreprise 20
Conclusion
Définir
votre stratégie de Cybersécurité
Les entreprises ont pris conscience de l’importance d’industrialiser leurs modèles IA pour
acquérir un atout concurrentiel majeur dans un contexte de plus en plus volatile, complexe
et incertain. Pour franchir ce cap de la mise à l’échelle et dépasser le stade des PoC,
elles doivent néanmoins encore progresser dans leur méthodologie et leur approche de
l’intelligence artificielle. Faut-il déployer le modèle sur un serveur local ou plutôt dans le
cloud ? Comment mettre en œuvre l’auto-apprentissage pour améliorer notre modèle au fur
et à mesure ? Où placer ce modèle dans l’architecture globale ? Peut-on faire confiance aux
GAFAM ?
Autant de questions qui freinent toujours l’adoption de l’IA malgré ses nombreux bénéfices. Heureusement,
les data scientists peuvent aujourd’hui compter sur des solutions performantes pour simplifier leurs tâches
et accélérer le passage en production, à l’image d’Hugginface qui permet d’entraîner facilement des NLP en
quelques lignes de codes, ou de Dall-e qui permet de générer des visuels très facilement et de manière très
poussée.
Reste néanmoins le problème de savoir comment adresser la complexité inhérente à l’intelligence artificielle.
Or la technologie ne peut suffire à résoudre à elle seule l’ensemble des points de difficulté. Sur la base des
démarches DevOps et DataOps, les équipes doivent repenser leur organisation pour tendre vers plus d’agilité, de
flexibilité et d’apprentissage continu. C’est toute la promesse portée par le MLOps.
CONSEIL, PILOTAGE ET DÉVELOPPEMENT IT Nous intervenons également sur Bordeaux, Lille, Rennes, et Toulouse.
è Notre approche ?
Accompagner nos clients sur l’ensemble de la chaîne de
valeur : cadrage personnalisé, pilotage & développement
applicatif pour les projets IT.
è Notre mission ?
Connecter les meilleurs talents au service de la
transformation numérique pour donner un temps
d’avance aux entreprises.
meritis.fr