Analyse explicable et personnalisable de données hétérogènes multi-niveaux : une approche guidée par l’apprentissage automatique et les ontologies
Auteur / Autrice : | Maxime Perrot |
Direction : | Stéphane Jean, Brice Chardin, Mickaël Baron |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 13/12/2024 |
Etablissement(s) : | Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique |
Ecole(s) doctorale(s) : | École doctorale Sciences et Ingénierie des Systèmes, Mathématiques, Informatique (Limoges ; 2018-2022) |
Partenaire(s) de recherche : | Entreprise : Bimédia |
Laboratoire : Laboratoire d'informatique et d'automatique pour les systèmes [EA 6315] / LIAS [Poitiers] | |
Jury : | Président / Présidente : Arnaud Soulet |
Examinateurs / Examinatrices : Hala Skaf | |
Rapporteurs / Rapporteuses : Nadine Cullot, Marie-Jeanne Lesot |
Mots clés
Résumé
Cette thèse s’intègre dans le contexte industriel de Orisha Retail Shops, qui propose des caisses enregistreuses et logiciels pour points de vente comme les boulangeries et bureaux de tabac. Ces systèmes génèrent un volume considérable de données sur les ventes, cruciales pour améliorer le suivi opérationnel et la prospection, conférant un avantage concurrentiel significatif à l’entreprise. Le premier problème traité est l’identification précise des activités des points de vente, complexifiée par la liberté de nommage et de catégorisation des produits. Ceci constitue un défi de classification, peu abordé dans la littérature malgré sa pertinence en apprentissage automatique, du fait de la faible qualité intrinsèque des données et des libellés de produits à haute cardinalité. Pour adresser cela, un banc d’essai spécialisé a été conçu pour évaluer les méthodes de classification, mettant en lumière les limites des techniques actuelles, notamment dans l’encodage des données. La seconde contribution, Thesaurus-BT, propose une méthode de classification basée sur un thésaurus construit à partir de connaissances métier, permettant une classification globale et effective des produits. Cette méthode, testée expérimentalement, surpasse les encodeurs traditionnels et a été mise en production chez Orisha Retail Shops. Enfin, la troisième contribution répond aux besoins d’analyse de l’entreprise par la mise en œuvre de la méthode Thesaurus-BT, couplée aux technologies du Web sémantique pour modéliser les concepts et relations non explicitement présents dans les données existantes. Cette approche, complétée par des évaluations empiriques de différentes architectures, démontre le potentiel et les limites de ces technologies dans un usage industriel, offrant une vue d’ensemble sur leur applicabilité et scalabilité dans des scénarios réels.