Responsables : José MORENO et Thomas PELLEGRINI
Cette action stratégique concerne les différentes facettes du traitement et du calcul de données massives et couvre à la fois les infrastructures et les algorithmes. Dans ce contexte le caractère massif des données sera lié non seulement à la volumétrie mais aussi à la complexité de traitement, à la dynamicité et à la difficulté d’accès. La notion d’infrastructure recouvre l’ensemble des fonctions nécessaires à l’exploitation d’équipements, de logiciels ou de données en réseau. Ces fonctions couvrent les modèles, algorithmes et outils nécessaires à cette exploitation. Elle recouvre aussi bien des problèmes d’administration, de dimensionnement, de persistance, de performance que d’hétérogénéité.

Le contexte des recherches menées dans le cadre de cette action est donc caractérisé par des sources de données multiples, distribuées/réparties à grande échelle, et hétérogènes (structures, formats, logiciels, matériels,…), des serveurs mobiles et réactifs. D’autres facteurs importants concernent la volumétrie en données (du Toctets au Poctets), la dynamique du système (ressources du système : CPU, RAM, Bande Passante Réseau et E/S), et des sources de données (fréquences de mise à jour très rapides, versions,…). Les collections adressées ici (citons vidéo, texte, documents, données géométriques et géographiques, géo-localisées, données semi-structurées, ontologies, ressources terminologiques) sont complexes de par leur taille, leur irrégularité, leur hétérogénéité, leur dynamicité, leur distribution/répartition, leur bruit, etc. Le traitement des données numériques s’adresse quant à lui à des données simulées ou observées.
La problématique centrale de l’action peut se décliner selon :
- des infrastructures adéquates (middleware, grille, P2P, réseau,…),
- des modèles et des méthodes pour la représentation et le traitement de ces masses de données (stockage, calcul, simulation, optimisation, indexation,…)
- de nouveaux modes d’interactions et d’utilisation (homme-données) : web sémantique, web 2.0, multimodalité, réalité augmentée, virtuelle,….
Un des aspects spécifiques de cet axe est lié à l’évolution des problématiques d’indexation et de recherche d’information, conduisant à considérer les différentes dimensions de l’adaptation (à l’utilisateur, au contexte, aux dispositifs, aux moteurs d’indexation disponibles, etc.) en particulier dans le domaine de la mobilité, et en lien avec les axes « Systèmes Embarqués » et « Systèmes Ambiants ». Ces différentes dimensions intègrent de bout en bout les étapes du process, i.e. les services, les requêtes, les données et métadonnées associées, les résultats et leur présentation/visualisation. Les processus de recherche de l’information doivent bien évidemment prendre en compte flexibilité et personnalisation, tout en maintenant une Qualité de Service.
Notre effort porte plus particulièrement sur
- d’une part, l’élaboration de modèles pour la représentation, l’accès, l’analyse, la fouille et la manipulation de collections d’informations complexes. Sur des données textuelles (documents disponibles sur le Web ou produits par des domaines spécifiques (astronomies, biologie …) nous étudions des outils de recherche capables de rechercher l’information pertinente. Dans ce contexte la prise en compte du sens de l’information revient àcouvrir la sémantique véhiculée par l’information aussi bien au niveau de la représentation que de l’accès.
- d’autre part, le traitement de données (indexation, simulation, assimilation) et les outils logiciels d’accès aux ressources. Le travail sur les intergiciels de grille doit se poursuivre pour notamment offrir une grande robustesse d’accès au ressources logicielles (services) et ce indépendamment des risques de panne matériel. Les approches algorithmiques pour la simulation numérique doivent par contre être revisitées pour prendre en compte l’évolution des matériels (machines multicœurs et grille de calcul) : le paradigme, faire moins d’opérations pour aller plus vite n’est plus valide. Finalement, en analyse automatique de données audiovisuelles, notre effort portera sur les aspects indexation temps réels de flux, la fusion d’index audio et vidéo ainsi qu’au calcul de distances entre contenus audiovisuels.
Dept. | Equipe | Nom | Prénom | Titre | Année début | Année Fin | DAS/Action concerné | Mots-clés |
---|---|---|---|---|---|---|---|---|
CISO | REVA | BIAU | Julien | 2018 | 2021 | Calcul, Données, IA | Apprentissage / DL / CGP | |
SI | SAMOVA | CANCES | Léo | Apprentissage profond semi-supervisé appliqué à la détection d'événements sonores | 2018 | 2021 | Calcul, Données, IA | Deep Learning / audio |
SI | SAMOVA | GELIN | Lucile | Modélisation acoustique end-to-end pour la reconnaissance automatique de la parole d'enfants | 2018 | 2021 | Calcul, Données, IA | Deep Learning / audio |
SI | SAMOVA | ROGER | Vincent | Few sot techniques for pathological speech intelligibility mesure | 2018 | 2021 | Calcul, Données, IA / Santé, Autonomie, Bien-Être | Deep Learning / few shot / voix pathologiques |
IA | MELODI | BOURGEADE | Tom | Explicabilité de modèles sémantiques en TAL | 2018 | 2021 | Calcul, Données, IA | TAL / DL / explicabilité |
IA | MELODI | CHIRIL | Patricia | Détection de message sexistes sur la toile | 2018 | 2021 | Calcul, Données, IA | TAL / DL / Apprentissage automatique / hate speech |
SI | SC | ALVES DE OLIVEIRA | Vinicius | Apprentissage profond pour la compression embarquée d’images d’observation de la Terre | 2018 | 2021 | Calcul, Données, IA / Aéronautique, Espace, Transports | Deep Learning / télédétection / compression / débruitage / embarqué |
SI | SC | CASTERA | Camille | Algorithmes d'optimisation structurés pour l'entraînement de réseaux de neurones profonds | 2018 | 2021 | Calcul, Données, IA | |
IA | ADRIA,APO | BENNIS | Achraf | Neural Networks for Survival Analysis and Predictive Maintenance | 2018 | 2021 | Calcul, Données, IA | |
GD | SIG | LEJEUNE | Clément | Données fonctionnelles multivariées: extraction de caractéristiques géométriques et apprentissage parcimonieux de la dynamique | 2018 | 2021 | Calcul, Données, IA | Information systems / anomaly detection / time series mining / machine learning |
GD | SIG | COUSTIE | Oihana | Detecting anomalies in modern IT systems through the inference of structure and the detection of novelties in system logs | 2018 | 2021 | Calcul, Données, IA | Information systems / anomaly detection / time series mining / deep learning |
GD | SIG | NEPTUNE | Nathalie | Apprentissage profond pour la détection des changements de couverture au sol | 2018 | 2022 | Calcul, Données, IA | Information systems / change detection / image time series mining / deep learning |
GD | SIG / REVA | RESMA | Ismat Ara | Influence de la distribution des classes et évaluation en apprentissage profond - Application à la détection du cancer sur des images histologiques | 2018 | 2021 | Calcul, Données, IA | Information systems / image segmentation and classification / cancer detection / Deep Learning |
ASR | SEPIA | DELANDE | David | Gestion de l'élasticité dans le cloud : approches d'apprentissage par renforcement | 2019 | 2022 | Calcul, Données, IA | RL / cloud / élasticité |
SI | SAMOVA | QUINTAS | Sebastiao | Deep learning approaches to assess head and neck cancer voice intelligibility | 2019 | 2022 | Calcul, Données, IA / Santé, Autonomie, Bien-Être | Deep Learning / voix pathologiques |
IA | MELODI | KHALDI | Hadjer | Extraction de relations économiques à partir de textes | 2019 | 2022 | Calcul, Données, IA | TAL / Knowledge Graphs / Apprentissage automatique |
SI | MINDS | MAI | Nguyen Anh Minh | Segmentation sémantique d'image par approche ontologique. Application à la perception de l'environnement d'un véhicule autonome pour la détection d'obstacles par météo tout temps | 2019 | 2022 | Ville intelligente | véhicule autonome / apprentissage profond / ontologie |
GD | IRIS | BOUALILI | Lila | Deep learning et IR (exploration des modèles pre-entrainés à la BERT) | 2019 | 2022 | Calcul, Données, IA | Deep IR / Language modeling / Exact matching |
GD | IRIS | DUSART | Alexis | Agrégation d’informations sociales | 2019 | 2022 | Calcul, Données, IA | Agrégation / Language modeling / résumé multi-documents |
GD | IRIS | BIZZOZZERO | Nicolas | Prédiction de requêtes | 2019 | 2022 | Calcul, Données, IA | query prédiction |
GD | IRIS | LUGO | Luis | Modélisation des comportements de recherche basé sur les interactions des utilisateurs | 2019 | 2021 | Calcul, Données, IA | Deep clustering / Query Mapping / Query Segmentation |
GD | IRIS | SOURTY | Raphaël | Apprentissage profond pour l’accès aux textes et bases de connaissances | 2019 | 2022 | Calcul, Données, IA | KB representation / Entity embeddings / Enriched LM |
GD | SIG | RAHMAN | Md Siddiqur | Detection et résolution de conflits aériens en apprentissage profond | 2019 | 2022 | Calcul, Données, IA | Information systems / conflit resolution / Deep Learning |
CISO | REVA | MAILHE | Kaitlin | 2020 | 2023 | Calcul, Données, IA | Apprentissage / RL / ARNN | |
SI | SAMOVA | LABBE | Etienne | Apprentissage profond semi-supervisé pour l’analyse de séquences sonores | 2020 | 2023 | Calcul, Données, IA | Deep Learning / audio |
IA | MELODI | DEVATINE | Nicolas | Prédiction de biais textuel | 2020 | 2023 | Calcul, Données, IA | TAL / DL / explicabilité / biais |
CISO | APO | ORTEGA | Pilar | Minimally supervised learning pour l'histopathologie | 2020 | 2023 | Calcul, Données, IA / Santé, Autonomie, Bien-Être | Apprentissage |
ASR | RMESS / APO | MILLET-MESLET | Fabien | Deep Learning for Computer Network | 2020 | 2023 | Ville intelligente | Deep Learning |
SI | MINDS | NWIGBO | Kenule | Super-resolution in CBCT dental imaging | 2020 | 2023 | Santé, Autonomie, Bien-Être | Deep Learning / CBCT / super-resolution / plug and play |
GD | IRIS | ARENS | Maxime | Recherche d’information conversationnelle : Vers de nouvelles méthodes d’accès à l’information | 2020 | 2023 | Calcul, Données, IA | recherche conversationnelle / deep Active Learning |
GD | SIG | BOULISSET | Valentin | Méthodes d’intelligence artificielle pour la mesure des particules fines en temps réel par cameras spectrales | 2020 | 2022 | Calcul, Données, IA | spectral camera / PM (particle mater) polution modelling / Deep Learning / machine learning |
SI | SC | COEURDOUX | Florentin | Generative models for Monte Carlo sampling | 2021 | 2023 | Calcul, Données, IA | |
SI | MINDS | YANETH SANCHEZ QUIROGA | Karen | Deep Learning Algorithms Design for Medical imaging in Computer-aided Diagnosis Tasks | 2021 | 2024 | Santé, Autonomie, Bien-Être | Deep Learning / medical imaging / heterogeneous data / small training dataset |
CISO | APO | MERCIER | Valentin | Simulation de crues de rivière par ML | 2021 | 2024 | Calcul, Données, IA | apprentissage / simulation / equations de St Venant |
CISO | APO | BEUZEVILLE | Theo | Analyse de robustesse de réseaux | 2021 | 2024 | Calcul, Données, IA | sensibilité / Analyse inverse / attaques adversariales |
CISO | APO | PEYRON | Mathis | Assimilation de données par auto encodeurs | 2021 | 2024 | Calcul, Données, IA | variationnel bayes / asssimilation ensembliste / reduction de modèle |
CISO | APO | JERAD | Sadok | Méthodes du second ordre pour l'apprentissage | 2021 | 2024 | Calcul, Données, IA | optimisation stochastique / convergence globale / analyse de complexité |
GD | IRIS | NAZISH | Hina | Deep learning and IR : exploitation de représentations denses issues de transformers + explicability (en option) | 2021 | 2024 | Calcul, Données, IA | Dense representation / Pre trained LM / adhoc search / aggregation of representations |