LRE Map
La LRE Map (Language Resources and Evaluation) est une base de données librement accessible qui est dédiée aux ressources pour le traitement automatique des langues (TAL). La caractéristique originale de la LRE Map est que les enregistrements sont collectés lors des soumissions à des conférences scientifiques. Les enregistrements sont ensuite nettoyés et rassemblés dans une base de données nommées LRE Map[1].
La LRE Map est destinée à être un instrument de collecte d'informations sur les ressources linguistiques et devient, en même temps, une communauté pour les utilisateurs, un site pour partager et découvrir des ressources, discuter, fournir des retours d'utilisation, découvrir de nouvelles tendances etc. C'est un instrument pour découvrir, rechercher et documenter les ressources linguistiques, au sens large en incluant à la fois les données et les outils.
La grande masse d'informations peut être analysée de différentes manières. Quelques analyses sont disponibles sur internet[2]. Par exemple, il est possible de connaître les ressources les plus fréquemment utilisées, les langues les plus représentées, les applications qui sont utilisées ou en cours de développement, la proportion des nouvelles ressources comparativement aux anciennes ou la façon dont les ressources sont distribuées dans la communauté.
Contexte
[modifier | modifier le code]Un certain nombre d'institutions gèrent des catalogues de ressources linguistiques: ELRA, Linguistic Data Consortium, NICT Universal Catalogue, Association for Computational Linguistics (ACL) Data and Code Repository, OLAC, LT World, etc)[3]. Mais il a été estimé que seulement 10 % des ressources sont connues, soit via des catalogues de distribution ou via la publicité directe du fournisseur. Le reste est relativement caché, la seule occasion où la ressource émerge est quand elle est présentée dans le contexte d'une communication scientifique. Même dans ce cas, il se peut que la ressource reste dans l'ombre quand le thème de la recherche n'est pas la ressource en elle-même.
Historique
[modifier | modifier le code]La LRE Map se nommait auparavant « LREC Map » durant la préparation de la conférence LREC 2010[4]. Plus précisément, l'idée fut discutée au sein du projet FlaReNet et en collaboration avec ELRA, la 'carte' a été mis en place pour LREC-2010. Les organisateurs de LREC ont demandé aux auteurs de fournir des informations simples sur toutes les ressources (au sens large, c'est-à-dire en incluant les outils de TAL, standards et kits d'évaluation) qui ont été créées ou utilisées telles que décrites dans les communications scientifiques. Toutes ces descriptions furent ensuite rassemblées dans une matrice globale appelée LREC Map.
La même méthodologie a été appliquée et étendue à d'autres conférences, notamment COLING-2010[5], EMNLP-2010[6], RANLP-2011[7] and LREC-2012[8].
Après cette généralisation à d'autres conférences, la LREC Map a été renommée LRE Map.
Taille et contenu
[modifier | modifier le code]La taille de la base de données augmente avec le temps. Les données collectées lors de LREC-2010 comportaient 1889 entrées.
Chaque ressource est décrite selon les attributs suivants:
- type de ressource, e.g. lexique, outil d'annotation, analyseur.
- état en termes de production, e.g. nouvellement créée, existante mais mise à jour.
- disponibilité, e.g. librement disponible, depuis un centre de données.
- modalité, e.g. parole, écrit, langue des signes,
- utilisation, e.g. reconnaissance d'entités nommées, identification de langue, traduction automatique,
- langue, e.g. anglais, 23 langues de l'Union européenne, langues officielles de l'Inde.
Utilisations
[modifier | modifier le code]La LRE Map est un outil très important pour comprendre l'activité du TAL. Comparativement à d'autres études qui sont fondées sur des évaluations subjectives, la LRE Map repose sur des faits réels.
La LRE Map a aussi un grand potentiel en plus d'être un outil de collecte d'informations:
- C'est un instrument efficace pour évaluer les divers champs du domaine (utile pour les bailleurs de fonds), si appliqué dans différents contextes et points dans le temps.
- Elle peut être vue comme un effort collaboratif qui est le début d'une plus grande coopération, non seulement entre quelques meneurs techniques mais entre tous les chercheurs.
- C'est aussi un outil pédagogique en direction de la reconnaissance du besoin de meta-données avec l'implication de tous.
- Elle est instrumentale en introduisant une notion nouvelle de "citation de ressources" qui pourrait fournir une récompense et une reconnaissance pour les chercheurs engagés dans la création de ressources.
- Elle permet d'aider à l'organisation de conférences comme LREC.
Matrices dérivées
[modifier | modifier le code]Les données ont été nettoyées et triées par Joseph Mariani (CNRS-LIMSI IMMI) and Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) afin de calculer les différentes matrices du rapport final FLaReNet[9]. Ainsi, par exemple, l'une d'elles, la matrice pour les données écrites issue de LREC-2010 donne ce qui suit:
Corpus | Lexicon | Ontology | Grammar/Language Model |
Terminology | |
---|---|---|---|---|---|
Bulgarian | 7 | 6 | 1 | 1 | 1 |
Czech | 12 | 7 | 2 | 1 | 1 |
Danish | 6 | 2 | 0 | 2 | 0 |
Dutch | 17 | 8 | 2 | 1 | 2 |
English | 206 | 77 | 18 | 11 | 10 |
Estonian | 3 | 1 | 0 | 0 | 1 |
Finnish | 3 | 2 | 0 | 1 | 0 |
French | 44 | 24 | 3 | 4 | 5 |
German | 43 | 15 | 4 | 2 | 3 |
Greek | 10 | 3 | 2 | 0 | 0 |
Hungarian | 8 | 4 | 0 | 1 | 1 |
Irish | 1 | 0 | 0 | 0 | 0 |
Italian | 32 | 16 | 4 | 2 | 0 |
Latvian | 9 | 0 | 0 | 0 | 1 |
Lithuanian | 4 | 0 | 2 | 0 | 1 |
Maltese | 1 | 0 | 0 | 1 | 0 |
Polish | 7 | 2 | 1 | 2 | 1 |
Portuguese | 19 | 6 | 1 | 1 | 0 |
Romanian | 12 | 7 | 1 | 1 | 0 |
Slovak | 2 | 0 | 0 | 1 | 0 |
Slovene | 5 | 1 | 0 | 0 | 0 |
Spanish | 29 | 19 | 4 | 5 | 2 |
Swedish | 19 | 4 | 0 | 1 | 0 |
Other Europe | 19 | 11 | 3 | 3 | 2 |
Regional Europe | 18 | 8 | 0 | 1 | 3 |
Multilingual | 5 | 3 | 1 | 0 | 1 |
Language independent | 9 | 3 | 16 | 2 | 1 |
Non applicable | 2 | 0 | 2 | 1 | 0 |
Total | 552 | 229 | 67 | 45 | 36 |
Il doit être noté que, sans surprise, l'anglais est la langue la plus étudiée. En deuxième, viennent le français et l'allemand, ensuite l'italien et l'espagnol.
Futur
[modifier | modifier le code]La LRE Map sera étendue au journal LRE et à d'autres conférences.
Références
[modifier | modifier le code]- Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 The LREC Map of Language Resources and Technologies. LREC-2010, Malta
- http://www.resourcebook.eu (cliquer sur le lien “Stats”)
- FlaReNet Technical report, the language resources and evaluation (LRE) Map, Nicoletta Calzolari (CNR-ILC Pisa, Italy), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. eContentPlus project [1]
- Nicoletta Calzolari, Introduction of the Conference Chair LREC 2010
- The 23rd International Conference on Computational Linguitics, Beijing, China [2]
- Empirical Methods in Natural Language Processing 9–11 October, MIT Stata Center, Cambridge, Massachusetts, États-Unis [3]
- Recent advances in Natural Language Processing 12–14 September, Hissar, Bulgaria [4]
- Language Resources and Evaluation, Istanbul, Turquey
- FLaReNet (Fortering Language Resources Network) is an EU funded project which is intended to develop a common vision of the area of Language Resources and Language Technologies for the next years and foster a European strategy for consolodating the sector and enhancing competitiveness at EU level and worldwide.