Bagging Boosting Tresinterressant
Bagging Boosting Tresinterressant
Bagging Boosting Tresinterressant
d’apprentissage
Ensembliste dans le Datamining distribué
Mokeddem Djamila, Belbachir Hafida *
* LSSD Département d’Informatique, USTO
{Mokdjamila, H_belbach} @yahoo.com
1. Introduction
2. Le Datamining Distribué
La classification est une des tâches du datamining qui permet de prédire si une instance
de donnée est membre d’une classe prédéfinie. Elle utilise un ensemble S de données
appelées ensemble d’apprentissage. Chaque donnée est typiquement représentée sous
forme d’un vecteur d’attributs x = <x1, x2, …., xm, y> avec y un attribut de classe.
L’objectif de la classification est d’entraîner un algorithme de classification A sur
l’ensemble S, pour trouver une bonne approximation d’une certaine fonction f(x)= y. La
fonction approximative Cl calculée est appelée classificateur. L’évaluation de la
précision de Cl est faite sur un ensemble de données T indépendant de S, appelé
ensemble de test. Le classificateur sera par la suite capable de prédire la valeur de classe
y pour de nouvelles données d, en calculant Cl(d).
Dans le cas des méthodes ensemblistes, N classificateurs de base Cli sont construits, à
partir de N ensembles de données Si. Le classement d’une nouvelle donnée se fait par la
combinaison des prédictions des N classificateurs de base, par un vote majoritaire par
exemple. Malgré la simplicité de cette idée intuitive « l’union fait la force », elle repose
sur une théorie statistique [19] renforcée par plusieurs études empiriques.
Ces études ont montré dans différents travaux de recherche [20, 22, 42, 43, 13] que la
précision d’un algorithme d’apprentissage peut être améliorée d’une façon significative
en appliquant le principe de perturbation et combinaison [19]. Les algorithmes les plus
appropriés à l’application de cette approche sont ceux considérés comme non stable, c-
a-d que des petites modifications dans les données d’apprentissage pourrait induire à un
grand changement dans la fonction Cl estimée. Les arbres de décision par exemple sont
considérés comme de bons candidats [19].
Cette perturbation permet de générer plusieurs ensembles d’apprentissage, à partir d’un
ensemble de base, comme dans les techniques de boosting et bagging. Elle peut aussi
être appliquée sur les algorithmes de construction des classificateurs, en utilisant
plusieurs algorithmes différents, ou en modifiant certains paramètres [34]. Les résultats
expérimentaux montrent que 50 répliques sont en générale suffisantes [19], mais le
temps de calcul est encore un champ d’investigation.
On présente dans ce qui suit, des approches parmi les plus répandues dans la génération
des ensembles d’apprentissage, ainsi que les techniques de combinaison. Des travaux
récents relatifs aux arbres de décision seront aussi présentés.
Nous étudions dans ce qui suit le datamining distribué effectué par les méthodes
ensemblistes selon les deux perspectives visées : soit le traitement de données
intrinsèquement distribuées, soit la haute performance des méthodes ensemblistes elles
même.
4.2.2 Le parallélisme
L’aspect parallèle est très visible à travers la possibilité de construire les classificateurs
de base simultanément. Le parallélisme du Bagging est relativement immédiat. Un
travail présenté dans [5] propose de partitionner les données aléatoirement et
équitablement, à travers plusieurs processeurs. Chaque processeur exécute l’algorithme
séquentiel sur ses données locales, jusqu’à l’obtention des prédictions adéquates.
5. Conclusion et Discussion
Le datamining distribué est né du besoin de traiter des données qui peuvent être d’une
part très volumineuses, et/ou éventuellement distribuées géographiquement à travers
plusieurs sites. Les méthodes d’apprentissage ensemblistes présentent des techniques
prometteuses dans le monde du datamining, particulièrement en terme de précision. En
classification, elles consistent à créer plusieurs classificateurs de base, pour ensuite
combiner les prédictions.
Cet article a visé particulièrement le couplage méthodes ensembliste- datamining
distribué. Ceci a été fait à base des deux perspectives: le passage à l’échelle des
méthodes ensemblistes elle-même, et la prédiction à partir de données distribuées.
La problématique du passage à l’échelle concerne les algorithmes classiques du
datamining, et d’autant plus les méthodes ensemblistes qui appliquent l’algorithme sur
des dizaines d’ensembles de données, avec 100% de la taille d’origine. Une première
solution immédiate est de faire recours au parallélisme ; une autre solution consiste à
réduire la taille des ensembles d’apprentissage. Nous nous intéressons à cette deuxième
approche qui consiste à répondre à la question : est-ce que la totalité de l’ensemble de
données est vraiment utile pour construire les meilleurs modèles possibles ? En
survolant la littérature qui traite ce sujet, on constate que ceci n’a pas encore obtenu un
consensus général.
6. C.L. Blake and C.J. Merz. UCI repository of machine learning databases, (1998).
13. J. Ross Quinlan: Bagging, boosting, and C4.5. In Proceedings of the Thirteenth
National Conference on Artificial Intelligence, AAAI 96, AAAI Press, pp 725–730,
Portland, Oregon (August 1996).
14. J. Shafer, R. Agarwal, and M. Mehta.: SPRINT: A scalable parallel classifier for
data mining. In Proc. of 22nd International Conference on Very Large Databases,
Mumbai, India (1996).
15. Ianyong Dai, Joohan Lee, Morgan C. Wang.: Efficient Parallel Data Mining for
Massive Datasets: Parallel Random Forest. The International Conference on Parallel
and Distributed Processing Techniques and Applications (PDPTA) (June 2005).
16. Jinyan Li, Huiqing Liu: Ensembles of Cascading Trees. In the Proceedings of the
Third IEEE International Conference on Data Mining (ICDM'03), Melbourne, Florida,
USA, November 19 – 22 (2003).
17. K. Liu, H. Kargupta, and J. Ryan: Distributed data mining bibliography. release 1.7
(December 2006).
18. Leo Breiman: Pasting small votes for classification in large database and on-line.
Machine Learning, 36:85-103 (1999).
19. Leo Breiman: Arcing Classifiers. technical report. Dept. of Statistics, University of
California, Berkeley (1996).
21. Leo Breiman: Pasting bites together for prediction in large data sets. Machine
Learning, 36(2):85–103 (1999).
23. M. Aoun-Allah : Le forage distribué des données : une approche basée sur
l’agrégation et le raffinement de modèles. Thèse Ph.D., Université Laval (2006).
28. O. Lawrence Hall, Nitesh Chawla, and W. Kevin Bowyer: Combining Decision
Tress Learned in Parallel. In Working notes of KDD (1998).
29. O. Lawrence Hall, W. Kevin Bowyer.W. Philip Kegelmeyer, E. Thomas Moore, and
Chi-ming Chao: Distributed learning on very large data sets. In Workshop on
Distributed and Parallel Knowledge Discovery, (KDD00), pp 79-84 (aug 2000).
30. Paul Bradley, Johannes Geheke, Raghu Ramakrishnan, and Ramakrishnan Srikant:
Scaling mining algorithms to large databases. Communications of the ACM, 45(8): 37-
43 (August 2002)
31. R.A Pearson: A coarse grained parallel induction heuristic. In H. Kitano, V. Kumar,
and
C.B. Suttner, editors, Parallel Processing for Artificial Intelligence 2, Elsevier Science,
pp 207-226 (1994).
32. Robert Bryll, Ricardo Gutierrez-Osuna, and Francis Quek: Attribute Bagging:
Improving Accuracy of Classifier Ensembles by Using Random Feature Subsets.
Pattern Recognition, Elsevier Science, Vol. 36, No. 6, pp. 1291-1302 (June 2003).
33. Robert E. Shapire: The strength of weak learnability. Machine Learning, 5(2) : 197-
227. (1990).
34. Robert P.W. Duin: The Combining Classifier: to Train or Not to Train?.
Proceedings 16th International Conference on Pattern Recognition, 2: 765- 770 (2002).
37. Shu -Tzu Tsai, Chao-Tung Yang: Decision Tree Construction for Data Mining on
Grid Computing. Proceedings IEEE International Conference on e-Technology, e-
Commerce and e-Service (EEE'04) pp. 441-447 (2004).
39. Tin Kam Ho: The Random Subspace Method for Constructing Decision Forests.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(8):832—844
(1998).
40. Winton Davies and Pete Edwards: Dagger: A new approach to combining multiple
models leraned from disjoint subsets. In machine Learning (2000).
41. Yoav Freud: Boosting a weak learning algorithm by majority. Information and
Computation, 121(2) : 256-258 (Septembre 1995).
42. Yoav Freund and Robert E. Schapire: Experiments with a new boosting algorithm.
In Lorenza Saitta, editor, Machine Learning: Proceedings of the Thirteenth International
Conference, pp 148–156, Morgan Kaufmann, Bari, Italy (July, 1996).
43. Yongdai Kim: Convex hull ensemble machine. In Proceedings of 2002 IEEE
International Conference on Data Mining (ICDM 2002), IEEE Computer Society, pp
243 – 249, Maebashi City, Japan (2002).
44. Zhang, S.C., Wu, X.D., and Zhang, C.Q.:Multi-database mining. IEEE
Computational Intelligence Bulletin, Vol. 2 No. 1, IEEE Computer Society, pp. 5-13
(2003).