« AlexNet » : différence entre les versions

Navigation interactive dans l’historique

Contenu supprimé Contenu ajouté

Intégrés

Dernière version du 27 novembre 2024 à 22:33

AlexNet : Une architecture de réseau neuronal convolutif avec 5 étapes convolutives et 3 couches entièrement connectées pour la classification d'images

AlexNet est le nom d'une architecture de réseau neuronal convolutif. Elle a été conçue par Alex Krizhevsky, Ilya Sutskever et leur directeur de thèse Geoffrey Hinton^[1]^,^[2].

AlexNet a participé le 30 septembre 2012 au concours ImageNet de reconnaissance d'images. Le réseau (nommé initialement « SuperVision ») a fait 10,8% d'erreurs de moins que le deuxième^[3].

L'article original souligne que la profondeur du modèle est essentielle pour obtenir de hautes performances, mais nécessite beaucoup de capacités de calcul. AlexNet s'est démarqué en utilisant des processeurs graphiques pour paralléliser les calculs, permettant ainsi d'entraîner un réseau particulièrement profond^[2].

Contexte historique

AlexNet n'était pas la première implémentation d'un réseau neuronal convolutif utilisant des processeurs graphiques pour en augmenter les performances. Un tel réseau avait déjà été implémenté en 2006 par K. Chellapilla et ses collègues, et était 4 fois plus rapide qu'une implémentation équivalente sur CPU^[4]. Un réseau neuronal convolutif profond implémenté en 2011 par Dan Cireșan et ses collègues était déjà 60 fois plus rapide^[5], et surpassait ses prédécesseurs en août 2011^[6]. Entre le 15 mai 2011 et le 10 septembre 2012, leur CNN a remporté pas moins de quatre concours d'images^[7]^,^[8]. Ils ont également considérablement amélioré les meilleures performances de la littérature pour plusieurs bases de données d'images^[9].

Selon l'article d'AlexNet^[2], le réseau antérieur de Cireșan était « quelque peu similaire ». Les deux ont été initialement écrits avec CUDA pour fonctionner avec les cartes graphiques Nvidia. En fait, les deux ne sont que des variantes des réseaux neuronaux convolutifs introduits en 1989 par Yann Le Cun et ses collègues^[10]^,^[11], qui ont appliqué l'algorithme de rétropropagation à une variante de l'architecture originale de réseau neuronal convolutif de Kunihiko Fukushima appelée « néocognitron »^[12]^,^[13]. L'architecture a ensuite été modifiée par la méthode de J. Weng appelée max-pooling^[14]^,^[8].

En 2015, AlexNet a été surpassé par le très profond CNN de Microsoft Research Asia avec plus de 100 couches, qui a remporté le concours ImageNet 2015^[15].

Conception de réseau

AlexNet contient huit couches : les cinq premières sont des couches convolutives, certaines d'entre elles sont suivies par des couches de max-pooling, et les trois dernières sont des couches entièrement connectées. Le réseau, à l'exception de la dernière couche, est divisé en deux copies, chacune fonctionnant sur un processeur graphique. Le réseau utilise la fonction d'activation ReLU, qui a affiché de meilleures performances que tanh et sigmoïde^[2].

Influence

AlexNet est considéré comme l'un des articles scientifiques les plus influents publiés en vision par ordinateur, ayant suscité la publication de nombreux autres articles utilisant des réseaux neuronaux convolutifs et des processeurs graphiques pour accélérer l'apprentissage en profondeur^[16]. Début 2023, l'article d'AlexNet avait été cité plus de 120 000 fois selon Google Scholar ^[17].

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « AlexNet » (voir la liste des auteurs).

↑ (en) Gershgorn, « The data that transformed AI research—and possibly the world », Quartz, 26 juillet 2017
↑ ^{a b c et d} (en) Alex Krizhevsky, Ilya Sutskever et Geoffrey E. Hinton, « ImageNet classification with deep convolutional neural networks », Communications of the ACM, vol. 60, n^o 6,‎ 24 mai 2017, p. 84–90 (ISSN 0001-0782, DOI 10.1145/3065386, S2CID 195908774, lire en ligne)
↑ « ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012) », sur Image-net (consulté le 12 mars 2024)
↑ (en) Kumar Chellapilla, Sidd Puri et Patrice Simard, Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006 (lire en ligne), « High Performance Convolutional Neural Networks for Document Processing »
↑ (en) Dan Cireșan, Ueli Meier, Jonathan Masci, Luca M. Gambardella et Jürgen Schmidhuber, « Flexible, High Performance Convolutional Neural Networks for Image Classification », Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2,‎ 2011, p. 1237–1242 (lire en ligne, consulté le 17 novembre 2013)
↑ (en) « IJCNN 2011 Competition result table », OFFICIAL IJCNN2011 COMPETITION, 2010 (consulté le 14 janvier 2019)
↑ (en) Jürgen Schmidhuber, « History of computer vision contests won by deep CNNs on GPU », sur IDSIA, 17 mars 2017 (consulté le 14 janvier 2019)
↑ ^{a et b} (en) Jürgen Schmidhuber, « Deep Learning », Scholarpedia, vol. 10, n^o 11,‎ 2015, p. 1527–54 (PMID 16764513, DOI 10.1162/neco.2006.18.7.1527, S2CID 2309950, CiteSeer^x 10.1.1.76.1541, lire en ligne)
↑ Dan Cireșan, Ueli Meier et Jürgen Schmidhuber, 2012 IEEE Conference on Computer Vision and Pattern Recognition, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), juin 2012, 3642–3649 p. (ISBN 978-1-4673-1226-4, OCLC 812295155, DOI 10.1109/CVPR.2012.6248110, arXiv 1202.2745, S2CID 2161592, CiteSeer^x 10.1.1.300.3283), « Multi-column deep neural networks for image classification »
↑ (en) « Backpropagation Applied to Handwritten Zip Code Recognition », Neural Computation, MIT Press - Journals, vol. 1, n^o 4,‎ 1989, p. 541–551 (ISSN 0899-7667, OCLC 364746139, DOI 10.1162/neco.1989.1.4.541, lire en ligne)
↑ (en) Yann Le Cun, Léon Bottou, Yoshua Bengio et Patrick Haffner, « Gradient-based learning applied to document recognition », Proceedings of the IEEE, vol. 86, n^o 11,‎ 1998, p. 2278–2324 (DOI 10.1109/5.726791, S2CID 14542261, CiteSeer^x 10.1.1.32.9552, lire en ligne, consulté le 7 octobre 2016)
↑ (en) Kunihiko Fukushima, « Neocognitron », Scholarpedia, vol. 2, n^o 1,‎ 2007, p. 1717 (DOI 10.4249/scholarpedia.1717, Bibcode 2007SchpJ...2.1717F)
↑ (en) Kunihiko Fukushima, « Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position », Biological Cybernetics, vol. 36, n^o 4,‎ 1980, p. 193–202 (PMID 7370364, DOI 10.1007/BF00344251, S2CID 206775608, lire en ligne, consulté le 16 novembre 2013)
↑ (en) J. J. Weng, N. Ahuja et T. S. Huang, « Learning recognition and segmentation of 3-D objects from 2-D images », Proc. 4th International Conf. Computer Vision,‎ 1993, p. 121–128
↑ Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 770–778 p. (ISBN 978-1-4673-8851-1, DOI 10.1109/CVPR.2016.90, arXiv 1512.03385, S2CID 206594692), « Deep Residual Learning for Image Recognition »
↑ (en) Adit Deshpande, « The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3) », adeshpande3.github.io (consulté le 4 décembre 2018)
↑ (en) « Imagenet classification with deep convolutional neural networks », sur Google Scholar

[:1-1] (en) Gershgorn, « The data that transformed AI research—and possibly the world », Quartz, 26 juillet 2017

[:0-2] {a b c et d} (en) Alex Krizhevsky, Ilya Sutskever et Geoffrey E. Hinton, « ImageNet classification with deep convolutional neural networks », Communications of the ACM, vol. 60, n^o 6,‎ 24 mai 2017, p. 84–90 (ISSN 0001-0782, DOI 10.1145/3065386, S2CID 195908774, lire en ligne)

[3] « ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012) », sur Image-net (consulté le 12 mars 2024)

[4] (en) Kumar Chellapilla, Sidd Puri et Patrice Simard, Tenth International Workshop on Frontiers in Handwriting Recognition, Suvisoft, 2006 (lire en ligne), « High Performance Convolutional Neural Networks for Document Processing »

[flexible-5] (en) Dan Cireșan, Ueli Meier, Jonathan Masci, Luca M. Gambardella et Jürgen Schmidhuber, « Flexible, High Performance Convolutional Neural Networks for Image Classification », Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two, vol. 2,‎ 2011, p. 1237–1242 (lire en ligne, consulté le 17 novembre 2013)

[6] (en) « IJCNN 2011 Competition result table », OFFICIAL IJCNN2011 COMPETITION, 2010 (consulté le 14 janvier 2019)

[7] (en) Jürgen Schmidhuber, « History of computer vision contests won by deep CNNs on GPU », sur IDSIA, 17 mars 2017 (consulté le 14 janvier 2019)

[schdeepscholar-8] {a et b} (en) Jürgen Schmidhuber, « Deep Learning », Scholarpedia, vol. 10, n^o 11,‎ 2015, p. 1527–54 (PMID 16764513, DOI 10.1162/neco.2006.18.7.1527, S2CID 2309950, CiteSeer^x 10.1.1.76.1541, lire en ligne)

[mcdns-9] Dan Cireșan, Ueli Meier et Jürgen Schmidhuber, 2012 IEEE Conference on Computer Vision and Pattern Recognition, New York, NY, Institute of Electrical and Electronics Engineers (IEEE), juin 2012, 3642–3649 p. (ISBN 978-1-4673-1226-4, OCLC 812295155, DOI 10.1109/CVPR.2012.6248110, arXiv 1202.2745, S2CID 2161592, CiteSeer^x 10.1.1.300.3283), « Multi-column deep neural networks for image classification »

[LeCun_Boser_Denker_Henderson_1989_pp._541–551-10] (en) « Backpropagation Applied to Handwritten Zip Code Recognition », Neural Computation, MIT Press - Journals, vol. 1, n^o 4,‎ 1989, p. 541–551 (ISSN 0899-7667, OCLC 364746139, DOI 10.1162/neco.1989.1.4.541, lire en ligne)

[lecun98-11] (en) Yann Le Cun, Léon Bottou, Yoshua Bengio et Patrick Haffner, « Gradient-based learning applied to document recognition », Proceedings of the IEEE, vol. 86, n^o 11,‎ 1998, p. 2278–2324 (DOI 10.1109/5.726791, S2CID 14542261, CiteSeer^x 10.1.1.32.9552, lire en ligne, consulté le 7 octobre 2016)

[fukuneoscholar-12] (en) Kunihiko Fukushima, « Neocognitron », Scholarpedia, vol. 2, n^o 1,‎ 2007, p. 1717 (DOI 10.4249/scholarpedia.1717, Bibcode 2007SchpJ...2.1717F)

[intro-13] (en) Kunihiko Fukushima, « Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position », Biological Cybernetics, vol. 36, n^o 4,‎ 1980, p. 193–202 (PMID 7370364, DOI 10.1007/BF00344251, S2CID 206775608, lire en ligne, consulté le 16 novembre 2013)

[weng1993-14] (en) J. J. Weng, N. Ahuja et T. S. Huang, « Learning recognition and segmentation of 3-D objects from 2-D images », Proc. 4th International Conf. Computer Vision,‎ 1993, p. 121–128

[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, 770–778 p. (ISBN 978-1-4673-8851-1, DOI 10.1109/CVPR.2016.90, arXiv 1512.03385, S2CID 206594692), « Deep Residual Learning for Image Recognition »

[16] (en) Adit Deshpande, « The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3) », adeshpande3.github.io (consulté le 4 décembre 2018)

[17] (en) « Imagenet classification with deep convolutional neural networks », sur Google Scholar

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

@@ Ligne 22 : / Ligne 22 : @@
 {{Traduction/Référence|lang1=en|art1=AlexNet|id1=1211899570}}
 {{Références}}
-{{Portail|informatique théorique|imagerie numérique}}
+{{Portail|imagerie numérique|intelligence artificielle}}
 [[Catégorie:Réseau de neurones artificiels]]