0% ont trouvé ce document utile (0 vote)
7 vues10 pages

Chap1 Intropython - DS - 25

Ce chapitre introduit Python comme un langage de choix pour la data science, en soulignant ses caractéristiques telles que sa syntaxe claire, sa portabilité et sa forte communauté. Il présente également des bibliothèques essentielles comme NumPy, pandas, matplotlib et scikit-learn, qui facilitent le calcul numérique, la manipulation de données et l'apprentissage automatique. Enfin, il aborde les étapes nécessaires pour installer Python et les outils associés pour commencer à travailler en data science.

Transféré par

Seydina Aioune Mboup
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
7 vues10 pages

Chap1 Intropython - DS - 25

Ce chapitre introduit Python comme un langage de choix pour la data science, en soulignant ses caractéristiques telles que sa syntaxe claire, sa portabilité et sa forte communauté. Il présente également des bibliothèques essentielles comme NumPy, pandas, matplotlib et scikit-learn, qui facilitent le calcul numérique, la manipulation de données et l'apprentissage automatique. Enfin, il aborde les étapes nécessaires pour installer Python et les outils associés pour commencer à travailler en data science.

Transféré par

Seydina Aioune Mboup
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 10

Chapitre 1 : Introduction à

Python pour la Data Science

Dr N. BAME
Introduction
• Plusieurs langages de programmation
• Le choix d’un langage pour la realisation d’un projet depend des besoins et des
possibilités disponibles.

• Différentes raisons pour lesquelles le langage Python est considéré des meilleurs
langages à utiliser pour la data science.
Présentation de python
• Python est un langage :
• créé en 1989 par Guido van Rossum
• Première version en 1991
• conçu pour produire du code de qualité :
• syntaxe claire, cohérente et concise,
• indentation significative
• portable,
• facile à intégrer :
• Un programme écrit en Python s’intègre très facilement avec d’autres composants logiciels. Il est possible
par exemple d’utiliser directement des bibliothèques externes ou encore d’intégrer du code C ou C++
• de haut niveau,
• orienté objet
• Tous les mécanismes objet essentiels sont implémentés et toutes les données manipulées sont des instances
de classes
• et totalement libre avec une importante communauté de développeurs;
• hautement productif ;
• La conception d’applications en Python est très rapide car certains aspects de programmation sont gérés
automatiquement, comme la gestion des ressources mémoire et le typage des données,…
• dynamique.
• dans la plupart des implémentations, le code source n’est pas compilé contrairement à des langages
comme C ou Pascal, mais exécuté à la volée. On parle alors de langage interprété.
Quelques usages de Python
• Administration système :
• pour automatiser certaines tâches;
• conception de scripts système.
• Des API simples et efficaces
• manipuler des fichiers et des dossiers ;
• manipuler des programmes ;
• envoyer et recevoir des e-mails ;
• échanger des informations avec d’autres systèmes.
• Prototypage rapide d’applications ;
• Statistiques, Machine Learning, Deep Learning, calcul scientifique :
• Modélisation, data science,…
• numpy, sklearn, pandas, scipy,…
• Applications de gestion ;
• Applications web;
• django, Flask …
Pourquoi utiliser Python pour la data science ?
• Le langage de programmation Python a un fort attrait.
• Un des langages de programmation interprétés les plus populaires, avec Perl, Ruby et
d'autres.
• Python et Ruby sont devenus particulièrement populaires pour la création de sites Web à l'aide de leurs
nombreux frameworks Web, tels que Rails (Ruby) et django (Python).
• Python a développé une vaste et active communauté de calcul scientifique et d'analyse de
données.
• Python est passé d'un langage informatique scientifique de pointe à l'un des
langages les plus importants pour la data science, l'apprentissage automatique
et le développement de logiciels généraux dans les universités et l'industrie.
• Pour l'analyse des données et le calcul interactif et la visualisation des données, Python
établit inévitablement des comparaisons avec d'autres langages de programmation open
source et commerciaux et des outils largement utilisés, tels que R, MATLAB, SAS, Stata et
autres.
• L’amélioration de la prise en charge par Python des bibliothèques (telles que pandas et
scikit-learn) en a fait un choix populaire pour les tâches d’analyse de données avancées.
Pourquoi utiliser Python pour la data science ?
Modules python essentiels
numPy
• numPy a longtemps été une pierre angulaire du calcul numérique en Python.
• Il fournit les structures de données, les algorithmes et la collection de bibliothèques nécessaires à la
plupart des applications scientifiques impliquant des données numériques en Python.
• NumPy contient, entre autres:
• Un objet tableau multidimensionnel rapide et efficace ndarray
• Fonctions pour effectuer des calculs élément par élément avec des tableaux ou des opérations mathématiques
entre des tableaux
• Outils pour lire et écrire sur disque des ensembles de données basés sur des tableaux
• Opérations d'algèbre linéaire, transformée de Fourier et génération de nombres aléatoires
• Une API C mature pour permettre aux extensions Python et au code C ou C ++ natif d'accéder aux structures de
données et aux installations de calcul de NumPy
• Au-delà des capacités de traitement de tableau rapide que NumPy ajoute à Python, l'une de ses
principales utilisations dans l'analyse de données est en tant que conteneur pour les données à
transmettre entre les algorithmes et les bibliothèques.
• Pour les données numériques, les tableaux NumPy sont plus efficaces pour stocker et manipuler des
données que les autres structures de données Python intégrées.
• Ainsi, de nombreux outils de calcul numérique pour Python supposent des tableaux NumPy comme
structure de données principale ou ciblent une interopérabilité transparente avec NumPy.
Pourquoi utiliser Python pour la data science ?
pandas
• pandas fournit des structures de données et des fonctions de haut niveau conçues pour
rendre le travail avec des données structurées ou tabulaires rapide, facile et expressif.
• Depuis son émergence, il a permis à Python d'être un environnement d'analyse de données
puissant et productif.
• Les principaux objets des pandas sont le DataFrame, une structure de données tabulaire
orientée colonne avec des étiquettes de ligne et de colonne, et le Series, un objet de
tableau étiqueté unidimensionnel.
• pandas associe les idées de calcul par matrice hautes performances de NumPy aux
capacités flexibles de manipulation des données des feuilles de calcul et des bases de
données relationnelles (telles que SQL).
• Il fournit une fonctionnalité d'indexation sophistiquée pour faciliter le remodelage,
effectuer des agrégations et sélectionner des sous-ensembles de données.
• Étant donné que la manipulation, la préparation et le nettoyage des données sont une
compétence si importante dans l'analyse des données, les pandas sont l'un des principaux
objectifs de ce cours.
Pourquoi utiliser Python pour la data science ?
matplotlib
• matplotlib est la bibliothèque Python la plus populaire pour la production de graphiques et
d'autres visualisations de données bidimensionnelles.
• Il est conçu pour créer des graphiques adaptés à la diffusion.
• Bien qu'il existe d'autres bibliothèques de visualisation disponibles pour les programmeurs
Python, matplotlib est la plus largement utilisée et, en tant que telle, s'intègre
généralement bien avec le reste de l'écosystème.
Pourquoi utiliser Python pour la data science ?
scikit-learn
• Depuis le lancement du projet en 2010, scikit-learn est devenu la première boîte à outils
d'apprentissage automatique à usage général pour les programmeurs Python.
• Il comprend des sous-modules pour des modèles tels que:
• Classification: SVM, KNN, Random Forest, régression logistique, etc.
• Régression: Lasso, régression des crêtes, etc.
• Clustering: k-means, clustering spectral, etc.
• Réduction de dimensionnalité: PCA, sélection de caractéristiques, factorisation matricielle, etc.
• Sélection du modèle: recherche de grille, validation croisée, métriques
• Prétraitement: extraction de caractéristiques, normalisation
• Avec les pandas et les statsmodels, scikit-learn a été essentiel pour permettre à Python
d'être un langage de programmation productif pour la data science.
Mise en route Python
• Installation de python 3.1x

• Installation de jupyter notebook


python -m pip install --upgrade pip
python -m pip install jupyter
• Ou anaconda

• Ou

• PyCharm Commuity Edition

• Ou
• Avec vscode

Vous aimerez peut-être aussi