100% ont trouvé ce document utile (1 vote)
273 vues51 pages

Présentation PANDAS

Ce document présente Pandas, une bibliothèque Python pour l'analyse de données. Il décrit les structures de données principales comme les séries et les dataframes, et explique comment les créer, y accéder et les manipuler.

Transféré par

faizwissal2022
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
273 vues51 pages

Présentation PANDAS

Ce document présente Pandas, une bibliothèque Python pour l'analyse de données. Il décrit les structures de données principales comme les séries et les dataframes, et explique comment les créer, y accéder et les manipuler.

Transféré par

faizwissal2022
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 51

Année Universitaire 2023-2024

PANDAS
Module : Applications Intelligentes avec Python

BOUGHEDDA Zineb
Pr. Rachid AIT DAOUD
EL OUAFI Hiba
Année Universitaire 2023-2024

PLAN
01 Introduction à Pandas

02 Structures de données de base de Pandas

03 Fonctionnalités avancées de Pandas

04 Analyse et manipulation de données avec Pandas (les fnct prédifinies)

05 Conclusion

06 Exemple travaux Pratiques dans l’analyse de données


Introduction à Pandas

01 Qu'est-ce que Pandas ?

Pandas est une bibliothèque open-source conçue pour offrir des


structures de données flexibles, puissantes et faciles à manipuler,
ainsi que des outils d'analyse de données pour Python.

Elle est largement utilisée pour nettoyer, transformer, combiner et


analyser des données, ce qui en fait un outil essentiel pour les
professionnels de l'analyse de données.
Introduction à Pandas

01 Pourquoi utiliser Pandas ?

Open source & Manipulation des données


accessible à tous DataFrame
gratuite avec indexation intégrée

Diverse Format .csv, .txt, .xlsx, .sql, etc… Détaillée et facile à lire Documentation

Variété de Domaines universitaires , Hétérogènes ou


Flexibilité
domaines commerciaux... manquantes
Introduction à Pandas

01 Historique de Pandas

2008-2009 2010-2012 2015-présent

Développement initial Développement et Évolution continue


Wes McKinney adoption version 2 . 1 . 4

2009 2015 2010-présent

Première version publique Version 0.16.0 Adoption généralisée


version 0.1.0 visualisation des données
Introduction à Pandas

01 Pandas vs Numpy
Pandas Numpy

Travaille avec Données tabulaires Données numérique

Outils puissants Série, DataFrame, etc.. Tableaux

Performance 500K rangées ou plus 50K rangées ou moins

Objets DataFrame Tableau multidimensionnel

La mémoire Plus de mémoire Moins de mémoire


Introduction à Pandas

01 Installer la bibliothèque Pandas


Pour installer la bibliothèque Pandas, vous pouvez utiliser pip, le gestionnaire de paquets de Python.
Si vous ne l'avez pas déjà installé, vous pouvez le faire en suivant les instructions sur le site Web
officiel de Python.

Une fois l'installation terminée, vous pourrez importer Pandas dans vos scripts Python en utilisant la
commande suivante :
Structures de données de base de Pandas

02 Séries

Une série est un tableau étiqueté unidimensionnel pouvant contenir tout type
de données (entiers, chaînes de caractères, nombres à virgule flottante, objets
Python, etc.).

Pour être plus simple, une série n’est rien d’autre qu’une colonne dans une
feuille Excel.
Structures de données de base de Pandas

02 Séries
Les principales caractéristiques d'une série Pandas incluent :

Chaque élément d'une série est associé à un index qui peut être utilisé
Indexation
pour accéder à cette valeur.

Les séries Pandas peuvent contenir des données de différents types et peuvent
Flexibilité
être manipulées de manière flexible.

Les opérations sur les séries Pandas sont vectorisées, ce qui signifie qu'elles
Opérations vectorisées
peuvent être appliquées à l'ensemble de la série en une seule opération, ce
qui améliore les performances.
Structures de données de base de Pandas

02 Création de séries
Vous pouvez créer une série Pandas à partir de listes, de tableaux NumPy ou de dictionnaires en utilisant
la fonction pd.Series().
Structures de données de base de Pandas

02 Accès aux éléments de séries


Vous pouvez accéder aux éléments d'une série Pandas de la même manière que vous accédez aux éléments
d'une liste ou d'un dictionnaire en utilisant des index.
Structures de données de base de Pandas

02 Manipulation de séries
Remplacer une valeur
filtrage de la série
spécifique

Remplacer plusieurs
Ajout de valeurs à la série
valeurs

Tri de la série Suppression de doublons


Structures de données de base de Pandas

02 Manipulation de séries
Opérations arithmétiques Calcul de statistiques

Addition Division

Soustraction Multiplication
Structures de données de base de Pandas

02 DataFrame

La Dataframe est la structure de données la plus puissante de


Pandas qui organise les données en lignes et en colonnes, ce qui en
fait une structure de données bidimensionnelle.

Les dataframes peuvent être créés à partir d'une grande variété de


sources, notamment des fichiers CSV, des feuilles de calcul Excel, des
bases de données SQL, etc.
Structures de données de base de Pandas

02 DataFrame :
Un Dataframe peut être construit à partir de nombreux types différents :

listes, dicts, ou Series

Un numpy.array
bidimensionnelle

Un array strucuré

Une série

Ou encore un autre
Dataframe
Structures de données de base de Pandas

02 Création de Dataframes:
La méthode de base pour créer une Dataframe est la suivante :

on peut le créer à partir d'une array numpy :

NB : si on modifie l'array numpy, cela modifie aussi le dataframe.


Structures de données de base de Pandas

02 Création de Dataframes:
on peut aussi créer le dataframe avec un dictionnaire :

Pour définir un dataframe avec les colonnes dans l'ordre que l'on veut :
Structures de données de base de Pandas

02 Affichage de Dataframes
Pour l’affichage des valeurs:

- renvoie un dataframe avec les 3 premières lignes - pour les 3 dernières.


Structures de données de base de Pandas

02 Affichage de Dataframes:

-La méthode describe() est utilisée pour fournir toutes les informations essentielles sur la DataFrame.
Structures de données de base de Pandas
02 Affichage de Dataframes:
La méthode info() est utilisée aussi pour fournir des La méthode shape() retourne la dimension de
informations sur le DataFrame. DataFrame sous forme de tuple
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès par indexation :
Vous pouvez accéder aux éléments d'un DataFrame en utilisant les méthodes loc[] et iloc[]

loc[] est basé sur les étiquettes


d'index et de colonne
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès par indexation :
Vous pouvez accéder aux éléments d'un DataFrame en utilisant les méthodes loc[] et iloc[]

iloc[] est basé sur les position


numérique
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès par indexation :

Une autre différence importante entre loc et iloc réside dans la manière dont ils gèrent les
tranches (slices) :

loc (): Lorsque vous utilisez loc


iloc() : En revanche, lorsque vous
pour effectuer une tranche, il
utilisez iloc pour effectuer une tranche,
inclut la borne supérieure de la
il exclut la borne supérieure de la
tranche. Par exemple,
tranche. Par exemple, df.iloc[0:2, 0:2]
df.loc['x':'z', 'A':'B'] inclura les
inclura les lignes de 0 à 1 et les colonnes
lignes de 'x' à 'z' (inclus) ainsi
de 0 à 1, mais exclura la deuxième ligne
que les colonnes de 'A' à 'B' et la deuxième colonne.
(inclus).
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès aux lignes :
Vous pouvez accéder à une ou plusieurs lignes en utilisant des tranches ou des filtres conditionnels.

tranches ou filtres
conditionnels
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès aux colonnes :
Vous pouvez accéder à une colonne spécifique en utilisant son nom comme clé ou en utilisant la
notation de point.

df['Nom'] ou df.Nom.
Structures de données de base de Pandas
02 Manipulation de DataFrames
Pour Retourner une Series en utilisant un attribut de DataFrame.

La méthode drop() supprimes des colonnes depuis une DataFrame.

La méthode value_counts() est utilisée pour compter les répétition existant dans le
DataFrame(lignes ou colonnes).

La méthode sort_values() utilisé pour le tri de données par colonne


Structures de données de base de Pandas

02 Comparaison avec les structures de données Python natives


Structures de données natives de
Caractéristique Pandas
Python

Dimensions Séries (1D), DataFrames (2D) Listes (1D), Dictionnaires (1D)

Indexation basée sur des étiquettes (labels) basée sur des index numériques

Gestion des données manquantes Prise en charge native avec NaN Doit être géré manuellement

Performamce Optimisé pour le traitement des données Performances dépendantes de l'implémentation

Fonctionnalités avancées Regroupement, agrégation, fusion de données Opérations de base sur les collections

Syntaxe plus verbeuse pour les opérations


Facilité d'utilisation Facile à utiliser avec une syntaxe concise
similaires

Grande, mais moins axée sur la manipulation de


Taille de la communauté Grande et active
données
Fonctionnalités avancées de Pandas

03 Conversion d'un DataFrame Pandas en un tableau NumPy


Convertir DataFrame Pandas en tableau NumPy vous permet d'utiliser les fonctionnalités avancées de
NumPy pour manipuler et analyser vos données, tout en profitant des capacités de manipulation de
données riches et conviviales de Pandas.
Fonctionnalités avancées de Pandas

03 Indexation avancée
l'indexation avancée fait référence à la capacité d'accéder aux données d'un DataFrame de manière plus
sophistiquée que l'indexation standard par des entiers. Cette fonctionnalité permet d'accéder aux données en
utilisant des étiquettes d'index pour les lignes et les noms de colonnes pour les colonnes, ainsi que des positions
numériques.

Indexation avancée
Indexation par étiquette Indexation par position
L'indexation par étiquette permet L'indexation par position
d'accéder aux données d'un permet d'accéder aux
DataFrame en utilisant des données d'un DataFrame en
étiquettes d'index pour les lignes utilisant des positions
et des noms de colonnes pour les numériques pour les lignes et
colonnes. at[] les colonnes. iat[]
Fonctionnalités avancées de Pandas

03 Groupement et agrégation de données:

Cette fonctionnalité permet de regrouper les données en fonction de


certaines caractéristiques et d'effectuer des opérations d'agrégation sur ces
groupes. La méthode groupby() est utilisée pour cette opération. Une fois
les données regroupées, des fonctions d'agrégation telles que sum(),
mean(), count(), etc.
Fonctionnalités avancées de Pandas

03 Fusion et jointure de DataFrames


Cette fonctionnalité concerne la combinaison de plusieurs DataFrames en
fonction de certaines clés ou de certains critères. Les méthodes suivantes
sont utilisées :

merge() : Fusionne deux DataFrames en fonction des


colonnes communes ou de clés spécifiées.

concat() : Concatène plusieurs DataFrames le long


d'un axe.

join() : Effectue une jointure entre deux


DataFrames en utilisant les index.
Analyse et manipulation de données avec Pandas

04 Chargement de données
Pour charger des données dans une structure de données Pandas (généralement un DataFrame), vous
pouvez utiliser différentes fonctions selon le type de données que vous avez et leur format. Voici
quelques exemples courants :

.csv

.xlsx

.json
Analyse et manipulation de données avec Pandas

04 Exporter des données


Exporter des données signifie simplement enregistrer ou sauvegarder les données stockées dans un
format particulier, souvent dans un fichier ou une base de données, afin de pouvoir les utiliser
ultérieurement ou les partager avec d'autres personnes.

.csv

.xlsx

.json
Analyse et manipulation de données avec Pandas

04 Nettoyage des données

Cellules vides
supprimer les lignes insérer une nouvelle
valeur à la place.

N.B :
Par défaut, la méthode dropna() renvoie un nouveau DataFrame et ne modifiera pas l'original.
Analyse et manipulation de données avec Pandas

04 Nettoyage des données


Données de mauvais format

La présence de données au mauvais format peut compliquer voire rendre impossible l'analyse de
données.
Pour résoudre ce problème, vous avez deux options : supprimer les lignes ou convertir toutes les
cellules des colonnes dans le même format.

Exemple
Valeurs numériques avec des
Dates au mauvais format caractères non numériques
Analyse et manipulation de données avec Pandas

04 Nettoyage des données


Doublons

Pour détecter les doublons, nous pouvons utiliser la méthode duplicated(). Cette méthode renvoie
une valeur booléenne pour chaque ligne, indiquant si elle est identique à une ligne précédente
dans le DataFrame.

Exemple

Renvoie True pour chaque ligne qui est un Supprimez tous les
doublon, sinon False doublons
Analyse et manipulation de données avec Pandas

04 Nettoyage des données


Données eronnées

Les "données erronées" ne se limitent pas aux "cellules vides" ou à un "mauvais format". Elles
peuvent également être incorrectes, telles que l'enregistrement de "1000" au lieu de "10.00"
Une façon de corriger les valeurs erronées consiste à les remplacer par autre chose.
Pour les petits ensembles de données, vous pourrez peut-être remplacer les mauvaises données
une par une, mais pas pour les grands ensembles de données.
Pour remplacer les données erronées par des ensembles de données plus volumineux, vous pouvez
créer des règles, par exemple définir des limites pour les valeurs légales et remplacer toutes les
valeurs qui sont en dehors des limites.
Exemple

limiter les valeurs de la colonne Supprimez les lignes où "Column"


"Column" à un maximum de 1000 est supérieur à 1000 :
Analyse et manipulation de données avec Pandas

04 Visualisation de données
Matplotlib
Matplotlib est principalement une bibliothèque conçue pour tracer des fonctions et afficher leurs
courbes sous forme de graphiques. Nous pouvons représenter les formes des fonctions
trigonométriques telles que le sinus et le cosinus en définissant l'intervalle sur lequel nous souhaitons
observer ces fonctions.
Installation:

Importation:
Analyse et manipulation de données avec Pandas

04 Visualisation de données
Matplotlib

Tracer la courbe x en fonction de y Tracer une autre courbe sur le même graphique

Ajouter un titre au graphique


Afficher la courbe

Ajouter un titre pour chaque axe


Choisir l’intervalle de chaque axe

Ajouter du text à la position (x,y)


Analyse et manipulation de données avec Pandas

04 Visualisation de données
Histogramme
Analyse et manipulation de données avec Pandas

04 Visualisation de données
Diagramme en
barres
Analyse et manipulation de données avec Pandas

04 Visualisation de données
Nuage de
points
Analyse et manipulation de données avec Pandas

04 Visualisation de données
Boîte à
moustaches
Analyse et manipulation de données avec Pandas

04 Visualisation de données

pie plot
Analyse et manipulation de données avec Pandas

04 Transformation des données


Appliquer une fonction à une Créer une nouvelle colonne basée sur une
colonne ou à toutes les colonnes opération sur des colonnes existantes

Remplacer les valeurs dans


Renommer des colonnes
une colonne

Convertir des types de données


Analyse et manipulation de données avec Pandas

04 Transformation des données


pivot_table()

La méthode pivot_table() en Pandas permet de créer une table de pivot à partir d'un DataFrame.
Cette fonctionnalité est utile pour réorganiser et résumer les données d'une manière qui permet
une analyse plus approfondie

Paramètres principaux :
values (facultatif) : La colonne ou les colonnes à agréger.
index (facultatif) : Les colonnes à utiliser comme index de la table de pivot.
columns (facultatif) : Les colonnes à utiliser comme colonnes de la table de pivot.
aggfunc (facultatif) : La fonction d'agrégation à appliquer aux valeurs regroupées.
fill_value (facultatif) : La valeur à utiliser pour remplir les valeurs manquantes.
margins (facultatif) : Ajoute les marges (totales) pour les colonnes et les lignes.
dropna (facultatif) : Exclut les colonnes dont toutes les valeurs sont NaN.
observed (facultatif) : Contrôle l'inclusion des valeurs observées dans les groupes.
Analyse et manipulation de données avec Pandas

04 Transformation des données


Sans pivot table :

Avec pivot table :


Analyse et manipulation de données avec Pandas

04 Calculs sur les données


Calculer la somme, la moyenne, le Calculer le nombre de valeurs
max, le mini, etc. d'une colonne uniques dans une colonne

Calculer des statistiques descriptives Calculer la fréquence des


pour toutes les colonnes numériques valeurs dans une colonne

Calculer une corrélation entre Appliquer des fonctions


deux colonnes mathématiques sur une colonne
Conclusion

05 Importance de Pandas dans l'analyse de données


01 Gestion des données tabulaires

02 Chargement et manipulation des données

03 Analyse exploratoire des données (EDA)

04 Intégration avec d'autres bibliothèques

05 Prétraitement des données pour l'apprentissage automatique

06 Performances élevées

07 Documentation et communauté active


Année Universitaire 2023-2024

06 Exemple travaux Pratiques dans l’analyse


de données
Année Universitaire 2023-2024

Merci pour votre attention

Vous aimerez peut-être aussi