Présentation PANDAS
Présentation PANDAS
PANDAS
Module : Applications Intelligentes avec Python
BOUGHEDDA Zineb
Pr. Rachid AIT DAOUD
EL OUAFI Hiba
Année Universitaire 2023-2024
PLAN
01 Introduction à Pandas
05 Conclusion
Diverse Format .csv, .txt, .xlsx, .sql, etc… Détaillée et facile à lire Documentation
01 Historique de Pandas
01 Pandas vs Numpy
Pandas Numpy
Une fois l'installation terminée, vous pourrez importer Pandas dans vos scripts Python en utilisant la
commande suivante :
Structures de données de base de Pandas
02 Séries
Une série est un tableau étiqueté unidimensionnel pouvant contenir tout type
de données (entiers, chaînes de caractères, nombres à virgule flottante, objets
Python, etc.).
Pour être plus simple, une série n’est rien d’autre qu’une colonne dans une
feuille Excel.
Structures de données de base de Pandas
02 Séries
Les principales caractéristiques d'une série Pandas incluent :
Chaque élément d'une série est associé à un index qui peut être utilisé
Indexation
pour accéder à cette valeur.
Les séries Pandas peuvent contenir des données de différents types et peuvent
Flexibilité
être manipulées de manière flexible.
Les opérations sur les séries Pandas sont vectorisées, ce qui signifie qu'elles
Opérations vectorisées
peuvent être appliquées à l'ensemble de la série en une seule opération, ce
qui améliore les performances.
Structures de données de base de Pandas
02 Création de séries
Vous pouvez créer une série Pandas à partir de listes, de tableaux NumPy ou de dictionnaires en utilisant
la fonction pd.Series().
Structures de données de base de Pandas
02 Manipulation de séries
Remplacer une valeur
filtrage de la série
spécifique
Remplacer plusieurs
Ajout de valeurs à la série
valeurs
02 Manipulation de séries
Opérations arithmétiques Calcul de statistiques
Addition Division
Soustraction Multiplication
Structures de données de base de Pandas
02 DataFrame
02 DataFrame :
Un Dataframe peut être construit à partir de nombreux types différents :
Un numpy.array
bidimensionnelle
Un array strucuré
Une série
Ou encore un autre
Dataframe
Structures de données de base de Pandas
02 Création de Dataframes:
La méthode de base pour créer une Dataframe est la suivante :
02 Création de Dataframes:
on peut aussi créer le dataframe avec un dictionnaire :
Pour définir un dataframe avec les colonnes dans l'ordre que l'on veut :
Structures de données de base de Pandas
02 Affichage de Dataframes
Pour l’affichage des valeurs:
02 Affichage de Dataframes:
-La méthode describe() est utilisée pour fournir toutes les informations essentielles sur la DataFrame.
Structures de données de base de Pandas
02 Affichage de Dataframes:
La méthode info() est utilisée aussi pour fournir des La méthode shape() retourne la dimension de
informations sur le DataFrame. DataFrame sous forme de tuple
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès par indexation :
Vous pouvez accéder aux éléments d'un DataFrame en utilisant les méthodes loc[] et iloc[]
Une autre différence importante entre loc et iloc réside dans la manière dont ils gèrent les
tranches (slices) :
tranches ou filtres
conditionnels
Structures de données de base de Pandas
02 Accès aux éléments de Dataframes
Accès aux colonnes :
Vous pouvez accéder à une colonne spécifique en utilisant son nom comme clé ou en utilisant la
notation de point.
df['Nom'] ou df.Nom.
Structures de données de base de Pandas
02 Manipulation de DataFrames
Pour Retourner une Series en utilisant un attribut de DataFrame.
La méthode value_counts() est utilisée pour compter les répétition existant dans le
DataFrame(lignes ou colonnes).
Indexation basée sur des étiquettes (labels) basée sur des index numériques
Gestion des données manquantes Prise en charge native avec NaN Doit être géré manuellement
Fonctionnalités avancées Regroupement, agrégation, fusion de données Opérations de base sur les collections
03 Indexation avancée
l'indexation avancée fait référence à la capacité d'accéder aux données d'un DataFrame de manière plus
sophistiquée que l'indexation standard par des entiers. Cette fonctionnalité permet d'accéder aux données en
utilisant des étiquettes d'index pour les lignes et les noms de colonnes pour les colonnes, ainsi que des positions
numériques.
Indexation avancée
Indexation par étiquette Indexation par position
L'indexation par étiquette permet L'indexation par position
d'accéder aux données d'un permet d'accéder aux
DataFrame en utilisant des données d'un DataFrame en
étiquettes d'index pour les lignes utilisant des positions
et des noms de colonnes pour les numériques pour les lignes et
colonnes. at[] les colonnes. iat[]
Fonctionnalités avancées de Pandas
04 Chargement de données
Pour charger des données dans une structure de données Pandas (généralement un DataFrame), vous
pouvez utiliser différentes fonctions selon le type de données que vous avez et leur format. Voici
quelques exemples courants :
.csv
.xlsx
.json
Analyse et manipulation de données avec Pandas
.csv
.xlsx
.json
Analyse et manipulation de données avec Pandas
Cellules vides
supprimer les lignes insérer une nouvelle
valeur à la place.
N.B :
Par défaut, la méthode dropna() renvoie un nouveau DataFrame et ne modifiera pas l'original.
Analyse et manipulation de données avec Pandas
La présence de données au mauvais format peut compliquer voire rendre impossible l'analyse de
données.
Pour résoudre ce problème, vous avez deux options : supprimer les lignes ou convertir toutes les
cellules des colonnes dans le même format.
Exemple
Valeurs numériques avec des
Dates au mauvais format caractères non numériques
Analyse et manipulation de données avec Pandas
Pour détecter les doublons, nous pouvons utiliser la méthode duplicated(). Cette méthode renvoie
une valeur booléenne pour chaque ligne, indiquant si elle est identique à une ligne précédente
dans le DataFrame.
Exemple
Renvoie True pour chaque ligne qui est un Supprimez tous les
doublon, sinon False doublons
Analyse et manipulation de données avec Pandas
Les "données erronées" ne se limitent pas aux "cellules vides" ou à un "mauvais format". Elles
peuvent également être incorrectes, telles que l'enregistrement de "1000" au lieu de "10.00"
Une façon de corriger les valeurs erronées consiste à les remplacer par autre chose.
Pour les petits ensembles de données, vous pourrez peut-être remplacer les mauvaises données
une par une, mais pas pour les grands ensembles de données.
Pour remplacer les données erronées par des ensembles de données plus volumineux, vous pouvez
créer des règles, par exemple définir des limites pour les valeurs légales et remplacer toutes les
valeurs qui sont en dehors des limites.
Exemple
04 Visualisation de données
Matplotlib
Matplotlib est principalement une bibliothèque conçue pour tracer des fonctions et afficher leurs
courbes sous forme de graphiques. Nous pouvons représenter les formes des fonctions
trigonométriques telles que le sinus et le cosinus en définissant l'intervalle sur lequel nous souhaitons
observer ces fonctions.
Installation:
Importation:
Analyse et manipulation de données avec Pandas
04 Visualisation de données
Matplotlib
Tracer la courbe x en fonction de y Tracer une autre courbe sur le même graphique
04 Visualisation de données
Histogramme
Analyse et manipulation de données avec Pandas
04 Visualisation de données
Diagramme en
barres
Analyse et manipulation de données avec Pandas
04 Visualisation de données
Nuage de
points
Analyse et manipulation de données avec Pandas
04 Visualisation de données
Boîte à
moustaches
Analyse et manipulation de données avec Pandas
04 Visualisation de données
pie plot
Analyse et manipulation de données avec Pandas
La méthode pivot_table() en Pandas permet de créer une table de pivot à partir d'un DataFrame.
Cette fonctionnalité est utile pour réorganiser et résumer les données d'une manière qui permet
une analyse plus approfondie
Paramètres principaux :
values (facultatif) : La colonne ou les colonnes à agréger.
index (facultatif) : Les colonnes à utiliser comme index de la table de pivot.
columns (facultatif) : Les colonnes à utiliser comme colonnes de la table de pivot.
aggfunc (facultatif) : La fonction d'agrégation à appliquer aux valeurs regroupées.
fill_value (facultatif) : La valeur à utiliser pour remplir les valeurs manquantes.
margins (facultatif) : Ajoute les marges (totales) pour les colonnes et les lignes.
dropna (facultatif) : Exclut les colonnes dont toutes les valeurs sont NaN.
observed (facultatif) : Contrôle l'inclusion des valeurs observées dans les groupes.
Analyse et manipulation de données avec Pandas
06 Performances élevées