Python 3

Încărcat de

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PPTX, PDF, TXT sau citiți online pe Scribd

0% au considerat acest document util (0 voturi)

33 vizualizări19 pagini

Python 3

Încărcat de

Ionut Ilie

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PPTX, PDF, TXT sau citiți online pe Scribd

Sunteți pe pagina 1/ 19

PYTHON

CURS 3
GRUPAREA SI AGREGAREA DATELOR (I)

Prelucrări statistice simple

import pandas as pd
df = pd.read_csv('clienti_leasing.csv')
pd.set_option("display.max_columns",30)
print(df.head(5))
print('Numarul de clienti')
print(df['ID_CLIENT'].count())
print('Venit maxim')
print(df['VENIT_PER_YEAR'].max())
print('Suma venitului maxim pentru persoanele de sex masculin')
print(df['VENIT_PER_YEAR'][df['SEX'] == 'm'].sum())
print('Numarul valorilor distincte din coloana starea civila')
print(df['MARITAL_STATUS'].value_counts())
print('Numarul total de valori distincte din coloana starea civila')
print(df['MARITAL_STATUS'].nunique())
GRUPAREA SI AGREGAREA DATELOR (II)
Statistici descriptive
count 18239
unique 126
top Muncitor necalificat
import pandas as pd
freq 5086
df = pd.read_csv('clienti_leasing.csv')
Name: JOB, dtype: object
pd.set_option("display.max_columns",30)
count 18239.000000
print('Statistici descriptive')
mean 8344.006629 print(df['JOB'].describe())
std 11234.428174 print(df['VENIT_PER_YEAR'].describe())
min 0.070000
25% 2500.000000
50% 5000.000000
75% 10000.000000
max 408560.000000
Name: VENIT_PER_YEAR, dtype:
float64
GRUPAREA SI AGREGAREA DATELOR (III)
Funcțiile max(), min(), mean(), first(), last() pot fi utilizate cu GroupBy
import pandas as pd
df = pd.read_csv('clienti_leasing.csv')
pd.set_option("display.max_columns",30)
df['DATA'] = pd.to_datetime(df['DATA'])
df['MONTH'] = pd.DatetimeIndex(df['DATA']).month
print('Prima inregistrare din coloana CURRENCY pe valori distincte')
print(df.groupby('CURRENCY').first())
print('Venitul anual insumat pentru fiecare luna')
print(df.groupby(pd.DatetimeIndex(df['DATA']).month)
['VENIT_PER_YEAR'].sum())
print('Valoarea insumata a depozitului pentru ingineri pe sexe')
print(df[df['JOB'] == 'Inginer'].groupby('SEX')['VENIT_PER_YEAR'].sum())
GRUPAREA Grupări complexe
SI import pandas as pd
df = pd.read_csv('clienti_daune.csv')
AGREGAREA pd.options.display.max_rows = 999
DATELOR print('Numarul de marci pentru fiecare
(IV) tara producatoare’)

print(df.groupby(['TARAPRODUCATOR',
'MARCA'])['MARCA'].count())
GRUPAREA SI AGREGAREA DATELOR (V)

Gruparea și agregarea datelor

import pandas as pd
df = pd.read_csv('clienti_daune.csv')
pd.options.display.max_rows = 999
print(df.groupby(['TARAPRODUCATOR','MARCA']).agg({'VALOARE_DAUNA':sum,
'ID_CLIENT': "count", 'MODEL': 'first'}))
df1 = df.groupby(['TARAPRODUCATOR','MARCA']).agg({'VALOARE_DAUNA':sum,
'ID_CLIENT': "count", 'MODEL': 'first'})
df1.to_csv('agregare.csv')
GRUPAREA SI AGREGAREA DATELOR (VI)
Aplicarea unor funcții multiple unei singure coloane din grup
import pandas as pd
df = pd.read_csv('clienti_daune.csv')
df['DATA_CERERE'] = pd.to_datetime(df['DATA_CERERE'])
print(df.groupby(['TARAPRODUCATOR', 'MARCA']).agg({'PRET_MANOPERA': [min,
max, sum], 'MODEL': "count", 'DATA_CERERE': [min, 'first', 'nunique']}))
GRUPAREA SI AGREGAREA DATELOR (VII)
import pandas as pd
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
df = pd.read_csv('clienti_daune.csv')
print('Grupare dupa MARCA, pentru fiecare marca afisam nr de modele')
print(df.groupby("MARCA")['MODEL'].count())
print("========================================")
print('Grupare dupa MARCA, pentru fiecare marca afisam nr de modele unice')
print(df.groupby("MARCA")['MODEL'].nunique())
print("========================================")
print('Afisam primele 5 marci cu cele mai multe modele')
print(df.groupby(['MARCA'])['MODEL'].count().nlargest(5))
print("========================================")
print('Grupare dupa MARCA, pentru fiecare marca afisam toate modelele')
print(df.groupby(["MARCA"])['MODEL'].apply(lambda x: ','.join(x)))
print("========================================")
CONCAT, MERGE (I)
• Prelucrarea seturilor de date cu concat, merge / join dataframes
Concat – lipire seturi cu continut similar pe verticala sau pe orizontala
pd.concat([df_a, df_b])

pd.concat([df_a, df_b], axis=1)

CONCAT, MERGE (II)
import pandas as pd
pd.options.display.max_columns = 10
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA', 'VALOARE_DAUNA']],
on='ID_CLIENT')
print(result)
print('Structura fisier clienti_leasing.csv', df.shape)
print('Structura fisier clienti_daune.csv', df1.shape)
print(df['ID_CLIENT'].isin(df1['ID_CLIENT']).value_counts())
CONCAT, MERGE (IV)
Data analytics pe clienti si daune
import pandas as pd
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA', 'SEX','VENIT_ANUAL',
'VARSTA']],
df1[['ID_CLIENT', 'VIN','MARCA', 'PRET_MANOPERA', 'VALOARE_DAUNA']],
on='ID_CLIENT')
print('Grupare dupa Id_client si Marca, calcul min, max, suma pentru Valoare_dauna si
numar daune (VIN)')
print(result.groupby(['ID_CLIENT', 'MARCA']).agg({'VALOARE_DAUNA': [min, max, sum],
'VIN': "count"}))
print('Afisam primele 5 marci cu cele mai multe daune')
print(result.groupby(['MARCA'])['VALOARE_DAUNA'].count().nlargest(5))
print(result.groupby(['MARCA'])['VALOARE_DAUNA'].size().nlargest(5))
print('Afisam primii 15 clienti cu cele mai multe daune')
print(result.groupby(['ID_CLIENT'])['VIN'].count().nlargest(15))
print('Afisam primii 15 clienti cu cea mai mare valoare totala a daunelor')
print(result.groupby(['ID_CLIENT'])['VALOARE_DAUNA'].sum().nlargest(15))
CONCAT, MERGE (V)
Left merge sau left join
import pandas as pd
pd.options.display.max_columns = 10
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA',
'VALOARE_DAUNA']],
on='ID_CLIENT',
how='left')
print(result)
print(result.shape)
print('Structura fisier clienti_leasing.csv', df.shape)
print('Structura fisier clienti_daune.csv', df1.shape)
print(df['ID_CLIENT'].isin(df1['ID_CLIENT']).value_counts())
CONCAT, MERGE (VI)
Right merge sau right join
import pandas as pd
pd.options.display.max_columns = 10
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA',
'VALOARE_DAUNA']],
on='ID_CLIENT',
how='right')
print(result)
print(result.shape)
print('Structura fisier clienti_leasing.csv', df.shape)
print('Structura fisier clienti_daune.csv', df1.shape)
print(df['ID_CLIENT'].isin(df1['ID_CLIENT']).value_counts())
CONCAT, MERGE (VII)
Full outer merge sau full outer join
import pandas as pd
pd.options.display.max_columns = 10
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA',
'VALOARE_DAUNA']],
on='ID_CLIENT',
how='outer')
print(result)
print(result.shape)
print('Structura fisier clienti_leasing.csv', df.shape)
print('Structura fisier clienti_daune.csv', df1.shape)
print(df['ID_CLIENT'].isin(df1['ID_CLIENT']).value_counts())
CONCAT, MERGE (VIII)
Full outer merge sau full outer join cu indicația _merge
import pandas as pd
pd.options.display.max_columns = 10
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA',
'VALOARE_DAUNA']],
on='ID_CLIENT',
how='outer',
indicator=True)
print(result)
print(result.shape)
print('Structura fisier clienti_leasing.csv', df.shape)
print('Structura fisier clienti_daune.csv', df1.shape)
print(df['ID_CLIENT'].isin(df1['ID_CLIENT']).value_counts())

CONCAT, MERGE (IX)
Merge utilizând trei seturi de date
import pandas as pd
df = pd.read_csv('clienti_leasing.csv')
df1 = pd.read_csv('clienti_daune.csv')
df2 = pd.read_csv('cars.csv')
result = pd.merge(df[['ID_CLIENT','NUME_CLIENT', 'PROFESIA',
'SEX','VENIT_ANUAL', 'VARSTA']],
df1[['ID_CLIENT', 'MARCA', 'PRET_MANOPERA',
'VALOARE_DAUNA']],
on='ID_CLIENT',
how='outer')
df2.rename(columns={"Motor": "CAPACITATE_MOTOR"}, inplace=True)
result = pd.merge(result[['ID_CLIENT','NUME_CLIENT', 'MARCA']],
df2,
left_on='MARCA',
right_on='MARCA_CARS',
how='left')
print(result)
print(result.shape)
MATPLOTLIB (I)
Grafic cu gruparea și sortarea datelor cu matplotlib.pyplot
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('clienti_leasing.csv')
plot_data=df[df['SEX']=='m']
plot_data=plot_data.groupby('PROFESIA')['VENIT_ANUAL'].sum()
plot_data.sort_values().plot(kind='bar', color = 'lightpink')
plt.show()
MATPLOTLIB (II)
Reprezentare grafică cu bare cu matplotlib.pyplot
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import cm
pd.set_option("display.max_columns",10)
df = pd.read_csv('clienti_leasing20.csv')
print(df['AGE'])
#all_colors = list(plt.cm.colors.cnames.keys())
colors = cm.hsv( df['AGE']/ float(max(df['AGE'])))
df['AGE'].plot(kind=‘barh',color=colors)
plt.xlabel('ID_CLIENT')
plt.ylabel('AGE')
plt.show()
SURSE BIBLIOGRAFICE

• https://matplotlib.org/index.html
• https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/
• https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/
• Python for Data Analysis, DATA WRANGLING WITH PANDAS, NUMPY, AND IPYTHON,
Wes McKinney, 2nd edition, 2012, Ed. O’REILLY
• Data Science from Scratch, FIRST PRINCIPLES WITH PYTHON, Joel Grus, 2015, Ed.
O’REILLY
• Python Data Science Handbook, ESSENTIAL TOOLS FOR WORKING WITH DATA, Jake
VanderPlas, 2016, Ed. O’REILLY

S-ar putea să vă placă și

Dsad
Încă nu există evaluări
Dsad
20 pagini
Seminar IA CIB Partea2
100% (1)
Seminar IA CIB Partea2
128 pagini
Temă Seminar 3 - Cazacu Andrei Daniel
100% (2)
Temă Seminar 3 - Cazacu Andrei Daniel
6 pagini
Curs CVD
100% (1)
Curs CVD
93 pagini
Python 3
Încă nu există evaluări
Python 3
20 pagini
Curs 6 - Interogari SAS
0% (1)
Curs 6 - Interogari SAS
36 pagini
Laborator
Încă nu există evaluări
Laborator
123 pagini
Lucrarea de Laborator N5A
0% (1)
Lucrarea de Laborator N5A
2 pagini
Proiect SSD
Încă nu există evaluări
Proiect SSD
31 pagini
Proiect Autogara
Încă nu există evaluări
Proiect Autogara
19 pagini
BDA Curs1
Încă nu există evaluări
BDA Curs1
93 pagini
Analiza Indicatorilor Macroeconomici La Nivelul României
Încă nu există evaluări
Analiza Indicatorilor Macroeconomici La Nivelul României
67 pagini
Companie de Comert Cu Automobilele
Încă nu există evaluări
Companie de Comert Cu Automobilele
52 pagini
Cursul 4 Master AACPI 2016
Încă nu există evaluări
Cursul 4 Master AACPI 2016
56 pagini
Capitol 6
Încă nu există evaluări
Capitol 6
38 pagini
An 1 TIC Proiect (Caiet Practica) Rezolvat
Încă nu există evaluări
An 1 TIC Proiect (Caiet Practica) Rezolvat
40 pagini
Python 3
Încă nu există evaluări
Python 3
16 pagini
Seminar Master IA CIB-primaparte PDF
Încă nu există evaluări
Seminar Master IA CIB-primaparte PDF
60 pagini
S3 - Python - MongoDB - MySQL - Flask
Încă nu există evaluări
S3 - Python - MongoDB - MySQL - Flask
20 pagini
BD2 C5 Agregare
Încă nu există evaluări
BD2 C5 Agregare
30 pagini
Python 2
Încă nu există evaluări
Python 2
31 pagini
Curs 3 - Python Datasources
Încă nu există evaluări
Curs 3 - Python Datasources
24 pagini
Lucrarea 5 Cu Sublinieri 2
Încă nu există evaluări
Lucrarea 5 Cu Sublinieri 2
22 pagini
Workshop Select 3
Încă nu există evaluări
Workshop Select 3
38 pagini
Ciobota Miron Gascan
Încă nu există evaluări
Ciobota Miron Gascan
15 pagini
Temă Seminar 2 - Cazacu Andrei Daniel
Încă nu există evaluări
Temă Seminar 2 - Cazacu Andrei Daniel
5 pagini
Seminar Python1
Încă nu există evaluări
Seminar Python1
13 pagini
Sem Python 2.ip JupyterLab
Încă nu există evaluări
Sem Python 2.ip JupyterLab
13 pagini
S3 - Analiza Datelor Organizate in MongoDB Utilizand Python
Încă nu există evaluări
S3 - Analiza Datelor Organizate in MongoDB Utilizand Python
15 pagini
Seminar Python2 - Pachet - Pandas
Încă nu există evaluări
Seminar Python2 - Pachet - Pandas
11 pagini
Seminar Python2 - Pachet - Pandas
Încă nu există evaluări
Seminar Python2 - Pachet - Pandas
11 pagini
S2.1 - Interogarea Documentelor În MongoDB
Încă nu există evaluări
S2.1 - Interogarea Documentelor În MongoDB
13 pagini
Sem Python 3.ip JupyterLab
Încă nu există evaluări
Sem Python 3.ip JupyterLab
5 pagini
Sem Python 2
Încă nu există evaluări
Sem Python 2
16 pagini
Curs 4 Gruparea in Python
Încă nu există evaluări
Curs 4 Gruparea in Python
4 pagini
Lucrare Nr. 4 Interogari de Actiune
Încă nu există evaluări
Lucrare Nr. 4 Interogari de Actiune
8 pagini
Dbscan
Încă nu există evaluări
Dbscan
11 pagini
Proiect Pachete Software
Încă nu există evaluări
Proiect Pachete Software
21 pagini
Rusu Nicolae 3lab
Încă nu există evaluări
Rusu Nicolae 3lab
6 pagini
Apznzabdvayghe Xt5guhf4aucv4mxzthnsqqji9 Wqkrmhqpt Yuspzdseu55hhwatc5ck0rqlp6t9tcxvvk5mjo9 Yxg2ktuvulfv7 Exfdphbiwwm Uozh Eskhj9dmyb4sfbuxmvzm28kjp2gyxu2fdjbgfm7pxeqvpn2h2fpunf6aukxdpnwqwwtk9ormogurweu Jswrhh0htqttoy
Încă nu există evaluări
Apznzabdvayghe Xt5guhf4aucv4mxzthnsqqji9 Wqkrmhqpt Yuspzdseu55hhwatc5ck0rqlp6t9tcxvvk5mjo9 Yxg2ktuvulfv7 Exfdphbiwwm Uozh Eskhj9dmyb4sfbuxmvzm28kjp2gyxu2fdjbgfm7pxeqvpn2h2fpunf6aukxdpnwqwwtk9ormogurweu Jswrhh0htqttoy
13 pagini
Tema Seminar3 MongoDB
Încă nu există evaluări
Tema Seminar3 MongoDB
5 pagini
Gestiunea Clientilor Unei Societati Comerciale
Încă nu există evaluări
Gestiunea Clientilor Unei Societati Comerciale
11 pagini
CaramanEliza Lab 6 PD
Încă nu există evaluări
CaramanEliza Lab 6 PD
10 pagini
Anova
Încă nu există evaluări
Anova
5 pagini
MIPI Pirlea Cristian CR-212 L5
Încă nu există evaluări
MIPI Pirlea Cristian CR-212 L5
9 pagini
Tema MongoDB
Încă nu există evaluări
Tema MongoDB
5 pagini
Documentatia MAICAN
Încă nu există evaluări
Documentatia MAICAN
8 pagini
Comenzi SQL
Încă nu există evaluări
Comenzi SQL
2 pagini
S1. Geoda - Harti
Încă nu există evaluări
S1. Geoda - Harti
26 pagini
Exemplu ETL Daune
Încă nu există evaluări
Exemplu ETL Daune
4 pagini
Bilet 5
Încă nu există evaluări
Bilet 5
3 pagini
Milestone Challenge Pentru Setul de Date Pentru Biciclete Uzate
Încă nu există evaluări
Milestone Challenge Pentru Setul de Date Pentru Biciclete Uzate
11 pagini
Pași Pentru A Realiza Proiectul Maven1
Încă nu există evaluări
Pași Pentru A Realiza Proiectul Maven1
11 pagini
Proiect Baze de Date
Încă nu există evaluări
Proiect Baze de Date
14 pagini
Proiect SSD
Încă nu există evaluări
Proiect SSD
12 pagini
Temă Seminar (I) - Cazacu Andrei
Încă nu există evaluări
Temă Seminar (I) - Cazacu Andrei
4 pagini
Proiect Pachete Software
Încă nu există evaluări
Proiect Pachete Software
27 pagini
Proiect Baze de Date - Nota 8-9 - ASE CSIE
Încă nu există evaluări
Proiect Baze de Date - Nota 8-9 - ASE CSIE
14 pagini
Facilitati Analitice SQL in Oracle 9i
Încă nu există evaluări
Facilitati Analitice SQL in Oracle 9i
4 pagini