Cap 03 - Pandas
Cap 03 - Pandas
2
POR QUE USAR PANDAS?
Pandas é uma biblioteca Python usada para trabalhar com
conjuntos de dados.
Possui funções para analisar, limpar, explorar e manipular
dados.
3
O QUE PODEMOS FAZER COM
PANDAS?
fusão, concatenação...
e muito mais...
4
PRIMEIROS PASSOS Professor: Eduardo Inocencio
5
INSTALAÇÃO DE PANDAS
Se você já possui Python e PIP instalados em um sistema, a instalação do Pandas
é muito fácil.
Instale-o usando este comando:
6
IMPORTANDO PANDAS
Importando a biblioteca.
7
EXEMPLO
8
PANDAS COMO PD
Pandas geralmente é importado com o pd pseudônimo.
9
EXEMPLO
10
VERIFICANDO A VERSÃO DO PANDAS
A string da versão é armazenada no __version__ atributo.
11
PANDAS SERIES Professor: Eduardo Inocencio
12
O QUE É UMA SÉRIE?
Uma série em Pandas é como uma coluna de uma tabela.
É uma matriz unidimensional que contém dados de qualquer tipo. Podemos usar
a função pd.Series() para criar uma série
13
EXEMPLO
Crie uma série Pandas simples a partir de uma lista:
import pandas as pd
a = [1, 7, 2]
myvar = pd.Series(a)
print(myvar)
14
ÍNDICES
Se nada mais for especificado, os valores serão rotulados com seu número de
índice. O primeiro valor tem índice 0, o segundo valor tem índice 1 etc.
Este rótulo pode ser usado para acessar um valor especificado.
Exemplo
Retorne o primeiro valor da Série:
print(myvar[0])
15
CRIANDO ÍNDICES
Com o index argumento, você pode nomear seus próprios rótulos.
import pandas as pd
Exemplo a = [1, 7, 2]
Crie seus próprios rótulos:
print(myvar)
16
EXEMPLO
17
EXEMPLO
18
ACESSANDO INFORMAÇÕES
Depois de criar etiquetas, você pode acessar um item consultando a etiqueta.
Exemplo
Retorne o primeiro valor da Série:
print(myvar["y"])
19
OBJETOS CHAVE/VALOR COMO SÉRIE
Você também pode usar um objeto chave/valor, como um dicionário, ao criar
uma série.
import pandas as pd
Exemplo:
Crie uma série Pandas simples a calories = {"day1": 420, "day2": 380, "day3": 390}
partir de um dicionário:
myvar = pd.Series(calories)
print(myvar)
print(myvar)
21
PANDAS DATAFRAME Professor: Eduardo Inocencio
22
O QUE É UM DATAFRAME?
Um Pandas DataFrame é uma estrutura de dados bidimensional, como um array
bidimensional ou uma tabela com linhas e colunas.
import pandas as pd
Exemplo data = {
Crie um DataFrame simples do Pandas: "calories": [420, 380, 390],
"duration": [50, 40, 45]
}
df = pd.DataFrame(data)
print(df)
23
O QUE É UM DATAFRAME?
Podemos criar dataframes a partir da função pd.Dataframe(), utilizando como
argumento tanto um array, quanto usando dicionários.
24
CRIANDO DATAFRAMES
USANDO DICIONÁRIOS.
25
DATAFRAMES – ACESSANDO DADOS
26
LOCALIZAR LINHA
Como você pode ver no resultado acima, o DataFrame é como uma tabela com
linhas e colunas.
Pandas usam o loc atributo para retornar uma ou mais linhas especificadas
27
EXEMPLO
Linha de retorno 0:
print(df.loc[0])
Retornar linha 0 e 1:
print(df.loc[[0, 1]])
Exemplo
Adicione uma lista de nomes para dar um nome a cada linha:
import pandas as pd
data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}
print(df)
29
LOCALIZE ÍNDICES NOMEADOS
Use o índice nomeado no atributo loc para retornar as linhas especificadas.
Exemplo
Retorne "dia2":
print(df.loc["day2"])
30
CARREGAR ARQUIVOS EM UM DATAFRAME
Exemplo
Carregue um arquivo separado por vírgula (arquivo CSV) em um DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
31
CARREGAR ARQUIVOS EM UM DATAFRAME
A biblioteca Pandas é capaz de ler diversos tipos de arquivos, com uma sintaxe
simples. Dentre os tipos de arquivos que podemos ler com o Pandas, temos:
• read_table • read_html
• read_csv • read_stata
• read_excel • read_sas
• read_hdf
• read_sql
• read_json
32
EXEMPLOS DE LEITURA
Pandas é capaz de ler arquivos, com uma sintaxe muito simples. Veja
alguns exemplos:
33
MANIPULANDO DADOS Professor: Eduardo Inocencio
34
VISUALIZANDO CABEÇALHOS
Podemos verificar o cabeçalho do dataframe com o comando df.head().
35
VISUALIZANDO AS ÚLTIMAS LINHAS
Podemos verificar o final do dataframe com o comando df.tail().
36
NOMEANDO COLUNAS
Podemos usar o df.columns para modificar todos os nomes das colunas:
37
OBTENDO INFORMAÇÕES
É essencial entendermos o tipo de dado
que temos em mãos. O comando
df.info() nos ajuda a verificar os tipos das
nossas variáveis e, inclusive, se há
valores faltantes/nulos.
38
ESTATÍSTICAS BÁSICAS
A função df.describe() exibe as estatísticas básicas dos dados numéricos.
39
ESTATÍSTICAS BÁSICAS
Para estatísticas de variáveis categóricas, precisamos adicionar o
argumento include = [‘O].
40
ESTATÍSTICAS BÁSICAS
Ainda é possível aplicar o pd.describe a todos os dados. Para isso,
precisamos adicionar o argumento include = ‘all’.
41
SELECIONANDO DADOS
PODEMOS ACESSAR AS INFORMAÇÕES DOS DATAFRAMES E SERIES DE DIVERSAS
MANEIRAS.
ou
42
SELECIONANDO DADOS
maneiras.
43
SELECIONANDO DADOS Professor: Eduardo Inocencio
COM LOC E ILOC
44
SELEÇÃO - ILOC E LOC
Os métodos iloc e loc são utilizados para selecionar dados de um
dataframe, mas possuem diferenças importantes.
>> iloc: seleção baseada nas posições dos índices das linhas e colunas (inteiros);
45
SELEÇÃO - ILOC E LOC
Em ambos os casos, os argumentos do métodos são as linhas e as colunas
de interesse.
df.iloc [<linhas>,<colunas>]
df.loc [<linhas>,<colunas>]
46
ILOC – SELEÇÃO DE LINHAS
O iloc faz a seleção através dos valores inteiros dos índices, por um array ou ainda por fatias dos
dados.
47
ILOC – SELEÇÃO DE LINHAS
Apenas uma linha.
Um fatiamento de linhas.
48
ILOC – SELEÇÃO DE COLUNAS
Apenas uma coluna. Um fatiamento de colunas.
49
ILOC – SELEÇÃO DE LINHAS E COLUNAS
50
SELEÇÃO LOC
Selecionando valores de apenas uma linha.
51
LOC – SELEÇÃO DE LINHAS
52
LOC – FATIANDO DADOS
53
LOC – SELEÇÃO DE LINHAS E COLUNAS
54
LOC – SELEÇÃO DE LINHAS E COLUNAS
55
LOC – SELEÇÃO CONDICIONAL
56
LOC – SELEÇÃO CONDICIONAL
57