0% acharam este documento útil (0 voto)
32 visualizações57 páginas

Cap 03 - Pandas

Enviado por

slashhell
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
32 visualizações57 páginas

Cap 03 - Pandas

Enviado por

slashhell
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 57

FUNDAMENTOS DE BIG DATA E Professor: Eduardo Inocencio

DATA ANALYTICS COM PYTHON


INTRODUÇÃO AO PANDAS

Pandas é uma biblioteca do Python muito utilizada em programação


científica. Pandas trouxe um plus ao Pyhton, pois possibilita trabalhar com
análise de dados sem ter que recorrer a outras linguagens.

Pandas = PANel DAtaS

2
POR QUE USAR PANDAS?
Pandas é uma biblioteca Python usada para trabalhar com
conjuntos de dados.
Possui funções para analisar, limpar, explorar e manipular
dados.

3
O QUE PODEMOS FAZER COM
PANDAS?

• Manipulação de dados: de forma rápida, ágil e com indexação integrada.

• Análise de dados: leitura, escrita, alinhamento, reshaping, slicing, agrupamentos,

fusão, concatenação...

• Variedade de uso: mercado financeiro, neurociência, economia, estatística, publicidade,

e muito mais...

4
PRIMEIROS PASSOS Professor: Eduardo Inocencio

5
INSTALAÇÃO DE PANDAS
Se você já possui Python e PIP instalados em um sistema, a instalação do Pandas
é muito fácil.
Instale-o usando este comando:

6
IMPORTANDO PANDAS
Importando a biblioteca.

Pandas não é uma biblioteca built-in, então é preciso instalá-la, caso a


instalação do Python tenho sido feita sem o Anaconda.

7
EXEMPLO

8
PANDAS COMO PD
Pandas geralmente é importado com o pd pseudônimo.

alias: Em Python, alias é um nome alternativo para se referir à mesma coisa.

Crie um alias com a as palavra-chave durante a importação:

9
EXEMPLO

10
VERIFICANDO A VERSÃO DO PANDAS
A string da versão é armazenada no __version__ atributo.

11
PANDAS SERIES Professor: Eduardo Inocencio

12
O QUE É UMA SÉRIE?
Uma série em Pandas é como uma coluna de uma tabela.

É uma matriz unidimensional que contém dados de qualquer tipo. Podemos usar
a função pd.Series() para criar uma série

Como parâmetro, colocamos uma lista


de valores.

13
EXEMPLO
Crie uma série Pandas simples a partir de uma lista:

import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

14
ÍNDICES
Se nada mais for especificado, os valores serão rotulados com seu número de
índice. O primeiro valor tem índice 0, o segundo valor tem índice 1 etc.
Este rótulo pode ser usado para acessar um valor especificado.

Exemplo
Retorne o primeiro valor da Série:

print(myvar[0])

15
CRIANDO ÍNDICES
Com o index argumento, você pode nomear seus próprios rótulos.

import pandas as pd

Exemplo a = [1, 7, 2]
Crie seus próprios rótulos:

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

16
EXEMPLO

17
EXEMPLO

PARA CONFIRMAR OS ÍNDICES:

PARA OBTER APENAS OS VALORES:

18
ACESSANDO INFORMAÇÕES
Depois de criar etiquetas, você pode acessar um item consultando a etiqueta.

Exemplo
Retorne o primeiro valor da Série:

print(myvar["y"])

19
OBJETOS CHAVE/VALOR COMO SÉRIE
Você também pode usar um objeto chave/valor, como um dicionário, ao criar
uma série.

import pandas as pd

Exemplo:
Crie uma série Pandas simples a calories = {"day1": 420, "day2": 380, "day3": 390}

partir de um dicionário:
myvar = pd.Series(calories)

print(myvar)

Nota: As chaves do dicionário tornam-se os rótulos.


20
EXEMPLO
Para selecionar apenas alguns itens do dicionário, use o index argumento e
especifique apenas os itens que deseja incluir na Série.

Exemplo import pandas as pd

Crie uma série usando apenas


calories = {"day1": 420, "day2": 380, "day3": 390}
dados de “dia1” e “dia2”:
myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

21
PANDAS DATAFRAME Professor: Eduardo Inocencio

22
O QUE É UM DATAFRAME?
Um Pandas DataFrame é uma estrutura de dados bidimensional, como um array
bidimensional ou uma tabela com linhas e colunas.

import pandas as pd

Exemplo data = {
Crie um DataFrame simples do Pandas: "calories": [420, 380, 390],
"duration": [50, 40, 45]
}

#load data into a DataFrame object:

df = pd.DataFrame(data)

print(df)

23
O QUE É UM DATAFRAME?
Podemos criar dataframes a partir da função pd.Dataframe(), utilizando como
argumento tanto um array, quanto usando dicionários.

24
CRIANDO DATAFRAMES
USANDO DICIONÁRIOS.

USANDO DICIONÁRIOS E EXPLICITANDO OS ÍNDICES.

25
DATAFRAMES – ACESSANDO DADOS

Similar ao caso da Series, podemos acessar tanto os valores quanto os índices do


Dataframe com os métodos pd.values e pd.index.

Ainda podemos obter os nomes das colunas com o pd.columns

26
LOCALIZAR LINHA
Como você pode ver no resultado acima, o DataFrame é como uma tabela com
linhas e colunas.

Pandas usam o loc atributo para retornar uma ou mais linhas especificadas

27
EXEMPLO
Linha de retorno 0:

#refer to the row index:

print(df.loc[0])

Retornar linha 0 e 1:

#use a list of indexes:

print(df.loc[[0, 1]])

Nota: Ao usar [], o resultado é um Pandas DataFrame .


28
ÍNDICES NOMEADOS
Com o argumento index, você pode nomear seus próprios índices.

Exemplo
Adicione uma lista de nomes para dar um nome a cada linha:

import pandas as pd

data = {
"calories": [420, 380, 390],
"duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df)

29
LOCALIZE ÍNDICES NOMEADOS
Use o índice nomeado no atributo loc para retornar as linhas especificadas.

Exemplo
Retorne "dia2":

#refer to the named index:

print(df.loc["day2"])

30
CARREGAR ARQUIVOS EM UM DATAFRAME

Se seus conjuntos de dados estiverem armazenados em um arquivo, o Pandas


poderá carregá-los em um DataFrame.

Exemplo
Carregue um arquivo separado por vírgula (arquivo CSV) em um DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df)
31
CARREGAR ARQUIVOS EM UM DATAFRAME

A biblioteca Pandas é capaz de ler diversos tipos de arquivos, com uma sintaxe
simples. Dentre os tipos de arquivos que podemos ler com o Pandas, temos:

• read_table • read_html
• read_csv • read_stata
• read_excel • read_sas
• read_hdf
• read_sql
• read_json

32
EXEMPLOS DE LEITURA
Pandas é capaz de ler arquivos, com uma sintaxe muito simples. Veja
alguns exemplos:

Há diversos parâmetros que podem ser adicionados ao comando


de leitura.

Veja a documentação de cada um sempre que precisar!

33
MANIPULANDO DADOS Professor: Eduardo Inocencio

34
VISUALIZANDO CABEÇALHOS
Podemos verificar o cabeçalho do dataframe com o comando df.head().

35
VISUALIZANDO AS ÚLTIMAS LINHAS
Podemos verificar o final do dataframe com o comando df.tail().

36
NOMEANDO COLUNAS
Podemos usar o df.columns para modificar todos os nomes das colunas:

Ou modificar o nome de colunas específicas usando a função df.rename()

37
OBTENDO INFORMAÇÕES
É essencial entendermos o tipo de dado
que temos em mãos. O comando
df.info() nos ajuda a verificar os tipos das
nossas variáveis e, inclusive, se há
valores faltantes/nulos.

38
ESTATÍSTICAS BÁSICAS
A função df.describe() exibe as estatísticas básicas dos dados numéricos.

39
ESTATÍSTICAS BÁSICAS
Para estatísticas de variáveis categóricas, precisamos adicionar o
argumento include = [‘O].

TOP: O valor que mais aparece nos campos


FREQ: Frequência (quantidade de vezes)
que o valor mais comum aperece (TOP)

40
ESTATÍSTICAS BÁSICAS
Ainda é possível aplicar o pd.describe a todos os dados. Para isso,
precisamos adicionar o argumento include = ‘all’.

41
SELECIONANDO DADOS
PODEMOS ACESSAR AS INFORMAÇÕES DOS DATAFRAMES E SERIES DE DIVERSAS
MANEIRAS.

>> Quando queremos apenas 1 coluna

ou

42
SELECIONANDO DADOS

Podemos acessar as informações dos >> Quando queremos mais de 1 coluna

dataframes e series de diversas

maneiras.

43
SELECIONANDO DADOS Professor: Eduardo Inocencio
COM LOC E ILOC
44
SELEÇÃO - ILOC E LOC
Os métodos iloc e loc são utilizados para selecionar dados de um
dataframe, mas possuem diferenças importantes.

>> iloc: seleção baseada nas posições dos índices das linhas e colunas (inteiros);

>> loc: seleção baseadas nos nomes das variáveis.

45
SELEÇÃO - ILOC E LOC
Em ambos os casos, os argumentos do métodos são as linhas e as colunas
de interesse.

df.iloc [<linhas>,<colunas>]

df.loc [<linhas>,<colunas>]

46
ILOC – SELEÇÃO DE LINHAS
O iloc faz a seleção através dos valores inteiros dos índices, por um array ou ainda por fatias dos
dados.

Note a diferença entre os resultados. Embora os valores sejam


os mesmos, a apresentação é diferente.

47
ILOC – SELEÇÃO DE LINHAS
Apenas uma linha.

Apenas uma linha.

Um fatiamento de linhas.

48
ILOC – SELEÇÃO DE COLUNAS
Apenas uma coluna. Um fatiamento de colunas.

49
ILOC – SELEÇÃO DE LINHAS E COLUNAS

Uma linha e um fatiamento de colunas.

Um fatiamento de linhas e colunas.

Um array e um fatiamento de colunas.

50
SELEÇÃO LOC
Selecionando valores de apenas uma linha.

Similar ao o que observamos no iloc.

51
LOC – SELEÇÃO DE LINHAS

SELECIONANDO UMA LISTA DE LINHAS.


Um array de linhas.

52
LOC – FATIANDO DADOS

Uma fatia de linhas.

53
LOC – SELEÇÃO DE LINHAS E COLUNAS

SELECIONANDO UMA LISTA DE LINHAS E COLUNAS.

Uma lista de linhas e uma lista de colunas.

54
LOC – SELEÇÃO DE LINHAS E COLUNAS

SELECIONANDO UMA FATIA DE LINHAS E UMA LISTA DE COLUNAS.

Uma fatia de linhas e uma lista de colunas.

55
LOC – SELEÇÃO CONDICIONAL

SELECIONANDO COM BASE EM UMA CONDIÇÃO.


Uma condição.

56
LOC – SELEÇÃO CONDICIONAL

SELECIONANDO UMA FATIA DE LINHAS E UMA LISTA DE COLUNAS.


Duas ou mais condições.

57

Você também pode gostar