QUI0610 - Parte 4

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 26

QUIMIOMETRIA – QUI0610

QUÍMICA
PARTE 4

Prof. Dr. Edgar Moraes


2019.1
DEPENDÊNCIA FUNCIONAL ENTRE
VARIÁVEIS
Até agora vimos apenas casos de variáveis aleatórias e
independentes.

Imaginemos o analista responsável pela determinação de


sódio em biodiesel por espectrometria de emissão atômica.

# Concentração de padrões de sódio (mg kg-1):


(0, 2, 4, 6, 8, 10)

# Emissão:
(0.002, 0.15, 0.249, 0.434, 0.57, 0.704)

As variáveis são independentes uma da outra?


DEPENDÊNCIA FUNCIONAL ENTRE
VARIÁVEIS
# Concentração de padrões de sódio (mg kg-1):
x (0, 2, 4, 6, 8, 10)
# Emissão:
y (0.002, 0.15, 0.249, 0.434, 0.57, 0.704)

AS DUAS VARIÁVEIS ALEATÓRIAS


(CONCENTRAÇÃO DE SÓDIO E
ABSORBÂNCIA) APRESENTAM UMA
TENDÊNCIA DE SE DESVIAREM DE FORMA
PARECIDA – COVARIAR!

I
# [Na](mg kg-1):
x=c(0,2,4,6,8,10)
# Absorbância:
y=c(0.002,0.15,0.249,0.434,0.57,0.704)
plot(x,y, main="Regressão Linear", xlab = "[Na](mg kg-1)",
ylab = “I“)
COVARIÂNCIA E CORRELAÇÃO
PODEMOS OBTER UMA MEDIDA NUMÉRICA DA COVARIÂNCIA A PARTIR DOS
RESULTADOS DOS DESVIOS:

( xi  x)( yi  y)
COVARIÂNCIA – QUANDO DUAS VARIÁVEIS ALEATÓRIAS APRESENTAM UMA
TENDÊNCIA DE SE DESVIAREM DE FORMA PARECIDA.
COVARIAR = VARIAR JUNTO

# Basta digitar:
N
1
Cov( x, y )  
N  1 i 1
( xi  x)( yi  y )
cov(x,y)
# Resultado no R:
[1] 0.991

ONDE
(xi , yi) = Valores das observações individuais do elemento i
(x , y) = Médias amostrais
N = Número de elementos da amostra
COVARIÂNCIA E CORRELAÇÃO
O problema é que o valor da covariância depende da escala de x
e y, como em nosso exemplo:
[Na+] entre 2 e 10 mg kg-1
Intensidade (I) entre 0.15 e 0.704

É difícil utilizá-la para estabelecer comparações.


Então usa-se o coeficiente de correlação, uma espécie de
covariância normalizada pelo desvio-padrão da variável.

Coeficiente de correlação (r) – Mede o grau de associação linear


entre duas variáveis numéricas.
# Basta digitar:
1 N  ( xi  x)  ( yi  y ) 

cov(x,y)/(sd(x)*sd(y))
r ( x, y )    
N  1 i 1  s x  s y 
# Resultado no R:
[1] 0.9981232
COEFICIENTE DE CORRELAÇÃO LINEAR
Interpretando o valor de r

r - assume valores entre – 1 e + 1.

•r–1 associação linear negativa forte; x y

•r 0 ausência de associação linear;

•r+1 associação linear positiva forte; x y


COEFICIENTE DE CORRELAÇÃO LINEAR
20 20 60
50
15 15
40
10 10 30
20
5 5 10
0 0
0
0 5 10 0 5 10
0 5 10

r = +1 r  + 0,80 r0

Relação
perfeita 30 30 Relação
25 25 perfeita
20 20
15 15
10 10
r  - 0,80 5 5 r=-1
0 0
0 5 10 0 5 10
MODELO DE REGRESSÃO LINEAR
Significado dos parâmetros
Y E (Y) = 0 + 1Xi

y
•  •
• • x=1 1  yx
• •

0 X
x x+1 Variável
independente

yi = 0 + 1xi +i Erro Aleatório

Variável Inclinação
Intercepto
dependente populacional
populacional
MODELANDO NOSSOS DADOS (BIODIESEL)
Concentração de padrões de sódio (mg kg-1):
x (0, 2, 4, 6, 8, 10)
Absorbância:
y (0.002, 0.15, 0.249, 0.434, 0.57, 0.704)

Para determinar o valor de 0 e 1,


ajustamos a Equação aos 5 pares de
dados experimentais (yi, xi)

y1 = 0 + 1x1 +1 0,002 = 0 + 10 +1


y2 = 0 + 1x2 +2 0,15 = 0 + 12 +2
y3 = 0 + 1x3 +3 0,249 = 0 + 14 +3
............... ..................
MODELANDO DADOS

A melhor reta será a que passar mais perto dos


pontos experimentais.
Ou seja, minimizar a distância entre os pontos e
a reta.

ei
Para isso, localiza-se a reta onde a
soma dos quadrados dos resíduos
seja mínima!

AJUSTE POR MÍNIMOS QUADRADOS OU ANÁLISE POR REGRESSÃO


Os mínimos quadrados se refere ao valor residual obtido pela
diferença no eixo y (ei) entre dados experimentais e o modelo teórico
(geralmente representado por uma linha que passa na média dos
pontos experimentais). A obtenção do modelo teórico tem como base
a distribuição normal dos pontos que compõem a curva de
calibração.
AJUSTE POR MÍNIMOS QUADRADOS OU
ANÁLISE POR REGRESSÃO
Cada resíduo, ei, é calculado por
𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖
𝑦𝑖 Onde 𝑦𝑖 é o valor previsto pelo modelo teórico,
sendo encontrado por:
𝑦𝑖 = b0 + b1xi
ei Substituindo uma equação na outra:
𝑒𝑖 = 𝑦𝑖 - b0 - b1xi
𝑦𝑖
Como 𝑦𝑖 é conhecido, o resíduo dependerá de
b0 e b1.

No ajuste por mínimos quadrados, os valores de b0 e b1 são aqueles


que tornam a somatória dos quadrados dos resíduos a menor
possível:
𝜕 𝑒𝑖 2
=0
𝜕𝑏0
𝑒𝑖 2 = (𝑦𝑖 − b0 − b1xi )2 2
𝜕 𝑒𝑖
=0
𝜕𝑏1
AJUSTE POR MÍNIMOS QUADRADOS OU
ANÁLISE POR REGRESSÃO
𝜕 𝑒𝑖 2
Derivando e igualando a 0: = −2 (𝑦𝑖 − b0 − b1xi ) = 0
𝜕𝑏0
𝜕 𝑒𝑖 2
= −2 xi(𝑦𝑖 − b0 − b1xi ) = 0
𝜕𝑏1
Cortando o fator -2 e desdobrando os somatórios, temos um
sistema de duas equações lineares em b0 e b1

𝑛𝑏0 + 𝑏1 𝑥𝑖 = 𝑦𝑖 𝑏0 𝑥𝑖 + 𝑏1 𝑥𝑖 2 = 𝑥𝑖𝑦𝑖

Isolando b0:
𝑦𝑖 − 𝑏1 𝑥𝑖
𝑏0 = = 𝑦 − 𝑏1𝑥 𝑦 − 𝑏1 𝑥 𝑥𝑖 + 𝑏1 𝑥𝑖 2 = 𝑥𝑖𝑦𝑖
𝑛
Intercepto Substituindo
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) 𝑆𝑥𝑦
Isolando b1 e resolvendo: 𝑏1 = =
(𝑥𝑖 − 𝑥)2 𝑆𝑥𝑥

Inclinação
AJUSTE POR MÍNIMOS QUADRADOS OU
ANÁLISE POR REGRESSÃO
A equação linear pode ser obtida no R por meio da função:
lm() - Serve para calcular a regressão linear simples.
# Dados do exercício:

# [Na](mg kg-1):
x=c(0,2,4,6,8,10)

# I:
y=c(0.002,0.15,0.249,0.434,0.57,0.704)

# Gráfico, Inclinação (b1) e Intercepto: (b0)

A = lm(y ~ x)
A
I

plot(x,y, main="Regressão Linear", xlab = "[Na](mg kg-1)",


ylab = “I")
abline(A,col="red")

# Digitando A
Coefficients:
(Intercept) x
-0.002429 0.070786
E SE EU QUISER COMPARAR 2 VARIÁVEIS ALEATÓRIAS
(X1 E X2) COM UMA VARIÁVEL ALEATÓRIA (Y)?

EXEMPLO: TEOR DE ÓLEOS E GRAXAS EM ÁGUAS RESIDUAIS EM PLATAFORMAS DE


PETRÓLEO OFF-SHORE

A (2928 cm-1) vs [Org]?

Ou

A (2928 cm-1) e A (2952 cm-1) vs [Org]?


COMBINAÇÕES LINEARES DE
VARIÁVEIS ALEATÓRIAS
A combinação linear de x1 e x2, variáveis aleatórias
com parâmetros populacionais (1,12) e (2,22) é
dada por:
𝑦 = 𝑎1𝑥1 + 𝑎2𝑥2
Onde a1 e a2 são constantes reais.
A partir de N medidas podemos calcular N valores de y
O valor médio desse conjunto será

1 1
𝑦= 𝑦= (𝑎1𝑥1 + 𝑎2𝑥2 )
𝑁 𝑁
Ou seja
𝑦 = 𝑎1𝑥1 + 𝑎2𝑥 2

A média da combinação linear é a combinação linear


das médias de cada variável.
COMBINAÇÕES LINEARES DE
VARIÁVEIS ALEATÓRIAS
Analogamente, a variância da combinação linear será:
2
1 N
sy 
2

N  1 i 1
( yi  y)

1 N
s 
2
 (a1 x1  a2 x2  a1 x1  a2 x2 ) 2 1 N
N  1 i 1 
y
s 
2
[a1 ( x1  x1 )  a2 ( x2  x2 )]2
N  1 i 1
y

1 N 2
s  1 1 1      
2 2 2 2 2
a ( x x ) a ( x x ) 2 a a ( x x )( x x )]
N  1 i 1
y 2 2 2 1 2 1 1 2 2

 1 N 2 2 1
N
2  1 N 2
s  a1   1 1  2  N 1 
     1 1 2 2 
 
2 2
( x x ) a ( x x )  2 a a
1 2 ( x x )( x x )]
 N  1 i 1  N  1 i 1
y 2 2
i 1 
variância Coeficiente de
correlação
s y2  a1 s1  a2 s2  2a1a2 s1s2 r ( x1 , x2 )
2 2 2 2
COMBINAÇÕES LINEARES DE
VARIÁVEIS ALEATÓRIAS
Para uma combinação linear de p variáveis,
calculamos a média amostral e sua variância:

s y2   ai si  2 ai a j si s j r ( xi , x j )
2 2
𝑦= 𝑎𝑖 𝑥𝑖 i i j i
𝑖
Parâmetros populacionais de uma combinação
linear de variáveis aleatórias:

𝑖 = 𝑎𝑖 𝑖  y2   ai 2 i 2  2 ai a j i j r ( xi , x j )
i i j i
𝑖

Se as variáveis são rigorosamente aleatórias, não há correlação. Logo a


variância populacional é:
 y2   ai 2 i 2
i
AMOSTRAGEM ALEATÓRIA EM
POPULAÇÕES NORMAIS
Consideremos amostras de N elementos, extraídas de uma
população normal de média  e variância 2
Demonstração (Dudewicz e Mishra, 1988)

INTERVALO DE CONFIANÇA
É uma faixa de possíveis valores em torno da média amostral, e
a probabilidade de que esta faixa realmente contenha o valor
real da média da população
 
x  z.    x  z.
N N
Aqui o Intervalo de Confiança depende de conhecer o desvio-padrão
populacional ()
Para grandes amostras isto não apresenta dificuldade especial, pois se
aplica o teorema do limite central.
INTERVALO DE CONFIANÇA
E quando o tamanho da amostra é menor que 30
(n<30) e o desvio padrão da população () é
desconhecido?

Distribuição t ou de Student
Em 1908, W.S. Gosset, um químico que trabalhava na
cervejaria Guinness e que usava o pseudônimo de
Student para assinar seus trabalhos, publicou a
dedução para isso

A distribuição t é similar à distribuição normal, mas


tem maior variação nas caudas (nas pontas da curva).
Distribuição t ou de Student
Distribuição normal Distribuição t de
padronizada student com n = 12

Distribuição t de
student com n = 3

A curva t nos dá a probabilidade de ocorrer um evento a t


desvios padrão da média (para mais ou para menos)
 os valores de t (valores correspondentes à área sob a curva
nas caudas) são tabelados e dependem de dois fatores:

 n-1 = graus de liberdade


 grau de confiança desejado (1- α)
Distribuição t ou de Student

INTERVALO DE CONFIANÇA PARA UMA MÉDIA


POPULACIONAL, A PARTIR DA DISTRIBUIÇÃO DE STUDENT

s s
x  t N 1.    x  t N 1.
N N

VALORES DE T SÃO TABELADOS, PG 401 (BRUNS)


O ERRO (e) SERÁ DADO POR:
s
e  t N 1.
N
QUANTO MAIOR O NÚMERO DE MEDIDAS, MAIS SE
APROXIMA DA DISTRIBUIÇÃO NORMAL, VEJA A TABELA:
Distribuição t ou de Student
COMO DETERMINAR O TAMANHO DA AMOSTRA?
O conceito de nível de confiança pode ser utilizado para o cálculo do
tamanho da amostra, necessário para fazermos inferências
confiáveis.
2
s  t N 1.s 
e  t N 1. N  
N  e 
Exemplo: Quantas titulações são necessárias para estimar a
concentração com uma precisão de 0,1%? (s=0,1509% após 20
titulações)
2
 2,093 .0,1509 % 
2
 t 201.s 
N   para que tenhamos 95% de confiança N  
 e   0,1% 

N  9,98
COMO DETERMINAR O TAMANHO DA AMOSTRA?
A partir de uma série histórica de extensão razoável, a diferença
entre a distribuição t e a distribuição normal deixa de ter importância
Situação comum em laboratórios

 z. 
2

N  
 L 
Onde L é a precisão desejada,  é o desvio-padrão e z é o ponto da
distribuição normal padrão para o nível de confiança escolhido.

Exemplo: Um laboratório credenciado pela Petrobrás faz determinações do


teor de água em álcool combustível com um desvio-padrão histórico de 0,3%.
Um cliente envia uma amostra, cuja concentração ele quer saber com uma
precisão de 0,2%. Estime o número de repetições para 95% de confiança.
2
 z.   1,96 .0,3% 
2

N   para que tenhamos 95% de confiança N  


 L   0,2% 

N  8,64
COMO FAZER O CONTROLE ESTATÍSTICO DE
PROCESSOS
Após a implantação de um planta industrial, os operadores
continuam a acompanhar sistematicamente as características do
produto.
Ex: Fábrica de polímeros – Variável importante = VISCOSIDADE

Se o processo estiver sobre controle, como será a distribuição das


medidas?
Carta de Controle

Limite Superior de Controle (LSC)


  3  (99,73%)
Média

Limite Inferior de Controle (LIC)


  3  (99,73%)
ACT TO WIN NOW!

Você também pode gostar