01 - Fundamentos de Estadística 2019
01 - Fundamentos de Estadística 2019
01 - Fundamentos de Estadística 2019
Geoestadística – Clase 01
Definición
La estadística es una ciencia que estudia los principios y los métodos aplicados a la
recolección, análisis, presentación e interpretación de datos. Se puede dividir en dos
ramas:
Estadística descriptiva:
Se centra en la descripción y resumen de un conjunto de datos de algún fenómeno
estudiado. Sirve para capturar características de una población y presentar resultados del
estudio.
Estadística Inferencial:
Se centra en la obtención de conclusiones desde los datos considerando su naturaleza
aleatoria. Incluye la estimación de parámetros, el testeo de hipótesis y el modelamiento de
relaciones entre variables.
Fundamentos de Estadística 2
Conceptos Básicos
Población:
Conjunto de todos los individuos o eventos similares que son de interés para un estudio.
Por ejemplo:
• Tangible: Los integrantes de una Universidad
• Hipotético: El conjunto de todos los resultados posibles del Torneo de Futbol
Profesional.
Muestra:
Conjunto de datos recolectados a partir de una población mediante un procedimiento de
muestreo. Dependiendo de las características del muestreo, es posible inferir
características de la población a partir del estudio de la muestra.
Fundamentos de Estadística 3
Conceptos Básicos
Representatividad de la muestra:
Una muestra se dice representativa si el procedimiento de muestreo asociado cumple
ciertas características de calidad y tamaño. Si la muestra es representativa, sus
características representan de buena manera las características de la población →
Inferencia estadística.
Tipos de muestreo:
1. Aleatorio: Cada individuo escogido a partir de la población se elige de manera
aleatoria, con igual probabilidad.
2. Sistemático: Se elige un punto de partida aleatorio, y se muestrea cada cierto
intervalo.
3. Estratificado: Se divide la población en estratos, y cada estrato es muestreado de
manera aleatoria.
Fundamentos de Estadística 4
Conceptos Básicos
Tipos de Muestreo
Fundamentos de Estadística 5
Conceptos Básicos
Tipos de Muestreo en Minería
Fundamentos de Estadística 6
Conceptos Básicos
Inferencia estadística:
Toda muestra está sujeta a un error dada la variabilidad del fenómeno estudiado, lo cual
puede generar errores en la interpretación de las características de la población. Sin
embargo, la realización de un censo muchas veces es costoso o impracticable.
Para poder determinar características de la población a partir de la muestra de manera
consistente, se utiliza el formalismo de teoría de probabilidad.
Supuesto Principal: Los datos recolectados en la muestra son generados por un proceso
estocástico. Es importante verificar que las variaciones en las muestras son producto de
este proceso estocástico y no de un fenómeno no-estacionario subyacente.
Fundamentos de Estadística 7
Conceptos Básicos
Estacionaridad
Las características de la población no
cambian con el tiempo/ubicación.
Si un fenómeno es estacionario, se puede
asumir que las muestras provienen de la
misma población estadística, aunque sean
tomadas en momentos o lugares diferentes.
Fundamentos de Estadística 8
Variable Aleatoria
Si se considera que los datos tomados son aleatorios, es necesario introducir el formalismo
de variable aleatoria.
Una Variable Aleatoria (v.a.) es una variable cuyos posibles valores son función de un
proceso aleatorio subyacente.
Fundamentos de Estadística 9
Variable Aleatoria
Toda variable aleatoria tiene un dominio Ω, que es el conjunto de posibles resultados del
proceso.
• Tirar un dado: 𝛀 = 1,2,3,4,5,6
• Tirar una moneda: 𝛀 = {cara, sello}
• ¿Pasar el ramo?: 𝛀 = {aprobar, reprobar}
Formalmente, una v.a 𝑿: 𝛀 → ℝ es una función que a cada posible resultado en Ω le asigna
un valor típicamente real.
Una v.a. no entrega, directamente, probabilidades. Sólo entrega ocurrencias del proceso
aleatorio.
La probabilidad 𝑷 de ocurrencia viene dada en el espacio de probabilidad (𝛀, 𝓕, 𝑷)
Fundamentos de Estadística 10
Variable Aleatoria
Ejemplo en clases:
Proceso: Lanzamiento de 3 monedas de forma consecutiva.
Variable Aleatoria: Número de caras en el lanzamiento
Fundamentos de Estadística 11
Distribución de probabilidad
La distribución de probabilidad describe la probabilidad que la variable aleatoria 𝑿 tome
un rango de valores dado el fenómeno aleatorio estudiado.
Variable Discreta
Variable Continua
Fundamentos de Estadística 12
Distribución de probabilidad
Densidad de probabilidad:
𝑑𝐹𝑋 (𝑥)
∀𝑥 ∈ ℝ, 𝑝𝑋 𝑥 =
𝑑𝑥
Masa de probabilidad:
∀𝑛 ∈ ℕ, 𝑝𝑋 𝑛 = 𝑃𝑟𝑜𝑏(𝑋 = 𝑛)
Fundamentos de Estadística 13
Distribución de probabilidad
Cuando se repite un experimento, es
posible determinar la distribución de
probabilidad empírica 𝐹𝑛 (𝑥).
Esta distribución empírica converge casi
seguramente a la distribución real, por la
Ley de los Grandes Números, cuando las
muestras son iid para cada 𝑥.
𝑎.𝑠.
𝐹𝑛 𝑥 𝐹 𝑥
Fundamentos de Estadística 14
Momentos Estadísticos
Una distribución puede ser descrita utilizando momentos estadísticos:
+∞
𝝁𝒏 = න 𝒙 − 𝒄 𝒏 𝒑(𝒙)𝒅𝒙
−∞
Esperanza: Momento de primer orden que indica el valor promedio de la distribución
+∞ 𝑵
Fundamentos de Estadística 15
Momentos Estadísticos
Si se posee una muestra de la v.a. 𝑋𝑖 ∀𝑖 = {1, … , 𝑁}, con 𝑁 realizaciones, es posible definir
los siguientes estimadores para los momentos estadísticos de primer y segundo orden
para variables continuas y discretas:
Media Experimental:
𝑁
1
ഥ=
𝑿 𝑋𝑖
𝑁
𝑖=1
Varianza Experimental:
𝑁
1
𝒔𝟐 = 𝑋𝑖 − 𝑋ത 2
𝑁−1
𝑖=1
Fundamentos de Estadística 16
Momentos Estadísticos
Si cada realización de la muestra 𝑋𝑖 fue independiente del resto (calidad del muestreo) es
posible interpretar los estimadores anteriores como una v.a., por lo cual puede
comprobarse que estos son los estimadores insesgados de los momentos estadísticos.
Condición de insesgo: un estimador es insesgado cuando su Esperanza es igual al
parámetro estimado.
𝔼 𝑋ത = 𝜇 𝔼(𝒔𝟐 ) = 𝝈𝟐
Por Ley de los Grandes Números, cuando N crece, el estimador converge al momento
estadístico respectivo:
𝑋ത 𝜇 𝑠2 𝜎2
𝑁→+∞ 𝑁→+∞
Fundamentos de Estadística 17
Momentos Estadísticos
Propiedades de la Esperanza:
1. Sea c una constante:
𝔼 𝑐 =𝑐
2. Linealidad:
a) Sean 𝑋, Y variables aleatorias, entonces:
𝔼 𝑋 + 𝑌 = 𝔼 X + 𝔼(𝑌)
a) Sea c una constante, entonces:
𝔼 𝑐𝑋 = 𝑐𝔼(𝑋)
3. Multiplicación:
𝔼 𝑋𝑌 = 𝔼 X 𝔼 𝑌 + C𝑜𝑣 𝑋, 𝑌
Fundamentos de Estadística 18
Momentos Estadísticos
Propiedades de la Varianza:
1. Sea c una constante:
Var c = 0
2. No-Linealidad:
a) Sean X, Y variables aleatorias, entonces:
Var X + Y = Var X + Var Y + 2Cov(X, Y)
b) Sea c una constante, entonces:
Var cX = c 2 Var X
Var c + X = Var X
3. Multiplicación de X e Y independientes:
Var XY = 𝔼 X 2 𝔼 Y 2 − 𝔼 X 2
𝔼 Y 2
Fundamentos de Estadística 19
Distribuciones Comunes
Gaussiana o Normal:
1 𝑥−𝜇 2
−
∀ 𝑥 ∈ ℝ, 𝑓 𝑥 = 𝑒 2𝜎2
2𝜋𝜎 2
σ2 = varianza μ = esperanza
Si μ = 0 y 𝜎 2 = 1→Normal “estándar”
Fundamentos de Estadística 20
Distribuciones Comunes
Teorema del Límite Central
Sean 𝑋1 , … , 𝑋𝑁 un conjunto de v.a. independientes e idénticamente distribuidas, con media
𝜇 y varianza 𝜎 2 . Se define la v.a.:
𝑆𝑁 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑁
Entonces:
𝑆𝑁 − 𝑁𝜇
lim Prob <𝑧 =Φ 𝑧
𝑁→∞ 𝜎 𝑛
La suma de N variables aleatorias iid con varianza finita tienden a una distribución normal a
medida que N tiene a infinito.
Fundamentos de Estadística 21
Distribuciones Comunes
Suma de valor en lanzamiento de N dados:
Fundamentos de Estadística 22
Distribuciones Comunes
Distribución Lognormal
Una v.a. sigue una distribución lognormal si su
logaritmo se distribuye como una normal.
1 ln(𝑥)−𝜇 2
−
∀ 𝑥 ∈ ℝ+ , 𝑓 𝑥 = 𝑒 2𝜎2
𝑥 2𝜋𝜎 2
σ2 = varianza de ln X
μ = esperanza de ln(X)
Uso: Un proceso descrito por el producto de v.a.
iid positivas se distribuye como una log-normal.
Fundamentos de Estadística 23
Distribuciones Comunes
Trivia: cosas que se distribuyen como una log-normal
• El ingreso del 99% de la población
• El tamaño de las ciudades
• El tiempo de reparación de un sistema
• El largo de los comentarios de los foros de internet
• La ley de cobre en un yacimiento tipo pórfido (a veces…)
• El tamaño de partículas después de la molienda convencional
Fundamentos de Estadística 24
Distribuciones Comunes
Uniforme
La densidad de probabilidad es constante
en un intervalo [𝑎, 𝑏]
1
∀ 𝑥 ∈ ℝ, 𝑓 𝑥 = ቐ𝑏 − 𝑎 𝑠𝑖 𝑥 ∈ [𝑎, 𝑏]
0 𝑠𝑖 𝑛𝑜
Fundamentos de Estadística 31
Distribuciones Bivariables
En ocasiones, son necesarias dos variables aleatorias para analizar algún experimento de
interés. Es necesario describir como se comportan conjuntamente estas variables, y definir
algún grado de dependencia entre ellas con el fin de describir de mejor forma el
experimento aleatorio. Para eso, se utilizarán las distribuciones de probabilidad
bivariables.
Fundamentos de Estadística 32
Distribuciones Bivariables
Sea 𝑋, 𝑌 dos variables aleatorias. Se define la función de distribución bivariable como:
∀ 𝑥, 𝑦 ∈ ℝ2 , 𝐹 𝑥, 𝑦 = Prob 𝑋 < 𝑥, 𝑌 < 𝑦
Esta definición indica la probabilidad de que el valor de 𝑋 y el valor de 𝑌 sean,
simultáneamente, menores a los umbrales definidos.
La densidad de probabilidad en este caso se define como sigue:
𝜕 2 𝑃(𝑥, 𝑦)
𝑝 𝑥, 𝑦 = 𝑝 𝑖, 𝑗 = Prob 𝑋 = 𝑖, 𝑌 = 𝑗
𝜕𝑥𝜕𝑦
Fundamentos de Estadística 33
Distribuciones Bivariables
Dos v.a. se dicen independientes si la probabilidad conjunta puede ser descompuesta en sus
probabilidades individuales:
∀ 𝑥, 𝑦 ∈ ℝ2 , 𝑝 𝑥, 𝑦 = 𝑝 𝑥 𝑝 𝑦
Esto indica intuitivamente que el valor de una variable no afecta la probabilidad de obtener
cualquier valor de la segunda.
Ejemplo: Lanzamiento de 2 monedas consecutivas.
Fundamentos de Estadística 34
Distribuciones Bivariables
Si se posee una muestra de pares (x,y), es posible representar su distribución bivariable
mediante un scatter plot, que grafica todos estos pares de puntos en función de los valores
de ambas variables. Este grafico da una idea de la correlación entre ambas variables
aleatorias:
Fundamentos de Estadística 35
Distribuciones Bivariables
Distribución Binormal 2
1 𝑥−𝜇𝑥 2 𝑦−𝜇𝑦 𝑥−𝜇𝑥 𝑦−𝜇𝑦
1 + −2𝑝
2(1−𝑝2 ) 𝜎𝑥 𝜎𝑦 𝜎𝑥 𝜎2
𝑓 𝑥, 𝑦 = 𝑒
2𝜋𝜎𝑥 𝜎𝑦 1 − 𝜌2
𝜌: coeficiente de correlación
𝜇𝑥 , 𝜇𝑦 : Medias de las distribuciones univariables marginales.
𝜎𝑥2 , 𝜎𝑦2 : Varianzas de la distribuciones univariables marginales.
Fundamentos de Estadística 36
Distribuciones Marginales
Dada una distribución bivariable 𝑃(𝑥, 𝑦), se definen las distribuciones a priori
o marginales como:
𝑃𝑋 𝑥 = 𝑃 𝑥, +∞ = 𝑃𝑟𝑜𝑏(𝑋 < 𝑥)
𝑃𝑌 𝑦 = 𝑃 +∞, 𝑦 = 𝑃𝑟𝑜𝑏 𝑌 < 𝑦
+∞
𝑝𝑋 𝑥 = −∞ 𝑝 𝑥, 𝑦 𝑑𝑦 𝑝 𝑖,∙ = 𝑃𝑟𝑜𝑏 𝑋 = 𝑖 = σ𝑗∈ℕ 𝑝 𝑖, 𝑗
+∞
𝑝𝑌 𝑦 = −∞ 𝑝 𝑥, 𝑦 𝑑𝑥 𝑝(∙, 𝑗) = 𝑃𝑟𝑜𝑏 𝑌 = 𝑗 = σ𝑖∈ℕ 𝑝 𝑖, 𝑗
Fundamentos de Estadística 37
Distribuciones Marginales
Fundamentos de Estadística 38
Distribuciones Marginales
Fundamentos de Estadística 39
Distribución condicional
Fijar un valor de alguna de las dos variables puede condicionar la distribución a priori de la
otra. Esto indica que al conocer el valor de una de las variables da suficiente información
como para poder modificar como se distribuye la segunda, siempre y cuando exista una
dependencia entre ellas.
Sean 𝑋, 𝑌 v.a. La distribución de 𝑌 condicional a 𝑋 = 𝑥 se define como:
𝜕𝑃 𝑦𝑥 𝑝 𝑥,𝑦
Densidad de probabilidad: 𝑝 𝑦 𝑥 = =
𝜕𝑦 𝑝 𝑥
Fundamentos de Estadística 41
Teorema de Bayes
El teorema de Bayes es una fórmula que vincula la probabilidad de una hipótesis (H) dado
que ocurre un evento (E) con la probabilidad de que ocurra el evento, dado que la
hipótesis es cierta. Formalmente:
𝑃 𝐸 𝐻 𝑃(𝐻)
𝑃 𝐻𝐸 =
𝑃(𝐸)
Otro resultado relevante, es que si la hipótesis H tiene dos posibles resultados (ocurrir o no
ocurrir), la probabilidad de E puede escribirse como:
𝑃 𝐸 = 𝑃 𝐸 𝐻 𝑃 𝐻 + 𝑃 𝐸 ~𝐻 𝑃(~𝐻)
Es decir, es posible descomponer la probabilidad de E en las probabilidades parciales
según la ocurrencia o no del evento condicionante.
Fundamentos de Estadística 42
Teorema de Bayes
Ejemplo: Falsos positivos en test de drogas
Sensibilidad del test: 99% (proporción de positivos para personas que si la consumen)
Especificidad del test: 95% (proporción de resultados negativos para personas que no la
consumen)
Prevalencia del consumo: 0.5% de la población
¿Cuál es la probabilidad de que un individuo sea usuario, dado que salió su test positivo?
¿Qué pasa si aumento la sensibilidad?
¿Y si aumento la especificidad?
¿Y si el individuo obtiene positivo en dos test por separado?
Fundamentos de Estadística 43
Teorema de Bayes
Test Positivos
𝟏
= 𝟗%
𝟏𝟏
Prevalencia = 1 / 200
Falso Positivo = 10 / 200
Fundamentos de Estadística 44
Covarianza
Es necesario introducir una medida que indique la relación entre ambas variables
aleatorias. Esta medida se conoce como Covarianza y mide la variabilidad conjunta de
ambas variables. Si 𝑋, 𝑌 son v.a., la covarianza entre ellas se define como:
Cov X, Y = 𝔼 𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑌 = 𝔼 𝑋𝑌 − 𝜇𝑋 𝜇𝑌
Donde 𝜇𝑋 , 𝜇𝑌 son las esperanzas de las variables 𝑋, 𝑌 respectivamente.
Si los valores altos de una variable se corresponden con valores altos de la otra, mientras
que los valores bajos se corresponden entre ellos, entonces la Covarianza tiene valor
positivo. Si la relación es contraria, la covarianza tiene valor negativo.
Fundamentos de Estadística 46
Covarianza
Propiedades de la Covarianza
Sean 𝑋, 𝑌 v.a. y 𝑎, 𝑏, 𝑐 constantes:
1. Covarianza de una constante: Cov X, c = 0
2. Covarianza de la misma variable: Cov X, X = 0
3. Conmutatividad: Cov X, Y = Cov Y, X
4. Constantes multiplicativas: Cov aX, bY = abCov X, Y
5. Constantes Aditivas: Cov X + a, Y + b = Cov X, Y
6. Varianza y Covarianza: Var X + Y = Var X + Var Y + 2Cov X, Y
7. Independencia: Si 𝑿, 𝒀 son independientes: 𝐂𝐨𝐯 𝐗, 𝐘 = 𝟎 (no al revés!)
Fundamentos de Estadística 47
Covarianza e Independencia
Ejemplo
Covarianza entre dos variables aleatorias
𝑋: 𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑒 −1,1 𝑌 = 𝑋2
Fundamentos de Estadística 48
Covarianza
El valor absoluto de la Covarianza es difícil de interpretar, pues depende del fenómeno en
estudio. Por este motivo, se define la Covarianza normalizada o el coeficiente de
correlación de Pearson:
Cov X, Y
𝜌=
𝜎𝑋 𝜎𝑌
Fundamentos de Estadística 49
Covarianza
Correlación no implica Causalidad
Fuente: http://tylervigen.com/spurious-correlations
Fundamentos de Estadística 50
Covarianza
Correlación no implica Causalidad
Fuente: http://tylervigen.com/spurious-correlations
Fundamentos de Estadística 51
Covarianza
Correlación no implica Causalidad
En resumen:
- Un coeficiente de correlación nulo no implica independencia.
- Un coeficiente de correlación alto no implica dependencia.
Fundamentos de Estadística 52
Covarianza
Si se tiene una muestra de N realizaciones del par 𝑋𝑖 , 𝑌𝑖 . Es posible estimar la covarianza y
la correlación como sigue:
Covarianza Experimental:
𝑁
1
𝑆𝑋𝑌 = ത 𝑖 − 𝑌)
(𝑋𝑖 − 𝑋)(𝑌 ത
𝑁−1
𝑖=1
Este es el estimador insesgado de la Covarianza entre 𝑋 e 𝑌.
En caso de que las medias sean conocidas, el estimador insesgado es:
𝑁
1
𝑆𝑋𝑌 = (𝑋𝑖 − 𝜇𝑋 )(𝑌𝑖 − 𝜇𝑌 )
𝑁
𝑖=1
Correlación Experimental:
𝑆𝑋𝑌
𝜌=
𝑆𝑋2 𝑆𝑌2
Fundamentos de Estadística 53
Complemento: Efecto Dunning-Kruger
Fundamentos de Estadística 57
Efecto Dunning Kruger
• La gente que sabe poco de un tema, sobreestima sus capacidades
• La gente que sabe un poco más, cree que sabe MENOS
• Se relaciona con que la gente que sabe poco, no sabe lo poco que sabe
(subestima la complejidad del tema):
• Googlear 5 minutos = experto en medicina/política/filosofía/geoestadística
• Pasar geoestadística = experto en evaluación de yacimientos
• Jugar a la pelota = experto en futbol
• Pololear 1 vez = experto en relaciones de pareja
Fundamentos de Estadística 58
Efecto Dunning Kruger
Fundamentos de Estadística 59
Referencias
• Jean-Paul Chilès & Pierre Delfiner, 1999. “Geostatistics: Modeling Spacial Uncertainty”,
Wiley.
• A.G. Journel & Ch.J. Huijbregts, 1989. “Mining Geoestatistics”, Academic Press.
• J. Ortiz, Apuntes de curso: “MI5041 – Evaluación de Yacimientos”, Universidad de Chile.
• X. Emery, Apuntes de curso: “MI4040 – Análisis Estadístico y Geoestadístico de Datos”,
Universidad de Chile.
Efecto Dunning Kruger:
• You are not so Smart – The Dunning Kruger Effect
https://open.spotify.com/episode/4ICkLhXT3HkqBvvKXYVkVt?si=hF2TTtYgRR2Dsqlv965E
MQ (en inglés)
• Why incompetent people think they're amazing - David Dunning – TED Ed
https://www.youtube.com/watch?v=pOLmD_WVY-E (con subtítulos)
Fundamentos de Estadística 60