0 01 Estadística
0 01 Estadística
0 01 Estadística
Estadística
Requisitos matemáticos:
Realizar las operaciones aritméticas básicas: suma, resta, multiplicación y
división.
Dibujar gráficos (con escalas y ejes adecuados) con dos variables que
muestren relaciones lineales o no lineales.
3. Explicar cómo la desviación típica es útil para comparar las medias y la dispersión
de datos de dos o más muestras.
4. Indicar que las barras de error son una representación gráfica de la variabilidad de
los datos.
5. Dibujar gráficos (con escalas y ejes adecuados) con dos variables que muestren
relaciones lineales o no lineales.
Traducción al español
La investigación biológica se basa en la observación y en la realización
de experimentos con el objetivo de poner a prueba las hipótesis
científicas que intentan explicar las propiedades o el funcionamiento
de los seres vivos.
http://www.bafrenz.com/birds/RTHuWeigh.htm
90 - 94 2
95 - 99 3
intervalos 100 - 104 3 frecuencias
105 - 109 5
110 - 114 4
115 - 119 3
120 - 124 3
125 - 129 1
Procesamiento de los datos brutos: datos calculados
Los datos brutos se procesan ya sea de forma numérica o gráfica.
A lo largo de la presentación veremos ejemplos y cómo se
calculan los estadísticos más frecuente:
- Media: es el valor característico de una serie de datos
cuantitativos y se obtiene a partir de la suma de todos sus
valores dividida entre el número de sumandos.
- Mediana: el valor central en un conjunto de datos ordenados.
- Moda: es el valor que se repite con una mayor frecuencia en
una serie de datos.
- Diferencias en %: Comparar datos expresando su diferencia
en tanto por ciento.
Sin embargo, en una distribución normal de datos, tan frecuente
en Biología, la media, la moda y la mediana tienen el mismo
valor.
Gráfico de barras Se suele utilizar cuando no hay relación directa entre las
barras consecutivas. Se deja un espacio entre las barras.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Histograma
Un estudiante midió la longitud de 24 hojas de
Tabla. Frecuencia de las dos arbustos de laurel, uno que crece en un
longitudes de las hojas de ambiente soleado y el otro en la sombra, y
laurel al sol y a la sombra organizó los datos en intervalos como se
muestra en la siguiente tabla.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal Se suele utilizar para visualizar los datos de un experimento
con una variable independiente (VI) y otra dependiente (VD).
Por ejemplo para ver cómo cambia una variable a lo largo del
tiempo.
En un ensayo clínico (experimento) se estudia el
efecto de un medicamento (VI) sobre la evolución
de la enfermedad de un paciente. Para ello
medimos dos variables dependientes, su masa y
sus pulsaciones durante un periodo de 26 días.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal En el siguiente experimento se ha medido el efecto que
distintas concentraciones de agua oxigenada tiene sobre
el volumen de gas oxígeno producido por una levadura.
Representación gráfica de los datos
Se suelen utilizar para ver si hay alguna correlación
Gráfico de dispersión entre dos series de datos que deseamos comparar.
A los puntos se les suele agregar una línea de
tendencia o de ajuste que facilita la comprensión.
alimento.
Los investigadores de la evolución de los
colibríes han tomado medidas de la longitud de
sus picos y del tamaño de sus cuerpos, para
poder compararlos mediante análisis estadísticos
y ver si hay diferencias significativas entre ellos.
http://www.flickr.com/photos/7927684@N03/5715947244
Colibrí con polen en el pico. http://www.flickr.com/photos/49028945@N00/5590780116
http://www.thelensflare.com/gallery/p_hummingbirdpollenbeak_25599.php
http://www.flickr.com/photos/29401025@N06/6093016983
Comparemos dos especies de colibrís:
Macho (♂) Hembra (♀)
http://es.wikipedia.org/wiki/Archivo:07-09-13RTHummingbird.jpg
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg
http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
http://fireflyforest.net/firefly/2006/03/02/broad-billed-hummingbird/
La pregunta de la investigación es si existen diferencias significativas entre las
dos especies, en cuanto a:
a) Longitud del pico b) Masa del cuerpo
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
Población B 2,3 2,3 2,4 2,0 2,3 4,3 2,2 2,2 2,0 3,1
Datos brutos tabulados del estudio sobre los colibríes
• Una fórmula
Comparación de la longitud del pico de
en A. colubris y C. latirostris
• Tu calculadora (suma de valores/n)
Longitud del pico / mm ± 0.1 • Una hoja de cálculo de Excel, OpenCalc o Google
n A. colubris C. latirostris Drive (función PROMEDIO O AVERAGE)
1 13,0 17,0
2 14,0 18,0 n = tamaño de la muestra. Mientras más
3 15,0 18,0 grande mejor. En este caso n=10 para cada
4 15,0 18,0 grupo.
5 15,0 19,0
6 16,0 19,0 Todos los valores deben estar centrados en la
7 16,0 19,0 celda, con decimales consistentes con la
8 18,0 20,0 incertidumbre del instrumento de medida.
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8 =PROMEDIO ó AVERAGE (distinguir de los
datos en bruto empleando cursiva o
negrita).
La media tiene siempre el mismo número de
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del pico Calcular la media utilizando:
de en A. colubris y C. latirostris
Diferencia en porcentaje
En el caso de los colibríes:
A = 0,50 Comparar la longitud del pico de A. colubris con la
Considere estos dos datos.
B = 0,75
de C. latirostris
Diferencia en %: Comparación simple Diferencia en porcentaje
DELETE
X
Comparación de medias: Representación gráfica.
Gráfico 1: Comparación de la media de las longitudes
de los picos en A. colubris y C. latirostris. Título descriptivo, con el
20.0
número de gráfica.
C. latirostris, 18.8mm
18.0
Puntos etiquetados
16.0 A. colubris, 15.9mm
Longitud media del pico / mm ±0,1
14.0
8.0
Asegúrate que el eje Y empieza
en cero.
6.0
4.0
2.0
0.0
Especies de colibríes Eje-x etiquetado
Gráfico 1: Comparación de la media de las longitudes
de los picos en A. colubris y C. latirostris.
20.0
C. latirostris, 18.8mm
18.0
14.0
que C. latirostris tiene
12.0 el pico más largo que A.
10.0
colubris.
8.0
Pero la media sólo
6.0
cuenta una parte de la
historia.
4.0
2.0
0.0
Especies de colibríes
Gráfico. Comparación de la longitud media del pico
en A. colubris y C. latirostris
19.5
C. latirostris
18.5
18,8
También podemos
comparar los datos con un
Longitud del pico en mm (+/+ 0,1 mm)
15.5
14.5
13.5
12.5
Especies de colibrís
C. latirostris tiene el pico más largo que A. colubris.
… pero esto es solo parte de la historia.
media media
rango rango
En este caso , el rango (valor máx- La media aquí sería la misma, pero hay una mayor
mín) es pequeño; la mayoría están dispersión de los datos: hay mayor variabilidad.
cerca de la media. Esto se conoce También hay una DISTRIBUCIÓN NORMAL
como DISTRIBUCIÓN NORMAL (con La media sólo tiene sentido si los datos siguen una
forma de campana). distribución normal. En Biología la mayor parte de las
variables biológicas siguen una distribución normal.
La desviación estándar o típica (s) de una muestra es una medida de la dispersión
de la mayoría de los datos. Significa exactamente que el 68% de todos los datos se
encuentran en ± 1 desviación típica (± s) de la media. Esto nos proporciona una
visión más fiable de la “verdadera” dispersión de los datos y no se altera por uno o
dos valores anómalos.
El 68% de los valores se encuentran a
1s de la media, a uno y otro lado
-1s +1s
Este valor está lejos de los demás La gran mayoría de los valores se agrupan en este extremo
datos, haciendo que la media y el de la distribución. La media no está en el centro de esta
rango estén sesgados agrupación ya que ha sido desviada por el valor 21
15.0
diferencia clara en el
tamaño de las barras
de error.
10.0 La variabilidad se
visualiza.
0.0
Especies de colibrís
¿Qué significa esto?
El solapamiento de las barras de error da una pista sobre la
significancia de la diferencia entre dos series de datos.
(la diferencia entre medias se debe (la diferencia entre medias es más
probablemente al azar) probable que sea real)
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)?
b. Una desviación estándar mayor?
c. Resultados más precisos?
d. Una media más alta?
e. Una mayor frecuencia alrededor de la media?
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)? Serie B Serie B
b. Una desviación estándar mayor? Serie B Serie B
c. Resultados más precisos? Serie A (puede
Serie sugerirse)
A (puede
sugerirse) Serie B
d. Una media más alta? Serie A Serie B
Así
C. latirostris, 18.8mm que ¿cómo podemos saber si la
(n=10)
diferencia es significativa o no?
17.0
A. colubris, 15.9mm
(n=10)
Necesitamos utilizar un test estadístico.
Longitud media del pico/ mm ±0,1
12.0
7.0
El test-t es un test o prueba
estadística que nos ayuda a
determinar la significancia
2.0
de la diferencia entre las
medias de las dos series de
-3.0
Especies de colibrís
datos.
Pruebas o test estadísticos
Son necesarias para poder extrapolar los resultados de la muestra de
estudio a los de la población general (estadística inferencial).
Según que las variables sean cuantitativas o cualitativas, del número de
datos que tengamos y si los datos siguen una distribución normal o no, se
aplican una pruebas u otras. En BI veremos dos tipos de pruebas
estadísticas: el test-t y la prueba chi-cuadrado.
En el test-t
necesitamos verificar
previamente que los
datos siguen una
distribución normal:
es suficiente
visualizando las
frecuencias
agrupadas de los
datos en un
histograma
aproximado
El test-t o prueba t de Student
Sólo es válido si los datos siguen una distribución normal.
Con el test-t comparamos dos series de datos y empezamos
siempre estableciendo lo que se denomina la “Hipótesis nula”
(H0). Es una hipótesis estadística.
H0 = “No hay diferencia significativa”
Esto siempre es así.
Si el t-test dice que hay que aceptar H0 , concluimos que las medias
de las dos poblaciones no son significativamente diferentes.
Si nuestro t-test dice que hay que rechazar H0 , concluimos que las
medias de las dos poblaciones sí son significativamente diferentes.
Para calcular el valor de t lo hacemos con una hoja de cálculo (en Excel: PRUEBA.T),
pero en el examen del BI el valor de t se da en el enunciado y únicamente tendremos
que compararlo con un valor crítico que tenemos que encontrar en una tabla, que
también se facilita.
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de nuestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
2 2.92 4.30 6.96 9.92
Grados de libertad
3 2.35 3.18 4.54 5.84
¿Qué sucede con el valor de P a 4 2.13 2.78 3.75 4.60
medida que el nivel de 5 2.02 2.57 3.37 4.03
confianza en los resultados 6 1.94 2.45 3.14 3.71
aumenta? 7 1.89 2.36 3.00 3.50
8 1.86 2.31 2.90 3.36
9 1.83 2.26 2.82 3.25
¿Qué sucede con el valor crítico
10 1.81 2.23 2.76 3.17
a media que el nivel de
confianza aumenta?
“valores críticos de t”
Grados de libertad
Generalmente utilizamos 3 2.35 3.18 4.54 5.84
4 2.13 2.78 3.75 4.60
P<0.05 (95% confianza) en
5 2.02 2.57 3.37 4.03
Biología, ya que nuestros datos
6 1.94 2.45 3.14 3.71
pueden ser altamente variables.
7 1.89 2.36 3.00 3.50
8 1.86 2.31 2.90 3.36
9 1.83 2.26 2.82 3.25
10 1.81 2.23 2.76 3.17
“valores críticos”
Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”
grados de libertad =
P=
valor crítico =
P = 0,05
P = 0,05
p=
valor crítico =
p = 0,05
t vc
1,61 < 2,045 Aceptamos H0
p=
valor crítico =
p = 0,05
Donde:
= media de la primera serie
= media de la segunda serie
= desviación típica de la primera serie
= desviación típica de la segunda serie
= muestra serie 1
= muestra serie 2
Conclusión:
Hay una diferencia significativa en la
longitud del pico entre A. colubris and C.
(=PRUEBA.T)
latirostris.
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)
(=PRUEBA.T)
Serie de datos A
Serie de datos B
Grados de libertad
3 2.35 3.18 4.54 5.84 7.45
4 2.13 2.78 3.75 4.60 5.60
5 2.02 2.57 3.37 4.03 4.77
6 1.94 2.45 3.14 3.71 4.32
7 1.89 2.36 3.00 3.50 4.03
8 1.86 2.31 2.90 3.36 3.83
9 1.83 2.26 2.82 3.25 3.69
10 1.81 2.23 2.76 3.17 3.58
11 1.80 2.20 2.72 3.11 3.50
12 1.78 2.18 2.68 3.05 3.43
Grados de libertad
13 1.77 2.16 2.65 3.01 3.37
14 1.76 2.14 2.62 2.98 3.33
15 1.75 2.13 2.60 2.95 3.29
16 1.75 2.12 2.58 2.92 3.25
17 1.74 2.11 2.57 2.90 3.22
18 1.73 2.10 2.55 2.88 3.20
19 1.73 2.09 2.54 2.86 3.17
20 1.72 2.09 2.53 2.85 3.15
21 1.72 2.08 2.52 2.83 3.14
22 1.72 2.07 2.51 2.82 3.12
Grados de libertad
Pruébalo aquí:
Raw data points: 1 2 3 4 5 6 7 8 9 10media des est
Variable A (unidades, ±) #¡DIV/0! #¡DIV/0!
Variable B (unidades, ±) #¡DIV/0! #¡DIV/0!
¡Recuerda, las variables A y B tienen que alinearse! Media y desviación estándar sólo tienen valor descriptivo aquí.
Inserta columnas delante de la media para extra de datos. Correlación = #¡DIV/0!
10
0
2 3 4 5 6 7 8 9 10 11
Variable (unidades, ±) From MrT’s Excel Statbook.
La diabetes y la obesidad son “factores de riesgo” ¿uno de
otro?
Hay una fuerte correlación entre ellos, pero
eso no significa que uno sea la causa del otro?
http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity
Correlación no implica causalidad.
http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
(Fuente: XKCD-es)