Estadística IB
Estadística IB
Estadística IB
Estadística
Requisitos matemáticos:
Realizar las operaciones aritméticas básicas: suma, resta,
✓
multiplicación y división.
Dibujar gráficos (con escalas y ejes adecuados) con dos variables que
5.
muestren relaciones lineales o no lineales.
Traducción al español
La investigación biológica se basa en la observación y en la realización
de experimentos con el objetivo de poner a prueba las hipótesis
científicas que intentan explicar las propiedades o el funcionamiento
de los seres vivos.
http://www.bafrenz.com/birds/RTHuWeigh.htm
5
Pero en un experimento intervienen muchas otras variables, que deberían
permanecer constantes para no influir en los resultados: se denominan
variables controladas (en el caso de Elodea, por ejemplo, la intensidad de
la luz). Las que no hay modo de controlar son otras posibles variables no
controladas que, en cualquier caso, se deben al menos identificar.
Trata de identificar las variables que representan
las imágenes y si se pueden controlar o no.
90 - 94 2
95 - 99 3
intervalos 100 - 104 3 frecuencias
105 - 109 5
110 - 114 4
115 - 119 3
120 - 124 3
125 - 129 1
Procesamiento de los datos brutos: datos calculados
Los datos brutos se procesan ya sea de forma numérica o gráfica.
A lo largo de la presentación veremos ejemplos y cómo se
calculan los estadísticos más frecuente:
- Media: es el valor característico de una serie de datos
cuantitativos y se obtiene a partir de la suma de todos sus
valores dividida entre el número de sumandos.
- Mediana: el valor central en un conjunto de datos ordenados.
- Moda: es el valor que se repite con una mayor frecuencia en
una serie de datos.
- Diferencias en %: Comparar datos expresando su diferencia
en tanto por ciento.
Sin embargo, en una distribución normal de datos, tan frecuente
en Biología, la media, la moda y la mediana tienen el mismo
valor.
Gráfico de barras Se suele utilizar cuando no hay relación directa entre las
barras consecutivas. Se deja un espacio entre las barras.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Histograma
Un estudiante midió la longitud de 24 hojas de
Tabla. Frecuencia de las dos arbustos de laurel, uno que crece en un
longitudes de las hojas de ambiente soleado y el otro en la sombra, y
laurel al sol y a la sombra organizó los datos en intervalos como se
muestra en la siguiente tabla.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal Se suele utilizar para visualizar los datos de un experimento
con una variable independiente (VI) y otra dependiente (VD).
Por ejemplo para ver cómo cambia una variable a lo largo del
tiempo.
En un ensayo clínico (experimento) se estudia el
efecto de un medicamento (VI) sobre la evolución
de la enfermedad de un paciente. Para ello
medimos dos variables dependientes, su masa y
sus pulsaciones durante un periodo de 26 días.
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal En el siguiente experimento se ha medido el efecto que
distintas concentraciones de agua oxigenada tiene sobre
el volumen de gas oxígeno producido por una levadura.
Representación gráfica de los datos
Se suelen utilizar para ver si hay alguna correlación
Gráfico de dispersión entre dos series de datos que deseamos comparar.
A los puntos se les suele agregar una línea de
tendencia o de ajuste que facilita la comprensión.
alimento.
Los investigadores de la evolución de los
colibríes han tomado medidas de la longitud de
sus picos y del tamaño de sus cuerpos, para
poder compararlos mediante análisis estadísticos
y ver si hay diferencias significativas entre ellos.
http://www.flickr.com/photos/7927684@N03/5715947244
Colibrí con polen en el pico. http://www.flickr.com/photos/49028945@N00/5590780116
http://www.thelensflare.com/gallery/p_hummingbirdpollenbeak_25599.php
http://www.flickr.com/photos/29401025@N06/6093016983
Comparemos dos especies de colibrís:
Macho (♂) Hembra (♀)
http://es.wikipedia.org/wiki/Archivo:07-09-13RTHummingbird.jpg
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg
http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
http://fireflyforest.net/firefly/2006/03/02/broad-billed-hummingbird/
La pregunta de la investigación es si existen diferencias significativas entre las
dos especies, en cuanto a:
a) Longitud del pico b) Masa del cuerpo
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
medido
estimado
(± 0.5 mm en ambos extremos) mitad
y la incertidumbre
es (±0.5g)
Debemos elegir siempre el instrumento de medida más adecuado en cada caso
y cuya incertidumbre, además, sea la menor posible (no superior a un 10%).
Población B 2,3 2,3 2,4 2,0 2,3 4,3 2,2 2,2 2,0 3,1
Datos brutos tabulados del estudio sobre los colibríes
DELETE
X
Comparación de medias: Representación gráfica.
Título descriptivo, con el
número de gráfica.
Puntos etiquetados
Eje-x etiquetado
De las medias podrías
concluir únicamente
que C. latirostris tiene
el pico más largo que A.
colubris.
media media
rango rango
La media aquí sería la misma, pero hay una mayor
En este caso , el rango (valor máx-
mín) es pequeño; la mayoría están dispersión de los datos: hay mayor variabilidad.
cerca de la media. Esto se conoce También hay una DISTRIBUCIÓN NORMAL
como DISTRIBUCIÓN NORMAL (con La media sólo tiene sentido si los datos siguen una
forma de campana). distribución normal. En Biología la mayor parte de las
variables biológicas siguen una distribución normal.
La desviación estándar o típica (s) de una muestra es una medida de la dispersión
de la mayoría de los datos. Significa exactamente que el 68% de todos los datos se
encuentran en ± 1 desviación típica (± s) de la media. Esto nos proporciona una
visión más fiable de la “verdadera” dispersión de los datos y no se altera por uno o
dos valores anómalos.
El 68% de los valores se encuentran a
1s de la media, a uno y otro lado
-1s +1s
Este valor está lejos de los demás La gran mayoría de los valores se agrupan en este extremo
datos, haciendo que la media y el de la distribución. La media no está en el centro de esta
rango estén sesgados agrupación ya que ha sido desviada por el valor 21
Puedes apreciar la
diferencia clara en el
tamaño de las barras
de error.
La variabilidad se
visualiza.
(la diferencia entre medias se debe (la diferencia entre medias es más
probablemente al azar) probable que sea real)
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)?
b. Una desviación estándar mayor?
c. Resultados más precisos?
d. Una media más alta?
e. Una mayor frecuencia alrededor de la media?
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)? Serie B Serie B
b. Una desviación estándar mayor? Serie B Serie B
c. Resultados más precisos? Serie A (puede
Serie Asugerirse)
(puede
sugerirse) Serie B
d. Una media más alta? Serie A Serie B
El test-t es un test o
prueba estadística que
nos ayuda a determinar
la significancia de la
diferencia entre las
Pruebas o test estadísticos
▪ Son necesarias para poder extrapolar los resultados de la muestra de
estudio a los de la población general (estadística inferencial).
▪ Según que las variables sean cuantitativas o cualitativas, del número de
datos que tengamos y si los datos siguen una distribución normal o no, se
aplican una pruebas u otras. En BI veremos dos tipos de pruebas
estadísticas: el test-t y la prueba chi-cuadrado.
▪ En el test-t
necesitamos verificar
previamente que los
datos siguen una
distribución normal:
es suficiente
visualizando las
frecuencias
agrupadas de los
datos en un
histograma
aproximado
El test-t o prueba t de Student
▪ Sólo es válido si los datos siguen una distribución normal.
▪ Con el test-t comparamos dos series de datos y empezamos
siempre estableciendo lo que se denomina la “Hipótesis nula”
(H0). Es una hipótesis estadística.
H0 = “No hay diferencia significativa”
Esto siempre es así.
➢Si el t-test dice que hay que aceptar H0 , concluimos que las medias
de las dos poblaciones no son significativamente diferentes.
➢Si nuestro t-test dice que hay que rechazar H0 , concluimos que las
medias de las dos poblaciones sí son significativamente diferentes.
Para calcular el valor de t lo hacemos con una hoja de cálculo (en Excel: PRUEBA.T),
pero en el examen del BI el valor de t se da en el enunciado y únicamente tendremos
que compararlo con un valor crítico que tenemos que encontrar en una tabla, que
también se facilita.
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de nuestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
Gr 2 2.92 4.30 6.96 9.92
ad 3 2.35 3.18 4.54 5.84
¿Qué sucede con el valor de P a 4 2.13 2.78 3.75 4.60
medida que el nivel de os
5 2.02 2.57 3.37 4.03
de
confianza en los resultados 6 1.94 2.45 3.14 3.71
lib 7 1.89 2.36 3.00 3.50
aumenta?
ert 8 1.86 2.31 2.90 3.36
ad 9 1.83 2.26 2.82 3.25
¿Qué sucede con el valor crítico
10 1.81 2.23 2.76 3.17
a media que el nivel de
confianza aumenta?
“valores críticos de t”
“valores críticos”
Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”
grados de libertad =
P=
valor crítico =
P = 0,05
P = 0,05
p=
valor crítico =
p = 0,05
t vc
1,61 < 2,045 Aceptamos H0
p=
valor crítico =
p = 0,05
Conclusión:
Hay una diferencia significativa en la
longitud del pico entre A. colubris and C.
(=PRUEBA.T)
latirostris.
El Intervalo de Confianza del 95% es otro parámetro estadístico que representa
también la variabilidad de los datos e incluso es más exacto que la desviación
estándar. También se pueden utilizar en las barras de error. Es difícil de calcular a
mano pero muy fácil con una hoja de cálculo.
INTERVALO.CONFIANZA.NORM(0.05,C15,10)
no hay solapamiento
=INTERVALO.CONFIANZA.NORM(0.05,DESVEST,tamaño)
=INTERVALO.CONFIANZA.NORM(0.05,C15,10)
Interesante estudio: ¿Con los “mejores” profesores se aprende más?
Unos estudiantes observaron un video de un minuto de profesor explicando un tema. En un
vídeo, el profesor explicaba de forma fluida y atractiva. En el otro vídeo, el profesor era
menos fluido y explicaba de forma vacilante leyendo unas notas.
Predijeron cuánto debían aprender sobre
el tema (trataba sobre gatos calicó y genética) y lo compararon con su
puntuación actual.
(Barras de error = desviación estándar).
Previsto
Real
Rendimiento medio
(=PRUEBA.T)
Serie de datos A
Serie de datos B
http://www.youtube.com/watch?v=fJEZg4QN760
los perros
saltan más alto
que las de los
gatos, ganador
del Premio
IgNobel de
Biología, 2008.
Título: “Estudio comparativo de la masa del cuerpo en A. colubris y C. latirostris”
4 2,9 3,7
un informe con el
5 2,9 3,8 procedimiento seguido y
6 2,9 3,9 los resultados obtenidos,
7 3,0 3,9 que incluya capturas de
8 3,1 4,0 pantalla de la hoja de
9 3,4 4,1 cálculo y de los gráficos
10 3,6 4,1 realizados.
El coeficiente de correlación
La correlación (r) puede sugerir relaciones entre series de datos. Se calcula fácilmente con
la hoja de cálculo. Veamos si hay correlación entre la longitud del pico y el peso del colibrí.
Primero representamos los datos en un gráfico de dispersión, le agregamos una línea de
ajuste y vemos el valor de r.
Pruébalo aquí:
Raw data points: 1 2 3 4 5 6 7 8 9 10media des est
Variable A (unidades, ±) #¡DIV/0! #¡DIV/0!
Variable B (unidades, ±) #¡DIV/0! #¡DIV/0!
¡Recuerda, las variables A y B tienen que alinearse! Media y desviación estándar sólo tienen valor descriptivo aquí.
http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity
Correlación no implica causalidad.
http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
(Fuente: XKCD-es)
http://goo.gl/SoczQo
Flamenco Dancer, by Steve Corey
http://www.flickr.com/photos/22016744@N06/7952552148
i-Biology.net