0 01 Estadística

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 97

Requisitos matemáticos:

Estadística

Presentación de Stephen Taylor (


http://www.slideshare.net/gurustip/statist
ical-analysis-presentation
)
Traducido y adaptado con permiso por
Aureliano Fernández

Image: 'Hummingbird Checks Out Flower'


http://www.flickr.com/photos/25659032@N07/7200193254 Found on flickrcc .net
Todos los alumnos de Biología del Programa
Requisitos matemáticos: del Diploma deberán ser capaces de:

Requisitos matemáticos:
Realizar las operaciones aritméticas básicas: suma, resta, multiplicación y
 división.

Realizar cálculos con medias, decimales, fracciones, porcentajes y


 proporciones.

Representar e interpretar datos de frecuencias en forma de gráficos de


 barras, gráficos e histogramas, proporciones directas e inversas incluidas.

Dibujar gráficos (con escalas y ejes adecuados) con dos variables que
 muestren relaciones lineales o no lineales.

Dibujar e interpretar diagramas de dispersión para identificar una


 correlación entre dos variables y comprender que la existencia de una
correlación no implica por sí misma una relación causal.

Determinar la moda y la mediana de un conjunto de datos, y calcular y


 analizar la desviación estándar.
Seleccionar pruebas estadísticas apropiadas para el análisis de datos
 particulares e interpretar los resultados.

Guía de Biología, 2014


En esta presentación veremos los siguientes elementos:
Requisitos matemáticos: Estadística descriptiva y representación gráfica

1. Determinar la media, la moda y la mediana de un conjunto de datos, y calcular y


analizar la desviación estándar.

Indicar que el término desviación típica se usa para resumir la dispersión de


2. valores con respecto a la media y que el 68% de los valores difieren de la media ±1
vez el valor de la desviación estándar o típica.

3. Explicar cómo la desviación típica es útil para comparar las medias y la dispersión
de datos de dos o más muestras.

4. Indicar que las barras de error son una representación gráfica de la variabilidad de
los datos.

5. Dibujar gráficos (con escalas y ejes adecuados) con dos variables que muestren
relaciones lineales o no lineales.

Dibujar e interpretar diagramas de dispersión para identificar una correlación


6. entre dos variables y comprender que la existencia de una correlación no implica
por sí misma una relación causal.

7. Seleccionar pruebas estadísticas apropiadas para el análisis de datos particulares e


interpretar los resultados.

A mano Con hoja de cálculo Con calculadora gráfica


¿Cómo puedo hacer cálculos estadísticos con mi calculadora
gráfica?

Video tutorial en inglés sobre cómo calcular la media


y la desviación estándar con TI-84plus
TCI-84-plus:
Guía del usuario
http://i-biology.net/ict-in-ib-biology/spreadsheets-graphing/statexcel/
El libro de Bioestadística en Excel de
Stephen Taylor constituye una
excelente guía con ejemplos
interactivos de tablas, gráficos y tests
estadísticos.

Traducción al español
La investigación biológica se basa en la observación y en la realización
de experimentos con el objetivo de poner a prueba las hipótesis
científicas que intentan explicar las propiedades o el funcionamiento
de los seres vivos.

http://www.bafrenz.com/birds/RTHuWeigh.htm

La observación científica requiere siempre la


medición cuidadosa de variables y el registro
http://www.flickr.com/photos/ciat/4526589942/
sistemático de datos.

La estadística es clave en todas las etapas de la investigación


biológica: diseño de la investigación, obtención y procesamiento
de datos y elaboración de conclusiones.
Variables cuantitativas y cualitativas
En estadística, se emplea el término variable para indicar cada una de las
características de un ser vivo o de un sistema que se pueda medir o
contar.
• Variables cuantitativas: tienen valores numéricos. Pueden ser:
• Discretas: sólo números enteros. Ej.: número de hijos 0, 1, 2, 3, …
• Continuas: con números fraccionarios. Ej.: altura 1,5 m (recuerda que
tanto la coma como el punto se pueden utilizar como separador
decimal; cada vez se utiliza más el punto).
• Variables cualitativas: con valores categóricos o atributos. Por ejemplo:
sexo masculino/sexo femenino. Ánade real o azulón (Anas platyrhynchos)

• Puesta: 3-12 huevos Var. discreta


• Color del plumaje de las crías: amarillo o
marrón a manchas Var. cualitativa

• Peso del adulto: 0.72-1.58 kg


Var. continua
http://www.flickr.com/photos/79471640@N00/485201047
En las investigaciones debemos procurar trabajar,
siempre que sea posible, variables cuantitativas.
Tipos de investigaciones
 En Biología los organismos presentan una extraordinaria variabilidad en
sus características a todos los niveles. Y es que hay muchos factores, ya
sean propios o del medio en el que viven, que son cambiantes y que
influyen sobre los seres vivos.
 Las investigaciones biológicas suelen ser fundamentalmente de dos
tipos: experimentos o correlaciones.
 En cualquier caso, para estudiar los seres vivos, los científicos toman
muestras representativas de una población, y luego aplican:
• estadística descriptiva, para caracterizar las muestras, y después
• estadística inferencial, para obtener conclusiones sobre la
población original.

Fuente: Life Stats Primer (


http://life9e.sinauer.com/life9e/content/pdfs/Life_Stats_Primer.pdf)
1) Experimentos
 Un experimento es cuando modificamos intencionadamente un factor (variable
X) y buscamos el efecto que tiene sobre otro (variable Y). En los experimentos
podemos identificar cuatro tipos de variables:
• La variable independiente (que es la variable X).
• La variable dependiente (que es la variable Y).
• Otras variables que podemos controlar.
• Otras variables que no podemos controlar.
 En todo experimento hay siempre una pregunta de
investigación: Elodea canadienses, una planta acuática

¿Cuál es el efecto de X sobre Y? muy utilizada en acuarios.


http://www.flickr.com/photos/40964293@N07/3920527577

Por ejemplo: ¿Cuál es el efecto de la temperatura


sobre la velocidad del movimiento de los
cloroplastos en Elodea?
La variable independiente es X (la temperatura) y
la variable dependiente es Y (la velocidad del
movimiento)
• La variable independiente es la que se supone que causa
Ciclosis en células de Elodea. Observa el
vídeo: el fenómeno estudiado.
http:// • La variable dependiente es el efecto que se observa y
www.microscopy-uk.org.uk/mag/imgnov00/cycloa3i.a
vi que podría estar causada por la variable independiente.
¿Cuál es el efecto de X sobre Y?
Ejemplo de experimento: ¿Cuál es el efecto de la temperatura (VI) sobre la
velocidad del movimiento de los cloroplastos en Elodea (VD)?
Se busca una posible relación causa-
efecto. Para ello ambas variables han
de ser medidas muy cuidadosamente.
• ¿Cómo medirías la temperatura
(VI)?
• ¿Cómo podemos medir la
velocidad de los cloroplastos (VD)?

¿Cuántas temperaturas diferentes ¿Cómo medimos Y además ¿cuántas veces


(o rango) vas a probar? ¿Cómo la velocidad de los debemos repetir el
medir la temperatura? ¿En qué cloroplastos y en experimento para que los
unidades? ¿Con cuánta precisión? qué unidades? datos sean fiables?
¿Cómo conseguirlo?
Pero en un experimento intervienen muchas otras variables, que deberían
permanecer constantes para no influir en los resultados: se denominan
variables controladas (en el caso de Elodea, por ejemplo, la intensidad de
la luz). Las que no hay modo de controlar son otras posibles variables no
controladas que, en cualquier caso, se deben al menos identificar.
Trata de identificar las variables que representan
las imágenes y si se pueden controlar o no.

¿Qué otras variables se podrían investigar en un


experimento posterior?

Todo esto forma parte del diseño del experimento


2) Correlaciones
 Las investigaciones biológicas también pueden ser correlaciones entre
conjuntos de datos. Una correlación es cuando tenemos series de datos de
dos o más variables y las comparamos para ver si hay semejanzas o
diferencias importantes entre ellas. No se busca una relación causa-efecto,
sino únicamente si hay alguna relación o correlación entre ellas.
 Por ejemplo: ¿Existen diferencias significativas entre el tamaño de las
hojas de un árbol cuando crece en zonas con poca intensidad de luz que
cuando crece en zonas con mucha intensidad de luz? Elegimos dos zonas
con distinta intensidades de luz (por ejemplo, una solana y una umbría) y
medimos la longitud de las hojas en una muestra de árboles en ambos
sitios.  Otro ejemplo: ¿Existen diferencias
significativas en el tamaño del pico
o la masa del cuerpo de dos
especies de colibríes?

Haya (Fagus sylvatica)


y detalle de sus hojas
y frutos
http://es.wikipedia.org/wiki/ http://es.wikipedia.org/wiki/
Archivo:Rubythroathummer65.j Archivo:BroadbilledHummingbird.jpg
pg
Presentación de los datos brutos
Los datos se presentan siempre en tablas. Y a continuación, si son muchos y si se
puede, se agrupan en intervalos y se muestra la frecuencia (nº de elementos que
hay en cada intervalo).
Tabla 1. Longitud de las hojas de haya en zona de umbría.

105 93 122 98 103 112 114 127 103 107 121 99


Longitud hoja/
mm±0.5
91 115 102 106 115 124 108 97 111 113 118 107

Longitud hoja / Número de


mm ± 0.5 hojas

90 - 94 2
95 - 99 3
intervalos 100 - 104 3 frecuencias
105 - 109 5
110 - 114 4
115 - 119 3
120 - 124 3
125 - 129 1
Procesamiento de los datos brutos: datos calculados
Los datos brutos se procesan ya sea de forma numérica o gráfica.
A lo largo de la presentación veremos ejemplos y cómo se
calculan los estadísticos más frecuente:
- Media: es el valor característico de una serie de datos
cuantitativos y se obtiene a partir de la suma de todos sus
valores dividida entre el número de sumandos.
- Mediana: el valor central en un conjunto de datos ordenados.
- Moda: es el valor que se repite con una mayor frecuencia en
una serie de datos.
- Diferencias en %: Comparar datos expresando su diferencia
en tanto por ciento.
Sin embargo, en una distribución normal de datos, tan frecuente
en Biología, la media, la moda y la mediana tienen el mismo
valor.

El procesamiento estadístico se completa con:


- Desviación estándar
- Coeficiente de correlación
- Distribución normal
- Pruebas estadísticas: Test-t, Prueba chi-cuadrado
Representación gráfica de los datos
Según el tipo de valores de las variables se utilizan más unas gráficas que otras:

Gráfico de barras Se suele utilizar cuando no hay relación directa entre las
barras consecutivas. Se deja un espacio entre las barras.

Un estudiante había leído acerca de experimentos


sobre abejas y quería investigar las preferencias
de color de la abeja. Colocó platos de cristal
transparentes que contenían agua y azúcar pero
con diferentes fondos de color y contó el número
de abejas que visitaban cada color durante un
período de 2 horas al mediodía.

Gráfico 1. Número de abejas que


visitan cada color en un periodo
de dos horas
Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos

Histograma Se suele utilizar cuando hay relación entre barras


consecutivas. No se deja espacio entre las barras.
Tabla. Transmisión de la luz de
extractos de pigmentos de hojas de sol Un estudiante notó que varias especies de
y sombra de tres especies diferentes plantas que crecen en un bosque sombreado
tenían un tono diferente de verde que los
miembros de la misma especie que crecen en
un prado. Extrajo con acetona los pigmentos
del cloroplasto y midió el % de transmisión de
la luz utilizando un colorímetro.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Histograma
Un estudiante midió la longitud de 24 hojas de
Tabla. Frecuencia de las dos arbustos de laurel, uno que crece en un
longitudes de las hojas de ambiente soleado y el otro en la sombra, y
laurel al sol y a la sombra organizó los datos en intervalos como se
muestra en la siguiente tabla.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal Se suele utilizar para visualizar los datos de un experimento
con una variable independiente (VI) y otra dependiente (VD).
Por ejemplo para ver cómo cambia una variable a lo largo del
tiempo.
En un ensayo clínico (experimento) se estudia el
efecto de un medicamento (VI) sobre la evolución
de la enfermedad de un paciente. Para ello
medimos dos variables dependientes, su masa y
sus pulsaciones durante un periodo de 26 días.

Ejemplos extraidos de IB Biology Student Guide for Internal Assessment. OSC, 2008.
Representación gráfica de los datos
Gráfico lineal En el siguiente experimento se ha medido el efecto que
distintas concentraciones de agua oxigenada tiene sobre
el volumen de gas oxígeno producido por una levadura.
Representación gráfica de los datos
Se suelen utilizar para ver si hay alguna correlación
Gráfico de dispersión entre dos series de datos que deseamos comparar.
A los puntos se les suele agregar una línea de
tendencia o de ajuste que facilita la comprensión.

Ejemplos extraidos de IB Biology Student Guide for


Internal Assessment. OSC, 2008.
Gráfico de sectores o circular Este tipo de gráfico es útil para mostrar
distintas proporciones sobre un total.
Tabla. Número de personas con
diferentes grupos sanguíneos en
Inglaterra y en Noruega
https://coltmonday.wordpress.com/2010/05/11/how-animals-spend-their-time/
Los colibríes (hummingbirds)son nectarívoros
(herbívoros que se alimentan del néctar de las
flores de algunas especies de plantas).
Al regresar para alimentarse, polinizan la flor.
Es un ejemplo de mutualismo –
beneficioso para ambos.

Como resultado de la selección


natural,
El pico de los colibríes ha
evolucionado.
Las aves con un pico mejor
adaptado a su fuente de
alimento preferida tienen
mayor oportunidad para
sobrevivir.
Photo: Archilochus colubris, from wikimedia commons, by Dick Daniels.
Los investigadores que estudian
anatomía comparada recogen
datos de la longitud del pico de dos
especies de colibríes: colibrí de
garganta rubí (Archilochus colubris)
y colibrí de pico ancho (Cynanthus
latirostris).

Para hacer esto, necesitan recoger


suficientes datos , relevantes y
fiables, para poder poner a prueba
lo que en estadística se denomina
la Hipótesis nula (H0) que dice:

“No hay diferencia significativa en


la longitud del pico entre las dos
especies.”
Photo: Archilochus colubris (male), wikimedia commons, by Joe Schneid
El tamaño de la muestra
debe ser lo bastante grande
para proporcionar suficientes
datos y que sean fiables, que
nos permitan aplicar un test
estadísticamente significativo
y relevante.

Debemos ser conscientes de


la incertidumbre de nuestros
instrumentos de medida y
del posible error en nuestros
resultados.

Photo: Broadbilled hummingbird (wikimedia commons).


Aprenderemos cómo se hace un análisis estadístico completo con un ejemplo de
una investigación práctica sobre dos especies de colibríes (o colibrís)
Los colibríes (Hummingbirds) son las aves
más pequeñas del mundo (parientes de los
vencejos) y son nectarívoros: herbívoros
que se alimentan del néctar de algunas
especies de flores.
Al regresar por alimento, polinizan las flores.
El pico de los colibríes ha evolucionado
hasta adaptarse a su fuente preferida de http://www.thelensflare.com/gallery/p_speed-of-a-hummingbird_61740.php

alimento.
Los investigadores de la evolución de los
colibríes han tomado medidas de la longitud de
sus picos y del tamaño de sus cuerpos, para
poder compararlos mediante análisis estadísticos
y ver si hay diferencias significativas entre ellos.

http://www.flickr.com/photos/7927684@N03/5715947244
Colibrí con polen en el pico. http://www.flickr.com/photos/49028945@N00/5590780116
http://www.thelensflare.com/gallery/p_hummingbirdpollenbeak_25599.php
http://www.flickr.com/photos/29401025@N06/6093016983
Comparemos dos especies de colibrís:
Macho (♂) Hembra (♀)

Colibrí de garganta rubí


(Archilochus colubris )

http://es.wikipedia.org/wiki/Archivo:07-09-13RTHummingbird.jpg
http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg

Macho (♂) Hembra (♀)

Colibrí de pico ancho


(Cynanthus latirostris)

http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg
http://fireflyforest.net/firefly/2006/03/02/broad-billed-hummingbird/
La pregunta de la investigación es si existen diferencias significativas entre las
dos especies, en cuanto a:
a) Longitud del pico b) Masa del cuerpo

http://es.wikipedia.org/wiki/Archivo:Rubythroathummer65.jpg http://es.wikipedia.org/wiki/Archivo:BroadbilledHummingbird.jpg

Colibrí de garganta rubí Colibrí de pico ancho


(Archilochus colubris) (Cynanthus latirostris)
Ruby-throated Hummingbird Broad-billed Hummingbird

Dos cosas importantes que, de entrada, debemos tener en cuenta:


1. El tamaño de la muestra (n) debe ser 2. La incertidumbre del instrumento
lo suficientemente grande (≥ 10-15) para de medida hay que conocerlo
que los datos sean fiables. siempre (<10% de la medida).
Mediciones e incertidumbre
Incertidumbre: es el margen de error de una medición
(siempre debemos conocerlo y reflejarlo)
p.ej., este colibrí pesa
para dispositivos
de medida digital

 división más pequeña

Las reglas tienen incertidumbre en ambos


extremos:
En instrumentos analógicos se suele utilizar como margen
de error ± la mitad de la división más pequeña que se
pueda medir. El último punto decimal es una estimación
Por ejemplo,
esta escala lee:
1 2 3
medido
estimado
(± 0.5 mm en ambos extremos) mitad
y la incertidumbre
es (±0.5g)
Debemos elegir siempre el instrumento de medida más adecuado en cada caso y cuya
incertidumbre, además, sea la menor posible (no superior a un 10%).

SEO. Manual del anillador.


Esta célula
mide 400 m
de longitud
con una
incertidumbre
de ± 10 m
Calibración del microscopio
Aumentos totales del Cada división pequeña del ocular
microscopio (dos líneas consecutivas)
X 40 25 m
X 100 10 m
X 400 2,5 m
Organización de los datos en tablas Tabla vertical:

Los datos brutos que se obtienen de cada medición Título de la tabla


se registran siempre en tablas, siguiendo unas n Variable / unidad ± incertidumbre
normas:
• Si se hace a mano las líneas se dibujan con regla. 1 13,2
• La tabla no se corta de una página a otra. 2 14,7
• Centrar y alinear las columnas de datos (utilizar 3 12,4
tabulador decimal en números fraccionarios). 4 13,9
• No poner más de un valor por celda.
5 13,3
• La mayoría de las tablas se organizan
6 10,5
verticalmente, pero también se puede hacer
horizontalmente. 7 12,0
• Los valores de una variable deben mantener 8 14,6
siempre el mismo número de decimales, en 9 14,3
consonancia con la incertidumbre de la medida. 10 10,8
Variable que se Unidad de
ha medido Título de la tabla
medida
Tabla horizontal: Longitud de la hoja/ mm ± 0,1
Incertidumbre
n 1 2 3 4 5 6 7 8 9 10
de la medida
Población A 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 1,1

Población B 2,3 2,3 2,4 2,0 2,3 4,3 2,2 2,2 2,0 3,1
Datos brutos tabulados del estudio sobre los colibríes

Tabla 1. Comparación de la longitud del Tabla 2. Comparación del tamaño de la masa


pico de en A. colubris y C. latirostris del cuerpo en A. colubris y C. latirostris

Longitud del pico / mm ± 0.1 Masa del cuerpo / g ± 0,05


n A. colubris C. latirostris n A. colubris C. latirostris
1 13,0 17,0 1 2,7 3,1
2 14,0 18,0 2 2,8 3,4
3 15,0 18,0 3 2,8 3,5
4 15,0 18,0 4 2,9 3,7
5 15,0 19,0 5 2,9 3,8
6 16,0 19,0 6 2,9 3,9
7 16,0 19,0 7 3,0 3,9
8 18,0 20,0 8 3,1 4,0
9 18,0 20,0 9 3,4 4,1
10 19,0 20,0 10 3,6 4,1
Procesamiento de los datos mediante estadísticas descriptivas
La media es una medida de la tendencia central de
una serie de datos. Calcular la media utilizando:

• Una fórmula
Comparación de la longitud del pico de
en A. colubris y C. latirostris
• Tu calculadora (suma de valores/n)
Longitud del pico / mm ± 0.1 • Una hoja de cálculo de Excel, OpenCalc o Google
n A. colubris C. latirostris Drive (función PROMEDIO O AVERAGE)
1 13,0 17,0
2 14,0 18,0 n = tamaño de la muestra. Mientras más
3 15,0 18,0 grande mejor. En este caso n=10 para cada
4 15,0 18,0 grupo.
5 15,0 19,0
6 16,0 19,0 Todos los valores deben estar centrados en la
7 16,0 19,0 celda, con decimales consistentes con la
8 18,0 20,0 incertidumbre del instrumento de medida.
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8 =PROMEDIO ó AVERAGE (distinguir de los
datos en bruto empleando cursiva o
negrita).
La media tiene siempre el mismo número de
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del pico Calcular la media utilizando:
de en A. colubris y C. latirostris

Longitud del pico / mm ± 0.1


• Una fórmula
n A. colubris C. latirostris
1 13,0 17,0 • Tu calculadora
2 14,0 18,0
3 15,0 18,0 • Una hoja de cálculo de Excel, OpenCalc o Google
4 15,0 18,0 Drive (función DESVEST)
5 15,0 19,0
6 16,0 19,0
7 16,0 19,0
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviación
estándar 1,91 1,03 =DESVEST (al calcular, escoger sólo datos brutos sin la media)

La desviación estándar puede tener un decimal más que


los datos brutos y la media.
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del pico
de en A. colubris y C. latirostris Análisis comparativo de los datos:
¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1
n A. colubris C. latirostris a. La media de la longitud del pico mayor?
1 13,0 17,0
2 14,0 18,0
3 15,0 18,0 b. La mayor variabilidad en los datos?
4 15,0 18,0
5 15,0 19,0 c. Calcular en porcentaje la diferencia de la
6 16,0 19,0
7 16,0 19,0
longitud del pico entre ambas especies.
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviación
estándar 1,91 1,03
La desviación estándar es una medida de la
dispersión de la mayoría de los datos.
Comparación de la longitud del pico
de en A. colubris y C. latirostris Análisis comparativo de los datos:
¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1
n A. colubris C. latirostris a. La media de la longitud del pico mayor?
1 13,0 17,0
2 14,0 18,0
C. latirostris
3 15,0 18,0 b. La mayor variabilidad en los datos?
4 15,0 18,0 A. colubris
5 15,0 19,0 c. Calcular en porcentaje la diferencia de la
6 16,0 19,0
7 16,0 19,0
longitud del pico entre ambas especies.
8 18,0 20,0
9 18,0 20,0
10 19,0 20,0
Media 15,9 18,8
Desviación
estándar 1,91 1,03
Comparar medias: Aprende a expresar la diferencia en tanto por ciento.

Diferencia en porcentaje
En el caso de los colibríes:
A = 0,50 Comparar la longitud del pico de A. colubris con la
Considere estos dos datos.
B = 0,75
de C. latirostris
Diferencia en %: Comparación simple Diferencia en porcentaje

Diferencia entre A y B A. colubris = 15,9


Diferencia en % = x 100
Longitud media del pico.
AoB C. lastirostris = 18,8

Sin valores negativos - sólo se considera la magnitud de la


diferencia. Diferencia en %: Comparación simple
Además hay dos respuestas aceptables.
diferencia
0.75 - 0.50 Diferencia en % = x 100
AoB
0,50
x 100 = 50 %
B es un 50% mayor que A Sin valores negativos - sólo se considera la magnitud de la diferencia.
Ó
Además hay dos respuestas aceptables.
0.75 - 0.50
0,75
x 100 = 33 %
15,9 – 18,8
A es un 33% menor que B 15,9
x 100 = 18 %
El pico de C. latirostris es un 18% mayor que el
Realizado sobre la hoja de cálculo del de A. colubris
Ó
libro de Estadística en Excel de Stephen 15,9 – 18,8
Taylor: 18,8
x 100 = 15 %
https://app.box.com/s/ay633gmn6vv1uub2t7k6 El pico de A. colubris es un 15% menor que el de
C. latirostris
La desviación estándar es una medida de la
dispersion de la mayoría de los datos.
Comparación de la longitud del pico
de en A. colubris y C. latirostris
Análisis comparativo de los datos:
¿Cuál de las dos series de datos tiene:
Longitud del pico / mm ± 0.1mm
n A. colubris C. latirostris a. La media de la longitud del pico
1 13,0 17,0 mayor?
2
3
14,0
15,0
18,0
18,0
C. latirostris
4 15,0 18,0
b. La mayor variabilidad en los datos?
5 15,0 19,0 A. colubris
6 16,0 19,0 c. Calcular en porcentaje la diferencia
7 16,0 19,0
de la longitud del pico entre ambas
8 18,0 20,0
9 18,0 20,0 especies.
10 19,0 20,0
Media 15,9 18,8 La longitud del pico de C. latirostris es un 18%
Desviación mayor que el de A. colubris.
estándar 1,91 1,03

Diferencia en % = (15,9-18,8/15,9)x100 = 18%


Cómo hacer un gráfico comparativo de los datos con una hoja de
cálculo (Excel)
DELETE
X

DELETE
X
Comparación de medias: Representación gráfica.
Gráfico 1: Comparación de la media de las longitudes
de los picos en A. colubris y C. latirostris. Título descriptivo, con el
20.0
número de gráfica.
C. latirostris, 18.8mm
18.0
Puntos etiquetados
16.0 A. colubris, 15.9mm
Longitud media del pico / mm ±0,1

14.0

12.0 Eje-Y claramente etiquetado,


con la incertidumbre.
10.0

8.0
Asegúrate que el eje Y empieza
en cero.
6.0

4.0

2.0

0.0
Especies de colibríes Eje-x etiquetado
Gráfico 1: Comparación de la media de las longitudes
de los picos en A. colubris y C. latirostris.

20.0

C. latirostris, 18.8mm
18.0

16.0 A. colubris, 15.9mm De las medias podrías


concluir únicamente
Longitud media del pico / mm ±0,1

14.0
que C. latirostris tiene
12.0 el pico más largo que A.
10.0
colubris.

8.0
Pero la media sólo
6.0
cuenta una parte de la
historia.
4.0

2.0

0.0
Especies de colibríes
Gráfico. Comparación de la longitud media del pico
en A. colubris y C. latirostris
19.5
C. latirostris

18.5
18,8
También podemos
comparar los datos con un
Longitud del pico en mm (+/+ 0,1 mm)

17.5 gráfico de barras


16.5
A. colubris
15,9

15.5

14.5

13.5

12.5

Especies de colibrís
C. latirostris tiene el pico más largo que A. colubris.
… pero esto es solo parte de la historia.

La media es una medida de la tendencia central de los


datos, pero no nos dice nada de la dispersión de los
datos.
Nuestros datos podrán estar agrupados alrededor de la
media, o tener mayor variabilidad

media media

rango rango
En este caso , el rango (valor máx- La media aquí sería la misma, pero hay una mayor
mín) es pequeño; la mayoría están dispersión de los datos: hay mayor variabilidad.
cerca de la media. Esto se conoce También hay una DISTRIBUCIÓN NORMAL
como DISTRIBUCIÓN NORMAL (con La media sólo tiene sentido si los datos siguen una
forma de campana). distribución normal. En Biología la mayor parte de las
variables biológicas siguen una distribución normal.
La desviación estándar o típica (s) de una muestra es una medida de la dispersión
de la mayoría de los datos. Significa exactamente que el 68% de todos los datos se
encuentran en ± 1 desviación típica (± s) de la media. Esto nos proporciona una
visión más fiable de la “verdadera” dispersión de los datos y no se altera por uno o
dos valores anómalos.
El 68% de los valores se encuentran a
1s de la media, a uno y otro lado
-1s +1s

Sólo unos pocos valores están


más alejados de 2s la media

-3s -2s -1s X 1s 2s 3s


- +2s
2s
El 95% de los valores se encuentran a
2s de la media, a uno y otro lado
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = - =
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = 75 - 21 = 54
¿Cuál es el rango de estos datos?
68, 56, 65, 75, 68, 74, 21, 67, 72, 69, 71, 67
Valores max – min = 75 - 21 = 54
Esto sugiere una gran variabilidad, pero veámoslo más detenidamente:

Este valor está lejos de los demás La gran mayoría de los valores se agrupan en este extremo
datos, haciendo que la media y el de la distribución. La media no está en el centro de esta
rango estén sesgados agrupación ya que ha sido desviada por el valor 21

El rango es grande, pero la media no está en el centro.


Esto sugiere que algunos valores están más lejos que la
mayoría de los demás y ha sesgado la distribución de los media
datos. Esto suele ocurrir cuando la muestra estudiada no
es lo suficientemente grande.

Distribución sesgada rango

En una distribución sesgada la media no es tan representativa de la centralidad de los datos


Cuestión práctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm
y una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la
correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cm


B. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cm
C. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cm
D. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm
Cuestión práctica
Hemos realizado una serie de medidas de longitud obteniendo una media de 2,5 cm
y una desviación típica de 0,5 cm. ¿Cuál de las siguientes afirmaciones es la
correcta?

A. El 68% de los datos se encuentran entre 2,5 cm y 3,5 cm


B. El 68% de los datos se encuentran entre 1,5 cm y 3,5 cm
C. El 95% de los datos se encuentran entre 1,5 cm y 3,5 cm
D. El 95% de los datos se encuentran entre 2,0 cm y 3,0 cm

Desv. típica (s) = 0,5 cm


68% de los datos están en ± 1s
Así que el 68% de los datos están entre 2,0 y 3,0 cm

95% de los datos están en ± 2s


Así que el 95% de los datos están entre 1,5 y 3,5 cm
Cuestión práctica
Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

¿Cuál de las siguientes es la mejor estimación de la desviación típica?


A) 0 B) 1 C) 6 D) 5
Cuestión práctica
Un conjunto de datos como éste: 4, 5, 5, 5, 6, 6, 6, 7, 7, 9 con una media de 6.

La mayoría de los datos son iguales a la media ± 1


La desviación típica es una medida de dónde se encuentran la
mayoría de los datos (68% ± 1s)
¿Cuál de las siguientes es la mejor estimación de la desviación típica?
A) 0 B) 1 C) 6 D) 5
Uso de Excel para calcular la desviación estándar:

DESVEST (no DESVESTA)

Señalar sólo los


datos brutos
La desviación estándar es una medida de la
dispersión de la mayoría de los datos. Las barras de
error son una representación gráfica de la
variabilidad de los datos.
Las barras de error pueden representar la desviación estándar, el rango o los
intervalos de confianza.
Cuál de las dos series de datos tiene:
a. La media más alta?

b. La mayor variabilidad en los datos?


La desviación estándar es una medida de la
dispersion de la mayoría de los datos. Las barras de
error son una representación gráfica de la
variabilidad de los datos.
Las barras de error pueden representar la desviación estándar, el rango o los
intervalos de confianza.
Cuál de las dos series de datos tiene:
a. La media más alta?
A
b. La mayor variabilidad en los datos?
B
Gráfico. Comparación de la longitud media del pico  En el título del gráfico
en A. colubris y C. latirostris
Las barras de error representan la desviación es- hay que especificar
tándar siempre qué es lo que
19.5
C. latirostris
representan las barras
18.5
18,8
de error.
Longitud del pico en mm (+/+ 0,1 mm)

17.5  Las barras de error no


16.5 A. colubris
siempre representan la
15,9
desviación estándar,
15.5
pueden representar
14.5 otros parámetros
13.5
estadísticos como el
error estándar o el
12.5
intervalo de confianza.
Especies de colibrís
Ponemos las barras de error para la desviación estándar en
nuestro gráfico.
Put the error bars for standard deviation on our graph.
Delete the horizontal error bars

Put the error bars for standard deviation on our graph.


Gráfico 1: Comparación de la media de las longi-
tudes de los picos en A. colubris y C. latirostris. El título se ha ajustado
(barras de error =  desviación estándar) para mostrar la fuente
de las barras de error.
Esto es muy
20.0
importante.
C. latirostris, 18.8mm

A. colubris, 15.9mm Puedes apreciar la


Longitud media del pico / mm ±0,1

15.0
diferencia clara en el
tamaño de las barras
de error.

10.0 La variabilidad se
visualiza.

5.0 Las barras de error se


solapan de alguna
manera.

0.0
Especies de colibrís
¿Qué significa esto?
El solapamiento de las barras de error da una pista sobre la
significancia de la diferencia entre dos series de datos.

Solapamiento grande Sin solapamiento

Muchos de los puntos de datos Ninguno (o muy pocos) puntos de


están compartidos entre ambas datos están compartidos entre
series de datos. ambas series de datos.
Los resultados probablemente no Los resultados probablemente son
son significativamente diferentes significativamente diferentes unos
unos de otros. de otros.

Cualquier diferencia La diferencia es más probable que


probablemente se debe al azar. sea ‘real’.
También podemos ver claramente el solapamiento si dibujamos los datos como
curvas de frecuencia:

Solapamiento grande Solapamiento pequeño


Muchos datos compartidos Pocos datos compartidos

Los resultados probablemente no son Los resultados probablemente sí son


significativamente diferentes significativamente diferentes

(la diferencia entre medias se debe (la diferencia entre medias es más
probablemente al azar) probable que sea real)
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)?
b. Una desviación estándar mayor?
c. Resultados más precisos?
d. Una media más alta?
e. Una mayor frecuencia alrededor de la media?
¿Qué serie de datos tiene:
a. Un mayor rango (alta variabilidad)? Serie B Serie B
b. Una desviación estándar mayor? Serie B Serie B
c. Resultados más precisos? Serie A (puede
Serie sugerirse)
A (puede
sugerirse) Serie B
d. Una media más alta? Serie A Serie B

e. Una mayor frecuencia alrededor de la media? Serie A


Gráfico 1: Comparación de la media de las longitu-
des de los picos en dos especies de colibrís, A. co- Nuestros resultados muestran un
lubris y C. latirostris. (barras de error = desviación
estándar) solapamiento muy pequeño entre las
22.0 dos series de datos.

Así
C. latirostris, 18.8mm que ¿cómo podemos saber si la
(n=10)
diferencia es significativa o no?
17.0
A. colubris, 15.9mm
(n=10)
Necesitamos utilizar un test estadístico.
Longitud media del pico/ mm ±0,1

12.0

7.0
El test-t es un test o prueba
estadística que nos ayuda a
determinar la significancia
2.0
de la diferencia entre las
medias de las dos series de
-3.0
Especies de colibrís
datos.
Pruebas o test estadísticos
 Son necesarias para poder extrapolar los resultados de la muestra de
estudio a los de la población general (estadística inferencial).
 Según que las variables sean cuantitativas o cualitativas, del número de
datos que tengamos y si los datos siguen una distribución normal o no, se
aplican una pruebas u otras. En BI veremos dos tipos de pruebas
estadísticas: el test-t y la prueba chi-cuadrado.
 En el test-t
necesitamos verificar
previamente que los
datos siguen una
distribución normal:
es suficiente
visualizando las
frecuencias
agrupadas de los
datos en un
histograma
aproximado
El test-t o prueba t de Student
 Sólo es válido si los datos siguen una distribución normal.
 Con el test-t comparamos dos series de datos y empezamos
siempre estableciendo lo que se denomina la “Hipótesis nula”
(H0). Es una hipótesis estadística.
H0 = “No hay diferencia significativa”
Esto siempre es así.

Si el t-test dice que hay que aceptar H0 , concluimos que las medias
de las dos poblaciones no son significativamente diferentes.
Si nuestro t-test dice que hay que rechazar H0 , concluimos que las
medias de las dos poblaciones sí son significativamente diferentes.

Para calcular el valor de t lo hacemos con una hoja de cálculo (en Excel: PRUEBA.T),
pero en el examen del BI el valor de t se da en el enunciado y únicamente tendremos
que compararlo con un valor crítico que tenemos que encontrar en una tabla, que
también se facilita.
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de nuestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
2 2.92 4.30 6.96 9.92

Grados de libertad
3 2.35 3.18 4.54 5.84
¿Qué sucede con el valor de P a 4 2.13 2.78 3.75 4.60
medida que el nivel de 5 2.02 2.57 3.37 4.03
confianza en los resultados 6 1.94 2.45 3.14 3.71
aumenta? 7 1.89 2.36 3.00 3.50
8 1.86 2.31 2.90 3.36
9 1.83 2.26 2.82 3.25
¿Qué sucede con el valor crítico
10 1.81 2.23 2.76 3.17
a media que el nivel de
confianza aumenta?
“valores críticos de t”

Así es cómo se hace en un examen: te dan el valor de t en el enunciado


y tienes que compararlo con una tabla que también se da en el examen.
disminuye p = más confianza
¿Por rechazamos H0 si t>vc? para rechazar H0
Si el valor calculado para t es
mayor que el valor crítico,
rechazamos H0 .
Esto se debe a que cuando t
aumenta, tenemos más confianza
en que los resultados son “reales”
y no se deben al azar.
Fíjate que cuando los valores de t
aumentan, los valores de p
disminuyen; y eso significa más
confianza.
Si es menor que el valor crítico,
estaremos menos seguros de que
la diferencia entre medias sea
significativa. Se corresponde con
un incremento en los valores de p. aumenta t = más confianza
para rechazar H0
Podemos calcular el valor de ‘t’ para una serie de datos y compararlo
con una tabla de valores críticos que depende del tamaño de muestra
muestra y el nivel de confianza que necesitemos.
Ejemplo tabla-t de dos colas.
“Grados de Libertad (Degrees of Valor P = 0.1 0.05 0.02 0.01
freedom=df)” es el tamaño confianza 90% 95% 98% 99%
total de la muestra menos dos. 1 6.31 12.71 31.82 63.66
2 2.92 4.30 6.96 9.92

Grados de libertad
Generalmente utilizamos 3 2.35 3.18 4.54 5.84
4 2.13 2.78 3.75 4.60
P<0.05 (95% confianza) en
5 2.02 2.57 3.37 4.03
Biología, ya que nuestros datos
6 1.94 2.45 3.14 3.71
pueden ser altamente variables.
7 1.89 2.36 3.00 3.50
8 1.86 2.31 2.90 3.36
9 1.83 2.26 2.82 3.25
10 1.81 2.23 2.76 3.17

“valores críticos”
Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad =

P=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (12 + 13) -2 = 23

P = 0,05

valor crítico = 2,069


Hemos calculado la t de las series de datos con una
hoja de cálculo y t = 2,15 (este valor se suministra siempre
en los exámenes)
t vc
2,15 > 2,069
Si t < vc, aceptamos H0 (no hay diferencia significativa)
Si t > vc, rechazamos H0 (sí hay diferencia significativa)

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


Ejemplo resuelto:
Un investigador midió la longitud de las alas de 12
Archilochus colubris y 13 Cynanthus latirostris.
H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (12 + 13) -2 = 23

P = 0,05

valor crítico = 2,069


Hemos calculado la t de las series de datos con una
hoja de cálculo y t = 2,15 (este valor se suministra siempre
en los exámenes)
t vc
2,15 > 2,069
Si t < vc, aceptamos H0 (no hay diferencia significativa)
Si t > vc, rechazamos H0 (sí hay diferencia significativa)
Conclusión:
“Hay una diferencia significativa en la longitud de las
alas de las dos poblaciones de aves.”
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado
sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un
límite de confianza del 95% (0,05). ¿Son resultados
significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 =

p=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 1: Una estudiante mide 16 conchas de caracoles del lado
sur de una isla y 15 del lado norte. Calcula que t = 1,61 y elige un
límite de confianza del 95% (0,05). ¿Son resultados
significativamente diferentes?

H0 = “No hay diferencia significativa”

grados de libertad = n-2 = (16 + 15) -2 = 29

p = 0,05

valor crítico = 2,045

t vc
1,61 < 2,045 Aceptamos H0

Conclusión: No hay diferencia significativa en el tamaño de


las conchas de las poblaciones del norte y del sur
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardíaca en
reposo de 10 nadadores y 12 no nadadores. Calcula que
t = 3,65 y elige un límite de confianza del 95% (0,05).
¿Son resultados significativamente diferentes?
H0 = “No hay diferencia significativa”

Grados de libertad = n-2 =

p=

valor crítico =

Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php


En el examen del BI, te dan un valor de t y se pide determinar
si las dos series de datos son significativamente diferentes.
Ejemplo 2: Un estudiante mide la frecuencia cardíaca en
reposo de 10 nadadores y 12 no nadadores. Calcula que
t = 3,65 y elige un límite de confianza del 95% (0,05).
¿Son resultados significativamente diferentes?
H0 = “No hay diferencia significativa”

Grados de libertad = n-2 = (10 + 12) -2 = 20

p = 0,05

valor crítico = 2,086


t vc
3,65 > 2,086 Rechazamos H0

Conclusión : Sí hay diferencia significativa en la


frecuencia cardíaca de nadadores y no nadadores
Fuente de la tabla-t de 2 colas: http://www.medcalc.org/manual/t-distribution.php
Cálculo del valor t:

Donde:
= media de la primera serie
= media de la segunda serie
= desviación típica de la primera serie
= desviación típica de la segunda serie
= muestra serie 1
= muestra serie 2

Si t < vc, aceptamos H0 (no hay diferencia significativa)


Si t > vc, rechazamos H0 (sí hay diferencia significativa)

*vc és el valor crítico que obtenemos en la tabla de valores t-student


La hoja de cálculo pueden suministrarnos directamente un valor de P
para nuestros resultados, simplificando el trabajo.
La función de Excel (=PRUEBA.T) compara ambas series de datos.

Como calculamos P directamente (la


probabilidad de que las diferencias se
deban al azar), podemos determinar la
significancia directamente.

En este caso, P=0.00051

Es mucho más pequeña que 0.05, por lo


que tenemos confianza en decir:
Se rechaza H0.

Las diferencias es improbable que se


deban al azar. La probabilidad de que se
deban al azar es de 0,00051.

Conclusión:
Hay una diferencia significativa en la
longitud del pico entre A. colubris and C.
(=PRUEBA.T)
latirostris.
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

(=PRUEBA.T)

Excel puede calcular P


directamente
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)

Serie de datos A

Serie de datos B

Usa 2 colas y tipo 2 para un test básico de


comparación de dos series de datos
Aplicar el test-t con Excel: (Esto será útil para los trabajos prácticos)
Interpretando los resultados:
Recuerda: mientras más pequeño sea
el valor de P, mayor será la confianza
de que la diferencia entre las medias
sea significativa.

Así que si calculamos directamente el


valor de P, aplicaremos esta regla:
Si P<0,05, rechazamos H0
(tenemos más del 95% de confianza
de que la diferencia no se debe al
azar)

P es mucho más pequeño que 0,05


Valor P = 0.1 0.05 0.02 0.01 0.005
confianza 90% 95% 98% 99% 99.50%
1 6.31 12.71 31.82 63.66 127.34
2 2.92 4.30 6.96 9.92 14.09

Grados de libertad
3 2.35 3.18 4.54 5.84 7.45
4 2.13 2.78 3.75 4.60 5.60
5 2.02 2.57 3.37 4.03 4.77
6 1.94 2.45 3.14 3.71 4.32
7 1.89 2.36 3.00 3.50 4.03
8 1.86 2.31 2.90 3.36 3.83
9 1.83 2.26 2.82 3.25 3.69
10 1.81 2.23 2.76 3.17 3.58
11 1.80 2.20 2.72 3.11 3.50
12 1.78 2.18 2.68 3.05 3.43

Grados de libertad
13 1.77 2.16 2.65 3.01 3.37
14 1.76 2.14 2.62 2.98 3.33
15 1.75 2.13 2.60 2.95 3.29
16 1.75 2.12 2.58 2.92 3.25
17 1.74 2.11 2.57 2.90 3.22
18 1.73 2.10 2.55 2.88 3.20
19 1.73 2.09 2.54 2.86 3.17
20 1.72 2.09 2.53 2.85 3.15
21 1.72 2.08 2.52 2.83 3.14
22 1.72 2.07 2.51 2.82 3.12
Grados de libertad

23 1.71 2.07 2.50 2.81 3.10


24 1.71 2.06 2.49 2.80 3.09
25 1.71 2.06 2.49 2.79 3.08
26 1.71 2.06 2.48 2.78 3.07
27 1.70 2.05 2.47 2.77 3.06
28 1.70 2.05 2.47 2.76 3.05
29 1.70 2.05 2.46 2.76 3.04
30 1.70 2.04 2.46 2.75 3.03
31 1.70 2.04 2.45 2.74 3.02
32 1.69 2.04 2.45 2.74 3.02
Grados de libertad

33 1.69 2.03 2.44 2.73 3.01


34 1.69 2.03 2.44 2.73 3.00
35 1.69 2.03 2.44 2.72 3.00
36 1.69 2.03 2.43 2.72 2.99
37 1.69 2.03 2.43 2.72 2.99
38 1.69 2.02 2.43 2.71 2.98
39 1.68 2.02 2.43 2.71 2.98
40 1.68 2.02 2.42 2.70 2.97
El coeficiente de correlación
La correlación (r) puede sugerir relaciones entre series de datos. Se calcula fácilmente con
la hoja de cálculo. Veamos si hay correlación entre la longitud del pico y el peso del colibrí.
Primero representamos los datos en un gráfico de dispersión, le agregamos una línea de
ajuste y vemos el valor de r.

En esta serie de datos hay una


fuerte correlación positiva entre la
longitud del pico y el peso del
cuerpo
Los datos se ajustan estrechamente
r = 0,92 a la línea de tendencia o ajuste
(recta de regresión)
La correlación (r) tiene un rango
desde:
• +1 (ajuste perfecto a la línea,
correlación positiva).
• -1 (ajuste perfecto a la línea,
También se puede calcular con la función = COEF.DE.CORREL correlación negativa).
Devuelve el coeficiente de correlación (r) entre dos series de Mientras más cercano a cero, más
datos débil será la correlación.
Ejemplos de correlaciones: ¿Cómo las describirías?
Ejemplos de correlaciones: ¿Cómo las describirías?

Correlación positiva Correlación negativa Sin correlación Correlación positiva


fuerte fuerte débil

El valor de la correlación puede ser calculado con Excel:


La fuerza de una correlación se puede calcular con Excel:

Pruébalo aquí:
Raw data points: 1 2 3 4 5 6 7 8 9 10media des est
Variable A (unidades, ±) #¡DIV/0! #¡DIV/0!
Variable B (unidades, ±) #¡DIV/0! #¡DIV/0!
¡Recuerda, las variables A y B tienen que alinearse! Media y desviación estándar sólo tienen valor descriptivo aquí.
Inserta columnas delante de la media para extra de datos. Correlación = #¡DIV/0!

Gráfico de dispersión para mostrar la relación entre la


12
Variable A y la Variable B
(Correlación = )
Variable B (unidades, ±)

10

0
2 3 4 5 6 7 8 9 10 11
Variable (unidades, ±) From MrT’s Excel Statbook.
La diabetes y la obesidad son “factores de riesgo” ¿uno de
otro?
Hay una fuerte correlación entre ellos, pero
eso no significa que uno sea la causa del otro?

http://diabetes-obesity.findthedata.org/b/240/Correlations-between-diabetes-obesity-and-physical-activity
Correlación no implica causalidad.

Pirates vs global warming, from http://en.wikipedia.org/wiki/Flying_Spaghetti_Monster#Pirates_and_global_warming


Correlaciones:

http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
(Fuente: XKCD-es)

Correlación no implica causa, pero nos sugiere que indaguemos


por si acaso.
Correlación no implica causalidad.
Experimentos
Cuando hay correlaciones, entonces debemos diseñar sólidos experimentos científicos para
determinar la causa de la relación. A veces existe una correlación porque las variables son
confusas – son condiciones que tienen en común las variables correlacionadas pero que no se
afectan directamente una sobre otra.

Para ser capaces de determinar causalidad mediante la experimentación necesitamos:


• Una variable independiente claramente identificada.
• Medir cuidadosamente su efecto sobre la variable(s) dependiente, para que pueda ser
atribuido el cambio a la variable independiente. ¿Cuál es el efecto de X (VI) sobre Y (VD)?
• Estricto control de todas las demás variables que pudieran tener un impacto medible sobre
la variable dependiente.

Necesitamos: datos suficientes, relevantes, repetibles y estadísticamente significativos.

Algunas relaciones causales conocidas:


• Concentración de CO2 atmosférico y calentamiento global.
• Concentración de CO2 atmosférico y velocidad de la fotosíntesis.
• Temperatura y actividad enzimática.
Flamenco Dancer, by Steve Corey
http://www.flickr.com/photos/22016744@N06/7952552148

También podría gustarte