Capitulo 6 - Interpolando, Extrapolando y Comparando Curvas de Acumulacion

CAPTULO
INTERPOLANDO, EXTRAPOLANDO Y COMPARANDO

LAS CURVAS DE ACUMULACIN DE ESPECIES BASADAS EN SU INCIDENCIA *
Robert K. Colwell, Chang Xuan Mao & Jing Chang

* Trabajo publicado originalmente en: Ecology, 85(10), 2004, pp. 2717-2727
CAPTULO 6: Interpolando, extrapolando y comparando las curvas de acumulacin de especies basadas en su incidencia Robert K. Colwell Department of Ecology and Evolutionary Biology, University of Connecticut, Storrs, Connecticut 06269-3043 USA [email protected] Chang Xuan Mao Department of Statistics, University of California, Riverside, California 92521 USA Jing Chang Department of Preventive Medicine, University of Southern California, Los Angeles, California 90089 USA Sobre Diversidad Biolgica: El significado de las Diversidades Alfa, Beta y Gamma. Editores: Gonzalo Halffter, Jorge Sobern, Patricia Koleff & Antonio Melic Patrocinadores: COMISION NACIONAL PARA EL CONOCIMIENTO Y USO DE LA BIODIVERSIDAD (CONABIO) MXICO SOCIEDAD ENTOMOLGICA ARAGONESA (SEA), ZARAGOZA, ESPAA. GRUPO DIVERSITAS-MXICO CONSEJO NACIONAL DE CIENCIA Y TECNOLOGA (CONACYT) MXICO ISBN: 8493280771 Dep. Legal: Z227505 m3m: Monografas Tercer Milenio vol.4, S.E.A., Zaragoza, Espaa 30 Noviembre 2005 pp: 73 84. Informacin sobre la publicacin: www.sea-entomologia.org/m3m Resumen: Se propone un modelo mixto binomial general para la funcin de acumulacin de especies basado en la presencia-ausencia (incidencia) de las especies que ocurren en una muestra de cuadros u otras unidades de muestreo. El modelo abarca la interpolacin entre cero y el nmero observado de muestras, as como la extrapolacin ms all del conjunto de muestras observadas. En el caso de la interpolacin (rarefaccin basada en muestras), se desarrollan expresiones de forma cerrada de fcil clculo mediante el mtodo de momentos, tanto para la riqueza esperada como para sus lmites de confianza. Esto elimina completamente la necesidad de utilizar mtodos de remuestreo y permite la comparacin estadstica directa de la riqueza entre conjuntos de muestras. Basada en la incidencia de especies, se desarrolla una variante del modelo de Coleman (ordenacin aleatoria) y sta se compara con el mtodo de interpolacin basado en momentos. Para la extrapolacin ms all del conjunto de muestras empricas (y a su vez, como un mtodo alternativo de interpolacin), se describe un estimador probabilstico con un intervalo de confianza bootstrap basado en un algoritmo secuencial guiado por el Criterio Akaike de Informacin (CAI) para ajustar los parmetros del modelo mixto. Tanto el estimador probabilstico como el del momento se ilustran con conjuntos de datos para aves de climas templados, y semillas, hormigas y rboles tropicales. El estimador basado en el momento se recomienda confiablemente para interpolacin (rarefaccin con base en las muestras). Para la extrapolacin, el estimador probabilstico se desempea bien al duplicar o triplicar el nmero de muestras empricas, pero no es confiable para estimar la asntota de la riqueza. Se discute la sensibilidad a la heterogeneidad [patchiness] espacial (o temporal) de la rarefaccin basada en individuos y la basada en muestras. Palabras clave: modelo mixto binomial; curva de Coleman; EstimateS; ordenacin aleatoria; rarefaccin; estimacin de la riqueza; extrapolacin de la riqueza; curva de acumulacin de especies; riqueza de especies. Interpolating, extrapolating, and comparing incidende-based species accumulation curves Abstract: A general binominal mixture model is proposed for the species accumualtion function based on presence-absence (incidence) of species in a sambple of quedrats or other sampling units. The model covers interpolation between zero and the observed numbers of samples, as well as extrapolation beyond the observed sample set. For interpolation (sample based rarefaction) easily calculated, closed-form expressions for both expected richness and its confidence limits are developed (using the method of moments) that completely eliminate the need for resampling methods and permit direct statistical comparison of richness between sample sets. An incidence-based form of the Coleman (ramdom-placement) model is developed and compared with the moment-based interpolation method. For extrapolation beyond the empirical sample set (and simultaneously, as an alternative method of interpolation), a likelihood-based estimator with a bootstrap confidence interval is described that relies on a sequential, AIC-guided algorithm to fit the mixture model parameters. Both the moment-based and likelihood-based estimators are illustrayed with data sets for temperate birds and tropical seeds, ants, and trees. The moment-based estimator is confidently recommended for interpolation (sample-based rarefaction). For extrapolation, thelikelihood-based estimator performs well for doubling or tripling the number of empirical samples, but it is nor reliable for estimating the richness asymptote. The sensitivity of individual-based and sample-based rarefaction to spatial (or temporal) patchiness is discussed. Key words: binomial mixture model, Coleman curve, EstimateS, ramdom placement, rarefaction, richness estimation, richness extrapolation, species accumulation curve, species richness.
74
R. K. Colwell et al.
Introduccin Los eclogos y bilogos de la conservacin a menudo necesitan determinar el nmero de especies (riqueza de especies) encontrado en un rea dada, o requieren comparar el nmero de especies entre reas distintas. Sin embargo, en muchos casos, es poco prctico o an imposible enumerar directamente a las especies presentes. Por lo tanto es necesario hacer un muestreo. Desafortunadamente, la riqueza de especies observada dentro de hbitats (diversidad alfa) es notablemente dependiente del tamao de muestra, debido a los efectos de muestreo. Ms an, la riqueza observada depende intrnsecamente del tamao de muestra cuando los datos de distintos hbitats se agrupan sucesivamente, debido al recambio de especies (cambio en la composicin de especies o diversidad beta). El estudio de las relaciones empricas especies-rea (p. ejem. Rosenzweig, 1995; Scheiner, 2003) generalmente se concentran en, o por lo menos contemplan, esta ltima fuente (es decir, el recambio de especies) de dependencia del tamao de muestra. En el presente artculo, por lo contrario nos concentramos en la medicin de la riqueza de especies a escalas locales, en donde los aspectos del muestreo son sustancialmente ms importantes que los del recambio. En trminos estadsticos, nos interesan conjuntos de muestras en los que cada muestra razonablemente puede ser considerada una muestra aleatoria del mismo universo. En trminos prcticos, esto significa que el orden de las muestras en el tiempo o su arreglo en el espacio dentro de un conjunto de muestras no tiene importancia; de hecho, la no importancia del orden de las muestras es una caracterstica diagnstica de los tipos de conjuntos de muestras utilizados apropiadamente por los eclogos en la estimacin de la diversidad local (alfa). Una curva de acumulacin de especies es la grfica del nmero de especies observadas como funcin de alguna medida del esfuerzo de muestreo requerido para observarlas. (En sentido amplio, las curvas clsicas especies-rea que se concentran en la diversidad beta, son as curvas de acumulacin de especies, pero las curvas que presentamos en este artculo pueden o no utilizar el rea como una medida del esfuerzo de muestreo, y explcitamente representan la diversidad alfa, tal y como se explic.) La acumulacin secuencial de individuos en una sola muestra, o la agrupacin sucesiva de muestras de un solo conjunto de muestras, produce una curva de acumulacin de especies, pero sta no ser una curva suave debido a la heterogeneidad espacial (o temporal) y efectos estocsticos simples. Para los individuos de una misma muestra, la rarefaccin clsica (basada en individuos) puede ser utilizada para producir una curva suave que estima el nmero de especies que se observara para cualquier nmero menor de individuos, bajo el supuesto de mezcla aleatoria de individuos (Hurlbert, 1971; Simberloff, 1972; Heck et al., 1975). Para conjuntos de muestras replicados (conjuntos de muestras), el nmero esperado de especies que sera observado para cualquier nmero menor de muestras se puede estimar mediante la rarefaccin basada en muestras, bajo el supuesto de orden aleatorio de muestras (Gotelli y Colwell, 2001). (Aunque la rarefaccin basada en muestras es el trmino ms exacto, suavizando la curva de acumulacin de especies mediante el remuestreo aleatorio es una descripcin apropiada para el mismo concepto.) Una curva de acumulacin de especies basada en muestras puede ser construida de cualquier matriz emprica de especies-por-muestra. Las celdas de la matriz emprica pueden contener abundancias de las especies (una matriz de abundancia) o simplemente datos de presencia/ausencia (una matriz de incidencia). Por supuesto, cualquier matriz de abundancia puede ser transformada a su correspondiente matriz de incidencia al reemplazar cada valor de celda que no sea cero por un uno para indicar la presencia. Las curvas de acumulacin de especies basadas en muestras, por su naturaleza dependen nicamente de los datos de incidencia, an cuando se disponga de datos de abundancia (que no estarn disponibles para algunos tipos de conjuntos de muestras). Hasta hace poco, las curvas de rarefaccin basadas en muestras tenan que construirse por algoritmos de remuestreo computacionalmente intensivos, tales como los utilizados por la aplicacin de libre uso EstimateS (Colwell, 1994-2004). La necesidad prctica de tales herramientas se manifiesta por el hecho de que al final del 2003, ms de 10,000 copias del programa EstimateS haban sido descargadas por usuarios en alrededor de 100 pases y utilizado en decenas de artculos publicados. (Como otro indicador, Google, el motor de bsqueda del Internet www.google.com actualmente registra ms de 1000 portales en el Internet que citan EstimateS). Tal y como sucede con la rarefaccin basada en individuos, la rarefaccin basada en muestras permite la comparacin de diferentes ensamblajes a niveles comparables de esfuerzo de muestreo. Desafortunadamente, no ha existido un mtodo adecuado para calcular los intervalos de confianza para curvas de rarefaccin basadas en muestras, lo cual seriamente ha limitado su utilidad para la comparacin de la riqueza de conjuntos de muestras. La construccin de curvas de rarefaccin basadas en muestras puede ser vista como un proceso de interpolacin a partir de la riqueza de especies agrupada del conjunto completo de muestras, a la riqueza esperada de un subconjunto de aquellas muestras. El sueo de todo bilogo involucrado en inventarios biolgicos es la extrapolacin rigurosa de las curvas de rarefaccin empricas basadas en muestras para estimar, con intervalos de confianza, cuntas especies seran encontradas en un conjunto de muestras ms grande del mismo ensamblaje; idealmente la extrapolacin nos dara la asinttica, riqueza verdadera del ensamblaje. En este artculo, presentamos un modelo binomial mixto que es unificado y estadsticamente riguroso para evaluar los patrones de incidencia en ensamblajes multiespecficos. (El desarrollo estadstico completo del modelo, con sus teoremas de apoyo y pruebas, se presenta en otro lugar [Mao et al., 2004]). Con base en el modelo, presentamos frmulas analticas simples para las curvas de rarefaccin basadas en muestras y sus
Curvas de acumulacin de especies Tabla I. Conjuntos de datos empricos usados para ilustrar los mtodos. Taxa y mtodo aves de zonas templadas, inventario hormigas de la selva, trampas Winkler banco de semillas de la selva, cuadros briznales de rboles (2.5-5.0 cm dap): selva madura, cuadros briznales de rboles rboles (2.5-5.0 cm dap): selva secundaria, cuadros Especies 67 197 34 60 50 Muestras 50 41 121 100 100 Localidad Inventario de las Aves Nidificantes Norteamericanas, 1998 Estacin Biolgica La Selva, Costa Rica Estacin Biolgica La Selva, Costa Rica Estacin Biolgica La Selva, Costa Rica Estacin Biolgica La Selva, Costa Rica
75
Referencias Dorazio y Royle (2003) Longino et al. (2002) Butler y Chazdon (1998) R.L. Chazdon (datos no publicados) R.L. Chazdon (datos no publicados)
intervalos de confianza (interpolacin). Estas frmulas reemplazan completamente los mtodos de remuestreo para producir curvas de rarefaccin basadas en muestras. Asimismo, por primera vez exploramos un mtodo de extrapolacin sin ajuste de curvas, con intervalos de confianza bootstrap. Ilustramos tanto la interpolacin como la extrapolacin utilizando conjuntos de datos para rboles y hormigas de bosque tropical, un banco de semillas tropical y aves de climas templados (Tabla I). El Modelo Considere un ensamblaje de especies con una riqueza verdadera desconocida, S, muestreado por cuadros, trampas, cebo, cercos, redes de arrastre, redes de niebla, u otras unidades de muestreo replicadas. (Para el desarrollo del modelo, llamaremos a estas unidades de muestreo cuadros, para evitar usar la palabra muestra como nombre y como verbo.) Los datos para h cuadros son expresados como una matriz de incidencia especiescuadro, S-por-h, que consiste en los indicadores de presencia Zij: Zij = 1 si la i-sima especie est presente en el j-simo cuadro Zij = 0 si la i-sima especie est ausente en el j-simo cuadro Para desarrollar un modelo terico, asumimos dos supuestos estadsticos: (1) la i-sima especie tiene la misma probabilidad i de estar presente en cada cuadro, y (2) las Zij son independientes, dada i, para toda i y j. La funcin de acumulacin de especies, misma que nos da el nmero esperado de especies observadas en h cuadros, es la suma de las probabilidades, para todas las especies, de que cada especie no est ausente de todos los h cuadros:
total de especies, S. La funcin de acumulacin de especies (h) es, entonces
(h) = S k [1 (1 k ) h ].
k =1
(Ec. 2)
La asntota (), el lmite de (h) conforme el nmero de cuadros h tiende al infinito, es idntica a la verdadera riqueza S. Notemos que es posible re-escribir la funcin de acumulacin de especies (h) como
(h) = S k (1 e C h )
k
(Ec. 3)
k =1
donde Ck = log(1 k). Esta reformulacin nos permite mostrar que nuestro modelo es una generalizacin no paramtrica del modelo clsico exponencial negativo de Holdridge et al. (1971) y de Sobern y Llorente (1993). El modelo exponencial negativo supone que todas las especies comparten la misma probabilidad de presencia 1 y por lo tanto forman un solo grupo de incidencia. De esta manera podemos hacer que G = 1, 1 = 1, y C1 = C, dando el modelo clsico exponencial:
(h) = S (1 e Ch ).
(Ec. 4)
En el modelo expresado por Ec. 2 el nmero de grupos de incidencia G puede tomar cualquier valor, proporciones de grupo k pueden variar libremente (con G la simple restriccin que k= 1 ) y el patrn de
k =1
(h) = [1 (1 i ) h ].
i =1
(Ec. 1)
Las especies con probabilidades de presencia idnticas se pueden considerar en conjunto como un grupo. Supongamos que hay G de tales grupos de incidencia homogneos (algunos o todos de los cuales pueden contener una sola especie). Para el k-simo grupo de incidencia, k es la probabilidad de presencia comn (una medida de qu tan rara o comn es la especie) y k es el tamao relativo del grupo, es decir, el nmero de especies en el k-simo grupo dividido por el nmero
probabilidades de presencia k no tiene restricciones. Por lo tanto, se espera que este riguroso modelo de muestreo-terico sea aplicable a una amplia gama de taxa con abundancias relativas y patrones de incidencia variadas. Supongamos que se toma una muestra aleatoria de H cuadros, llamada el conjunto emprico de muestras. Si Zij = 0 para toda j (todos los cuadros), entonces la isima especie no se observa en el conjunto emprico de muestras. En la matriz de datos observados, todas las filas (especies) tienen por lo menos un Zij > 0 en la matriz de S-por-H especies-cuadros. Si sj representa el nmero de especies encontradas en exactamente j cuadros del conjunto emprico de muestras, entonces los sj se denominan conteos (categoras de la frecuencia de ocurrencia). De esta manera s0 es el nmero de especies presente en el ensamblaje blanco [target] pero no observado en el conjunto emprico de muestras, s1 es el nmero de especies encontradas en precisamente un
76
R. K. Colwell et al. Tabla II. Rarefaccin basada en muestras. El cuadro demuestra que los conteos observados s1, s2 . . . sH son estadsticos suficientes para la rarefaccin basada en muestras. Ejemplo a. Desasociacin entre especies, baja variacin en riqueza entre muestras. Abundancia Cuadros A B C D 6 0 3 0 0 1 0 5 1 0 0 0 0 4 0 0 0 0 2 0 0 0 0 3 7 5 5 8 Incidencia Cuadros B C 0 1 1 0 0 0 1 0 0 1 0 0 2 2 Rarefaccin basada en muestras h (nmero de cuadros agrupados) 2 3 4 4 5 A+B A+B+C A+B+C+D 3 5 A+C A+B+D 4 5 A+D A+C+D 4 5 B+C B+C+D 3 B+D 4 C+D
Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
9 6 1 4 2 3
A 1 0 1 0 0 0 2
D 0 1 0 0 0 1 2
2 2 1 1 1 1
1 A B C D 2 2 2 2
Riqueza promedio:
2.00
3.75
5.00
6.00
Ejemplo b. Asociacin entre especies, alta variacin en riqueza entre muestras. Abundancia Cuadros A B C D 4 0 5 0 3 0 3 0 1 0 0 0 4 0 0 0 0 0 2 0 0 0 3 0 12 0 13 0 Incidencia Cuadros B C 0 1 0 1 0 0 0 0 0 1 0 1 0 4 Rarefaccin basada en muestras h (nmero de cuadros agrupados) 2 3 4 4 6 A+B A+B+C A+B+C+D 6 4 A+C A+B+D 4 6 A+D A+C+D 4 4 B+C B+C+D 0 B+D 4 C+D
Sp1 Sp2 Sp3 Sp4 Sp5 Sp6
9 6 1 4 2 3
A 1 1 1 1 0 0 4
D 0 0 0 0 0 0 0
2 2 1 1 1 1
1 A B C D 4 0 4 0
Riqueza promedio:
2.00
3.75
5.00
6.00
Notas: Dado que los dos ejemplos contrastantes comparten los mismos conteos (s1 = 4, s2 = 2) para ambos ejemplos, producen la misma curva de rarefaccin basada en muestras (Fig. 5). Cualquier patrn de incidencia que produce los mismos conteos producir el mismo patrn de riqueza promedio por el proceso de promediacin combinatoria. De la misma manera, las curvas de rarefaccin basadas en individuos para los dos ejemplos son idnticas una a la otra, a pesar de las diferencias en la abundancia y los patrones de incidencia, dado que comparten el mismo vector de abundancia relativa (9, 6, 1, 4, 2). La Fig. 5 muestra la curva de rarefaccin basada en individuos y la que se basa en muestras para los ejemplos, mismos que a la vez se basan respectivamente en las matrices de Abundancia e Incidencia.
cuadro, s2 es el nmero de especies encontrados en precisamente dos cuadros, etc. Por lo tanto, la riqueza observada en el conjunto emprico de muestras es H S obs = j =1 s j y el nmero total de especies, observadas y no observadas, es S = Sobs + s0. Los conteos observados, s1, s2 ... sH, son estadsticos suficientes, dado que contienen toda la informacin necesaria para estimar la riqueza como una funcin del esfuerzo de muestreo, (h), como demostramos de manera rigurosa en otra publicacin (Mao et al., 2004) y mostramos con ejemplos en la prxima seccin. Interpolacin (Rarefaccin) Un enfoque intuitivo para la estimacin de (h) a h < H, un proceso aqu llamado interpolacin, es enumerar sistemticamente todos los subconjuntos distintos de h cuadros de H cuadros del conjunto emprico de muestras, encontrar la riqueza observada en cada subconjunto de cuadros y calcular su promedio como estimador de (h). La Tabla II ofrece un ejemplo sencillo de este procedimiento para dos conjuntos de datos hipotticos
contrastantes. Este procedimiento de enumeracin sistemtica sale caro en trminos de cmputo cuando h es grande. El procedimiento de aleatorizacin usado por EstimateS (Colwell, 1994-2004) es una alternativa aproximada al procedimiento explcito de enumeracin. Sin embargo, como ahora demostramos, ni el procedimiento de enumeracin ni el de aleatorizacin son necesarios porque estimadores de forma cerrada y fcilmente calculados estn disponibles para (h) a h < H, junto con los intervalos de confianza para la asntota. Para la interpolacin hay un estimador no sesgado ~ (h) para (h) basado en los conteos sj, debidamente pesados mediante coeficientes combinatorios. Recordando que S obs = H s j , entonces
j =1
~ ( h) = (1 ) s = S s jh j jh j obs
j =1 j =1
h= 1, 2,...., H
(Ec. 5)
en donde los coeficientes combinatorios jh se definen por
Curvas de acumulacin de especies
77
Fig. 1. Curvas de rarefaccin basadas en muestras (curvas de acumulacin de especies interpoladas) para tres conjuntos empricos de datos de la Tabla I. Los valores esperados para la riqueza de especies (lnea slida) fueron calculados utilizando el estimador basado en momentos de Ec. 5 con intervalos de confianza de 95% (lnea punteada) con base en Ec. 6 y Ec. 7.
jh =
jh
( H h)!( H j )! para (j + h H) ( H h j )! H ! = 0 para (j +h > H)
Notemos que jh = hj. Dado que el coeficiente jh en Ec. 5 es 0 para h = H, la riqueza estimada por el conjun~ ( H ) = Sobs. Consideramos que la to emprico completo riqueza observada Sobs se mide con error. Este enfoque es crtico para la derivacin de un estimador no condicionado de la varianza para (h) a h < H. ~ ( h) se deriva de estimar momentos Dado que (Mao et al., 2004), nos referimos a ste como el estimador de la riqueza de especies basado en momentos (h) o segn el mtodo de los momentos. Es el mejor esti~ ( h) /S llega a la varianza mador en el sentido de que mnima de todos los estimadores no sesgados para ~ ( h) se puede (h)/S. El estimador basado en momentos aproximar con una variable aleatorizada normal con un (h) promedio y una varianza 2(h) (Mao et al., 2004). Por lo tanto, uno puede construir intervalos de confian~(h) para (h) con ~ ( h) 1.96 za aproximados de 95%
Ugland et al. (2003) llegaron independientemente a proponer un estimador combinatorial de interpolacin que es el equivalente matemtico a la Ec. 5, pero no ~ ( h) conderivaron este resultado como lo esperado de dicionado al conjunto emprico de datos. Tambin pre~ ( h) utilizando sentan un estimador de la varianza para un enfoque completamente diferente al de la Ec. 6, pero como su estimador es la varianza condicional, no es correcto usarlo para construir intervalos de confianza. Para ilustrar la interpolacin (rarefaccin basada en muestras) utilizando las Ec. 5 y Ec. 6, en la Fig. 1 se grafica la riqueza estimada con bandas de confianza aproximadas de 95% para los conjuntos de datos de aves, el banco de semillas y hormigas de la Tabla I. La teora de la ordenacin aleatoria (Coleman, 1981; Brewer y Williamson, 1994; Colwell y Coddington, 1994) puede parecer un enfoque alternativo a la estimacin de la riqueza interpolada (h), aunque, hasta donde sabemos, la teora de la ordenacin aleatoria no se ha aplicado anteriormente a los datos de incidencia. Un estimador de ubicacin aleatoria tipo Coleman es
~ ~ 2 (h) = (1 ) 2 s ~ ( h) / S (Ec. 6) 2 jh j
j =1
~ (h) = S s (1 h / H ) j . obs j
j =1
(Ec. 8)
en donde S es un estimador de la riqueza total de especies desconocida. Bunge y Fitzpatrick (1993), y Colwell y Coddington (1994) revisaron (y EstimateS [Colwell, 1994-2004] calcula) varios estimadores de la riqueza. Una forma del estimador de riqueza, Chao2 (Chao, 1989; Colwell, 1994-2004; Colwell y Coddington, 1994; Mao y Lindsay, 2003), ofrece una opcin sencilla:
~ (h) est sesgado. La difeSin embargo, el estimador * ~ (h) se vuelve ~ ( h) y rencia entre *
~ ( h) ~ (h) = s [(1 h / H ) j ]. j jh
j =1
(Ec. 9)
~ ( h )< Se puede demostrar que jh < (1 h/H) j tal que * ~ (h) suele ser pe~ ( h) , aunque la diferencia ~ ( h)
*
( H 1) s12 ~ S = S obs + 2 Hs2
(Ec. 7)
donde s1 es el nmero de especies que ocurre en un solo cuadro y s2 es el nmero de especies que ocurre en exactamente dos cuadros. Un enfoque altamente con~ servador en cuanto a la estimacin de 2(h) es fijar S = , para que el segundo trmino de la Ec. 6 se vuelva insignificante.
quea. Adems, los estimadores de la varianza de Coleman (1981) son condicionales en el sentido de que la incertidumbre del muestreo no se toma en cuenta (vase tambin Smith y Grassle, 1977). La Fig. 2 presenta los ~ (h) y las difeestimadores de la ubicacin aleatoria * ~ ~ rencias ( h) * (h) calculadas con base en el conjunto de datos de las hormigas. Las diferencias son notables para h pequeas, y pueden ser bastante grandes para ciertos conjuntos de datos con valores extremos altos [outliers] en los conteos de incidencia (Mao et al., 2004).
78
Ahora, examinamos los patrones de incidencia en los dos ejemplos, mismos que en conjunto abarcan el intervalo de posibilidades. En el Ejemplo a, las seis especies estn desasociadas de manera no aleatoria (coocurren en el nmero mnimo de cuadros), y no hay variacin en la incidencia total (totales de las columnas) entre cuadros. En cambio, en el Ejemplo b las seis especies estn asociadas al mximo (siempre ocurren juntas) con una distribucin heterognea de ocurrencia global (variacin alta en la incidencia total entre cuadros). A pesar de estos patrones extremos, el nmero promedio de especies es idntico entre todas las posibles combinaciones de cuadros para h = 1 . . . 4, como se muestra en los clculos mostrados a la derecha en la Tabla II. (La correspondiente curva de rarefaccin basada en muestras se presenta posteriormente en la Fig. 5). Es claro que las curvas de rarefaccin basadas en muestras en si son ciegas a las probabilidades de ocurrencia no aleatoria entre cuadros y tambin a la falta de independencia de ocurrencia entre especies, debido a la promediacin combinatoria en la Ec. 5, que se presenta explcitamente a la derecha en la Tabla II. Desde el punto de vista estadstico, es necesario requerir que los cuadros en el conjunto de muestras emprico sean verdaderamente representativos del conjunto de todos los cuadros posibles. Por lo tanto, se entiende que la probabilidad de presencia i es el promedio de la probabilidad de presencia para todos los cuadros diferentes para la i-sima especie.
Fig. 2. Estimadores de riqueza para el conjunto de datos de las hormigas (Tabla I), comparando el estimador basado en momentos (Ec. 5) con el estimador de incidencia tipo Coleman (Ec. 8). La grfica de arriba muestra los estimadores ~ (h) (lnea slida) y los estimadores basados en momentos ~ de Coleman * (h) (lnea punteada) como una funcin del nmero de cuadros h. La grfica de abajo muestra las difer~ (h) como una funcin de h. ~ (h) encias *
Comparacin de las curvas de rarefaccin basadas en muestras Ahora que podemos estimar intervalos de confianza rigurosos para las curvas de rarefaccin basadas en muestras (Fig. 1), la comparacin de dos o ms de estas curvas para diferentes conjuntos de muestras con esfuerzos de muestreo comparables es sencilla. Por ejemplo, Chazdon y sus colegas (R. L. Chazdon, A. Redondo-Brenes y B. Vilchez-Alvarado, datos no publicados) muestrearon selva madura y selva secundaria en Costa Rica (Tabla I), identificando todos los tallos > 1 cm dap en 100 cuadros (de 10 x 10 m c/u, sobre una cuadrcula de 50 x 250 m) para cada tipo de selva. Ambas grficas en la Fig. 3 muestran las curvas de rarefaccin basadas en muestras con intervalos de confianza de 95% para los briznales ms grandes, 2.5-5.0 cm dap. En la grfica superior, el eje-x se dimensiona con cuadros acumulados mientras las curvas de la grfica inferior se dimensionan con el nmero acumulado de tallos individuales conforme se agregan los cuadros. Las dos grficas son diferentes porque la densidad promedio de briznales es notablemente mayor en la selva secundaria (5.1 tallos/cuadro) que en la selva madura (1.8 tallos/cuadro) donde predominan rboles ms grandes. La grfica superior compara la densidad de especies entre los dos tipos de selva, pero en la grfica inferior se compara la riqueza de especies (Gotelli y Colwell, 2001). En la grfica superior, aunque los estimados de densidad de especies para la selva madura son mayores que para la selva secundaria en todos los niveles de acumulacin de cuadros (todo h), las diferencias
Al principio de la seccin anterior (El Modelo) aplicamos dos supuestos estadsticos con el fin de simplificar y ahora es momento de volver a examinarlos: (1) la i-sima especie tiene la misma probabilidad i de estar presente en cada cuadro y (2) los Zij son independientes para toda i y j. Por medio de ejemplos sencillos pero definitivos, demostraremos que la rarefaccin basada en muestras de la Ec. 5 es robusta a estos supuestos. La Tabla II muestra dos ejemplos hipotticos de conjuntos de muestras empricos. En cada ejemplo seis especies se distribuyen en cuatro cuadros. Los dos ejemplos comparten la misma distribucin de conteos: en ambos casos, s1 = 4 y s2 = 2 (cuatro especies ocurren en solamente un cuadro cada una y dos especies ocurren en precisamente dos cuadros), mientras sj = 0 para toda otra j > 0. As que con Ec. 5 los dos ejemplos tienen que dar las mismas curvas de rarefaccin basadas en muestras, la cual depende solamente de los conteos sj. (Dejaremos a un lado por ahora las matrices de Abundancia, las cuales se vuelven pertinentes en la Discusin).
79
son claramente no significativas a P < 0.05, dado que los intervalos de confianza se solapan. Al redimensionar las curvas con individuos en la grfica inferior, la diferencia (en la riqueza de especies) se vuelve fuertemente significativa. Tal y como lo presentan Gotelli y Colwell (2001, y citas ah presentadas) para la estimacin de la riqueza de especies (al contrario de la densidad de especies) suele ser necesario redimensionar las curvas de rarefaccin basadas en muestras, mediante individuos, con el fin de hacer el ajuste para densidades de individuos diferentes. Extrapolacin Suele ser deseable estimar el nmero de especies que se encontrara (o que se habra encontrado) al colectar ms muestras de un ensamblaje. Muchos usos de la extrapolacin son posibles, incluyendo la futura e informada asignacin de tiempo y recursos limitados, el anlisis de los datos histricos cuando ya no es posible obtener ms muestras, o la necesidad de hacer ms grandes en el sentido estadstico los conjuntos de datos pequeos para su comparacin con conjuntos ms grandes con un esfuerzo de muestreo similar. En los trminos de nuestro modelo general, la extrapolacin involucra estimar (h) para h > H, donde H es el nmero de cuadros (u otras muestras) en el conjunto de datos emprico. El objetivo se vuelve la estimacin del nmero de especies adicionales, (h) (H), que se esperara encontrar en los cuadros adicionales h H. La presentacin aqu se simplific de la de Mao et al. (2004) donde se presenta el desarrollo matemtico completo de las tcnicas de extrapolacin. Tal vez no sea sorpresa que las propiedades estadsticas de (h) para h > H, y () = S sean diferentes de las de (h) para h H. Mientras que los datos de la incidencia observada (presencia-ausencia) provean suficiente informacin para que estimemos (h) para h H utilizando un estimador sencillo y basado en momentos (Ec. 5) sin restricciones sobre el nmero de grupos de incidencia homogneos G, no contamos con tal estimador sencillo para h > H. Sin embargo, se puede desarrollar un mtodo probabilstico, con la restriccin adicional de que G H/2 (Mao et al., 2004). (En la prctica, es poco probable que esta restriccin cauce problemas como los ejemplos empricos demuestran abajo.) Nuestra estrategia es desarrollar una funcin (h) que expresa la diferencia en riqueza proporcional que se espera entre cuadros H y h, tal que (h) = (H)(h) y, asintticamente, () = (H)(). (Ec. 11) El modelo que desarrollamos no solo se aplica a la extrapolacin (h > H; (h) > 1), sino tambin a la interpolacin (h < H; (h) < 1), para la cual el mtodo probabilstico ofrece una alternativa al mtodo basado en momentos descrito en la seccin Interpolacin. (Ec. 10)
Fig. 3. Comparacin de la riqueza de especies entre dos conjuntos de datos. Las dos grficas muestran los mismos datos para briznales de la selva (Tabla I) en selva madura (lnea slida superior con la lnea punteada indicando el intervalo de confianza a 95%) vs. selva secundaria (lnea slida inferior con la lnea de guiones indicando el intervalo de confianza a 95%). La grfica de arriba compara la densidad de especies (porque el eje x est dimensionado por cuadros), para la cual no hay diferencias significativas entre los dos tipos de selva. La grfica de abajo compara la riqueza de especies (porque el eje x est dimensionado por individuos), para la cual s hay diferencias significativas entre los dos tipos de selva.
Recuerde que k es el tamao relativo del grupo del k-simo grupo de incidencia y k es la probabilidad de presencia comn de las especies dentro del k-simo grupo. Trabajando con la Ec. 2, definimos el peso de mezcla para el k-simo grupo, k, como
k =
k [1 (1 k ) H ]
m =1
(Ec. 12)
[1 (1 m ) ]
H
k=1, 2,....G. Ahora se puede especificar la funcin deseada (h) como la suma pesada de k = 1, 2, . . . , G trminos como sigue:
( h) = 1 + k
k =1
(1 k ) H (1 k ) h . 1 (1 k ) H
(Ec. 13)
80
Conforme h se vuelve muy grande, la expresin (1 k)h se aproxima a cero para que G (1 k ) H ( ) = 1 + k . (Ec. 14) 1 (1 k ) H k =1 Dado que la verdadera riqueza para H cuadros, (H), puede estimarse con Sobs, solamente tenemos que estimar (h) y () o estimar los parmetros k y k (probabilidades de presencia y pesos de mezcla) utilizados para definir (h) y (). Para hacerlo, buscamos maximizar el logaritmo de la probabilidad condicional
L = l ({k , k }k =1 )
G
(Ec. 15)
de los conteos empricos s1, s2 ... sH, dada la riqueza observada Sobs. Los mtodos que recomendamos para lograr este objetivo van ms all del alcance del presente artculo, pero aparecen completos en Mao et al. (2004). Aqu, resumimos la estrategia y luego la aplicamos a los conjuntos empricos de datos de la Tabla I. Dado un cierto nmero de grupos de incidencia G, se puede usar un algoritmo de maximizacin de lo esperado (ME) para maximizar el logaritmo de la probabilidad L (Ec. 15), resultando en un conjunto de estimadores para k y k (k = 1, 2, . . . , G) que estn ajustados especficamente para G grupos (Dempster et al., 1977). Empezamos con G = 1, y luego continuamos evaluando la bondad del ajuste para las pruebas sucesivas con G = 1,2..., utilizando el mtodo de grfica de gradientes [the gradient plot method] de Lindsay y Roeder (1992) para evaluar en cada paso si el aumentar G resulta en una mejora en el ajuste, y el algoritmo ME para producir nuevos conjuntos de estimados en cada paso para el k y k. Un mayor nmero de grupos G puede aumentar el logaritmo de la probabilidad, pero un G ms grande implica que se usan ms parmetros para lograr el ajuste mejorado, dado que el nmero de parmetros independientes para la probabilidad en la Ec. 15 es 2G 1. Para llegar a un balance entre la bondad del ajuste y la estimacin de un nmero menor de parmetros, seleccionamos el nmero de grupos G que minimiza el CAI (Criterio Akaike de Informacin):
AIC ( LG ) = 2 g 1 2l ({ k , G , k , G }k =1 ).
G
registran como los intervalos de confianza de 95% (Mao et al., 2004). Notemos que este enfoque difiere fundamentalmente de los de Norris y Pollack (1996), tanto en teora como en su clculo. El enfoque de Norris y Pollack incurre una carga computacional tan masiva que no es un mtodo prctico para construir los intervalos de confianza. La Fig. 4 muestra los resultados para la extrapolacin de la riqueza al triplicar el nmero emprico de cuadros (3H) para los conjuntos de datos empricos de la Tabla I. Los valores estimados de la riqueza y los intervalos de confianza en la Fig. 3 tanto para la interpolacin (h < H) como para la extrapolacin (h > H) fueron producidos usando el procedimiento probabilstico antes mencionado, con B = 1000 para los intervalos de confianza bootstrap. La Tabla III muestra los parmetros ajustados k y k (probabilidades de presencia y pesos de mezcla) as como el nmero ptimo de los grupos de incidencia G (guiado por el CAI). Notemos que para los tres ejemplos empricos, G es muy pequea comparado con el nmero de cuadros H; es poco probable que la restriccin que obliga a G ser menor que H/2 presente algn problema para los niveles razonables de intensidad de muestreo. Dado que las especies se agregan cada vez ms lentamente conforme H se vuelve ms grande, se espera que tambin el valor ptimo de G se incrementar mucho ms lentamente que H. Tambin intentamos aplicar el mtodo a la estimacin de la riqueza asinttica S por las Ecs. 14 y 11. Desafortunada, pero no sorpresivamente, la extrapolacin se vuelve ms y ms difcil conforme h se vuelve ms y ms grande. Notemos que los intervalos de confianza se vuelven ms y ms amplios conforme h se
Tabla III. Grupos de incidencia, probabilidades de presencia y pesos de mezcla para la extrapolacin basada en la probabilidad para conjuntos empricos de datos. Probabilidad Peso de de presencia k mezcla k Aves de zonas templadas, G = 4 1 0.0300 0.4589 2 0.1328 0.2787 3 0.2991 0.1401 4 0.5038 0.1224 Banco de semillas de zonas tropicales, G = 4 1 0.0195 0.2847 2 0.0633 0.4792 3 0.1773 0.0890 4 0.4066 0.1471 Hormigas de zonas tropicales, G = 5 1 0.0252 0.3904 2 0.0908 0.2874 3 0.2893 0.1849 4 0.5465 0.1218 5 0.8584 0.0155 Grupo (k) Notas: Los valores del cuadro fueron calculados para la extrapolacin de la curva de acumulacin de especies a tres veces el tamao emprico de la muestra (3H), ajustado con el mtodo basado en probabilidad explicado en el texto (Extrapolacin) con el nmero de grupos de incidencia (G) optimizado por CAI. Las curvas de acumulacin de especies extrapoladas se encuentran en la Fig. 4. Los conjuntos de datos se describen en la Tabla I.
(Ec. 16)
Una vez encontrados los mejores valores estimados para k y k con este proceso iterativo, se usan con la Ec. 13 para calcular el estimador (h) , mismo que se aplica entonces para estimar la riqueza para h cuadros, (h) , por Ec. 10. Los mismos valores estimados para k y k se pueden insertar en la Ec. 14 para estimar () , produciendo un estimado de la asntota de la ri queza () por la Ec. 11. La estimacin de los intervalos de confianza para (h) se obtiene con B remuestreos tipo bootstrap de la probabilidad de los conteos s1, s2 ... sH dada una S obs aleatoria producida como una variable binomial aleatoria con tamao () y probabilidad 1/(1 + () ). Para cada remuestreo, la riqueza (h) (Ec. 10) se calcula, los valores estimados (h) se jerarquizan y los valores jerarquizados como 0.025B y 0.975B se
81
incrementa ms all de H. En virtud de que el estimador probabilstico para () suele ser no confiable (Mao et al., 2004), recomendamos que se limite el uso de la extrapolacin para extender (es decir, duplicar o triplicar) el nmero de muestras en conjuntos de datos empricos, tal y como se mostr en la Fig. 3. Discusin El modelo introducido en este artculo ofrece un marco terico unificado para la conceptualizacin y anlisis de la riqueza de especies en el contexto de muestras de incidencia repetida (presencia-ausencia u ocurrencia) de comunidades biolgicas. Para un esquema dado de muestreo, los patrones de incidencia en muestras de las comunidades naturales se ven afectadas por cuando menos tres fuentes mayores de heterogeneidad. La primera y ms obvia es la variacin entre las especies en cuanto a qu tan comunes o raras son (abundancia relativa), misma que se traduce, en general, en variacin entre especies en su frecuencia de ocurrencia. La segunda fuente de heterogeneidad es la variacin entre muestras en la abundancia total de individuos (agregacin espacial o temporal que es concordante entre especies), que a su vez se traduce en la variacin entre muestras en el nmero total de ocurrencias de las especies. La tercera fuente de heterogeneidad es la asociacin o desasociacin de especies, entre muestras, la cual se traduce en patrones no aleatorios de co-ocurrencia de especies. El segundo y tercer tipo de heterogeneidad suelen ser difciles de separar; tomados juntos representan lo que generalmente se caracteriza como heterogeneidad (patchiness) en el espacio o en el tiempo entre muestras. Los modelos de rarefaccin basados en individuos explican, explcitamente, la abundancia relativa de las especies (Hurlbert, 1972). Nuestro modelo basado en incidencias permite niveles arbitrarios de heterogeneidad entre especies en su ocurrencia total (abundancia relativa) por tratar a las ocurrencias de las especies como resultado de una mezcla de distribuciones binomiales. En este modelo mixto, se asume que cada especie tiene su propia probabilidad de presencia especfica y por lo tanto se supone que sigue su propia distribucin binomial en cuanto al registro de presencia y ausencia entre muestras. (Este es el supuesto menos exigente que uno puede hacer para los datos de incidencia.) En efecto, las distribuciones binomiales especficas a las especies son luego clasificadas (por el algoritmo de mezcla-ajuste) en grupos de probabilidades de presencia aproximadamente homogneas. El modelo completo es, entonces, una mezcla de distribuciones binomiales, cada una pesada por el nmero de especies en su grupo correspondiente (Mao et al., 2004). La rarefaccin basada en individuos y la basada en muestras tienen supuestos crucialmente distintos en cuanto a la heterogeneidad, lo cual es entendido de mejor manera al comparar los dos mtodos con el mismo conjunto de datos. Dada una matriz emprica de abundancia, tal como las de los ejemplos hipotticos de la Tabla II (el lado izquierdo de cada ejemplo), el vector de los totales de la fila (especies; 9, 6, 1, 4, 2, 3 en la
Fig. 4. Extrapolacin de las curvas de acumulacin de especies para tres conjuntos de datos empricos (vase Tabla I) a tres veces el tamao de la muestra emprica. Los valores de la riqueza de especies esperados (lneas slidas) fueron calculados utilizando el estimador basado en probabilidad de Ec. 10 con intervalos de confianza generados con el mtodo bootstrap de 95% (para la interpolacin as como la extrapolacin; lneas de guiones). El rea sombreada indica el nmero de muestras en el conjunto de datos emprico (H).
Tabla II) puede usarse para producir una curva de rarefaccin basada en individuos para el conjunto de muestras. La matriz de incidencias correspondiente (la parte de en medio de cada ejemplo en la Tabla II) puede usarse para producir una curva de rarefaccin basada en muestras (calculada al lado derecho de cada ejemplo) para el mismo conjunto de muestras. La Fig. 5 muestra ambos tipos de curvas de rarefaccin, basadas en los ejemplos hipotticos de la Tabla II. Cuando ambos tipos de curva de rarefaccin se dimensionan con el nmero de muestras agrupadas, las dos curvas sern idnticas solamente si los individuos de todas las especies ocurren aleatoria e independientemente entre las muestras en el mismo conjunto de muestras. Si los individuos tienden a agregarse (de manera no aleatoria) entre muestras (intra-especie), la curva de rarefaccin basada en muestras tiene que encontrarse debajo de la curva de rarefaccin basada en abundancia
82
Fig. 5. Curvas de rarefaccin basadas en individuos (lnea punteada) vs. en muestras (lnea slida) para los datos hipotticos de la Tabla II. La curva basada en muestras se gener utilizando el estimador basado en momentos (Ec. 5 o los valores idnticos en la Tabla II). La curva basada en individuos se gener utilizando el estimador clsico de rarefaccin de Hurlbert (1972).
(como en la Fig. 5) (Coleman, 1981; Colwell y Coddington, 1994; Gotelli y Colwell, 2001). Esto ocurre porque la agregacin de los individuos produce una matriz de incidencia con un nmero menor de registros de presencia y uno mayor de registros de ausencia en comparacin con una distribucin aleatoria del mismo nmero de individuos entre muestras, de tal manera que se tienen que agregar ms muestras en la curva basada en muestras que en la basada en individuos para llegar a un cierto nivel de riqueza. Para captar esto, imagine lanzar 30 pelotas (individuos de una sola especie) aleatoriamente a 10 cajas, stas con los nmeros 1 al 10. Algunas cajas pueden quedarse vacas, pero no es probable que la mitad de ellas se quede vaca. Ahora, tome todas las pelotas de las cajas con nmeros pares y distribyalas en las cajas con nmeros impares. Las pelotas ahora estn estadsticamente agregadas y hay un nmero menor de registros de presencia y un nmero mayor de registros de ausencia que antes. En virtud de que la rarefaccin basada en individuos no toma en cuenta tal heterogeneidad, generalmente sobre-estima la riqueza esperada para las muestras rarificadas [rarefied] (Fig. 5). Ntese que el patrn de la abundancia de especies (totales de las filas en las matrices de Abundancia) en la Tabla II est arreglado para que sea idntico para los dos ejemplos, mientras la distribucin actual de individuos entre los cuadros es sustancialmente diferente. Las curvas de rarefaccin basadas en individuos (Fig. 5) para los dos ejemplos son, sin embargo, idnticas. En cambio, las curvas de rarefaccin basadas en muestras reflejan implcitamente los niveles empricos de agregacin de individuos dentro de la especie al considerar nicamente a la incidencia, dando as un estimado realista del nmero de especies a encontrarse en conjuntos de muestras del mundo real (Colwell y Coddington, 1994; Chazdon et al., 1998; Gotelli y Colwell, 2001; Ugland et al., 2003). Supongamos que se divide un rea de estudio en 1000 cuadros. Muestrea-
mos 50 cuadros al azar y contamos el nmero de especies que se encuentra en cada uno. Una especie en particular puede encontrarse en algunos de los cuadros muestreados y no en otros, y sus individuos pueden encontrarse agregados de manera no aleatoria entre los cuadros. Solo necesitamos que las 50 unidades estn seleccionadas verdaderamente al azar del total de 1000, para que la estimacin emprica de la probabilidad de presencia de una especie en estas 50 unidades sea cercana a la verdadera probabilidad de presencia para dicha especie en los 1000 cuadros, para el tamao especificado del cuadro y el nivel emprico de agregacin individual. Dado que las distribuciones agregadas espaciales (y temporales) son extremadamente comunes, esta propiedad de la rarefaccin basada en muestras es muy general. La estadstica fundamental para los estimadores basados en el modelo son los conteos, o frecuencias de ocurrencia, de especies en un conjunto de muestras. Dado que la curva de rarefaccin basada en muestras depende solamente de patrones de incidencia (promedios), se puede modelar precisamente con estos conteos para los conjuntos empricos de datos con cualquier grado de heterogeneidad, tal y como se demostr con los ejemplos en la Tabla II y la Fig. 5. Algunas muestras pueden tener un alto nmero de ocurrencias y otras pueden tener nmeros bajos (la segunda fuente de la heterogeneidad), pero debido a la promediacin combinatoria, lo anterior no tiene un efecto sobre la curva de rarefaccin promedio. Por la misma razn, la asociacin o desasociacin de las ocurrencias de especies (la tercera fuente de la heterogeneidad) no afecta la curva de rarefaccin promedio, ni se refleja en los conteos. Usando el modelo general como marco de referencia, desarrollamos estimadores tanto para la interpolacin (o rarefaccin basada en muestras) entre cero y la riqueza del conjunto total de muestras en un conjunto emprico de datos, como para la extrapolacin, o la proyeccin de la riqueza ms all del conjunto de datos con el fin de predecir el nmero esperado de especies en un nmero mayor de muestras del mismo ensamblaje. La interpolacin se ha llevado a cabo rutinariamente en el pasado, con los datos basados en la incidencia, mediante el submuestreo al azar del conjunto de datos, reteniendo la integridad del muestreo (en vez de agrupando todas las muestras para luego extraer ocurrencias al azar) (Colwell, 1994-2004;Colwell y Coddington, 1994). Hasta hace poco (Ugland et al., 2003; Mao et al., 2004) no exista un mtodo analtico para estimar con precisin el nmero de especies en un subconjunto de muestras de un conjunto de datos basado en la incidencia. En cambio, el problema correspondiente para las muestras basadas en la abundancia (rarefaccin clsica) se resolvi hace tres dcadas (Hurlbert, 1972; Heck et al., 1975). Peor an, el problema de establecer los intervalos de confianza alrededor de las curvas de acumulacin basadas en muestras hasta ahora haba seguido sin resolverse en absoluto, limitando severamente la comparacin de las curvas de diferentes comunidades o tratamientos. Nuestro estimador de riqueza basado en momentos (Ec. 5) para el problema de la interpolacin, con su estimador de la varianza (Ec. 6)
83
atiende a estos problemas de manera rigurosa, y adems atiende precisamente la expectativa que se produce al aleatorizar la secuencia de muestras, con intervalos de confianza legtimos para cada punto a lo largo de la curva. Como se mostr en la Fig. 3, estos intervalos de confianza finalmente hacen posible la comparacin rigurosa entre curvas de rarefaccin basadas en muestras. El estimador basado en momentos para la rarefaccin basada en muestras, con intervalos de confianza, se incluye en la versin 7 de EstimateS (Colwell, 19942004). Usando el mismo marco terico, derivamos la funcin de ordenacin aleatoria (Coleman) para los datos de incidencia (Ec. 8), misma que parece no haber sido examinada anteriormente. La curva Coleman (Coleman, 1981) hasta ahora solamente se ha aplicado al caso de muestras basadas en la abundancia (cuantitativas), para la cual aproxima la curva esperada para la rarefaccin basada en individuos (Brewer y Williamson, 1994; Colwell y Coddington, 1994). Asimismo, encontramos que la curva Coleman basada en incidencias aproxima la verdadera curva de acumulacin de especies (rarefaccin basada en muestras) para muestras de incidencia. Sin embargo, la lgica subyacente a la curva de Coleman basada en incidencia solamente tiene sentido para la interpolacin, el estimador es sesgado (de manera notable si alguna especie es altamente dominante, tal y como se indica con valores extremadamente altos para j en los conteos de incidencia sj), y los estimadores de la varianza disponibles no son apropiados para construir los intervalos de confianza. Por estas razones, para la interpolacin preferimos el estimador con base en momentos en vez de la curva de Coleman basada en incidencias. La extrapolacin de las curvas de acumulacin de especies solamente se haba intentado anteriormente con el ajuste de funciones como la funcin asinttica Michaelis-Menten o varias funciones no asintticas (Sobern y Llorente, 1993;Colwell y Coddington, 1994). En el presente artculo, para el problema de la extrapolacin, desarrollamos un modelo probabilstico que depende del ajuste de la distribucin de los conteos observados para el modelo mixto binomial. El nmero de grupos de incidencia requeridos por el modelo se opti-
miza utilizando el Criterio Akaike de Informacin (CAI) para equilibrar la bondad del ajuste y la complejidad del modelo (el nmero de parmetros). Los intervalos de confianza bootstrap tambin se pueden calcular como se expuso en la seccin Extrapolacin. Los clculos y algoritmos para tanto la riqueza esperada como su intervalo de confianza bootstrap requieren de computaciones sofisticadas y complejas, pero programas de cmputo para este fin estn disponibles de C.X. Mao. Usando el mismo mtodo probabilstico de extrapolacin, uno puede, en teora estimar el nmero adicional de especies que un conjunto de muestras infinitamente grande y del mismo ensamblaje rendira: la asntota de la curva de acumulacin de especies (Ecs. 11 y 14). En la prctica, concluimos que nuestro mtodo probabilstico de extrapolacin es muy til para los problemas de estimacin que suponen la duplicacin o triplicacin del nmero emprico de muestras. Desafortunadamente, en su forma actual, el mtodo no parece ser una manera confiable para estimar la riqueza asinttica (Mao et al., 2004), pero esperamos que nuestros esfuerzos puedan inspirar trabajo futuro en este problema, tan importante y desalentador. El mtodo probabilstico modela de manera simultnea el problema de la interpolacin y la misma tcnica bootstrap se puede usar para estimaciones de riqueza interpoladas (rarefaccin basada en muestras), tal y como se ilustra en la Fig. 4. Sin embargo, el estimador basado en momentos es ms sencillo e intuitivo (Ec. 5) y sus intervalos de confianza asociados (basados en la Ec. 7) tienen un desempeo igual de bueno y, por lo tanto, son preferidos.
Agradecimiento Agradecemos a F. He y dos rbitros annimos sus comentarios, y a A. M. Ellison por animarnos. Gracias a R.L. Chazdon por compartir sus datos no publicados. Este trabajo fue apoyado por el proyecto DEB-0072702 del US-NSF otorgado a R. K. Colwell. B. Delfosse, la traductora, agradece a J. Laborde su puntual asesora.
84
Bibliografa
Brewer, A. & M. Williamson. 1994. A new relationship for rarefaction. Biodiversity and Conservation, 3: 373-379. Bunge, J. & M. Fitzpatrick. 1993. Estimating the number of species: a review. Journal of the American Statistical Association, 88: 364-373. Butler, B. J. & R. L. Chazdon. 1998. Species richness, spatial variation, and abundance of the soil seed bank of a secondary tropical rain forest. Biotropica, 30: 214-222. Chao, A. 1989. Estimating population size for sparse data in capture-recapture experiments. Biometrics, 45: 427-438. Chazdon, R. L., R. K. Colwell, J. S. Denslow & M. R. Guariguata. 1998. Statistical methods for estimating species richness of woody regeneration in primary and secondary rain forests of NE Costa Rica. Pages 285309 in F Dallmeier and J. A. Comiskey, editors. Forest biodiversity research, monitoring and modeling: conceptual background and Old World case studies. Parthenon Publishing, Paris, France. Coleman, B. D. 1981. On random placement and speciesarea relations. Mathematical Biosciences, 54: 191-215. Colwell, R. K. 1994-2004. Estimates: statistical estimation of species richness and shared species from samples. (http:// viceroy.eeb.uconn.edu/estimates). [Persistent URL: (http:// purl.oclc.org/estimates).] Colwell, R. K. & J. A. Coddington. 1994. Estimating terrestrial biodiversity through extrapolation. Philosophical Transactions of the Royal Society, Series B, 345: 101118. Dempster, A. P, N. M. Laird & D. B. Rubin. 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39: 122. Dorazio, R. M. & J. A. Royle. 2003. Mixture models for estimating the size of a closed population when capture rates vary among individuals. Biometrics, 59: 351-364. Gotelli, N. & R. K. Colwell. 2001. Quantifying biodiversity: procedures and pitfalls in the measurement and comparison of species richness. Ecology Letters, 4: 379-391. Heck, K. L., Jr., G. van Belle & D. Simberloff. 1975. Explicit calculation of the rarefaction diversity measurement and the determination of sufficient sample size. Ecology, 56: 1459-1461. Holdridge, L. R., W. G. Grenke, W. H. Hatheway, T. Liang & J. A. Tosi. 1971. Forest environments in tropical life zones. Pergamon Press, Oxford, UK. Hurlbert, S. H. 1971. The nonconcept of species diversity: a critique and alternative parameters. Ecology, 52: 577586. Lindsay, B. G. & K. Roeder. 1992. Residual diagnostics for mixture models. Journal of the American Statistical Association, 87: 785-794. Longino, J., R. K. Colwell & J. A. Coddington. 2002. The ant fauna of a tropical rainforest: estimating species richness three different ways. Ecology, 83: 689-702. Mao, C. X., R. K. Colwell & J. Chang. 2004. Estimating species accumulation curves using mixtures. Technical report, Department of Statistics, University of California, Riverside, California, USA. Mao, C. X. & B. G. Lindsay. 2003. Estimating the population size: heterogeneity, nonidentifiability and regular- T ization. Technical Report, University of California, Riverside, California, USA. Norris, J. L. & K. H. Pollock. 1996. Nonparameteric MLE under two closed capture-recapture models with heterogeneity. Biometrics, 52: 639-649. Rosenzweig, M. L. 1995. Species diversity in space and time. Cambridge University Press, Cambridge, UK. Scheiner, S. M. 2003. Six types of species-area curves. Global Ecology and Biogeography, 12: 441-447. Simberloff, D. 1972. Properties of the rarefaction diversity measurement. American Naturalist, 106: 414-418. Smith, W. & J. Grassle 1977. Sampling properties of a family of diversity measures. Biometrics, 33: 283-292. Sobern, M. J. & B. J. Llorente. 1993. The use of species accumulation functions for the prediction of species richness. Conservation Biology, 7: 480-488. Ugland, K. I., J. S. Gray & K. E. Ellingsen. 2003. The species-accumulation curve and estimation of species richness. Journal of Animal Ecology, 72: 888-897.

Capitulo 6 - Interpolando, Extrapolando y Comparando Curvas de Acumulacion

Cargado por

Copyright:

Formatos disponibles

Capitulo 6 - Interpolando, Extrapolando y Comparando Curvas de Acumulacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 6 - Interpolando, Extrapolando y Comparando Curvas de Acumulacion

Cargado por

Copyright:

Formatos disponibles

CAPTULO

INTERPOLANDO, EXTRAPOLANDO Y COMPARANDO

Robert K. Colwell, Chang Xuan Mao & Jing Chang

total de especies, S. La funcin de acumulacin de especies (h) es, entonces

Sp1 Sp2 Sp3 Sp4 Sp5 Sp6

Sp1 Sp2 Sp3 Sp4 Sp5 Sp6

en donde los coeficientes combinatorios jh se definen por

Curvas de acumulacin de especies

( H h)!( H j )! para (j + h H) ( H h j )! H ! = 0 para (j +h > H)

( H 1) s12 ~ S = S obs + 2 Hs2

Curvas de acumulacin de especies

Curvas de acumulacin de especies

Curvas de acumulacin de especies

También podría gustarte