22 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (y, por fin, 5)

La técnica definitiva para obtener resultados completamente independientes de los anteriores fue una combinación de escalamiento multidimensional (MDS, multidimensional scaling en guiri) y análisis de Procrustes (la Wikipedia nunca dejará de sorprenderme).
En una explicación casera pero comprensible, el MDS toma una matriz de distancias (o similitudes) y construye un mapa en un espacio n-dimensional de forma que a cada objeto en la matriz se le asigna una localización que respete al máximo el conjunto de distancias originales.
Un ejemplo simple: abajo tienen las distancias entre cinco ciudades españolas. El MDS les asigna las coordenadas de la derecha que, en este caso, permiten representarlas en un plano.

Que el espacio de representación sea de dos dimensiones o más depende de las relaciones entre los objetos y de su número. Lógicamente, deben usarse las dimensiones necesarias para que la fidelidad con la que el “mapa” representa la matriz sea suficiente lo cual se decide a través de los estadísticos pertinentes. El aspecto de este mapa es el siguiente:
La representación en este espacio común no tiene porqué coincidir con la del espacio geográfico aunque en este caso no se diferencia demasiado.

Lo que hicimos en nuestro trabajo fue someter a esta técnica la totalidad de matrices de similitud florística, conectividad por vientos, etc. Como resultado obtuvimos los correspondientes mapas que, en este caso, algo más complejo, son tridimensionales. El MDS se aplicó mediante el algoritmo PROXSCAL desarrollado en la Universidad de Leiden. Si alguien quiere ver los entresijos del método puede descargar este PDF. PROXSCAL estaba incluido en la versión 11.5 de SPSS de la que disponíamos de licencia campus.
Vale, ya hemos conseguido una tonelada más de ficheros con coordenadas ¿y ahora qué?

El uso del MDS se debió a que habíamos encontrado una técnica idónea para comparar el ajuste entre los distintos mapas obtenidos. Esta técnica, llamada transformación de Procrustes, superpone dos mapas e intenta, mediante giros, traslaciones y cambios de escala, ajustarlos lo mejor posible. Siguiendo con el ejemplo de las ciudades, supongamos que hemos hecho otra matriz pero de tiempos de acceso en vez de distancias. La sometemos al MDS y luego las superponemos en un espacio común rotando, escalando y desplazando la segunda sobre la primera hasta reducir al mínimo los desajustes. El resultado gráfico sería algo así como lo siguiente:

Donde los vectores de color naranja son los errores del ajuste (normalmente el ajuste no es perfecto). Estos vectores o residuos nos permiten calcular un estadístico que nos expresa el éxito de la operación y que puede usarse como estimadores del grado de asociación entre las matrices que dieron origen a los mapas.

Podrán suponer lo que sigue: la transformación de Procrustes se aplicó a todos los pares de mapas de similitud florística con la conectividad máxima, distancia geográfica y tiempos de separación geológica. Y los resultados del proceso fueron los valores de ajuste entre las matrices así como su significación estadística. Como en el caso de PopTools, tuvimos la suerte de que hay gente generosa por ahí afuera y los análisis fueron realizados con un programita llamado PROTEST gracias a que Donald A. Jackson tuvo a bien ponerlo en internet a libre disposición. PROTEST no sólo realiza la transformación y calcula el ajuste sino que nos da la significación del mismo mediante técnicas de aleatorización. El resultado es un estadístico de ajuste llamado m2 y su valor de significación P.
La significación estadística se expresa mediante valores de P, un símbolo que representa la probabilidad de que los ajustes observados se deban al azar, es decir, no reflejen relaciones reales entre las matrices originales. Por tanto, si P es pequeño nos ponemos muy contentos. Echemos por fin un vistazo a los resultados finales. Recuerden que estamos comparando entre hipótesis: el que tenga el menor valor de P gana.


Los resultados pueden resumirse de la forma siguiente: la hipótesis de la dispersión a larga distancia por el viento muestra unos valores de ajuste extremadamente significativos y siempre mucho más elevados que las hipótesis alternativas. Sólo en el caso de los helechos la distancia geográfica tiene una significación estadística equivalente.
La vicarianza aparece como una hipótesis claramente insuficiente para explicar la similitud actual de los tres primeros grupos taxonómicos estudiados. No hemos podido incluir a los helechos en este análisis. El motivo es que el número de localidades que pertenecieron a Gondwana y donde este grupo está presente en la actualidad es muy reducido, ya que por motivos climáticos no crecen en la Antártida ni en las islas subantárticas. Al no poder incluir estas localidades en los análisis, el tamaño de la muestra se reduce excesivamente. Insistiremos aquí en que una parte de las islas actuales es de origen volcánico y relativamente reciente, por lo que la vicarianza en versión "dura" nunca podría explicar la presencia de las especies en la actualidad: estas islas nunca formaron parte de Gondwana.
La hipótesis geodésica, basada en la distancia actual, se ajusta bien sólo en el caso de los helechos. En el resto, la significación estadística es siempre mucho peor que la correspondiente a la dispersión eólica.
Como conclusión, los análisis aportan una evidencia sólida a favor de la dispersión eólica a larga distancia como factor determinante de la similitud florística en los grupos que hemos analizado. Paralelamente, se muestra que la vicarianza no es un mecanismo que explique la presencia o ausencia de las especies actuales, aunque tal vez pueda serlo a niveles taxonómicos más generales. Y además, todo se hace con datos objetivos, públicos e independientes.

Una cosa en la que quiero insistir es en el coste económico de este trabajo: cero. Esto quiere decir que no hemos tenido financiación y una buena parte del trabajo se ha hecho con datos y software gratuitos. Incluso el análisis de coste anisotrópico podría hacerse hoy con una excelente aplicación libre llamada SEXTANTE.
Finalmente, también es bueno comentar que a lo largo de este trabajo hubo que estudiar. Y mucho. Nunca habíamos usado las técnicas que finalmente se utilizaron por lo que la bibliografía revisada buscando soluciones a los problemas que iban surgiendo fue grande. Y no se trata sólo de encontrar las técnicas sino de aprender a usarlas con la mínima solvencia como para estar seguros de no cometer errores básicos, siempre posibles cuando uno se aventura en terrenos desconocidos.
Y como se dice en las charlas: quedo a su disposición para lo que quieran preguntar, el culebrón ha terminado.

20 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (4)

Disponemos ya de las 4 matrices de similaridad, una de distancia geodésica, otra de vicarianza y un par de centenares de conectividad por viento. El siguiente problema es comparar las primeras con el resto.
La comparación de matrices se hace habitualmente mediante el test de Mantel y ese fue nuestro primer análisis.
El test de Mantel estima la correlación existente entre dos matrices, pongamos A y B. La hipótesis nula es que los valores de ambas matrices no están correlacionados linealmente y la alternativa que existe una correlación superior a lo que cabría esperar por azar. El estadístico resultante es un coeficiente de correlación con rango entre -1 y +1.
Su significación estadística se estima mediante aleatorización: las filas y columnas de la matriz B se permutan al azar y para cada caso se calcula el estadístico correspondiente. Se supone que estas permutaciones, de ser cierta la correlación, tenderán a empeorar el coeficiente de correlación y, en caso contrario, harán que fluctue al azar. Tras realizar un número elevado de permutaciones, la posición relativa del estadístico inicial en la lista ordenada de coeficientes permite asignarle un valor de significación. En esta publicación se da la formulación, más detalles y algunos ejemplos del test.
Aquí aparece uno de los problemas típicos de muchos trabajos y que nunca sale a la luz: hay que localizar un programa que haga el test y, dado que nuestra vida es finita, que no nos la complique demasiado con su funcionamiento y los formatos de entrada y salida de datos.
Una búsqueda cuidadosa y bastante buena suerte hizo que diéramos con PopTools, que nos solucionó el problema. Aprovecho para hacerle publicidad: PopTools es un módulo para MS Excel desarrollado por Greg Hood del CSIRO (Australia). Además de añadir docenas de funciones matriciales, de simulación y procesos estocásticos, es gratuito y puede descargarse vía internet.
Poptools trata al usuario con amabilidad y nos permitió calcular con aceptable rapidez todos los coeficientes de correlación y su significación estadística. La representación gráfica de los resultados para los musgos es la siguiente (para el periodo inicial, actualmente tenemos una serie más amplia):

[pinche encima para ampliar]

En abscisas tenemos la serie temporal con los intervalos de 10 días. En ordenadas se representa el coeficiente de correlación. La línea rojiza sobre el valor 0.2 corresponde a un nivel de significación de 0.001.
Al ver estos nos convencimos de que íbamos por el buen camino. Los resultados mostraban correlaciones muy significativas entre la conectividad por vientos y la similaridad florística durante dos tercios del año. La correlación muestra ciclos anuales ya que al aproximarse el fin de año sus valores caen incluso por debajo de la línea de significación del 0.001. Los gráficos para hepáticas y líquenes son muy similares y sólo difiere el de los helechos donde no se observan los descensos de correlación de fin de año. Discutiremos el significado de estas diferencias en el último post.
Esta fase del trabajo muestra una relación muy significativa entre los vientos y la similaridad florística. Lógicamente había que compararlos con los de la hipótesis neutral. Para ello elegimos los periodos de máxima conectividad anuales, donde la colonización es más probable y los comparamos con la proximidad geográfica. Los resultados fueron los siguientes:

Podemos observar que los valores para la hipótesis neutral (columna de proximidad geográfica) o r(GP) son menores que los de viento r(WC) pero no mucho. De hecho, si comparamos por ejemplo 0.579 que es el r(GP) para musgos y 0.617, el r(WC) de 2003, la diferencia no es estadísticamente significativa para el tamaño muestral que tenemos.
Sin embargo, hay un argumento que el editor y los referees aceptaron y que es el siguiente:
  • tomados individualmente no podemos rechazar la hipótesis nula H0: r(WC) = r(GP)
  • pero estamos analizando un conjunto de 20 pares de coeficientes de correlación que pueden considerarse por su naturaleza de forma conjunta
  • en este conjunto, 17 de los 20 coeficientes r(WC) son mayores que los correspondientes r(GP) y sólo 3 son menores (los subrayados) lo que expresamos como 17-3.
  • si la hipótesis nula es cierta, esperaríamos encontrar valores de r(WC) mayores y menores que r(GP) aproximadamente a partes iguales: 10-10.
  • La suma de probabilidades de encontrar los resultados actuales (17-3) o peores (18-2, 19-1 y 20-0) por azar es 0.0007.
La idea, por tanto, es que existe una señal ahí que sobresale del ruido y que nos dice que el viento funciona mejor como variable explicativa que la mera distancia ya que la probabilidad de que los valores encontrados se deban al azar es muy baja. Aún así, con esta prueba no podíamos quedar contentos ni suponer que habíamos obtenido resultados definitivos. Además, siempre estaba ahí la sospecha de que los coeficientes podían ser inadecuados porque para estimarlos es necesario calcular desviaciones estándar y el significado de ese parámetro pierde sentido con distribuciones no gaussianas. La normalidad, podrán suponer, no es una condición que a los coeficientes de similaridad les apetezca cumplir ni de lejos.
Era necesario, por tanto, buscar una alternativa diferente a los tests de Mantel. Ya les adelanto que será una mezcla de dos técnicas llamadas respectivamente escalamiento multidimensonal y análisis de Procrustes. Y no se preocupen, que bajo esos nombres un tanto intimidantes subyacen métodos muy simples de entender.

13 febrero 2007

[Breves] Curso abierto

Grupo 9, o más abreviadamente, G9 es una asociación de las universidades públicas de Cantabria, Castilla-La Mancha, Extremadura, Islas Baleares, La Rioja, Navarra, Oviedo, País Vasco y Zaragoza que se han unido para colaborar en docencia e investigación.
Dentro del G9 se ha creado el Campus Virtual Compartido (CVC) donde se ofertan asignaturas de libre elección que se pueden cursar desde cualquiera de los campus a través de internet.
Una es la mía, llamada "Métodos de búsqueda documental para la elaboración de trabajos científicos" y he decidido que sea de acceso abierto. En esta página pueden encontrar las ofertadas por la Universidad de Extremadura y acceder a la mía. No es necesario registrarse ni hace falta contraseña.

Nota: los temas se irán abriendo de acuerdo con el calendario de la asignatura. Actualmente está disponible el tema 1 con sus ejercicios correspondientes. El día 5 de febrero se abrirá el tema 2 y así sucesivamente.

Cómo se hizo "A los musgos se los lleva el viento" (3 de media docena o así)

Todos sabemos que llegar de un sitio a otro en bicicleta depende, forma física aparte, de dos factores: la pendiente y el viento. En nuestro trabajo la pendiente no es una variable relevante ya que estamos sobre la superficie del mar. Pero el viento sí lo es. Si echamos un puñado de esporas al aire desde A y no hay viento, caerán a nuestros pies. Si el viento sopla hacia B llegarán más fácilmente si la velocidad es alta y menos si es baja. Si el viento sopla en dirección contraria, no llegarán. Todo tipo de situaciones y ángulos intermedios son posibles. Este conjunto de obviedades nos conduce a un tipo de cálculo llamado "de coste anisotrópico” y que, en nuestro caso, mide el coste o esfuerzo para llegar de A a B sobre un campo de vientos. Por ejemplo, en la figura de abajo, viajar desde la esquina inferior derecha hasta la superior izquierda tiene un coste mucho menor que al contrario (los colores representan la velocidad del viento).

Fragmento de mapa de vientos con la velocidad representada por el color

Nuestro objetivo es fácil de suponer: vamos a calcular el coste de ir desde cada uno de los 27 lugares estudiados a todos los demás. De ahí saldrá una matriz de conectividad que podrá ser comparada con las de similaridad florística.
En esta fase del trabajo nos encontramos con un par de problemas. El primero es de software: sólo encontramos dos aplicaciones que hicieran cálculo de coste anisotrópico y sólo teníamos opción de probar una gracias a una licencia de unos colegas.
Costó lo suyo porque, aunque las opciones de cálculo son muy completas, el programa no es demasiado amable y tampoco era muy evidente cómo poner la aplicación a funcionar sin que todo saliera con valores nulos o absurdos por defectos de diverso tipo, a veces bastante esotéricos. Al cabo de unos días de reunión y cachondeo en Cáceres (lo cortés no quita lo valiente) conseguimos que todo funcionara correctamente y se generaran mapas de accesibilidad (o su inversa, coste). Para construir un mapa sólo es necesario introducir el punto de origen (por ejemplo, las coordenadas de Bouvet) y situarlo dentro de una matriz de unos pocos miles de filas y columnas donde cada celdilla contiene los valores de acimut y de velocidad del viento. El resultado es un mapa como el de abajo, que representa el coste desde Bouvet (a la izquierda, al borde de la zona blanca) hasta el resto del territorio para el periodo 1-10 de febrero de 2002. Colores claros representan conectividad alta (coste bajo) y viceversa.

Mapa de accesibilidad desde Bouvet. Proyección polar estereográfica con centro en el Polo Sur

Lo primero que salta a la vista es la estructura circular del coste asociado al viento en el sentido de giro de las agujas del reloj: es más fácil que Bouvet conecte con el otro lado de la Antártida que con Sudáfrica, aunque esté geográficamente mucho más cerca. Eso significa que el viento muestra patrones muy diferentes a la hipótesis neutral (isotrópica) y, veremos más adelante, a la de vicarianza.
Pero ya hemos dicho que los vientos cambian. Por ese motivo, estos modelos de coste (uno para cada lugar) se calcularon sobre los vientos existentes en periodos de diez días: actualmente tenemos un total de 36 modelos por año x 5.5 años x 27 lugares = algo más de 5300 modelos (pronto analizaremos el año 2006).
El conjunto de modelos representa la evolución espacial y temporal de la conectividad en esta amplia zona del Hemisferio Sur con lo que podemos construir las matrices de conectividad (unas 200) sin más problemas que no hacerse un lío con los números y los directorios.
Al final de esta etapa el proyecto ocupaba algo más de 230 Gb en el disco del ordenador y llegaba la hora de empezar a comparar matrices y sacar resultados.

09 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (2)

Nos quedábamos el otro día con el cálculo de las 4 matrices que representan la similaridad florística para los 4 grupos estudiados entre los 27 lugares del trabajo. Lo que ven a continuación es un trocito de la matriz correspondiente a los musgos para las primeras cinco localidades. Los coeficientes están en el rango 0-1.

Obviamente, los problemas para construir las matrices de “distancias” de acuerdo con cada una de las hipótesis que queremos comprobar son distintos en cada caso.

La más simple es la distancia geográfica, que calculamos a partir de las coordenadas geográficas de los lugares. Al ser curva la superficie terrestre, el cálculo de la distancia no es inmediato pero hay “calculadoras geodésicas” que nos dan la solución para dos puntos cualesquiera situados sobre un elipsoide que se usa como modelo de la superficie terrestre. Con esta calculadora el cálculo de las distancias y su estandarización en el rango 0-1 es cuestión de media hora. La matriz inferior muestra los valores para las mismas localidades que la de arriba.

La matriz correspondiente a la hipótesis de la vicarianza es más incierta y necesita una breve explicación. Las zonas que hemos definido pueden dividirse en dos grupos: las que han estado unidas alguna vez en el supercontinente Gondwana y las que no. Gondwana se fragmentó progresivamente desde hace unos 200 millones de años y la hipótesis de la vicarianza defiende que la similaridad florística será inversamente proporcional al tiempo que hace que se separaron las diversas zonas. Lógicamente, es necesario establecer ese tiempo, cosa nada fácil para nosotros que, además, no nos lo creíamos. Para evitar problemas, usamos los datos de Isabel Sanmartín y Fredrik Ronquist de la Universidad de Uppsala y cuya representación gráfica (cladograma geológico, lo llaman) les pongo a continuación. Sanmartín y Ronquist son partidarios de la explicación vicariancista por lo que sus estimaciones son las más adecuadas para no introducir prejuicios por nuestra parte (eso queda bonito y científicamente correcto, en realidad es no tenemos mucha idea de este tipo de cálculos).

De estas distancias temporales se derivan de forma inmediata la matriz de distancias que usaremos en las pruebas estadísticas. Observarán, sin embargo, que no disponemos de datos para los 27 lugares, lo cual es lógico porque hay algunos que no existían hace ese tiempo. Por poner un ejemplo, Bouvet es una isla volcánica relativamente reciente por lo que no podemos establecer un vínculo geológico con Gondwana. La reducción del tamaño de muestra tendrá como consecuencia un aumento de la incertidumbre estadística y tal vez invalide los resultados pero eso nos lo dirán los estadísticos.

Finalmente, deberíamos calcular las distancia sobre el viento y eso es algo más complicado.
Hasta el momento del trabajo, los datos sobre el viento se limitaban a los tomados por globos sonda, boyas meteorológicas y barcos. Los resultados eran mapas sinópticos como el siguiente:

Y con eso no podemos hacer nada porque se trata de trayectorias genéricas trazadas a partir de datos dispersos. Pero desde junio de 1999 la solución estaba volando a 800 km de altura.

Se trata de un satélite de la NASA que lleva un “Quick Scatterometer” (QuikSCAT para los amigos) del que ya les hablé anteriormente. Lo mejor del asunto es que los datos de viento son de cobertura mundial (sobre los océanos), con una resolución mínima de 25 km y tomados diariamente. Además pueden descargarse libremente en el ftp del PO.DAAC con lo que seguimos sin gastar un euro en información.
Abajo tienen un mapa grosero (la densidad de datos es mucho mayor) de los vientos medios del día 5 de enero del 2001, donde el acimut se representa por la flechitas y la velocidad por el color.

Tras descargar unos cuantos gigas de datos en bruto tuvimos que invertir un par de meses en desarrollar el flujo de trabajo que permitiera leer los ficheros originales y transformar los datos a un formato legible por nuestras aplicaciones informáticas y a una proyección geográfica adecuada para el análisis. El que quiera ver una explicación de estas fases de “trabajo sucio” pero imprescindible puede echar un vistazo a esta publicación. Como los vientos cambian, no es razonable hacer un único análisis promediando los valores sino que es necesario hacer múltiples análisis para periodos cortos de tiempo. Decidimos calcular la accesibilidad a intervalos de 10 días para lo cual calculamos los valores de acimut y velocidad medios para cada pixel del área de trabajo. El trabajo en esta etapa ocupaba 34 Gb en el disco.

En la próxima entrega del culebrón veremos como se usan los vientos para hacer el cálculo de la accesibilidad desde un sitio a otro: malos valores cuando el viento sopla en contra o no sopla y buenos valores con viento fuerte a favor. Como ir en bicicleta.

05 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (1)

Ya saben que una parte del conocimiento científico se adquiere proponiendo hipótesis que luego deberían ser sometidas a prueba. Sin embargo, la ciencia está llena de hipótesis que nunca han sido comprobadas a pesar de lo cual a veces se asientan fuertemente y adquieren la pinta de conocimiento consolidado cuando, en realidad, su validez es poco más que especulación.
Hace cuatro años, un colega y yo nos planteamos resolver uno de esos viejos problemas que estaban pidiendo a gritos algo de apoyo experimental.
El problema es muy simple de plantear: si examinamos las floras de diversos lugares del mundo encontramos similitudes y diferencias (Perogrullo dixit). Esta realidad se ha reflejado en mapas de provincias y regiones fitogeográficas donde el mundo se divide en zonas de flora similar. Pero estos mapas son sólo la representación de la realidad. La pregunta pendiente es ¿cuál es la explicación?

Para explicar la distribución global de las especies vegetales en el mundo se han propuesto varios mecanismos. Las hipótesis más extendidas son, muy sintetizadas, las siguientes:
  • Hipótesis de la vicarianza (HV), propuesta en la década de los 70, que propone que las similitudes y diferencias actuales dependen de la historia geológica de los continentes. Si un continente se fragmenta y estos fragmentos alejan a causa de la deriva continental, las poblaciones de todas las especies que vivían en él quedan aisladas entre sí. La evolución en cada fragmento será independiente a partir de la fragmentación porque no hay intercambio genético. Si esto es cierto, la flora de dos lugares será tanto más parecida como cercana haya sido su separación.
  • Hipótesis geodésica (HG), que propone que la similaridad entre dos lugares es función inversa de la distancia geográfica entre ellos. La idea subyacente es que cada lugar dispersa semillas, esporas y propágulos en general en todas direcciones y que la probabilidad de que lleguen a otro lugar depende de la inversa de la distancia.
  • Hipótesis de dispersión a larga distancia (HD), que propone un mecanismo similar al anterior pero donde la dispersión está dirigida por el viento por lo que la "distancia" entre dos sitios debe medirse como la facilidad de acceso mediante los flujos de viento existentes. El viento interviene como medio de transporte por lo que este mecanismo, si funciona, lo haría con semillas, esporas o fragmentos ligeros. Los cocos y los bisontes quedan excluidos.
Fíjense que la HV asume que la distribución actual de las especies depende de un proceso histórico de millones de años (más de 200 si partimos de la fragmentación de Gondwana), mientras que las otras dos suponen implícitamente que son procesos actuales de dispersión los que explicarían mejor esa distribución. La HG no excluye la dispersión por el viento pero la supone igual en todas direcciones (isotrópica) mientras que la HD la supone anisotrópica.

Este fue el panorama que me planteó J en una llamada telefónica a principios del año 2002. El reto era interesante y la primera pregunta evidente ¿estamos en disposición de solucionar esto? La respuesta dependía de dos cosas: un diseño experimental que permitiera contrastar las tres hipótesis y datos y herramientas suficientes para llevarlo a cabo.
Tras unas cuantas discusiones llegamos a un diseño experimental simple, al menos en principio (acuérdense de Hannibal Lecter citando, creo recordar, a Marco Aurelio: "Alice, simplicidad y primeros principios").
  1. Elegir unos cuantos grupos de plantas que conozcamos bien y un conjunto de lugares para comparar, elaborar una lista de las especies que hay en cada lugar y calcular un índice de similaridad entre todos ellos. Por ejemplo, entre el sitio x y el sitio y tendremos una similaridad S(x, y) que es la misma que la S(y, x).
  2. Calcular las "distancias" entre cada lugar x e y de acuerdo con cada una de las tres hipótesis. En el caso anterior tendríamos DHV(x, y), DHG(x, y) y DHD(x, y).
  3. Comparar la similitud entre las diferentes D**(x, y) y las S(x, y)
  4. Ganador: la hipótesis D** que tenga una mayor similitud con la S
Resuelto (¡ja!) el boceto de diseño experimental, pasamos a los datos. Empezamos por los biológicos: uno o mejor varios grupos vegetales o animales de lugares a diferentes distancias entre sí. Cuantos más mejor porque de esa forma será más fácil separar la señal del ruido. Pero ¿dónde? ¿en Europa? ¿en América de Sur?
Hoy veo que la decisión sobre el escenario que hizo J fue crítica: una buena parte del hemisferio Sur terrestre pero eligiendo, además de algunas zonas continentales periféricas, sitios realmente aislados entre sí: islas. El punto clave es la reducción del ruido en el modelo: el mar es un enorme sumidero que impide el transporte por tierra o en saltos sucesivos con lo que el escenario se "limpia" de transportes contaminantes (recordemos que dos hipótesis son de dispersión y la otra geológica).

Pueden suponer ustedes la tarea siguiente ¿qué grupos incluimos? Por motivos diversos elegimos cuatro: musgos, líquenes, hepáticas y helechos, que podrían tratarse independientemente para aumentar la fiabilidad del análisis.

A partir de ese momento, los componentes del grupo se pusieron a buscar datos en la bibliografía (yo me libré de esta etapa, ufff). J los musgos, P los helechos, A e I los líquenes. Semanas de búsquedas, peticiones y consultas, cientos de artículos, unas docenas de libros... que acabaron con la construcción de cuatro grandes checklists, una para cada grupo. La lista de lugares incluye desde Tierra del Fuego hasta Bouvet pasando por la Península Antártica: 27 lugares muy diferentes y distribuidos por todo el hemisferio austral.

Lugares incluidos en el estudio

Una checklist no es otra cosa que una tabla donde en las columnas están las especies, en las filas los lugares y en las intersecciones un 1 o un 0 en función de que la especie esté presente o no. Fácil.
Al final trabajamos con un total de 1851 especies incluyendo los cuatro grupos.

Las checklists permiten abordar la siguiente tarea con facilidad: el cálculo de un índice de similaridad. Utilizamos el índice de Ochiai que tiene en cuenta las especies compartidas o no entre cada par de lugares y que varía entre 0 y 1. El resultado de esta etapa es ya una referencia para el resto de los análisis: tenemos 4 matrices de similaridad de 27x27, una para cada grupo taxonómico. Obviamente, las matrices son simétricas y la diagonal es la unidad.
Es importante destacar que las matrices han sido construidas a partir de datos bibliográficos gratuitos y disponibles para todo el mundo. Algunos conjuntos de datos se pidieron a los especialistas y debemos reconocer que la respuesta fue rápida y positiva, aquí no hubo la cerrazón que dicen es tan característica en los científicos.

El siguiente paso es construir las matrices de "distancias" entre los 27 lugares correspondientes a cada una de las hipótesis a comprobar. Eso será en la próxima entrega.
Grab this Widget ~ Blogger Accessories
 
º