22 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (y, por fin, 5)

La técnica definitiva para obtener resultados completamente independientes de los anteriores fue una combinación de escalamiento multidimensional (MDS, multidimensional scaling en guiri) y análisis de Procrustes (la Wikipedia nunca dejará de sorprenderme).
En una explicación casera pero comprensible, el MDS toma una matriz de distancias (o similitudes) y construye un mapa en un espacio n-dimensional de forma que a cada objeto en la matriz se le asigna una localización que respete al máximo el conjunto de distancias originales.
Un ejemplo simple: abajo tienen las distancias entre cinco ciudades españolas. El MDS les asigna las coordenadas de la derecha que, en este caso, permiten representarlas en un plano.

Que el espacio de representación sea de dos dimensiones o más depende de las relaciones entre los objetos y de su número. Lógicamente, deben usarse las dimensiones necesarias para que la fidelidad con la que el “mapa” representa la matriz sea suficiente lo cual se decide a través de los estadísticos pertinentes. El aspecto de este mapa es el siguiente:
La representación en este espacio común no tiene porqué coincidir con la del espacio geográfico aunque en este caso no se diferencia demasiado.

Lo que hicimos en nuestro trabajo fue someter a esta técnica la totalidad de matrices de similitud florística, conectividad por vientos, etc. Como resultado obtuvimos los correspondientes mapas que, en este caso, algo más complejo, son tridimensionales. El MDS se aplicó mediante el algoritmo PROXSCAL desarrollado en la Universidad de Leiden. Si alguien quiere ver los entresijos del método puede descargar este PDF. PROXSCAL estaba incluido en la versión 11.5 de SPSS de la que disponíamos de licencia campus.
Vale, ya hemos conseguido una tonelada más de ficheros con coordenadas ¿y ahora qué?

El uso del MDS se debió a que habíamos encontrado una técnica idónea para comparar el ajuste entre los distintos mapas obtenidos. Esta técnica, llamada transformación de Procrustes, superpone dos mapas e intenta, mediante giros, traslaciones y cambios de escala, ajustarlos lo mejor posible. Siguiendo con el ejemplo de las ciudades, supongamos que hemos hecho otra matriz pero de tiempos de acceso en vez de distancias. La sometemos al MDS y luego las superponemos en un espacio común rotando, escalando y desplazando la segunda sobre la primera hasta reducir al mínimo los desajustes. El resultado gráfico sería algo así como lo siguiente:

Donde los vectores de color naranja son los errores del ajuste (normalmente el ajuste no es perfecto). Estos vectores o residuos nos permiten calcular un estadístico que nos expresa el éxito de la operación y que puede usarse como estimadores del grado de asociación entre las matrices que dieron origen a los mapas.

Podrán suponer lo que sigue: la transformación de Procrustes se aplicó a todos los pares de mapas de similitud florística con la conectividad máxima, distancia geográfica y tiempos de separación geológica. Y los resultados del proceso fueron los valores de ajuste entre las matrices así como su significación estadística. Como en el caso de PopTools, tuvimos la suerte de que hay gente generosa por ahí afuera y los análisis fueron realizados con un programita llamado PROTEST gracias a que Donald A. Jackson tuvo a bien ponerlo en internet a libre disposición. PROTEST no sólo realiza la transformación y calcula el ajuste sino que nos da la significación del mismo mediante técnicas de aleatorización. El resultado es un estadístico de ajuste llamado m2 y su valor de significación P.
La significación estadística se expresa mediante valores de P, un símbolo que representa la probabilidad de que los ajustes observados se deban al azar, es decir, no reflejen relaciones reales entre las matrices originales. Por tanto, si P es pequeño nos ponemos muy contentos. Echemos por fin un vistazo a los resultados finales. Recuerden que estamos comparando entre hipótesis: el que tenga el menor valor de P gana.


Los resultados pueden resumirse de la forma siguiente: la hipótesis de la dispersión a larga distancia por el viento muestra unos valores de ajuste extremadamente significativos y siempre mucho más elevados que las hipótesis alternativas. Sólo en el caso de los helechos la distancia geográfica tiene una significación estadística equivalente.
La vicarianza aparece como una hipótesis claramente insuficiente para explicar la similitud actual de los tres primeros grupos taxonómicos estudiados. No hemos podido incluir a los helechos en este análisis. El motivo es que el número de localidades que pertenecieron a Gondwana y donde este grupo está presente en la actualidad es muy reducido, ya que por motivos climáticos no crecen en la Antártida ni en las islas subantárticas. Al no poder incluir estas localidades en los análisis, el tamaño de la muestra se reduce excesivamente. Insistiremos aquí en que una parte de las islas actuales es de origen volcánico y relativamente reciente, por lo que la vicarianza en versión "dura" nunca podría explicar la presencia de las especies en la actualidad: estas islas nunca formaron parte de Gondwana.
La hipótesis geodésica, basada en la distancia actual, se ajusta bien sólo en el caso de los helechos. En el resto, la significación estadística es siempre mucho peor que la correspondiente a la dispersión eólica.
Como conclusión, los análisis aportan una evidencia sólida a favor de la dispersión eólica a larga distancia como factor determinante de la similitud florística en los grupos que hemos analizado. Paralelamente, se muestra que la vicarianza no es un mecanismo que explique la presencia o ausencia de las especies actuales, aunque tal vez pueda serlo a niveles taxonómicos más generales. Y además, todo se hace con datos objetivos, públicos e independientes.

Una cosa en la que quiero insistir es en el coste económico de este trabajo: cero. Esto quiere decir que no hemos tenido financiación y una buena parte del trabajo se ha hecho con datos y software gratuitos. Incluso el análisis de coste anisotrópico podría hacerse hoy con una excelente aplicación libre llamada SEXTANTE.
Finalmente, también es bueno comentar que a lo largo de este trabajo hubo que estudiar. Y mucho. Nunca habíamos usado las técnicas que finalmente se utilizaron por lo que la bibliografía revisada buscando soluciones a los problemas que iban surgiendo fue grande. Y no se trata sólo de encontrar las técnicas sino de aprender a usarlas con la mínima solvencia como para estar seguros de no cometer errores básicos, siempre posibles cuando uno se aventura en terrenos desconocidos.
Y como se dice en las charlas: quedo a su disposición para lo que quieran preguntar, el culebrón ha terminado.

3 comentarios:

Angel dijo...

Ahora que ha terminado la enésima serie de forenses (Bones) recupero las preguntas de rubiales (disculpa el retraso pero ha sido una semana movida):
1. ¿Cómo garantizáis que las "distancias" de las tres hipótesis las estáis midiendo en las mismas "unidades"?
No es necesario porque estamos midiendo relaciones más que valores propios. El MDS+Procrustes mide precisamente esas relaciones y las unidades de distancia no son relevantes debido a las transformaciones que se usan en la superposición.

2. ¿Por qué no se exponen los resultados de la HV para vuestros grupos en el superartículo, que es la más interesante de comparar(o al menos más que la HG)?
Lo discutimos en su momento y preferimos esperar a tener más grupos (ya tenemos alguno más). Algunos seguidores de la HV son bastante fundamentalistas y aunque los resultados finales son claros preferimos acumular más evidencia en forma de grupos y lugares. No tenemos dudas de que la HV no puede funcionar con este tipo de organismos pero el trabajo debe ser definitivo y usar la mayor cantidad de datos posible.

3. Si las hipótesis no son excluyentes (es decir, todas explican parte del modelo) ¿cómo se podría detectar?
Bueno, la HV parece que no explica nada. En cuanto a las otras dos, son dos manifestaciones del mismo fenómeno pero con distinta geometría: dispersión isotrópica vs anisotrópica. A pesar del ruido que sin duda hay, los resultados apoyan la segunda. Tal vez podría desarrollarse alguna técnica haciendo un "remix" de las configuraciones HG y HV e intentando separar los residuos de cada una de ellas en el análisis de Procrustes pero no hemos visto nada semejante por ningún sitio.

Rubiales dijo...

Gracias por las aclaraciones a mis problemas existenciales...
Desde luego, vuelvo a insistir en que el trabajo es muy brillante.

Angel dijo...

Gracias.
Ahora estamos con un proyecto complementario que abarca las dos orillas del Atlántico norte donde analizaremos distancias moleculares dentro de varias especies de hongos. A ver qué sale...

Grab this Widget ~ Blogger Accessories
 
º