09 febrero 2007

Cómo se hizo "A los musgos se los lleva el viento" (2)

Nos quedábamos el otro día con el cálculo de las 4 matrices que representan la similaridad florística para los 4 grupos estudiados entre los 27 lugares del trabajo. Lo que ven a continuación es un trocito de la matriz correspondiente a los musgos para las primeras cinco localidades. Los coeficientes están en el rango 0-1.

Obviamente, los problemas para construir las matrices de “distancias” de acuerdo con cada una de las hipótesis que queremos comprobar son distintos en cada caso.

La más simple es la distancia geográfica, que calculamos a partir de las coordenadas geográficas de los lugares. Al ser curva la superficie terrestre, el cálculo de la distancia no es inmediato pero hay “calculadoras geodésicas” que nos dan la solución para dos puntos cualesquiera situados sobre un elipsoide que se usa como modelo de la superficie terrestre. Con esta calculadora el cálculo de las distancias y su estandarización en el rango 0-1 es cuestión de media hora. La matriz inferior muestra los valores para las mismas localidades que la de arriba.

La matriz correspondiente a la hipótesis de la vicarianza es más incierta y necesita una breve explicación. Las zonas que hemos definido pueden dividirse en dos grupos: las que han estado unidas alguna vez en el supercontinente Gondwana y las que no. Gondwana se fragmentó progresivamente desde hace unos 200 millones de años y la hipótesis de la vicarianza defiende que la similaridad florística será inversamente proporcional al tiempo que hace que se separaron las diversas zonas. Lógicamente, es necesario establecer ese tiempo, cosa nada fácil para nosotros que, además, no nos lo creíamos. Para evitar problemas, usamos los datos de Isabel Sanmartín y Fredrik Ronquist de la Universidad de Uppsala y cuya representación gráfica (cladograma geológico, lo llaman) les pongo a continuación. Sanmartín y Ronquist son partidarios de la explicación vicariancista por lo que sus estimaciones son las más adecuadas para no introducir prejuicios por nuestra parte (eso queda bonito y científicamente correcto, en realidad es no tenemos mucha idea de este tipo de cálculos).

De estas distancias temporales se derivan de forma inmediata la matriz de distancias que usaremos en las pruebas estadísticas. Observarán, sin embargo, que no disponemos de datos para los 27 lugares, lo cual es lógico porque hay algunos que no existían hace ese tiempo. Por poner un ejemplo, Bouvet es una isla volcánica relativamente reciente por lo que no podemos establecer un vínculo geológico con Gondwana. La reducción del tamaño de muestra tendrá como consecuencia un aumento de la incertidumbre estadística y tal vez invalide los resultados pero eso nos lo dirán los estadísticos.

Finalmente, deberíamos calcular las distancia sobre el viento y eso es algo más complicado.
Hasta el momento del trabajo, los datos sobre el viento se limitaban a los tomados por globos sonda, boyas meteorológicas y barcos. Los resultados eran mapas sinópticos como el siguiente:

Y con eso no podemos hacer nada porque se trata de trayectorias genéricas trazadas a partir de datos dispersos. Pero desde junio de 1999 la solución estaba volando a 800 km de altura.

Se trata de un satélite de la NASA que lleva un “Quick Scatterometer” (QuikSCAT para los amigos) del que ya les hablé anteriormente. Lo mejor del asunto es que los datos de viento son de cobertura mundial (sobre los océanos), con una resolución mínima de 25 km y tomados diariamente. Además pueden descargarse libremente en el ftp del PO.DAAC con lo que seguimos sin gastar un euro en información.
Abajo tienen un mapa grosero (la densidad de datos es mucho mayor) de los vientos medios del día 5 de enero del 2001, donde el acimut se representa por la flechitas y la velocidad por el color.

Tras descargar unos cuantos gigas de datos en bruto tuvimos que invertir un par de meses en desarrollar el flujo de trabajo que permitiera leer los ficheros originales y transformar los datos a un formato legible por nuestras aplicaciones informáticas y a una proyección geográfica adecuada para el análisis. El que quiera ver una explicación de estas fases de “trabajo sucio” pero imprescindible puede echar un vistazo a esta publicación. Como los vientos cambian, no es razonable hacer un único análisis promediando los valores sino que es necesario hacer múltiples análisis para periodos cortos de tiempo. Decidimos calcular la accesibilidad a intervalos de 10 días para lo cual calculamos los valores de acimut y velocidad medios para cada pixel del área de trabajo. El trabajo en esta etapa ocupaba 34 Gb en el disco.

En la próxima entrega del culebrón veremos como se usan los vientos para hacer el cálculo de la accesibilidad desde un sitio a otro: malos valores cuando el viento sopla en contra o no sopla y buenos valores con viento fuerte a favor. Como ir en bicicleta.

10 comentarios:

Rubiales dijo...

Mola, mola...
Tengo una pregunta, que es del capítulo anterior, pero bueno... ¿los datos florísticos los sacáisteis del GBIF?

Ángel M. Felicísimo dijo...

No hay datos del GBIF, supongo que porque no habría registros de esas zonas aunque ya lo preguntaré (yo me libré de esa parte del trabajo). Lógicamente, si hubiéramos usado datos del GBIF estarían citados.
En este PDF tienes las checklists y la bibliografía usada para elaborar las listas (las últimas 14 páginas).

Rubiales dijo...

Bufff, algo tedioso, sí, tedioso...
Gracias por las aclaraciones.

Como hablaste de que los checklists habían sido elaborados a partir de datos gratuitos, pensé en esa vía... En fin...

La disponibilidad universal de las colecciones de seres vivos a partir del abre nuevas vías a este tipo de trabajos ¿no crees?

Ángel M. Felicísimo dijo...

Claro, los datos del GBIF como los de algunas otras colecciones facilitan enormemente los trabajos posteriores. El problema, y ahí está el mkérito de estas instituciones, es el enorme trabajo de recopilación que suponen, aparte de un proceso pendiente que habrá que abordar dentro de poco: el VV&C, verificación, validación y certificación. En un proyecto que estamos terminando ahora usamos datos de TROPICOS, una base de datos florísticos de la zona tropical americana con centenares de miles de registros.
http://mobot.mobot.org/W3T/Search/vast.html
aunque no todos con referencia geográfica.

Anónimo dijo...

Por alusiones, y desde Quito, me atrevo a comentar alguna cosa. Soy el briólogo del grupo, y la razón de utilizar los musgos, en principio, fue mi propio interés. Cuando vimos que aquello tenía una pinta buenísima, empecé a compilar las hepáticas. Comentarlo con un becario que trabajaba en aquel momento con helechos y una amiga que hace lo propio con líquenes digamos que fue la tendencia natural. Al incluir varios grupos sin relaciones de parentesco, pero que se podían dispersar perfectamente por esporas o -muy, pero que muy importante, por pequeños fragmentos- sería una comprobación de que si había una relación "viento-flora" ésta no se debía al azar, es decir que no era ruido.
Los datos se recogieron de artículos publicados, checklists, libros, etc. Ángel se refiere a gratuitos en el sentido de que todo está en bibliotecas públicas (fundamentalmente la del Real Jardín Botánico de Madrid que, por cierto, tiene una biblioteca digital muy buena: http://bibdigital.rjb.csic.es/spa/index.php).
Los datos de GBIF, siendo una idea genial (bases de datos distribuidas. Para los no iniciados: haces una consulta única que se dirige a varias bases de datos alojadas en sitios diversos, y recibes una respuesta única con la información de todas las bases de datos incluidas en esa red), tienen un pequeño problema. Bueno, no los datos, sino su utilización. Hay que tener en cuenta que los datos pueden estar "sucios": identificaciones o georreferenciación incorrectas, pocos datos, etc. El que aparezcan los datos "mágicamente" al darle al botón no quiere decir que los podamos usar inmediatamente. Tenemos que utilizarlos críticamente, algo que a veces la gente no tiene en cuenta.
En el trabajo que comenta Ángel cada una de las personas del grupo se ocupó de un grupo taxonómico en el que era experto, y esto llevó bastante tiempo de limpieza. Os cuento una anécdota que es rigurosamente cierta: un catedrático de universidad español dijo en una conversación en la que yo estaba que las publicaciones en Science o Nature no tenían mayor valor que otras en revistas no tan "glamourosas", ya que estas dos revistas publicaban simplemente "ocurrencias" (juro por Snoopy que lo dijo así mismo). Pues bien, las "checklists" de musgos, hepáticas, líquenes y helechos de esta publicación, que están libremente accesibles en nuestra página web (o en la mía), son en sí mismas la más completas listas de especies de estos grupos del área de estudio (nada menos que todo lo que hay al S del paralelo 32º S), y podrían haber sido publicadas en cualquier revista de nuestras especialidades. El muy borrego es capaz de publicar la lista de plantas de Calahorra y no se percata (bueno, más bien le jodió no haber sido él) del interés de las listas que publicamos (no digamos del artículo, que posiblemente no le alcance su melón...).
Bueno, perdón por el rollo, pero salgo de dar un curso de modelización en el que había gente que había utilizado datos sin depurar con métodos realmente malos. Y esos resultados, malos como no podía ser de otro modo, no los validaban en el campo.

Ángel M. Felicísimo dijo...

Ahí iba yo con el proceso de VV&C, verificación, validación y certificación.
Las instituciones que sirven datos acabarán separando los datos verificados del resto, que pueden ser erróneos y certificando el nivel de calidad de las bases de datos. Mientras tanto (eso supone un enorme esfuerzo complementario) los datos deben ser verificados por el "usuario", cosa tediosa pero imprescinidible y que lleva a descartar un porcentaje no despreciable de los datos originales.
Nota cínica: un modelo siempre es perfecto a no ser que se te ocurra la estúpida idea de comprobarlo empíricamente.

Rubiales dijo...
Este comentario ha sido eliminado por el autor.
Rubiales dijo...

Gracias de nuevo por las aclaraciones. La verdad es que el trabajo es precioso, y sin duda supone un enorme esfuerzo documental y evaluador, sin duda.

Bueno, ya que veo que no os acribillan a preguntas y tengo el lujo de poder indagar en el "cómo se hizo", os lanzo tres dudas más que se me ocurren...

1. ¿Cómo garantizáis que las "distancias" de las tres hipótesis las estáis midiendo en las mismas "unidades"?
2. ¿Por qué no se exponen los resultados de la HV para vuestros grupos en el superartículo, que es la más interesante de comparar(o al menos más que la HG)?
3. Si las hipótesis no son excluyentes (es decir, todas explican parte del modelo) ¿cómo se podría detectar?

Saludos.

Ángel M. Felicísimo dijo...

Las tres preguntas erán contestadas en breve pero no quería correr sino ir exponiendo poco a poco la elaboración del trabajo. Ruego un poco de paciencia :-)

Anónimo dijo...

Perdón por las prisas...

Grab this Widget ~ Blogger Accessories
 
º