19 junio 2010

Mapas en formato digital y de acceso libre

Después de una temporada de trabajo, hemos hecho público un lugar en internet sin nombre concreto pero que podríamos definir como una IDE (Infraestructura de Datos Espaciales) con servicios de catálogo y descarga. Nuestro objetivo es dar un servicio a la comunidad facilitando el acceso libre a mapas. Esta IDE es muy simple conceptualmente ya que solamente incluye un buscador de mapas (entiéndase "mapa"en sentido amplio), un despliegue de sus metadatos (información básica quién y cómo hizo el mapa) y un punto de descarga vía http.
La cosa surgió ante la evidencia de que mucha gente que trabaja con mapas necesita información que tal vez exista o tal vez no pero que, en cualquier caso, debe buscar con un enorme desperdicio en tiempo y esfuerzo.
Si montamos un sistema que facilite ese acceso estaremos reduciendo costes y aumentando la eficacia, algo que entiendo es siempre positivo.

La aplicación
El sistema está funcionando sobre Geonetwork opensource, una aplicación de catálogo libre y de código abierto cuyo objetivo es, precisamente, facilitar el acceso a datos espaciales. La forma de buscar más simple es introducir palabras clave en la ventana de búsqueda (arriba a la izquierda). Por ejemplo: "NDVI 2000-2009" devolverá entre otros el mapa siguiente.

Componente Principal 1 de los NDVI de la Península Ibérica para el periodo 2000-2009
Si nos interesa podemos examinar sus metadatos o descargarlo directamente a nuestro ordenador. Es importante destacar que lo que descargamos no es una imagen (lo que vemos sí, está puesta para que la gente se haga una idea de lo que ha encontrado) sino los datos digitales que forman en mapa. En el caso anterior, se trata de una matriz de un millón de celdas más o menos cada una de las cuales contiene un valor entero. La imagen no es más que la representación gráfica de esa matriz pero no es útil para hacer cálculos, que necesitan los valores numéricos.
Este matiz es esencial para entender el objetivo de este servicio: ofrecer la información real, no una imagen pictórica más o menos afortunada.

El servidor
Todo esto está funcionando en un servidor virtual sobre VMWare con Debian GNU/Linux como sistema operativo.

Los datos
¿Qué datos hay disponibles para descargar? En este momento tenemos algo más de 100 Gb de mapas. Hemos empezado ofreceindo información ambiental que hemos considerado importante y que o no existía o estaba un tanto escondida o dispersa. Destacan los mapas climáticos de la España peninsular, de los que hay varios miles (luego lo explico), así como mapas de distribución potencial de vegetación actual y futura, algo de límites administrativos, límites de las hojas cartográficas de España a diferentes escalas, índices de actividad fotosintética y algunos procesamientos estadísticos de la información básica (componentes principales), modelos digitales de elevaciones, mapas de radiación solar sobre el terreno...
Para enterarse bien de lo que hay y, sobre todo, de cómo buscarlo, hemos hecho un wiki llamado Geocatálogo donde se explica lo más relevante de los datos originales, métodos seguidos y forma de búsqueda. Es muy importante examinar este wiki antes de ponerse a trabajar con Geonetwork para comprender bien el alcance de los datos existentes. Por ponerles un ejemplo, hemos elaborado mapas climáticos. Cada series está formada por 36 mapas: temperaturas mínimas, temperaturas máximas y precipitaciones de cada mes del año (3x12=36). La serie básica corresponde al periodo 1961-1990 pero hay mucho más ya que se han elaborado series que reflejan lo que los modelos de cambio climático global prevén para el futuro. Así, hemos construido series de maoas para las combinaciones de:
  • modelos globales: CGCM2, ECHAM4 y HADAM3H
  • escenarios IPCC: A2 y B2
  • horizontes temporales: 2011-2040, 2041-2070 y 2071-2100.
 Por lo tanto, es posible localizar y descargar las precipitaciones medias del mes de enero para el periodo 2011-204o previstas por el modelo ECHAM4 para el escenario B2, por ejemplo. Comprenderán que es conveniente leer primero el wiki para no perderse.
¿Qué no van a encontrar aquí? Vamos a seguir poniendo datos ambientales de diverso tipo pero nuestra idea es poner mapas de valor añadido. Por ejemplo, tenemos prohibido poner los datos de las estaciones meteorológicas ya que firmamos un compromiso con la Agencia Estatal de Meteorología en ese sentido pero ese compromiso no afecta a productos derivados y los mapas entran en ese concepto. No vamos a poner cartografía básica (los mapas convencionales de curvas de nivel, por ejemplo) ya que eso es competencia de otros organismos como el CNIG (Centro Nacional de Información Geográfica) u otras agencias estatales o autonómicas.

La licencia
Toda la información generada por nosotros está bajo licencia Creative Commons 3.0 Attribution, es decir, puede usarse libremente con cualquier fin (comerciales o no), pueden hacerse trabajos derivados, puede copiarse y redistribuirse con el único requisito de citar la procedencia. Algunos mapas no son nuestros pero suelen tener una licencia similar que, en cualquier caso, figura en los metadatos.

Trabajar con la información
Los datos están en formatos compatibles con sistemas de información geográfica: shapefile para datos vectoriales y ascii grid para datos raster. Los SIG son aplicaciones para trabajar con datos geográficos (desde puntos tomados con GPS hasta imágenes de satélite que, por cierto, tenemos también algunas) y disponer y manjar uno es requisito imprescindible para aprovechar la información. Los hay libres y en concreto yo recomendaría gvSIG en la versión tuneada por Oxford Archaeology descargable aquí.

Imagen ortorrectificada de la zona de las Villuercas en Extremadura; los datos incluyen 14 bandas espectrales, desde el verde hasta el infrarrojo térmico (sensor ASTER)

Lamentablemente sólo somos dos personas para esta historia y ninguno de nosotros tiene una dedicación completa sino al contrario, muy parcial (especialmente en mi caso, que sigo con mis clases, investigación y proyectos). La aplicación Geonetwork ha necesitado un esfuerzo importante en revisión de código, optimización y limpieza y corrección de errores, así como en la creación de nuevos programas para la verificación de metadatos y publicación de la información. También la seguridad informática ha sido un aspecto que hemos tenido que cuidar mucho ya que estos servidores son una golosina para ciertos impresentables (de hecho apenas dos días en la red y ya hemos tenido el primer ataque por fuerza bruta procedente de un país del Este de Europa).
Contando con que el tiempo es escaso y nuestra reacción probablemente lenta, quedamos a vuestra disposición en cuanto a sugerencias (qué datos echais de menos y podrían ponerse), ideas nuevas (por ejemplo, tengo en mente la idea de hacer un directorio de datos espaciales fiables que no estén en nuestro servidor pero no sé cómo implementarlo de forma que sea práctico, fácilmente actualizable y con poco mantenimiento) y, por qué no, contribuciones con nuevos mapas digitales que hagan más completa la colección. Os agradecería también que difundiérais esta información allá donde considereis oportuno ya que cuanta más gente use esto más sentido tendrá el trabajo realizado (y el que nos espera). Estais en vuestra casa, servíos vosotros mismos.

18 junio 2010

Aquel artículo en PLoS ONE

Hace casi dos años hicimos una apuesta algo arriesgada: publicar un buen trabajo en una revista sin factor de impacto llamada PLoS ONE. El artículo es de acceso libre y publiqué en este blog una versión comentada de su origen, elaboración y resultadosen tres partes bajo en título común Cómo se hizo "Las pardelas tienen GPS pero no le hacen caso". Dediqué la primera parte a debatir sobre la revista y su política de publicación. Luego entré a explicar el artículo en dos partes más: el espacio y el tiempo.
Los motivos de enviar el artículo a PLoS ONE fueron dos, uno altruista y otro egoísta. El que suena mejor es el primero, claro: todas las revistas de la Public Library of Science son de acceso abierto. La licencia es Creative Commons Attribution, lo que significa que todo el mundo (literalmente) puede leer los artículos gratuitamente y hacer con ellos lo que quiera (trabajos derivados, por ejemplo) sin más requisito que citar a los autores. Es gratis para todos menos para los que publican, que debemos pagar una cantidad no despreciable. Echando cuentas, sin embargo, llegas a la conclusión de que es más barato pagar tú por que pongan tu artículo en abierto que la alternativa de una revista que sólo puede ser leída por suscripción, algo que no todos se pueden permitir.
El segundo motivo es menos guay: pensamos que el acceso libre supone un mayor número de citas potenciales. Es posible que tu artículo no sea citado por nadie o tal vez sólo por tí mismo (vean Ciencia oscura) pero al menos que no sea por estar en una revista inaccesible.
PLoS ONE no tenía factor de impacto y había dudas de que llegara a tenerlo porque parecía que la revisión no era especialmente fuerte ya que se sólo se rechaza un 30-35% de los artículos enviados y el número de artículos publicados es elevado: 2700 en el 2008 y casi 4000 en el 2009. Se asumía que si los artículos eran suficientemente citados eso era un indicador de que el nivel era adecuado para una revista científica "seria".
El tiempo ha confirmado esa cuestión y hoy PLoS ONE aparece en la última edición del JCR (Journal Citation Reports) con un factor de impacto de 4,35. El JCR es esa lista de revistas chachis donde es obligatorio publicar para que tu curriculum investigador tenga una pátina de respetabilidad (con razón o sin ella, que eso es otra cuestión).
Según SCImago, PLoS ONE ha acumulado 3979 citas en los últimos tres años para un total de 1306 artículos.
Nube de etiquetas de PLoS ONE (hecha con Wordle)

13 junio 2010

La gravedad de la Tierra según GOCE

Sin que acabe yo de entenderlo, el post que más comentarios ha suscitado en este blog ha sido el dedicado a desmontar uno de los argumentos de los creyentes de la Tierra Hueca: el que la malvada NASA oculta con un "parche" los presuntos agujeros en los polos (ya ni pongo el enlace). Aunque no hay forma de que los adictos abandonen su creencia, hoy aprovecho una noticia de ciencia para dar un argumento más (que será obviado, por supuesto).
En la enseñanza secundaria nos contaron que la acelaración debida a la gravedad, g, era de 9,8 m·s-2. Ese valor está bastante ajustado (el valor que se usa como estándar es 9,8072467) pero la realidad es mucho más compleja ya que la Tierra no es un cuerpo homogéneo sino que hay zonas más o menos densas que hace que la fuerza gravitatoria sea diferente en unos lugares u otros. Son detectables incluso variaciones temporales debidas a la recarga de acuiferos en la cuenca del río Amazonas, por poner un ejemplo curioso, o a la influencia de corrientes marinas. A la superficie que representa un valor constante de gravedad se la llama geoide. Si la Tierra fuera homogénea y perfectamente esférica el geoide sería también la superficie de una esfera pero verán más abajo que eso no es así. La figura inferior muestra los componentes de la gravedad y su contribución relativa, pinchen encima para verla en grande, que merece la pena:

Componentes de g (de ESA)

El asunto es que hace algo más de un año, el 19 de marzo de 2009, se puso en órbita un satélite de 5 m de longitud y 1 t de masa al que se llamó GOCE (de Gravity field and steady-state Ocean Circulation Explorer). Es un satélite un poco peculiar porque, por ejemplo, orbita a apenas 250 km de altitud, mucho más bajo de los 700-800 km habituales. Los instrumentos que porta puede medir la aceleración con una precisión de 10–5 m·s–2 lo cual supone diferencias de 1-2 cm en la superficie del geoide.

El satélite GOCE (de ESA)

GOCE comenzó a medir la gravedad terrestre en septiembre del año pasado. Tras unos meses de pruebas y calibraciones, hoy ya tenemos la primeras "imágenes" del geoide. Son muy similares a lo que ya se conocía, por supuesto, y a la escala de la figura no hay forma de distinguirlas pero recuerden que debajo hay datos numéricos, que son los que realmente cuentan. ¿Que forma tiene nuestro geoide? Pues esta:


Hay que avisar de que la imagen tiene truco porque para destacar las irregularidades se ha exagerado mucho en la escala vertical, entendiendo como tal la que apunta al centro de masas de la Tierra. La superficie del geoide es realmente algo muy próximo a una esfera aunque las irregularidades que vemos en la figura existen en los valors físicos. Puede verse que el satélite ha cubierto toda la superficie terrestre incluyendo los Polos. En esta vista, el Polo Norte está ahí, encima de Groenlandia, con colores entre verdes y amarillos. ¿Qué debería verse si hubiera un gran agujero de entrada al intramundo? Pues, lógicamente, una anomalía gravitatoria monumental, un intensísimo manchón de color azul que en los datos de GOCE no existe. El motivo de esa ausencia es que dichas entradas sólo existen en algunas imaginaciones, que se aferran a un mito absurdo que la mera existencia de la base Amundsen-Scott en el Polo Sur refuta sin más discusión. Pero bueno, ya que hay más pruebas, aquí se las traigo.
Eso sí, que no vuelvan a repetir que la NASA oculta nada porque GOCE es de la Agencia Espacial Europea y los datos los trata la propia ESA y un consorcio europeo de diez instituciones científicas llamadp HPF (High-level Processing Facility).

08 junio 2010

Paquete de estadística circular en R

Hace unos años comencé a trabajar con datos circulares, vectores en los que debía analizarse no sólo su módulo sino su acimut. Es largo el camino, especialmente porque mi formación estadística es muy precaria (aunque a veces tenga epifanías) pero una de las etapas acaba de cumplirse: hemos subido un paquete específico al repositorio de R. Ya había alguno pero se nos antojaba corto en la parte gráfica con lo que este tiene bastante valor añadido en ese aspecto.
Yo no estoy de coautor porque apenas he trabajado en el proyecto pero me cabe el placer de haber sido el que comenzó en enredar en este tema en su aplicación a los errores en los datos espaciales y de haber dirigido una tesis al respecto. Luego otros tomaron las riendas, como debe ser.
El paquete se llama VecStatsGraph2D (la denominacion suele ser así de rarita) y podeis encontrarlo en la página que enlaza su nombre. El enlace directo al manual es este. La licencia es GPL3.
Como ya sabrán casi todos R es un entorno de código abierto para análisis estadísticos. Hay cientos de paquetes, algunos muy fáciles de usar, otros directamente diabólicos. El caso es que, en conjunto, es una solución magnífica para analizar datos científicos. Hay que currársela un poco pero ¿quién da más por menos? Abajo les pongo dos de los gráficos que permite hacer la aplicación.


Anticipándome un poco a los acontecimientos les comento que estamos preparando un paquete de análisis equivalente pero para vectores en tres dimensiones. Se llamará, en un arrebato de creatividad, VecStatsGraph3D. Será dentro de un par de meses.

Por qué no iré a la huelga mañana

Un montón de despropósitos
Mañana está convocada huelga del sector público. La convocatoria no me ha llegado a pesar de lo fácil que es en mi universidad enviar correos colectivos. Lo que sí me ha llegado ha sido un correo pintoresco, donde la dirección de mi Centro me dice que es obligatorio que les diga si voy o no a la huelga. Lo curioso es que en dicho Centro hay profesores que ya han desaparecido con el fin de las clases hace una semana. Ellos no darán señales de vida y nadie mirará si están o no porque no hay inspecciones ni siquiera durante el curso. Ante la ausencia de inspección, la dirección del Centro pretende que le hagamos el trabajo.

Por otra parte, los sindicatos convocan esta huelga para los funcionarios pero no para los demás. Otro día convocarán una huelga general que se espera que apoyemos también. Dos días de huelga, cada uno con su sanción ecónomica que es bastante más de lo que cobramos en un día. Dicho de otro modo, se espera que el único colectivo al que se le rebaja el sueldo pierda además el sueldo de esas dos jornadas.
En el día de mañana estamos solos y a los de sanidad, por poner un ejemplo, la gente se les echará encima por cancelar sus citas. En el segundo día, la huelga general será por un cambio en condiciones de contratación o despido laboral. La diferencia está en que nadie nos secundará mañana mientras que si nosotros ignoramos la huelga general seremos unos esquiroles insolidarios. Si hay que hacer huelga ¿qué costaba convocar en una jornada única por toda la pérdida de derechos y remuneraciones incluyendo a los funcionarios, a la congelación de las pensiones y a las nuevas condiciones en los contratos laborales?
Mientras tanto, la universidad no ha definido a quienes implican los servicios mínimos y probablemente algún piquete sindical aparezca mañana en mi despacho para convencerme de lo equivocado de mi decisión. Tendré que explicarles que ellos firmaron un acuerdo con el gobierno a finales del año pasado sobre nuestras condiciones laborales y que aún no han llevado su incumplimiento a los tribunales. Tal vez tendré que decirles que sí, que estoy en huelga, pero a la japonesa, que es más difícil.
Para acabar de aderezar este festival de despropósitos se entera uno que a los jugadores de la selección española de fútbol no solo no les bajan el sueldo sino que las darán más de medio millón de euros a cada uno en el caso de ganar el campeonato. Quinientos cincuenta mil euros es lo que yo ganaré en los próximos veinte años (si no siguen bajándome el sueldo, claro). Quinientos cincuenta mil euros de dinero público (?) además de su sueldo, que no será escaso. ¿Quién ha decidido que eso es lo que debe hacerse con la que está cayendo?

Postdata 1:
Una entrada más sobre el tema: Huelga general, democracia y matemáticas en Ciencia en el XXI.

Postdata 2:
Bien se acabó la cosa, sea a la japonesa o a la latina. Todo me recuerda al estrambote de Cervantes:
Y luego, incontinente,
caló el chapeo, requirió la espada
miró al soslayo, fuese y no hubo nada.
 Ahora vendrá la tontísima guerra de cifras como si eso fuera lo que salva la cara de unos o de otros. Como si la cara de los dos (y de algún convidado de piedra) no debiera estar ya roja de vergüenza.

06 junio 2010

[Foto] Fractalius, prescindible pero interesante

Ya saben que Photoshop tiene una enorme cantidad de complementos, filtros o plugins, como quieran llamarlos. El 90% de ellos hacen la misma media docena de funciones: cambios de contraste o de saturación, equilibrio de color, filtros de paso alto o bajo... Algunos son necesarios para un retoque básico, otros son completamente prescindibles pero a veces alguno de ellos genera efectos poco corrientes que merece la pena comentar.  
Al que les traigo hoy le han bautizado Fractalius porque dicen que analiza la "dimensión fractal oculta" de las imágenes. Cualquiera sabe, a lo mejor es cuántico también.
Aunque no se trata de cogerle cariño a Fractalius porque cansa con rapidez, los resultados son suficientemente interesantes como para ponerles unos ejemplos abajo.

La fotografía original (pulsar encima para ampliar)
Efecto "crayon"
Efecto "rounded", me gusta especialmente porque me recuerda a las vidrieras pintadas del modernismo.

Efecto "staggy"
Efecto "skecth"
Todos los filtros se aplican con una configuración por defecto pero pueden configurarse en una docena de parámetros. Lamentablemente no existe explicación del papel de cada uno de ellos o sea que quien tenga tiempo tendrá que investigar. Fractalius sólo existe para Windows (trabaja bien en W7 x64) y para Photoshop de 32 bits, un problema que dicen que resolverán este año. Falta hace porque el cálculo es intensivo y en imágenes grandes puede necesitar un minuto o algo más, demasiado para hacer pruebas ágilmente. Las imágenes de arriba están hechas con la versión de prueba de 30 días.
Grab this Widget ~ Blogger Accessories
 
º