- Las cintas desaparecidas del Apolo 11
- Modelos matemáticos y realidad
- Sobre la necesidad de liberar los datos científicos
- Creencias persistentes ¿ha nacido usted con luna llena?
- Continentes a la deriva y GPS
- Benedicto XVI y la evolución biológica
- El último tilacino
- Libros, grutas y arqueólogos
08 enero 2007
Mirando por el retrovisor: algunas entradas en el 2006
04 enero 2007
Modelos, realidad, incertidumbre… y Turing de nuevo
Antes de seguir no me resisto a incluir aquí una de las frases lapidarias atribuidas a Dijkstra (no verificada) y sacada de las Wikicitas a propósito de nuestro debate:
«La pregunta de si un computador puede pensar no es más interesante que la pregunta de si un submarino puede nadar.»Pero sigamos. Quería desarrollar uno de los párrafos de Pedro en los comentarios al post anterior:
Lo que él [Turing] propone es análogo a la confrontación de un modelo con la realidad en el método científico: diseñar experimentos para comparar lo que hace el modelo con lo que hace la realidad, y si no somos capaces de falsar la hipótesis de que el modelo reproduce el comportamiento real, nos quedamos con el modelo.No me gusta demasiado la última frase porque creo que se refiere a situaciones conceptualmente irreales y que cuando usamos modelos en la investigación no procedemos así. A ver si me explico comentando algo sobre objetivos y métodos de modelado (RAE dixit) aunque es difícil sintetizar esto en dos páginas.
Usamos los modelos como recurso para simplificar la forma, estructura o funcionamiento de objetos y procesos reales y, así, poder deducir o conocer algunas de sus propiedades con más comodidad: la complejidad de la realidad hace incómodo (o imposible) someterla a experimentación directa y usamos una simplificación. Para que este método funcione es necesario suponer que la simplificación de la realidad no penaliza excesivamente la exactitud del resultado. Lógicamente, esta suposición no puede hacerse sin más y debe comprobarse y valorarse cuantitativamente siempre.
Aceptamos por tanto que lo que genera el modelo (resultados) será similar a lo que generaría el objeto real en las mismas condiciones de experimentación (escenario) y utilizamos los resultados dándoles un valor de verosimilitud. Pero esta suposición debe tomarse con pinzas y tener en cuenta:
- Que el escenario es a su vez un modelo de las condiciones reales, simplificado y truncado, por lo que no puede ser asumido directamente como “real”.
- Que, consecuentemente, los resultados se generan condicionados por la calidad del escenario, de los modelos de los objetos (a través de datos) y de los modelos de los procesos (a través de ecuaciones o algoritmos que las traducen al lenguaje informático).
Para saber si podemos usar un modelo es necesario estimar la similitud del resultado modelado respecto al resultado real y valorar si ese resultado nos es útil y para qué.
Esto puede realizar de dos formas:
- Cuando es posible, contrastando una pequeña parte de los resultados modelados con resultados reales (muestra de contraste).
- Cuando no es posible, realizando un análisis de sensibilidad (aunque éste debe hacerse siempre).
Este modelo tiene la bondad de ser contrastable: iríamos a varios lugares de características diferentes, pondríamos termómetros a varias profundidades y contrastaríamos las temperaturas reales con las predichas. Las divergencias nos permitirían dar valores de incertidumbre a los resultados mediante, por ejemplo, un intervalo de confianza al 95%. Los resultados adoptarían la forma, por ejemplo, de 13.2±1.5 ºC (I.C.: 95%). Lógicamente, el valor de incertidumbre puede no ser constante sino función de la temperatura y de los valores de conductividad o de sus combinaciones…
La idea fundamental es que conocemos hasta dónde llega la exactitud de los resultados modelados. Si nos vale o no es otra cuestión y depende de nuestros objetivos: habrá trabajos que soporten esa incertidumbre y otros que no.
Segundo ejemplo, más de moda que el anterior: predicciones de cambio climático. Resulta que aplicamos el modelo X de predicción de cambio climático y encontramos que en una zona determinada X predice una subida de 3.0 ºC en los próximos 80 años. ¿Cómo puedo saber si este resultado es fiable? Pues lamentablemente este modelo no es contrastable y no podemos, en principio, saber hasta qué punto es fiable. ¿Estamos perdidos? No del todo, podemos hacer una prueba que nos va a dar información indirecta sobre el asunto. Sería la siguiente: si el modelo X usa n variables xi (i=1..n) como entrada, vamos a hacer mil réplicas del proceso de modelado. Lógicamente, esos mil valores de temperatura que resultan serían iguales pero en estas réplicas vamos a cambiar esos valores originales añadiéndoles una desviación aleatoria: xi + ei . Esa desviación ei estará dentro del rango de incertidumbre de la medida xi. ¿Y cómo sabemos esa incertidumbre? Midiendo repetidas veces el valor xi en la realidad. Es decir, asignamos una incertidumbre a cada uno de los datos de entrada. En nuestro caso, si una de las entradas es la transparencia de la atmósfera habrá que medirla unos cientos de veces y calcular el valor medio y la incertidumbre asociada. Los modelos de cambio no se harán introduciendo repetidamente el valor medio sino muchos valores posibles calculados a partir de la incertidumbre de la medida. Y todo esto para cada variable y valor de entrada en el modelo X.
Este procedimiento nos permitirá ver, analizando los resultados, varias cosas. Entre ellas cuál es la variación en esos resultados. Cabe que esa subida de 3.0 sea, en realidad 3.0±0.3 ºC o cabe que sea 3.0±5.3 ºC. En este segundo caso el modelo no nos vale para nada que se me ocurra.
Otra cosa que podemos ver es si hay variables críticas, es decir, variables cuyas variaciones implican cambios relativamente mayores en los resultados que otras. Esas variables deben ser medidas con mayor exactitud que el resto (o dicho de otra forma, los otros pueden ser medidos con menos exactitud) lo que facilita la eficaz distribución de recursos a la hora de planificar la toma de datos.
Este análisis debe hacerse siempre, no sólo cuando el modelo no es contrastable, porque la información que nos proporciona es enormemente útil.
Dado que los modelos imitan el comportamiento de los sistemas reales sólo aproximadamente debemos analizar cuidadosamente qué modelo es adecuado para el objetivo que perseguimos y hasta que punto los resultados son de suficiente calidad.
Enlazando con el asunto del test de Turing, que un modelo haga buenas predicciones o proporcione buenos resultados no significa que funcione igual que la realidad. Por eso, la frase de Pedro mencionada al principio “si no somos capaces de falsar la hipótesis de que el modelo reproduce el comportamiento real, nos quedamos con el modelo” yo la entiendo como “si no encontramos diferencias entre los resultados del modelo y los resultados reales, aceptamos el modelo como buen generador de resultados”. Pero no podemos ir más allá y suponer que los mecanismos que generan resultados en el modelo y en la realidad son los mismos. De hecho, por la propia definición de modelo, nunca lo son. No lo sería ni siquera si el ordenador fuera inteligente porque suponer que su inteligencia fuera humana es de un antropocentrismo insostenible. De ahí mi objeción de ET al test de Turing que propuse días atrás y que hasta el momento no ha sido criticada :-)
Nota: más cosas sobre este tema han sido tratadas hace poco en CPI y en Malaciencia donde Remo y Alf han presentado aspectos distintos del asunto con ejemplos que van desde sistemas planetarios hasta el cambio climático.
02 enero 2007
Cuando el software te la juega
Una noche de hace tres años me desperté con un amago de taquicardia. No era por problemas de salud sino porque, mientras dormía, alguna neurona seguía a lo suyo y me había avisado de que un trabajo que llevábamos meses haciendo podía estar mal. Trabajábamos elaborando cientos de simulaciones de dispersión sobre campos de vientos donde los datos eran miles de vectores medidos por el satélite QuikSCAT durante varios años. Cada vector venía definido por su módulo (velocidad del viento) y su acimut (dirección respecto al Norte geográfico). Y en mi nada pacífico sueño la neurona en vigilia me había preguntado sobre si estaba seguro de que los datos de acimut representaban hacia dónde soplaba el viento y no de dónde. Yo había asumido la primera opción en su momento en su momento y nos habíamos lanzado a una vorágine de cálculos con nuestros flamantes nuevos ordenadores multiprocesador.
En esa noche recordaba vagamente que había leido lo del sentido de los datos en uno de los informes técnicos. Pero si había metido la pata llevábamos meses trabajando sobre datos erróneos y nuestros resultados eran, por tanto, sólo basura (elegante y digital, eso sí). Con sudores fríos busqué el informe y al cabo de un rato pude dar con el párrafo que me confirmaba, menos mal, que había interpretado bien el significado de los valores.
Mi susto de medianoche acabó bien pero otros que no tuvieron tanta suerte. Según leo en el número de Science de antes de Navidad, Geoffrey Chang tenía una trayectoria profesional envidiable. Especializado en cristalografía de proteínas (¿se acuerdan del desentrañamiento de la estructura del ADN?), a los 28 años encontró empleo en un instituto de investigación de gran prestigio (Scripps Research Institute en
Y de repente la pasó lo que tanto temían los galos de Asterix. Un grupo suizo publicó en Nature un artículo donde ponían en duda las estructuras de Chang y colaboradores. Estos revisaron su trabajo y acabaron descubriendo un "pequeño" problema: en uno de sus programas informáticos había un error que invertía dos columnas de datos cambiando parámetros que influían directamente en los resultados finales. Este programa había sido utilizado en varios trabajos más con lo que la catástrofe adquiría enormes dimensiones.
El escrito donde se retractan lo explica:An in-house data reduction program introduced a change in sign for anomalous differences. This program, which was not part of a conventional data processing package, converted the anomalous pairs (I+ and I-) to (F- and F+), thereby introducing a sign change.
La expresión de Chang también fue expresiva. “I’ve been devastated”. Sus artículos siguen en las páginas de Science pero encabezados por un rótulo en rojo: This article has been retracted.
La comunidad científica ha aceptado que se trata de un error y no de un fraude pero la credibilidad del Chang Lab queda en entredicho por falta de cuidado, suficiente para quitar el sueño durante mucho tiempo y una muestra de que hay que controlar mejor las cosas.
Claro que se trataba de un programa no comercial, hecho por ellos mismos. Pero no, no crean que estamos libres de problemas con los programas comerciales. Por ejemplo, todos usamos hojas de cálculo y algunas funciones estadísticas de Excel tuvieron problemas por el diseño de los algoritmos. Microsoft informó en su momento de había “mejorado” algunos algoritmos en el tránsito de Excel
Algunos estarán pensando en otras aplicaciones como SPSS, Statistica o R. No se preocupen, seguro que funcionan bien. O no. Prueben siempre que puedan con un par de aplicaciones diferentes y confirmen que los resultados son similares, especialmente si trabajan con grandes matrices, grandes números o millones de datos, que es en los extremos donde los algoritmos se la juegan.
Una de las posibles conclusiones de esta historia es que los trabajos científicos se construyen y apoyan sobre un montón de aplicaciones que suponemos funcionan bien. Esta suposición abarca desde los aparatos de medida hasta el software de cálculo. Por ejemplo, en nuestro caso usamos datos tomados por un satélite. Eso significa asumir que te fías de los ingenieros que lo diseñaron, de los procesos de calibración, de que el software de pretratamiento está bien hecho y bien aplicado... Luego, nuestra cadena de tratamiento de los datos brutos consta de 11 pasos que se realizan con programas hechos por nosotros que, a su vez, usan rutinas programadas por otros. Cada paso arranca sobre los resultados del programa anterior con lo que si existen errores, estos van a propagarse a lo largo de la cadena de forma frecuentemente imprevisible e indetectable.
Lamentablemente, no es posible comprobar fehacientemente el buen funcionamiento de todas las piezas del rompecabezas pero sí es necesario invertir tiempo en hacer pruebas básicas y evitar los errores que en inglés llaman blunders, traducible por patochadas o, en castellano castizo, cagadas. Como Geoffrey Chang.
Para terminar de forma constructiva, voy a recomendarles una aplicación estadística que funciona en MS Excel y que es magnífica, gratuita e, incluso, probablemente bien hecha: Poptools.
Secuelas de MacGyver

Etiquetas, Bitacoras.com: MacGyver , tecnología
31 diciembre 2006
Nature se tira a la piscina ¿sin agua?
Recordarán que hace unos meses en Nature iniciaron un ensayo de "revisión abierta" de trabajos científicos para explorar la posible sustitución del clásico método de "revisión por pares", donde dos o tres revisores anónimos analizan, critican y valoran el trabajo. Aquí se abría un blog donde cualquier usuario, previo registro, podía comentar el trabajo. La primera etapa del ensayo (tal vez la única) ha finalizado y con no muy buenas espectativas. Tal como comenta Alfonso Jiménez, ha habido poca participación por ambas partes: ni los autores están por la labor de exponer públicamente sus trabajos ni los potenciales revisores están dispuestos a ponerse a currar sobre los trabajos expuestos. En los comentarios al post Nature se tira a la piscina, Pedro Terán daba un buen número de razones por las que creía que la cosa no era ni siquiera una buena idea. Ahora el tiempo parece que le da la razón.
Nature publica un informe sobre el ensayo de donde extraigo sólo unos dos detalles, el primero de contexto y el segundo de resultados:
- Nature recibe unos 10000 trabajos al año, de los cuales los editores rechazan directamente (sin otra revisión) un 60%. El 40% restante pasa a dos o tres árbitros externos que evalúan los trabajos y, finalmente, el editor decide. El resultado es que se publica aproximadamente el 7% de lo inicialmente enviado.
- Durante el periodo de prueba se recibieron 1369 trabajos; sólo accedieron a la prueba los autores de 71 (el 5%). De estos, 33 no recibieron comentarios, y los 38 restantes recibieron 92 comentarios de los cuales 49 se refieren a 8 artículos. Apenas 4 comentarios fueron clasificados como técnicamente relevantes.
"Nature and its publishers will continue to explore participative uses of the web. But for now at least, we will not implement open peer review."O sea: se acabó. Sobre toda esta efímera historia me gustaría hacer algunas consideraciones. Por ejemplo:
- es aparentemente contradictorio el teórico apoyo a la idea y que, a la hora de la verdad, casi nadie se prestara a someter sus trabajos a la crítica pública y se prefiriera muy mayoritariamente el método tradicional. Tal vez, digo yo, se preguntó al colectivo equivocado (lectores) en vez de preguntar a los autores de los últimos 5 años, por ejemplo.
- es chocante (y algo patético) que haya habido tan pocos comentarios y que sólo 4 de ellos hayan sido clasificados como realmente relevantes. Parecería que el colectivo de comentaristas no tenía demasiado nivel mientras que los otros, los que tal vez podrían haber aportado algo interesante, han decidido dedicar el tiempo, recurso escaso y valioso, a sus propios trabajos. Y es que ejercer revisor es ingrato, duro, no haces amigos y encima no te pagan (podrían, al menos, enviarte un ejemplar de la revista al final, pero ni eso).
- es obvio que la crítica a los colegas sólo se hace cómodamente desde el anonimato y encuentro muy probable que mucha gente se abstuviera por ese motivo (no piensen mal, el anonimato en el método tradicional es sólo relativo ya que el editor sabe quien eres y te juegas tu dudoso prestigio si haces una crítica absurda).
- los autores, si son mínimamente conscientes, han revisado cien veces su trabajo y lo han enviado a tres o cuatro colegas de confianza para que lo hagan a su vez. Es difícil convencer a nadie que otra revisión asamblearia vaya a aportar nada importante al texto. Tal vez por eso los comentarios han sido mayoritariamente superfluos.
Etiquetas, Bitacoras.com: ciencia , publicación científica
29 diciembre 2006
Una voz discordante
La tarea de la universidad no es ofrecer lo que la sociedad demanda, sino lo que la sociedad necesita. Las cosas que la sociedad demanda son, en general, bien conocidas, y para ello no necesitas una universidad, la universidad tiene que ofrecer lo que nadie más puede proveer. — E.W. Dijkstra
Etiquetas, Bitacoras.com: universidad