05 febrero 2009

Calculando

Me apetece contárselo: tengo dos vecinos de pasillo que usan ordenadores para hacer simulaciones de propagación electromagnética. Estas simulaciones se realizan resolviendo sistemas de ecuaciones simultáneas, algo normal en aplicaciones físicas. Aunque L tiene un flamante Mac en su mesa (nadie es perfecto) eso no le parece suficiente y sus últimos trabajos se realizaron en Santiago de Compostela, donde tiene su residencia Finis Terrae, un ordenador que pesa 35 toneladas. Por dar algún dato, tiene una memoria de casi 20 Tb (1 terabyte = 1024 gigabytes), 2528 CPU de 64 bits, 390 Tb en disco... Todo funciona bajo Linux y está conectado a 20 Gb/s mediante fibra óptica. Con todo esto, Finis Terrae es el sexto ordenador de España, lista encabezada a día de hoy por el Mare Nostrum de Barcelona. Aún así, los colegas dicen que su arquitectura les viene bien para esos cálculos, lo cual debe ser cierto porque han conseguido programar y hacer resolver un sistema de ecuaciones con 500 millones de incógnitas (ver aquí). En realizar esa tarea se utilizó un 42% del ordenador (1024 núcleos y 6 Tb de RAM) durante 38 horas de operación en total.
¿Qué aplicaciones prácticas tiene este trabajo? En principio, dado que vivimos sumergidos en un mundo de campos electromagnéticos, muchas.
L menciona la simulación de los radares que poco a poco irán equipando los coches y que controlarán los cambios de carril, la proximidad de objetos, la detección de barreras, peatones, señales... Las características de respuesta de todos estos objetos en condiciones reales es prácticamente desconocida por lo que las simulaciones permitirán definir los parámetros operacionales. comprobar sus variantes y, al final, ahorrar tiempo y dinero.
Otro ejemplo es diseño de estructuras dotadas de múltiples antenas, cuyo comportamiento hasta ahora se hacía de forma individual con la seguridad de que al final, al montar el conjunto sobre la plataforma (satélite, barco...) iba a haber interacciones no previstas que obligarían a la modificación del diseño mediante en conocido método de "ensayo y horror".
Finalmente, lo más curioso que comenta es la aplicación de estas simulaciones para el análisis de superficies de invisibilidad. Pero eso ha prometido contarlo otro día. Mientras tanto quédense con lo mejor del post: una vista panorámica de su despacho.

Donde se demuestra que las reglas de la archivística tienen extrañas ramificaciones (post relacionado: el hábitat de la doctoranda)

04 febrero 2009

Como hacer (o no hacer) una encuesta en un blog

Supongan que quiero hacer una encuesta en mi blog sobre un asunto cualquiera. Para ello pillo el artilugio "encuesta" en la página de diseño de Blogger y me pongo a redactar la pregunta y las opciones de respuesta. ¿Debo poner lo primero que se me ocurra o hay alguna regla que me ayude a diseñar un buen cuestionario?
En principio, hay 4 condiciones que nos garantizan que las cosas nos van a salir bien. Como son fáciles de respetar creo que merece la pena que antes de ponernos a teclear afanosamente nos tomemos un minuto y las tengamos en cuenta (luego las comento con algunos ejemplos):
  1. La pregunta debe ser clara y comprensible. Esto debería ser evidente pero hay ejemplos por ahí de lo contrario.
  2. Las respuestas deben ser semánticamente homogéneas, es decir, deben referirse al mismo criterio y no a enfoques distintos del problema.
  3. Las opciones de respuesta deben cubrir rangos diferentes, es decir, no deben solaparse entre sí.
  4. El conjunto de opciones debe cubrir el rango completo de respuestas.
Y ya está, no hay mucho más. Sin embargo, verán que esto no suele aplicarse con la frecuencia que sería aconsejable, les comento unos pocos ejemplos que ayuden a aclarar esos cuatro puntos y algunos otros que aparecen de vez en cuando.

1. En uno de los blogs que sigo, V nos plantea la cuestión: "aprendo de ciencia principalmente de..." y nos propone 4 respuestas:
  • revistas
  • internet
  • periódicos
  • televisión
Este es un caso donde la pregunta (formulada a su manera) es clara pero las opciones pueden plantearse mejor. Por ejemplo, "internet" es una forma de acceso mediante la cual llego a revistas, periódicos y televisión. La condición 3, por tanto, no se cumple: ¿qué contesto si aprendo principalmente de revistas pero accedo a estas normalmente por internet?
Tampoco las cuatro opciones que se dan cubren la totalidad de posibilidades de respuesta (condición 4); por ejemplo, sin llegar a la exhaustividad, se echa en falta la opción "libros".
¿Cómo podríamos corregir estos problemas y, ya de paso, obtener más información con el mismo esfuerzo? Personalmente (para gustos hay colores) usaría algo como "valore de 1 a 5 la importancia de cada fuente en su aprendizaje sobre ciencia" poniendo como opciones libros, revistas científicas, revistas de divulgación, periódicos, radio, televisión, blogs y, por si acaso, otros (que podrían ser, por ejemplo, "podcasts").

2. Un caso bastanta pintoresco es este ejemplo de Scrapper's Place, donde preguntan "Con cuánta frecuencia escribes en tus páginas?" con las opciones (incluyo los resultados):
  • siempre: 60%
  • a veces: 40%
  • nunca: 0%
En este caso, el principal problema es las opciones no dan respuesta adecuada a la pregunta: si nos preguntan por la frecuencia (¿cuántas veces hijo mío...?) ¿qué significa "siempre"? ¿todos los días, a todas horas? ¿dejo de escribir sólo para comer?
La tercera respuesta obtuvo cero con razón ¿cómo, si alguien tiene "páginas", no escribirá "nunca" en ellas?
Lógicamente, la forma adecuada de plantear las opciones sería proponer rangos de frecuencia reales adaptados al tema que se esté tratando.

3. Pasando a los medios de comunicación, en 20minutos.es preguntan ¿te darías de alta para recibir multas de tráfico por 'e-mail' y SMS? Y dan como opciones:
  • Sí, porque ahora nunca me entero de las multas que me ponen
  • No, si la DGT me quiere encontrar, que me busque
  • Me parece que el sistema actual es el más adecuado
Aquí aparece la manía, compartida con otros medios, de añadir una "coletilla" a las respuestas simples "sí" o "no" dándoles una intención. El resultado es que siempre falla la condición 4: mi voto puede ser "sí" o "no" por motivos completamente distintos de los presentados ahí (que, por cierto, son bastante tontos). Y en este caso minimalista también se rompe la condición 2 porque la tercera opción no tiene relación con las otras.
En 20 minutos esta historia se repite de forma constante en todas sus encuestas, parece que no pueden resistir la tentación de añadir la gracia. Lo más adecuado y simple es hacer como El Mundo, que en todos sus "debates" propone sólo dos respuestas "sí" y "no".

4. Finalmente, tampoco rne.es se luce en sus encuestas, por ejemplo:
¿Qué te han parecido los 8 años de la presidencia estadounidense de Bush?
  • El mundo es peor tras su mandato
  • Ha sabido enfrentarse al terrorismo
  • Ha defendido los intereses de la gran industria
En este caso, a una pregunta excesivamente genérica (¿qué opina del mar?) se añaden tres opciones que es posible aceptar simultáneamente o de dos en dos en combinaciones libres o, ya puestos, ninguna. Tampoco cubren todo el espectro de respuestas ni tienen que ver demasiado entre sí...

En fin, y vale ya de rollo. Termino comentando que un medio de comunicación profesional tiene mucha más responsabilidad que un bloguero que, a fin de cuentas, bastante hace con regalarnos su trabajo para que podamos leerlo y disfrutar de él. Por tanto, que no se entienda esto como una crítica sino como ejemplos para que mejoremos poco a poco. Tal vez me anime a mí mismo a poner aquí una encuesta alguna vez...

01 febrero 2009

Cómo funciona el "ojo de halcón" en el tenis

Los partidos de tenis del Abierto de Australia me han hecho buscar los fundamentos del sistema que llaman "ojo de halcón" (traducción del original inglés hawk-eye). Curiosamente no he encontrado nada o, más exactamente, sólo generalidades del tipo "se usan cámaras que transmiten sus imágenes a un ordenador que calcula la trayectoria". Incluso la página de la empresa carece de información técnica.
Les cuento lo que supongo que ocurre haciendo una mezcla de lo poco que he encontrado disperso por ahí y de suposiciones razonables.

La pista está cubierta por un conjunto de seis a diez cámaras digitales. Es esencial que todas las líneas de la pista estén cubiertas simultáneamente por varias cámaras, preferiblemente cuatro o más. Aunque no he encontrado ningún esquema de la situación real, es razonable suponer que todas estén altas sobre la pista de forma que la inclinación hacia abajo sea de al menos 20º y que sus campos visuales se superpongan lo más posible.

Cobertura de la pista mediante cámaras cuyos campos visuales se superponen.

Las cámaras filman de forma continua a alta velocidad, su posición es fija y conocida y la orientación de su eje focal está bien determinada con relación a un sistema de coordenadas local. Un ejemplo de este tipo de cámaras son las de la serie CamRecord: los modelos 600 y 1000 captan respectivamente 500 y 1000 imágenes por segundo con una resolución de 1280x1024 píxeles. Por dar una idea de los datos, una pelota a 100 km/h se habrá movido en 2 ms (cámara CamRecord 600) unos 55 mm entre dos fotogramas siempre que la trayectoria sea perpendicular al eje focal.
La esencia del proceso es la siguiente:
  • una cámara capta una secuencia donde la pelota queda representada por unos pocos píxeles que deben ser reconocidos del resto de la imagen. Esos píxeles cambian de posición en cada "fotograma" debido al movimiento de la pelota. En tiempo real, esos píxeles deben ser detectados y su posición en cada fotograma registrada en el campo de visión de la cámara. Lógicamente, la pelota se "ve" pero no es posible determinar la distancia y el dato no es 3D.
  • otra cámara situada en una posición diferente capta el mismo movimiento y lo representa en su plano propio.
  • dado que las cámaras están sincronizadas, la posición de la pelota en un momento determinado puede estimarse en ambas cámaras; en cada una de ellas define una semirrecta con origen en la cámara y que pasa por el punto donde se ha localizado la pelota.
  • la localización 3D se construye mediante la intersección de las dos trayectorias en el espacio, algo que es posible calcular geométricamente dado que se conoce la posición de cada cámara y su orientación.
Una cámara registra la trayectoria como posiciones discretas calculando un vector para cada fotograma.

Simultáneamente, otra cámara hace lo mismo; obsérvese que hay posiciones cuyos vectores casi coinciden. En este caso esa cámara no será muy útil para discriminar esa parte de la trayectoria.

Aunque teóricamente se puede restaurar cada posición 3D y, por tanto, la trayectoria con sólo dos cámaras, la redundancia ayuda a reducir la incertidumbre y a "reparar" los errores de reconocimiento. Es muy deseable tener al menos cuatro secuencias distintas. La intersección de las cuatro trayectorias es mucho más robusta, tanto más porque se pueden introducir restricciones geométricas para garantizar la coherencia de las trayectorias que, por ejemplo, sabemos que deben trazar curvas relativamente suaves con velocidad decreciente.
Las posiciones deben analizarse secuencialmente para localizar el momento del bote, donde la trayectoria cambia bruscamente.

Los momentos "interesantes" son aquellos en los que esa continuidad se rompe, especialmente el momento del saque y los botes en el suelo. El primer caso interesa para estimar la velocidad del servicio pero su localización espacial no es demasiado importante. En cambio, los botes sí deben localizarse de la manera más exacta posible. Para ello, el plano de la pista (otra restricción geométrica más) y las líneas están previamente definidas en el sistema de referencia local lo que permite representarlas a la vez que el bote de la pelota.
El resultado es un gráfico de la trayectoria estimada de la pelota. La huella de la pelota sobre la pista es sólo una estimación, aunque los fabricantes del sistema hablan de errores de alrededor de los 4 mm.

El gráfico que nos ponen en la pantalla representa la estimación de la trayectoria. Su exactitud dependerá de factores como los ángulos de toma de las cámaras, la distancia a ellas y la velocidad de la pelota. Las pistas sintéticas facilitan la tarea por su color uniforme y su superficie regular.

31 enero 2009

No todo es cuestión de dinero

¿Es esto verdad?
La Factoría Española de Cristalización, un proyecto para investigar en cristalografía y proporcionar servicios a los investigadores, fue aprobada con todos los parabienes en la primera convocatoria del programa Consolider-Ingenio 2010, una iniciativa del Gobierno para fomentar la investigación de excelencia. Casi tres años después, el proyecto, de cinco años de duración, no se ha podido desarrollar porque el Consejo Superior de Investigaciones Científicas (CSIC), la entidad gestora, no ha sido capaz de proporcionarle el espacio necesario.

El artículo completo de Malen Ruiz de Elvira titulado El precario científico de élite se publicó hoy en El País.

28 enero 2009

Calentamiento antártico

La figura de abajo muestra los cambios de temperatura en ºC por década estimados a partir de medidas tomadas tanto por estaciones en superficie como desde satélites. En síntesis y según los autores del trabajo, la Antártida se ha calentado una media de 0.1 ºC por década desde 1957, con una subida acumulada de 0.5 ºC a nivel general y de algo más de 0.8 ºC en la Antártida Oeste (zonas en rojo, próximas a la Península Antártica). La tendencia no es homogénea y en la Antártida Este no se ha encontrado ninguna variación significativa mientras que la zona del Polo Sur parece haberse enfriado en las últimas décadas. En la imagen, los datos de temperatura se han superpuesto a una base topográfica generada por el Radarsat y la extensión de hielo corresponde a mayo de 2008.

Imagen tomada de aquí (tendencia en ºC/década)

De los datos existentes ya se conocía el evidente calentamiento de la Península Antártica aunque todo hacía suponer que era un fenómeno local, tanto más porque el interior del continente estaba aparentemente enfriándose. Los resultados de este trabajo no contradicen eso pero muestran que el calentamiento afecta a una zona más amplia de la Antártida Oeste, no sólo a la Península. Las tendencias en el resto del continente son de una magnitud mínima y pueden considerarse no significativas con la información disponible actualmente.
¿Cómo se ha hecho este trabajo? Pues intentando resolver el problema de que en la Antártida hay unas estaciones terrestres mal distribuidas aunque con largos registros, mientras que los satélites cubren bien toda la zona con buena resolución pero sólo desde hace relativamente pocos años. Los autores han establecido correlaciones entre ambas series de medidas para acabar estimando los "huecos" existentes en las series y rellenando zonas no cubiertas por las estaciones. Así han elaborado mapas de los últimos 50 años que cubren toda la Antártida. La técnica es interesante: se llama regEM de regularized expectation maximization y han desarrollado un módulo para usarlo en Matlab. Se supone que las técnicas usadas han permitido paliar los dos problemas básicos del asunto: la escasez y pésima distribución de las estaciones meteorológicas disponibles y el control de las incertidumbres que se propagan a lo largo de todo el proceso.
Los autores insisten en que sus resultados no contradicen que parte de la Antártida esté enfriándose ni cuestionan la hipótesis de que el calentamiento de la zona Oeste se deba a un incremento general en la velocidad del cinturón de vientos del Oeste (que, por cierto, ya comentamos en este blog en otro contexto).

La imagen superior ha sido portada de Nature esta semana.

El algoritmo regEM está descrito en
Schneider, T., 2001: Analysis of incomplete climate data: Estimation of mean values and covariance matrices and imputation of missing values. Journal of Climate, 14, 853–871.

26 enero 2009

La masturbación produce cáncer. Dicen.

La masturbación aumenta el riesgo de padecer cáncer de próstata. Eso dice un grupo de la Universidad de Nottingham y ha sido destacado en varios noticieros internacionales como, por ejemplo, en BBC News. El estudio original ha sido publicado en el British Journal of Urology International (BJUI).
Dimitropoulou, P. et al., 2009, Sexual activity and prostate cancer risk in men diagnosed at a younger age, BJU International, 103(2): 178-185.
Dicen Dimitropoulou y colegas que los hombres que son sexualmente activos entre los 20 a 40 años tienen más riesgo de desarrollar cáncer de próstata (CP) especialmente si se masturban con frecuencia. A partir de esa edad aparece un leve efecto contrario. El estudio se ha hecho mediante cuestionarios donde se les ha preguntado a los sujetos la frecuencia de coito y masturbación por edades (¿cuantas veces se lo hacía a los 20 años? ¿y a los treinta? Así hasta los 60). La cosa es fuerte porque el cáncer de próstata es la segunda causa de muertes por cáncer en los EE.UU. tras el cáncer de pulmón. ¿Es la actividad sexual un detonante del cáncer? ¿Nos habrán mentido de pequeños y meneártela, en vez de dejarte ciego, te hace polvo la próstata?
Estos resultados han sido deducidos comparando 431 hombres a los que se diagnosticó CP antes de los 60 años con 409 sin CP. Del primer grupo, el 34% se masturbó frecuentemente entre sus 20 y 40 años, mientras que del segundo sólo lo hizo el 24%.

Lo que prueba que cualquier tontería puede ser publicada en una revista científica con un poco de suerte.

¿Cuál es el fallo de todo esto?
Bueno, en mi opinión, hay al menos dos. El primero es que los estudios retrospectivos son muy poco fiables cuando se basan datos que dependen de la memoria. Los sesgos pueden ser tremendos cuando estás preguntándole a una persona cuantas veces se masturbaba al mes hace treinta o cuarenta años...
El segundo es que aunque los porcentajes sean significativamente diferentes (ahora no tengo acceso al trabajo completo para confirmarlo), jamás se puede establecer una relación causa-efecto: correlación no implica causalidad.

¿No les tranquilizan estas razones? Deberían, pero aún así no se preocupen, hay estudios que dicen exactamente lo contrario, o que no dicen nada. Sólo unos pocos ejemplos en la misma revista o en otras:
Leitzmann, M.F. et al., 2004. Ejaculation frequency and subsequent risk of prostate cancer. Resultados: no se ha encontrado relación entre la frecuencia de eyaculaciones juveniles y el riesgo de tener cáncer de próstata.
Giles, G.G., et al., 2003, Sexual factors and prostate cancer. Resultados: la frecuencia de eyaculación, especialmente en la treintena, está asociada negativamente al riesgo de cáncer de próstata.
Rosenblatt, K.A., 2001, Sexual factors and the risk of prostate cancer. Resultados: no aparece relación entre la frecuencia de coitos y el riesgo de cáncer de próstata.
Conclusión: probablemente las eyaculaciones no tienen relación con el cáncer de próstata, relájese y disfrute de la vida.
Grab this Widget ~ Blogger Accessories
 
º