12 junio 2009

¿Cuántos científicos falsifican sus datos?

PLoS ONE publica los resultados de un metaanálisis sobre la manipulación en las publicaciones científicas. Se han analizado fraudes graves, debidos a falsificación, fabricación o "cocinado" de datos, y se han excluido otras variantes como pueda ser el plagio, la repetición de publicaciones, las autorías indebidas... Al final se han revisado 18 estudios realizados previamente por otros autores. ResearchBlogging.org

Al tratarse de un metaanálisis no hay datos nuevos y creo interesante, por lo que diré después, dar algunas cifras sobre la selección de dichos trabajos. Comentan los autores que en una primera búsqueda aparecieron 69 estudios potencialmente interesantes. Su examen reveló que 33 de ellos no contenían información original o relevante mientras que otros 18 fueron rechazados por otras causas (metodología inadecuada o información insuficiente, por ejemplo). Al final se analizaron 18 estudios sobre prácticas fraudulentas en investigadores profesionales de los cuales 15 se refieren a los EE.UU., tres a Gran Bretaña, uno a Australia y dos son multnacionales. Predomina por tanto el mundo anglosajón.

Como resultados básicos, en los cuestionarios directos, donde se pregunta por la práctica de cada uno, un 2% de autores admiten haber fabricado, falsificado o modificado datos o resultados alguna vez. Algo más de un tercio reconoce alguna práctica menos escandalosa pero también cuestionable. Sin embargo, cuando se trata de acusar a los demás la gente no se corta y los porcentajes suben al 14% por falsificación ("ese del despacho de al lado ha hecho trampa") y nada menos que al 72% para otros pecados veniales. Dadas estas cifras, los autores mantienen luego que sin duda son muy conservadoras y que el fraude es bastante mayor, una conclusión que no me sorprendería en una conversación de bar pero que me resulta algo inadecuada en el contexto de la publicación.

Y ahora les confieso que les he traído aquí este trabajo para decirles que no me gusta y comentar las razones, a ver qué opinan. Sobre todo me resulta llamativo que se use una metodología para luego decir que los resultados no son creíbles, que sin duda los porcentajes de fraude son mucho mayores. Tal vez sea así pero entonces uno se pregunta ¿para qué han hecho el trabajo? Es cierto que yo nunca admitiré que soy un tramposo en un cuestionario ya el anonimato nunca está asegurado. Pero también es posible que haya gente que acuse a los demás en exceso (fíjense en 14% mencionado arriba). En cualquier caso, estos sesgos son incontrolables y lo consecuente, supongo yo, es evitar los métodos inadecuados en vez de usarlos y luego decir que los resultados son malos y que la realidad seguro que es distinta.
Por otra parte, a mi me parecería razonable que si alguien afirma que el fraude científico es mayor que el que dicen los resultados de su estudio aporte pruebas demostrándolo, aunque sólo sea por aquello de la presunción de inocencia.

Yo, como todos, desconozco las auténticas dimensiones del fraude científico. Creo que la única forma de evaluarlo con ciertas garantías es revisar una muestra de publicaciones con resultados relevantes para ver si son repetibles. ¿Por qué con resultados relevantes? A riesgo de parecer cínico diría que el fraude, cuando existe y no se descubre, es que se realiza en trabajos que no le importan a nadie y que, consecuentemente, no tiene repercusiones. En cambio, cuando el trabajo es importante y trascendente para el avance de la ciencia, al gañán se le pilla inevitablemente y más pronto que tarde. La razón es simple: los trabajos importantes son seguidos y utilizados por muchos otros científicos por lo que, si hay algo sucio, saldrá a la a luz irremediablemente. Véase el caso de Hwang. En cambio, la ingente cantidad de artículos irrelevantes que publicamos unos y otros (1) no son tenidos en cuenta para nada por lo que el fraude o posible "cocinado" de datos ni le importa a nadie ni tiene repercusión alguna en el conocimiento científico. Por eso, el defraudador no descubierto lleva encima su propia y triste penitencia: que nadie le haga ni puñetero caso.

(1) En un post titulado Ciencia oscura, que en un muestreo más o menos aleatorio de publicaciones me salió que un 40% de los trabajos no son citados nunca. A lo cual hay que añadir que los que tienen una o dos citas probablemente lo deben a autocitas.

Fanelli, D. (2009). How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data PLoS ONE, 4 (5) DOI: 10.1371/journal.pone.0005738

Relacionados:

10 junio 2009

Quince canciones en Spotify

Spotify me ha dado la oportunidad de mirar hacia atrás recordando sonidos que alguna vez me sirvieron de compañía. Soy de gustos clásicos, no esperen sorpresas, sí bastante arqueología. Tienen aquí sólo el sonido en el primer enlace (deben descargar la aplicación de Spotify). Por si acaso, cuando lo he encontrado les he puesto algo similar en Youtube aunque normalmente la calidad es bastante peor.
Spotify es una aplicación que permite oir música (no descargar) por internet. La calidad es normalmente buena pero no está disponible más que en algunos países de Europa. La versión gratuita funciona en España, Franca, Suecia, Noruega, Finlandia y Reino Unido. Las listas de canciones pueden compartirse en Spotyshare.

08 junio 2009

Correlación entre paz y religión

¿Llevan las religiones a la paz? Algunos lo tenemos más o menos claro pero también sabemos reconocer que nuestra impresión es sólo eso, una impresión. Por suerte, podemos echarle un vistazo a datos más completos y más objetivos que nuestras limitadas percepciones personales.

Datos sobre paz

Los tenemos en la web Global Peace Index que ha elaborado el susodicho GPI para 144 países basándose en 23 indicadores. Metodología y resultados están bien explicados en los diferentes apartados de la web. Les pongo los 10 países con mayor y menor puntuación al respecto:
  • en cabeza están Nueva Zelanda, Dinamarca, Noruega, Islandia, Austria, Japón, Canadá, Finlandia, Eslovenia y República Checa.
  • y por la cola no hay nada sorprendente: Iraq, Afganistán, Somalia, Israel, Sudán, Congo, Chad, Pakistán, Rusia y Zimbabwe.
En esta escala, España ocupa el vigésimo octavo lugar, algo claramente mejorable. Por hablar de los países de Latinoamérica, el mejor situado es Chile, seguido de Uruguay y Costa Rica. Por la cola, Colombia (el último), Venezuela y Haití.

Datos sobre religiosidad

Estos podemos encontrarlos en World Values Survey que atesora un montón de información muy variada y que merecería mayor atención. He rescatado los valores de religiosidad como respuesta a tres preguntas simples: ¿cree en Dios? ¿cree en el infierno? ¿cree en el Cielo? Luego, al ver los resultados me di cuenta de que están altamente correlacionados por lo que aquí les pongo solamente las respuestas a la primera de las preguntas, que en la encuesta sólo son afirmativas o negativas. Hay información completa para los países en cabeza de la lista pero no sobre algunos de los países chungos (a ver quién va a hacer una encuesta en según qué sitios). Por ello, he recopilado los datos de los países en peores condiciones recorriendo el ranking desde el último puesto (Iraq) hasta completar 10 países con información. Les pongo los resultados por países como porcentaje de no creyentes:
  • Nueva Zelanda (20.7), Dinamarca (32.8), Noruega (30.5), Islandia (16.6), Austria (13.7), Japón (41.4), Canadá (9.8), Finlandia (19.3), Eslovenia (35.9) y República Checa (61.7).
  • Iraq (0.2), Pakistán (0.0), Rusia (37.9), Zimbabue (0.6), Georgia (6.8), Colombia (0.9), Nigeria (0.4), Sudáfrica (1.5), India (5.8), Turquía (2.0).
Los porcentajes medios son el 28.2% de no creyentes en los países que están a la cabeza de la lista de paz y de 5.6% en los países de cola. En estos, si elimináramos la anomalía rusa, el porcentaje caería al 2.0%. En España, por situarnos, el porcentaje de ateos es del 12.3%.

¿Conclusiones?

¿Qué conclusiones podemos sacar de estas cifras? Probablemente ninguna definitiva ya que, como he insistido varias veces en otros posts, correlación no implica causalidad. Pero es que llevo un par de semanas leyendo en silencio algunos blogs religiosos donde aseguran la maldad de los ateos, su inadaptación social y su condenación eterna. Allá me han dicho (literalmente) que sirvo a Satanás (!) y que mi problema (?) sólo podrá tener solución rezando mucho. Las patéticas afirmaciones de esta gente, plagadas de amenazas, nunca se sustentan más que en su intolerancia ante formas distintas de pensar y por eso me apetecía poner aquí esas cifras, por aquello de aportar datos para la reflexión.
Es cierto que las impresiones sobre estas correlaciones pueden ser diversas. La mía es que hay una gradación en las religiones, desde algunas filosofías orientales (realmente no teístas), no proselitistas y esencialmente pacíficas, hasta los actuales fundamentalismos de las religiones monoteístas con pretensiones ecuménicas. Estos últimos no pueden llevar a la paz porque no aceptan la libertad de pensamiento y eso lleva irremediablemente a rechazar al diferente. Y ya se sabe, una cosa lleva a la otra...
Sin embargo, esa circunstancia no explica por sí sola un fenómeno tan complejo. Hay otras como que en los países en peores condiciones la gente se refugia en la religión de turno (la que le toque) esperando que en su vida imaginaria tendrán lo que no han conseguido en la real. Este efecto se sabe que es real pero tampoco lo explica todo.
Mientras tanto, las cifras muestran que a menos religiosidad (hay muchos más items en las encuestas, revísenlos) son más altos los índices de estabilidad social, derechos humanos, libertades y ausencia de conflictos. ¿Causalidad? No, no puede ser uno tan simplista. En cualquier caso, las relaciones causales se deberán a una compleja red de interacciones. Pero ¿casualidad? Uhmm... tampoco.

Edificantes momentos de religiosidad, moderación y sentido común en la procesión de El Rocío, en Huelva, España.

Idea tomada de Epiphenom.

06 junio 2009

Lenguajes y entropía: el polémico caso del Indo

Allá por el 2600 a.C. surgió en el valle del Indo la primera cultura del Sudeste asiático de la que tenemos noticia. Pueden encontrar referencias por muchos sitios, entre ellos, lógicamente, la Wikipedia. Lo que nos interesa aquí es su "escritura": se han encontrado miles de artefactos de todo tipo con signos que, hasta el momento, no han sido descifrados. Es más, probablemente no lo sean nunca a menos que aparezcan nuevos hallazgos importantes ya que las inscripciones son muy cortas, con apenas media docena de signos de longitud media, con un record de 17 signos para el texto más largo (ver abajo) y con abundancia de inscripciones con sólo uno o dos signos. Por añadidura, se desconoce la lengua original, sus filiaciones no son seguras y no hay textos bilingües.
ResearchBlogging.org

Para mayor complicación, no hay consenso completo sobre la cantidad total de signos existente. La hipótesis minimalista señala que apenas 20 y supone que los signos son composiciones de trazos más simples que compondrían pictogramas. Parece, sin embargo, que esta interpretación es compartida por su autor y poco más. En el otro extremo, la hipótesis más generosa acumula hasta 600. Lo más admitido propone que existen entre 300 y 400 signos. Con sólo ocho de ellos ya completamos un tercio de los signos en las inscripciones descubiertas (varios miles), mientras que hay un par de cientos de signos que sólo aparecen una o dos veces en el conjunto de las inscripciones.

El recuento de 300-400 signos prácticamente excluye que el sistema del Indo sea una escritura alfabética (no pasan de 40) o silábica (40 a 100 generalmente). Actualmente se piensa que estos signos, de ser algo, serían logofonéticos pero, con este panorama algunos dudan incluso de que formen una escritura y que sería un sistema no lingüistico como, por poner un ejemplo actual, el de las señales de tráfico. En conclusión, se ha formado un curioso e intenso debate entre los partidarios de una y otra hipótesis: ¿lenguaje o sistema no lingüistico?

La inscripción más larga (17 signos) de la "escritura" del Indo.

Hace pocos días se publicó en Science un artículo titulado Entropic Evidence for Linguistic Structure in the Indus Script donde Rajesh P. N. Rao y cinco firmantes más utilizan la entropía como indicador de que sí, que esos signos del Indo forman parte probablemente de una escritura. Veremos al final, sin embargo, que alguien ha contestado en apenas unos días calificando el artículo de completamente erróneo.

Pero antes, ¿qué pinta la entropía en todo esto? La entropía, desde una de las múltiples perspectivas que se usan, puede entenderse como la cantidad de información que contiene una señal o mensaje. Un ejemplo con el sonido: un pitido de una frecuencia constante que dure cinco segundos contiene mucha menos información que un fragmento de música de la misma duración o que simplemente una escala. La entropía de un mensaje depende básicamente de dos cosas: de la cantidad de signos diferentes que aparecen en dicho mensaje (entiéndase "signo" y "mensaje" en sentido amplio) y de la frecuencia con que aparece cada uno de ellos. Como medida suele usarse la fórmula de Shannon ...
donde H es la entropía, N es el número signos en el mensaje P(i) es la probabilidad del signo i.
La cantidad total de signos depende del lenguaje y evidentemente no todos los mensajes contendrán todos los signos. Por otra parte, sus frecuencias relativas tienden a estabilizarse si los textos son suficientemente largos aunque en textos cortos pueden ser muy inestables.

¿Para qué resulta útil esto en el problema de la escritura del Indo? Bueno, la idea es que los lenguajes permiten componer secuencias de "caracteres" con ciertas libertades pero ni absolutamente aleatorias ni estrictamente deterministas. Por ejemplo, después de una b en español pueden aparecer varias letras como a, e, i, o, u, r, l... pero no puede aparecer una s o una p. (corrección, una s sí, como me recuerdan en un comentario...). Si encontramos una secuencia br sabemos que después sólo puede aparecer una vocal. Estas secuencias tiene también sus probabilidades asociadas y el análisis de todo ello se puede hacer calculando lo que se llama entropía condicional. que es la incertidumbre asociada a la aparición de un signo j después de que se ha dado uno anterior i.
Los autores del artículo han calculado la entropía condicional para el sumerio, tamil antiguo, sánscrito, inglés -letras y palabras-, ADN, secuencias proteicas bacterianas, FORTRAN, dos códigos no lingüisticos que se usan como control (Tipo 1 y Tipo 2, ver después) además, lógicamente, de los signos del Indo. Fíjense que aparecen cinco lenguajes naturales, uno artificial (el de programación) y cuatro casos no lingüísticos. Dos de ellos (ADN y proteínas) son de naturaleza muy diferente pero los otros dos, los llamados Tipo 1 y Tipo 2, son importantes porque se usan como contraste respecto a los códigos linguísticos (sumerio, tamil antiguo...).
Los resultados fueron que los signos del Indo muestra patrones muy similares a los lenguajes naturales, especialmente al sumerio y al tamil, y muy diferentes del resto, incluyendo los controles Tipos 1 y 2. Según los autores, esta similitud refuerza la hipótesis de que los signos del Indo forman un lenguaje auténtico.

Pero Steve Farmer disiente. Farmer mantiene que los signos no forman un lenguaje sino que tendrían otra función más simbólica (¿prohibido fumar? ¿zona de reunión?). Apoya su idea en la brevedad de las inscripciones, sin similitud con los cientos de lenguajes conocidos, y las frecuencias relativas de los signos, además de la ausencia de otras evidencias sobre escrituras en la zona y época. Los argumentos están expuestos en Farmer, S., Sproat, R., Witzel, M., 2004, The Collapse of the Indus-Script Thesis: The Myth of a Literate Harappan Civilization. Electronic Journal of Vedic Studies, 11-2: 19-57.

En caso es que Steve Farmer ha dado a conocer recientemente un par de páginas donde critica fuertemente el artículo de Science de Rao y colegas. Aunque aún no publicado, lo ha puesto en su página con el título A Refutation of the Claimed Refutation of the Nonlinguistic Nature of Indus Symbols: Invented Data Sets in the Statistical Paper of Rao et al. (Science, 2009). Como puede deducirse del título, Farmer afirma que hay datos inventados en el análisis y parece que no le falta razón. El problema es que los sistemas Tipo 1 y Tipo 2 usados como control son completamente artificiales y representan casos extremos: uno viene de aleatorizar doscientos mil signos y componer líneas de 20 signos equiprobables y el otro, al contrario, está completamente ordenado (a un signo concreto le seguirá otro con probabilidad 1).
Comenta Farmer que no podría esperarse que el sistema del Indo (ni ningún otro) se parezca a eso y que, consecuentemente, la comparación es completamente irrelevante y el diseño de la prueba es, consecuentemente, erróneo. En efecto, el sistema del Indo se parece a los sistemas lingüísticos tamil antiguo, inglés, etc. pero su contraste con los Tipo 1 y Tipo 2 sólo aparece porque estos últimos se han inventado y suponen casos tan artificiales que no sirven como criterio discriminante. Farmer se queja de que estos detalles, muy importantes, no están en el artículo sino en el apartado de material complementario que Science cuelga en su web y recuerda (creo que es un detalle muy importante) que sus propios análisis encuentran una estrecha similitud entre los signos del Indo y sistemas no lingüísticos reales como los signos heráldicos medievales (ver Fig. 2 de este trabajo).
La crítica en resumen es que Rao y colegas han basado las diferencias entre el sistema de signos el Indo y los sistemas no lingüísticos en datos "cocinados" e irreales, un error metodológico que, en opinión de Farmer, invalida completamente el análisis publicado en Science.

Rao, R., Yadav, N., Vahia, M., Joglekar, H., Adhikari, R., & Mahadevan, I. (2009). Entropic Evidence for Linguistic Structure in the Indus Script Science, 324 (5931), 1165-1165 DOI: 10.1126/science.1170391

02 junio 2009

Experimento de percepción extrasensorial con Twitter

O cómo planificar un experimento complejo a inútil con las últimas tecnologías.
A las 3 PM de cada día viajaré a un lugar elegido aleatoriamente desde donde enviaré un mensaje vía Twitter preguntando a la gente sobre sus impresiones acerca de donde estoy. Treinta minutos después enviaré otro mensaje con la dirección de una página web con fotografías de cinco lugares: uno de ellos es de mi localización en ese momento. Deben recordar las imágenes o pensamientos que les vinieron en los últimos 30 minutos y votar qué lugar es el auténtico. Si hay una mayoría que eligen el lugar correcto el ensayo habrá tenido éxito. Las pruebas se realizarán el martes, miércoles, jueves y viernes de esta semana. Tres o más éxitos en el conjunto de las cuatro pruebas se interpretarán como apoyo a la existencia de percepción extrasensorial. Como control haré hoy un ensayo informal a las 3 PM".
El responsable del asunto es Richard Wiseman un profesor de la Universidad de Hertfordshire (GB) que se ha dedicado con cierta frecuencia a trabajar con paranormalidades varias. El control se realizó ayer, lunes y hoy, a las 15 h, comenzó el espectáculo. Si quieren participar los próximos días usen este enlace.

Ahora un poco de análisis. En primer lugar, reconoceré que usar Twitter para este tipo de cosas tiene su gracia pero poco más. Y en segundo lugar insistiré en que todos los experimentos que se realicen para intentar detectar cualquier tipo de PES deben estar cuidadosamente diseñados. Este no es el caso. ¿Cuáles son los problemas? A mí se me ocurren algunos, por ejemplo:
  1. Puede participar cualquiera cuando lo lógico sería que sólo participaran aquellos que afirman tener PES (para ello habría que cambiar el diseño del experimento). Fíjense que esto va en contra de la detección de PES (hago aquí de abogado del diablo) ya que la señal, de existir de forma minoritaria, quedaría oculta por el ruido.
  2. La "prueba de control" del lunes no vale para nada: si hay PES la hay también para esa prueba.
  3. El diseño es innecesariamente complejo ¿pará qué viajar físicamente a ningún sitio? ¿Para qué una adivinanza y luego unas fotos? Yo propondría una alternativa más simple y más "ciega": a una persona se le presentan 500 sobres cerrados con números que van del 0 al 499 convenientemente mezclados, de ellos selecciona 30 y los apila como le venga en gana. Sujetos con una gomita para que no pierdan el orden son encerrados bajo llave en una caja fierte a la vista de todos. Sólo entonces se pide por Twitter que la gente envíe una secuencia de 30 números separados por comas durante la siguiente hora. Recibidas las secuencias se abren los sobres y se comparan los mensajes con la secuencia elegida. ¿Difícil? No para uno que tenga PES, supongo. La cuestión está en que así aseguramos que nadie sabe la secuencia de números elegida hasta que se abran los sobres al final de la prueba.
  4. Ante la falta de un protocolo detallado, las manipulaciones en la prueba planteada son posibles y ya no estamos para confiar en nadie: ¿quién va a saber el destino cada día? ¿lo saben los que van a analizar los mensajes de Twitter? En definitiva ¿asegura el protocolo que no hay trampa, incluso por gente ajena al experimento? Lo digo porque, ante el anuncio público, ya me imagino a Wiseman con media docena de listos intentando seguirle cada tarde. ¿Exagero? Tal vez. O tal vez no.
  5. La estadística tal como la plantea Wiseman queda indefinida. Debe ser una norma obligada ante cualquier experimento, especialmente de este tipo, especificar con absoluta claridad cuales son las hipótesis nula y alternativa y cómo se va a valorar. Las improvisaciones de última hora son siempre indeseables.
Aunque yo no aceptaría una prueba así, queda poco para ver los resultados ya que Wiseman se ha comprometido a poner en internet para que puedan analizarse. Quedamos a la espera con cierta curiosidad distraída porque estas cosas ya han sido miradas anteriormente y, cuando el protocolo es bueno, los resultados son lo que ustedes suponen: nada.

Actualización: el experimento ha finalizado y en su blog están los resultados, por el momento sin cifras.


La foto correcta de hoy martes.

Complemento: Andrés Diplotti lo tiene claro en La pulga snob de esta semana.
Enterado vía: Bad Science.

29 mayo 2009

[Breves] Research Blogging en español

Research Blogging (RB) es un agregador de posts de naturaleza científica. El original en inglés tiene una amplia trayectoria y hace unos días han iniciado el reclutamiento para lanzar la versión en español, ya operativa. Hispaciencia tiene similares objetivos y agrupa unos 80 blogs que tratan de ciencia en español desde hace ya casi tres años (y más de 19000 posts). La diferencia con Research Blogging es que este sólo recoge posts que hablen expresamente de artículos científicos publicados. No es mejor ni peor, sólo algo diferente y más restrictivo. El post anterior, sobre los orígenes de la lepra, es mi primera contribución a RB. Si quieren ustedes seguirlos, la mejor y más cómoda forma es suscribirse a sus feeds. Tomen nota:
  • Research Blogging en español: http://feeds.feedburner.com/ResearchBloggingAllSpanish
  • Hispaciencia: http://www.hispaciencia.com/feed.php?full=1
Grab this Widget ~ Blogger Accessories
 
º