07 mayo 2007

Ciencia oscura

No es oro todo lo que reluce. Cada mes se publican decenas de miles de artículos científicos. Sólo en la ISI Web of Knowledge dicen que tienen indexadas 22000 revistas periódicas cuyo ritmo de publicación es variable pero cuya media podría ser un número mensual. Hay mucha ciencia por ahí fuera, en efecto ¿pero tanta?
Y la respuesta es que posiblemente no, que hay una inflación de artículos realmente agobiante y que una mayoría de los trabajos que se publican son irrelevantes.
La mitad de las publicaciones científicas apenas llega a obtener media docena de citas a lo largo de los años. Desbrozar la ingente cantidad de publicaciones que nos inunda retrasa la localización de los trabajos realmente valiosos.
Si esto fuera así tendría al menos dos consecuencias negativas: que la ingente cantidad de artículos oculta los interesantes luego resulta fácil que algunos imprescindibles pasen desapercibidos al menos durante un tiempo y que cada vez es necesario invertir una mayor cantidad de tiempo en mantenerse al día en la revisión bibliográfica.
¿Cómo podemos comprobar si es cierto eso de que sobran artículos? Una forma razonable es estimando el impacto de los artículos en la comunidad científica donde el estadístico más razonable es el número de citas: a más citas, más relevante es el trabajo, más te han tenido en cuenta.
Empecemos un análisis simple. ¿Cuál es el número medio de citas por artículo? Lógicamente depende del año de publicación porque los artículos van acumulando citas con el tiempo y por la dinámica de la publicación es prácticamente imposible, por ejemplo, que algo publicado hace un mes tenga citas este año.
En la web mencionada hay estadísticas que iluminan este asunto y les reproduzco algunas básicas referidas a la última década (publicaciones desde 1997).
Para empezar, nuestra esperanza general de citas no es especialmente alta: de media, un trabajo es citado 8.8 veces al cabo de 10 años. Esta cifra, sin embargo, no es representativa por sí sola porque las citas varían mucho según el campo de conocimiento y es interesante ver que en cabeza están la biología molecular y genética (23.6 citas/artículo), la inmunología (19.1), la neurociencia (16.3) y la biología y bioquímica (15.1). A la cola están las ciencias sociales (3.5), la ingeniería (3.3), la matemática (2.6) y la informática (2.5).
¿Dan estas cifras una idea de lo dinámico del campo en cuestión? Lo dejo a su opinión.
El siguiente paso es que la media aritmética no es aquí un buen estadístico porque la distribución de citas está muy fuertemente sesgada. Veremos a continuación que podemos distinguir entre lo que podríamos llamar una ciencia influyente, poderosa, sexy, que muchos tienen en cuenta, y una ciencia oscura, muy oscura, muy oscura...
En la primera están, lógicamente los artículos más citados. Por ejemplo, un artículo titulado "Gapped blast and psi-blast: a new generation of protein database search programs" ha recibido 17567 citas en los últimos 10 años. Es el record porque en otros campos "apenas" llegan a las dos mil o tres mil. Y claro, para compensar esta minoría es necesario que haya algo en el otro extremo.
Para verlo mostraremos los percentiles que no son otra cosa que el número de citas que alcanza un cierto porcentaje de artículos. Aquí merece la pena centrarse en un año concreto, por ejemplo, el 2000, para el cual ya ha habido tiempo suficiente para que las aportaciones sean conocidas y se pueda hacer referencia a ellas.
A nivel general (todos los campos juntos, ver abajo) y para un trabajo publicado en el año 2000, sólo un 1% de los trabajos llega a las 115 citas y un privilegiado trabajo de cada mil llegará a las 328. Por campos la cosa varía, como es lógico. Aquí tienen una tabla resumen.


Más que fijarme en el orden de los campos me gustaría llamar la atención sobre que el 50% de los trabajos dificilmente será citado más de media docena de veces en su gris existencia impresa. En un muestreo más o menos aleatorio me salió que un 40% de los trabajos no son citados nunca. A lo cual hay que añadir que los que están a continuación probablemente lo deben en buena parte a autocitas, que no están descontadas de la estadística anterior.
No es difícil aceptar que la media docena de campos que están en cabeza son extremadamente activos en la ciencia del momento. Pero ¿alguien tiene alguna interpretación para la situación de la matemática como farolillo rojo en la lista? ¿O para el posible significado de la lista en sí?

15 comentarios:

Orges dijo...

Vaya por delante que me apasionan este tipo de estadísticas y que entro a diario en el web of knowledge.

Pero como en casi todo, hay que mantener los pies en tierra. Que una artículo sea citado 15000 veces dice mucho de su calidad, por supuesto. Pero que otro sea citado 12 veces no significa en absoluto que sea irrelevante. Hay investigaciones aplicadas a aspectos muy concretos que no pueden tener la misma relevancia que otras, de campos más interdisciplinares y de interés mundial; en mi campo (alimentos) es muy claro: si uno estudia el queso de la Serena, solamente le citarán aquellos autores cuyos estudios (dignísimos) versen sobre quesos de oveja (muy pocos). Si publicas sobre yogurt, te podrán citar cientos. Si publicas sobre métodos de análisis de alimentos, te pueden llegar a citar miles. Afortunadamente las líneas de trabajo de algunos grupos de investigación no están del todo orientadas hacia conseguir el máximo número de citas.

En fin, con la potencia que tienen los motores de búsqueda, yo no creo que el "exceso" de publicaciones sea algo negativo, siempre y cuando la calidad media no se vaya al garete. De hecho, una de las razones por las que la ciencia ha avanzado tantísimo en los últimos años es porque la base de conocimiento ha crecido espectacularmente.

Topo Universitario dijo...

Las pautas de citación son completamente distintas en campos distintos de conocimiento. En unos campos montas un artículo con cinco citas; en otros, mal vas si no manejas al menos treinta. Por eso, las distribuciones no tendrán nada que ver, sin que ello tenga, desde mi punto de vista, nada que ver con el dinamismo del campo de conocimiento.

Por otro lado, creo que es parcialmente incorrecto el señalar los artículos nunca citados como triviales, que entiendo que es lo que vienes a sugerir. Son triviales en el sentido de que nadie se ha apoyado en ellos (todavía). Pero son importantes porque son el residuo necesario del proceso de incremento del conocimiento.

Angel dijo...

Sólo un par de matices para que no se interprete mal lo que comento.
1. No he mencionado las palabras "calidad" ni "dignidad" en el post porque son enormemente difusas y en realidad las citas no pueden ser un indicador de ellas.
2. Estamos hablando de impacto a nivel global, lo cual tiene un sesgo esencial: de potencia la "gran" ciencia, que es buena sin duda pero no mejor que otras ramas minoritarias.
3. Tampoco he hablado de "trivial" sino de "relevante" y quisiera que se entendiera en el sentido anterior: impacto.

Nota por si alguien lo dudaba: tengo de todo en los artículos que me ha dado tiempo a sacar en los 6 años que llevo dentro de la universidad, desde 0 citas hasta uno colocado en los Highly Cited Papers.
Y un error que cometimos hace tres años: publicar en una revista con un buen factor de impacto (Journal of Vegetation Science) pero que es sueca y no está en ningún "paquete" de los suscritos habitualmente (Sciencedirect, Kluwer...). La conclusión es que perdemos citas porque la revista no es accesible. Un fallo de estrategia obviamente.
Saludos

Ibn Luanda dijo...

Escribí (traduje) un post relacionado con el tema hace un par de meses. Decía algunas cosas distintas que sacaban a relucir los inconvenientes de la ingente cantidad de investigaciones que se publican:

En 2005, el Journal of American Medical Association encontró que, de los estudios médicos que, desde 1990, habían sido citados más de 1000 veces, un tercio eran contradichos por las replicaciones, y 1/4 ni siquiera habían sido replicados. De los 49 estudios clínicos de investigación originales más citados, 45 anunciaban que la intervención había sido eficaz. De ellos, 7 (16%) eran contradichos por estudios posteriores, otros 7 (16%) han encontrado efectos más fuertes que los estudios posteriores, 20 (44%) fueron replicados, y 11 (24%) permanecieron sin replicarse.

Angel dijo...

Es bueno ese post, muy interesante para aclarar todo eso de "un estudio demuestra que tomar 3 copas de aguardiente de orujo marca ACME es bueno para la tendinitis" :-)

Orges dijo...

Angel, creo que en el tono inicial del post se intenta hacer un claro desprestigio por lo poco citado (incluso excluyes lo no citado de la ciencia "Hay mucha ciencia por ahí fuera, en efecto ¿pero tanta? Y la respuesta es que posiblemente no, que hay una inflación de artículos realmente agobiante y que una mayoría de los trabajos que se publican son irrelevantes") Después calificas de "realmente valiosos" a los artículos más citados (ergo, los no citado no son realmente valiosos, no?)
Sigo sin estar de acuerdo contigo. Es absurdo negar la "relevancia" de los artículos muy citados, pero la trascendencia de los artículos poco (o nada citados) puede ser importante fuera de lo que es el circuito de publicaciones científicas. Por ejemplo: yo no tengo artículos en highly cited, pero alguno sobre metodología funciona muy bien en número de citas, y su repercusión práctica en la industria agroalimentaria extremeña (son los temas sobre los que más trabajamos) es nula o escasa. En cambio artículos con muchas menos citas han servido de base para desarrollar la norma del cerdo Ibérico (no estoy seguro de que eso se aun mérito), o para cambiar los patrones de selección genética de la asociación de criadores del cerdo Ibérico. ¿Son irrelevantes (es lo contrario de relevantes) por tener 5 citas?

Angel dijo...

Está claro que hay ámbitos en cuanto al impacto de los trabajos y que sólo los artículos que encajan bien en las grandes corrientes del momento.
Lo que no tengo claro es que casos como el tuyo expliquen ese 40% que no tiene nada salvo alguna autocita al cabo de unos años.
Creo que lo que ocurre con muchos temas es que empiezan con una buena idea y unos pocos trabajos pioneros. Luego viene una etapa explosiva de trabajos que desarrollan y maduran la idea o técnica y después un largo goteo de trabajos que se apuntan al tópico porque está de moda aún y es publicable pero que no añaden nada porque se limitan a producir variaciones nimias del tema principal.
Estos son los artículos que sólo cosecharán un puñado de autocitas y que ofuscan el sistema.

"Infoxicación" lo llaman, intoxicación de información.
De todas formas, prometo darle un par de vueltas a la crudeza con la que me salen los posts antes de darle a la tecla de publicar :-)

BLAS dijo...

Respecto a la masificación en la publicación científica, creo que varios factores deben tenerse en cuenta:

- el sistema de "gratificación" que se aplica en ciencia favorece a los que más y mejor publican (aunque a veces veamos casos en los que no es así...).

- año tras año se incrementa el número de personas dedicadas a la ciencia (y a lo que algunos llaman ciencia).

- todos los que estamos en este "mundillo" aspiramos a esta gratificación (al menos, a parte de la misma) porque la necesitamos para optar a una vida basada en la ciencia.

- no todos tenemos la capacidad para publicar artículos de relevancia. Es obvio que existe un gradiente de talento, y la mayoría no estamos en la cúspide de la distribución.

Dados estos factores, las revistas se limitan a aprovechar la oferta de material científico en su beneficio, y los autores a su vez se benefician al conseguir "puntos de gratificación" gracias a la gran cantidad de publicaciones.

Yo por supuesto no hablo por experiencia, ya que soy novel en este asunto. Sí que tengo claro algo: es más productivo ser crítico con el trabajo propio que con el de los demás, porque siempre, para cada uno, lo que hace, lo que investiga y lo que publica, es lo más importante, y los que estamos fuera de su ámbito, carecemos de la lente necesaria para ver el asunto del mismo color.

Respecto a la tiranía a la que estamos sometidos por el sistema editorial, creo que las cosas cambiarán, aunque despacio. Ya estamos viendo que las iniciativas como PLOS han entrado fuerte en el mundo editorial, favoreciendo la libre difusión de la información científica (eso sí, a 1500$ la pieza).

No voy a aburriros más con mis divagaciones, pero entenderéis que a un "investigador en fase inicial" (que me gusta más que "becario") le interesen estos asuntos...

Un saludo

Orges dijo...

Pues yo me agarro al famoso aforismo "Cualquier generalización es mala, incluido esta". Creo que hay de todo a todos los niveles (tanto de índice de impacto como de número de citas). Yo no noto que el sistema esté "ofuscado" (y no te preocupes por la crudeza de los posts, que dan más vidilla a los debates)

En cuanto a Blas, coincido en que suele resultar muy provechoso ser crítico con uno mismo, pero no en que publicar tenga recompensas (como siempre, cualquier generalización...). Ejemplo: me presenté a una habilitación de cátedra con 60 papers en SCI y 16 de índice H y le dieron una de las plazas a una chica con 28 artículos (3 de primera autora), e índice H de 8. Seguro que todos conocemos anécdotas similares. Al final publicas (una vez estabilizado, eso sí) por prurito personal, porque te gusta, por ayudar a los que vienen detrás, por costumbre... y por último, no estoy seguro de que el talento sea lo más importante. Algo de luces viene bien, pero acompañado de mucha (mucha, mucha) capacidad de trabajo.

Angel dijo...

El efecto de abrir el acceso
en PLoS Biology es espectacular:
2003: 0.0
2004: 13.9
2005: 14.7
Pero temo que las tarifas para publicar son algo más caras: 2500 dólares la pieza en esta revista y 2000 en casi todas las demás :-(
Datos concretos aquí

Angel dijo...

Je, je, en mi área no juntamos 60 publicaciones entre todos los de España y parte del extranjero...

Ya a nivel más personal, creo que muchos intentamos publicar simplemente porque nos gusta. Te dan gallifantes de vez en cuanto pero el mayor es que infla el ego a ratos. Otras veces te dan por todos los lados pero ¿y lo bien que lo pasamos? :-P

BLAS dijo...

Gracias Ángel por la información sobre los precios de PLOS...que también suponen un problema para laboratorios y personal investigador con escasos recursos, por lo que a fin de cuentas se cambia un factor limitante (escasa difusión) por otro (escasa posibilidad de difundir) muy similar.

Pero sí, si lo que haces te gusta, podrás ó no publicarlo, pero que te quiten lo bailao...

Pedro Terán dijo...

Hay que distinguir entre los artículos que se citan, los artículos que se han utilizado y los artículos que han influido en la investigación. Son tres cosas que no guardan relación alguna (excepto que para que influyan, hay que haberlos utilizado, claro).

Por poner un ejemplo, mi último artículo aceptado -anteayer mismo- cita siete trabajos anteriores, de los años 85 (artículo), 75 (artículo), 99 (libro), 02 (libro), 75 (libro), 07 (artículo) y 06 (autocita).

En el artículo se mejoran unos resultados del del 2007, usando los míos de 2006. La influencia de los otros 5 en la investigación es la siguiente: el 99 y el 02 se citan en el texto de una nota a pie de página (ninguna influencia); del libro del 75 se usa un resultado que se podría citar de cualquier otro sitio incluyendo el artículo original de 1951 (ninguna influencia); el artículo del 75 se cita por su interés histórico pero no se usan sus resultados (alguna influencia indirecta); el del 85 sí se usa en una demostración, aunque de nuevo se podría citar en su lugar trabajos hasta de los años 60 (no mucha influencia).

Cómo se ve, el impacto directo de esos trabajos es casi nulo.

Ahora bien, el artículo no podría existir sin un número de trabajos que no aparecen citados. Por un lado, una media docena de artículos anteriores de los autores del 06, y dos o tres de otros, que usé para poder enterarme de qué carajos hacían en su artículo y tener claro si efectivamente las técnicas del mío se podían aplicar a su caso. Por otro, artículos que fueron esenciales para elaborar el 07 y que entonces (ni ahora) no citamos.

Así es como se hacen las listas de referencias en Matemáticas: si usas un resultado, citas de dónde lo sacaste; si no usas un resultado, salvo excepciones no hay nada que citar. Y sólo se citan los trabajos a que se hace referencia explícita en el texto (no se usa el estilo "Hay muchos artículos sobre este tema, ver [1-18]").

Pero no se citan los artículos donde encontraste esos resultados sino los artículos donde aparecieron por primera vez o un libro donde aparezcan (no hace falta haberlos visto nunca). Por lo tanto, el número de citas y el índice de impacto no pueden rastrear de dónde sacaste las ideas que necesitabas para avanzar, sino a lo sumo quién fue el primero en tenerlas.

Topo Universitario dijo...

Creo que estamos enfocando mal el tema. (Desde mi punto de vista, claro).

Entiendo que Ángel está defendiendo algo parecido a que como uno tiene menos esposas que novias en la vida amorosa de uno hay un excedente de novias inútiles. El problema es que sólo un sistema que tolere la existencia de novias inútiles puede garantizar mínimamente que al final uno encuentre con quien casarse.

¿Cuál sería el modo de reducir el porcentaje de artículos que no reciben ninguna cita? Endurecer los procesos de revisión. Eso supone aceptar que no hay artículos buenos que pueden ser perdidos de este modo. Creo que es mejor dejar que sea la totalidad de la comunidad científica quien decida sobre la importancia de un artículo y no un pequeño grupo de revisores.

Angel dijo...

Me gusta eso de la metáfora. Yo propongo la de los pasteles: hay tantos pasteles hechos con productos industriales que cuando llegas al artesano con huevos de gallina de verdad no sólo ha pasado la hora de comer sino que estás con la barriga llena.
Respecto a qué hay que hacer. Pues nada, la selección actúa a través de las citas con los matices que habeis introducido en la discusión. Mi intención era sólo poner un problema encima de la mesa, que cada vez hay que invertir más tiempo en revisar artículos y que muchos son como "remakes" de los realmente buenos, van a remolque en vez de ir tirando del tren.

Grab this Widget ~ Blogger Accessories
 
º