GOLEM Blog: estadística

Mostrando entradas con la etiqueta estadística. Mostrar todas las entradas

10 febrero 2012

Estadísticas sobre fumadores difíciles de creer

Se han hecho públicos algunos resultados de un estudio sobre tabaquismo en España realizado por la Sociedad Española de Neumología y Cirugía Torácica (SEPAR). La agencia SINC ofrece un resumen en este artículo.
De las múltiples cifras destaco dos que me han llamado la atención:

Actualmente fuma un 20% de los españoles mayores de 13 años.
El tabaquismo pasivo se ha reducido de manera importante aunque el 51% de los menores de 13 años se enfrenta a este problema en sus casas.

Estas cifras parecen incompatibles. Si nos ponemos en el peor de los casos, donde los fumadores estuvieran distribuidos de forma que no hubiera más de uno por hogar, el 20% de los hogares tendría fumadores con lo que, si en todos los hogares hubiera menores, sólo un 20% de ellos estaría sometido al tabaquismo pasivo. Aunque el 20% queda muy lejos del 51%, el porcentaje no sería siquiera ese ya que hay factores que tienden a rebajarlo: (1) hay hogares donde fuma más de una persona, lo cual reduce el porcentaje de "hogares con fumadores" y de menores expuestos, (2) hay hogares donde los fumadores se abstienen de fumar y (3) hay hogares con fumadores donde no hay menores.
Cualesquiera que sean las cifras de los tres factores mencionados, todas tienden a disminuir el porcentaje original del 20% con lo que el mencionado 51% es realmente sorprendente.
Lamentablemente la SEPAR no ha hecho público el estudio original aunque de algunos lugares se obtiene el dato de que fue hecho a partir de 3800 encuestas. Me quedo con la curiosidad de cómo se ha llegado al 51% de menores expuestos ¿alguien tiene alguna idea?
P.S. (12/2/2012): misterio resuelto, ver los comentarios. El porcentaje correcto no es el 51% sino el 4.6%, algo mucho más razonable pero que no da para titulares.

Plantación de tabaco en Brasil (foto Adenilson Nunes/SECOM, Flickr)

23 julio 2010

¿Efecto contagio en la violencia machista?

Publican en LaProvincia.es un artículo titulado Publicar noticias sobre violencia provoca un efecto mimético con un subtítulo "El 88 % de los casos de violencia machista se producen en los cuatro días que siguen a un suceso similar" con la cabecera siguiente:

El psicólogo Pedro Alonso Cabrera recomienda en el estudio Aprendizaje vicario, efecto mimético y violencia de género que los medios de comunicación no publiquen noticias sobre asesinatos machistas para evitar que otros agresores imiten estos comportamientos. El especialista ha concluido que el 88,89 % de los casos se producen en un periodo que se extiende no más allá de cuatro días de que se haya producido un suceso de similares características. Sólo un 11,11 % se dan de manera aislada.

La noticia sobre este informe ha merecido comentarios de todo tipo en el propio periódico y en algunos blogs. Algunos la reproducen sin más pero Víctor R. Ruiz cuestiona la significación estadística del resultado en su Cuaderno de Bitácora:

No soy experto en estadística, pero si las muertes se distribuyeran durante el año de forma aleatoria, la media de días entre muertes se obtendría diviendo 365 entre el anterior total. De hecho, 365/79 = 4,6 días por muerte. Habrá ocasiones en los que sucedan en cortos espacios de tiempo, y otras veces, más largo. Por tanto, la afirmación «el 88,89 % de los casos se producen en un periodo que se extiende no más allá de cuatro días» entra dentro de lo razonable. Si esto es así, a partir de eventos distribuidos aleatorialmente no podemos concluir de ninguna forma que las noticias produzcan un efecto mimético.

¿Quién tiene razón? Me puse a revisar un poco los datos y les expongo a continuación los resultados, a ver si están de acuerdo conmigo. Aunque el estudio original es ilocalizable en estos momentos, en LaProvincia.es nos pone un gráfico de donde pueden extraerse todos los datos necesarios. Lo copio a continuación por si desaparece con el tiempo (pulsar encima para ampliar):

Cronograma de muertes de mujeres por violencia machista en el año 2008

En el gráfico están marcados con un punto los días en los que se han producido las muertes y se encierran en un rectángulo las "series" de muertes, entendiendo como tales aquellos grupos donde se han producido muertes en los cuatro días siguientes a otra cualquiera. Por ejemplo, el día 3 de enero hay una muerte que es seguida por otra el día 5 y otra más el día 7. Dado que entre el 3 y el 7 han pasado cuatro días, las tres muertes suponen una "serie".
Según este procedimiento, seguido aparentemente por el autor del trabajo, el 89% (72 de 81 casos) de las muertes forman parte de series lo cual demuestra el efecto contagio.
Lo malo (o lo bueno, según se mire) es que eso no es cierto.
En mi opinión, en el recuento se comete un error grave: la primera muerte de cada serie se incluye en el recuento se "muertes por contagio" cuando es evidente que no debe hacerse si la muerte anterior se produjo hace más de 4 días. En el caso comentado, la muerte del 3 de enero no puede añadirse al recuento, tampoco la del 17 o la del 31 de enero. En cambio, sí puede incluirse la del 22 de enero porque la anterior se produjo el 18. Por extensión, cuando se producen dos muertes el mismo primer día, como en el caso del día 22 de junio, es dudoso que la segunda deba añadirse al recuento porque la noticia no se conoce inmediatamente y es probable que el efecto contagio no haya podido producirse. En estos casos, sería necesario saber la diferencia en horas entre las muertes y cuando se publicó, algo que no sabemos ni tengo tiempo de buscar por lo que haré los cálculos con ambas opciones.

Con esta consideración, el porcentaje de "muertes dentro de los cuatro días siguientes" baja del 89% al 58% o al 64% (47 o 52 casos) y, como es lógico, el 11% que se produce de forma aislada según el autor, sube al 42% o al 36% según se consideren las segundas muertes el primer día de cada serie.
La siguiente pregunta es ¿cuál sería el porcentaje esperado si los eventos fueran aleatorios?
Como mi capacidad estadística es muy limitada, acudí a Excel para hacer algunas simulaciones de series y estimar dichos porcentajes empíricamente. Para ello basta con hacer lo siguiente:

se generan números aleatorios entre 1 y 365 en 81 celdas; cada número supone una muerte. Lógicamente pueden producirse una o más muertes en cualquier día del año.
se ordena la serie de menor a mayor (cronológicamente)
se cuentan los casos que distan 1, 2, 3 o 4 días del caso anterior.
se divide el recuento entre el total (81) y ya tenemos una estimación de la cantidad de casos que cabe esperar en ese intervalo de 4 días de forma aleatoria.

Los resultados son que en una serie aleatoria cabe esperar que un 56% de los casos esté dentro de una ventana temporal de 4 días de un caso anterior. Este porcentaje no difiere gran cosa del 58% y 64% que arrojan los datos reales pero ¿son significativas las diferencias?
Aquí acudimos a una página donde podemos hacer el test online y la respuesta es que no hay diferencias significativas entre los porcentajes (ni al 95% ni al 90% de nivel de confianza). La conclusión es que los datos aportados no apoyan la hipótesis de que el contagio exista en las circunstancias que el autor parece manejar (cuatro días de margen temporal). Tal vez haya entendido algo mal ya que no tengo acceso al informe original pero, mientras aparece, la recomendación de no publicar las noticias de las muertes no tiene fundamento en los datos aportados. Sería bueno poder analizar una serie más larga (la mencionada es del año 2008) pero desconozco donde localizar los datos.

08 junio 2010

Paquete de estadística circular en R

Hace unos años comencé a trabajar con datos circulares, vectores en los que debía analizarse no sólo su módulo sino su acimut. Es largo el camino, especialmente porque mi formación estadística es muy precaria (aunque a veces tenga epifanías) pero una de las etapas acaba de cumplirse: hemos subido un paquete específico al repositorio de R. Ya había alguno pero se nos antojaba corto en la parte gráfica con lo que este tiene bastante valor añadido en ese aspecto.
Yo no estoy de coautor porque apenas he trabajado en el proyecto pero me cabe el placer de haber sido el que comenzó en enredar en este tema en su aplicación a los errores en los datos espaciales y de haber dirigido una tesis al respecto. Luego otros tomaron las riendas, como debe ser.
El paquete se llama VecStatsGraph2D (la denominacion suele ser así de rarita) y podeis encontrarlo en la página que enlaza su nombre. El enlace directo al manual es este. La licencia es GPL3.
Como ya sabrán casi todos R es un entorno de código abierto para análisis estadísticos. Hay cientos de paquetes, algunos muy fáciles de usar, otros directamente diabólicos. El caso es que, en conjunto, es una solución magnífica para analizar datos científicos. Hay que currársela un poco pero ¿quién da más por menos? Abajo les pongo dos de los gráficos que permite hacer la aplicación.

Anticipándome un poco a los acontecimientos les comento que estamos preparando un paquete de análisis equivalente pero para vectores en tres dimensiones. Se llamará, en un arrebato de creatividad, VecStatsGraph3D. Será dentro de un par de meses.

GOLEM Blog

Mis datos

Lecturas

Archivo del blog

10 febrero 2012

Estadísticas sobre fumadores difíciles de creer

23 julio 2010

¿Efecto contagio en la violencia machista?

08 junio 2010

Paquete de estadística circular en R

Páginas

Seguir el blog, fotos y demás en

Tal vez mis mejores posts

Navegando: un post al azar

Seguidores

Mapa de visitas y pagerank

Licencia

GOLEM Blog

Mis datos

Lecturas

Para suscribirse al blog

Archivo del blog

10 febrero 2012

Estadísticas sobre fumadores difíciles de creer

23 julio 2010

¿Efecto contagio en la violencia machista?

08 junio 2010

Paquete de estadística circular en R

Páginas

Seguir el blog, fotos y demás en

Tal vez mis mejores posts

Navegando: un post al azar

Seguidores

Mapa de visitas y pagerank

Licencia