Charla en el curso Vocento Media Lab de #periodismodatos

Enlace a la charla en el curso Vocento Media Lab de #periodismodatos donde desarrollo brevemente cuatro elementos fundamentales a conocer tras haber cursado la asignatura:

  • Media versus mediana.
  • Pictogramas correctos.
  • Frecuencias absolutas, relativas y condicionadas.
  • Intervalos de confianza.

y fuera de programa/temario:

  • Un procedimiento sencillo y transparente de ¿cómo obtener estimaciones de la intensión de voto a partir de los datos disponibles en el CIS?
  • Perfiles de votantes.

Nos vemos en clase …

Anuncios

Media, mediana y otras medidas del montón

Por 100292017

El uso –muchas veces abuso- de la media aritmética (promedio) como medida de posición central es una constante en los medios de comunicación españoles. Es como si pensaran que su audiencia no va a entender otra medida que no sea la susodicha media, y aunque ese fuera el caso, qué mejor que un periódico o televisión haciendo pedagogía sobre ello.

Mi reflexión nace tras la lectura de un artículo de prensa, publicado el pasado 18 de abril en la versión digital de El País [1]. La pieza analiza  las consecuencias que tendría un tipo impositivo del 75% en el Impuesto sobre la Renta de las Personas Físicas (IRPF) [2], para aquellas rentas que superen el millón de euros, propuesta hecha en campaña por el ya presidente francés François Hollande.

Con el título «75% de IRPF para millonarios: ¿justicia social o castigo al rico?», el autor estudia la relación entre tipos impositivos medios y la brecha entre la renta de clases altas y bajas dentro de los países de la Organización para la Cooperación y el Desarrollo Económico (OCDE) [3]. Uno de los datos que apoya el artículo es la media de los tipos máximos de IRPF, que cifra en un 41,5% para el año 2010.  Si acudimos a los datos originales [4] y observamos la cuarta columna (Top tax rates, año 2010), podemos deducir que la mediana se sitúa en el 45,0% por encima del tipo medio máximo del IRPF para el citado año. La diferencia respecto a la media puede parecer pequeña, pero ¿acaso alguno de nosotros desearía ver subidos sus impuestos en cuatro puntos y medio? Estamos ante un ejemplo de robustez a datos atípicos de la mediana, que no se ve afectada en comparación con la media.

El gráfico de cajas

Aprovecho el tema media vs. mediana para introducir un tipo de gráfico que no hemos visto en las sesiones del curso: el gráfico de cajas, también conocido como de cajas y bigotes o boxplot.

Resulta muy ilustrativo a la hora de representar medidas de localización, como la mediana y los cuartiles; de dispersión, como el rango y el rango intercuartílico; y para visualizar la forma (asimetría).

Dibujamos un rectángulo cuyas bases representan el primer y tercer cuartil de la distribución que estemos estudiando. Además, el rectángulo se verá cortado a lo ancho por otra línea que trazaremos  a la altura del valor que se corresponda con la mediana (en ocasiones se marca, también, un punto o una cruz en el valor asociado a la media). Para completar la representación debemos dibujar una línea que vaya desde el centro de la base inferior, hasta el punto en el que se haya el límite inferior o valor mínimo en los datos. De forma análoga procederemos desde la otra base del rectángulo hasta el límite superior o valor máximo en los datos. Si quisiéramos hacer un gráfico más completo, sustituiríamos los límites inferior y superior por los límites a partir de los cuales consideramos que la variable toma valores atípicos que, usualmente, son Q1-1,5RI y Q3+1,5RI. Finalmente colocaríamos círculos o asteriscos en aquellos valores de la distribución que resultaran atípicos.

Lo interesante del gráfico de cajas es que permite reconocer de forma muy intuitiva cómo es la distribución de los valores de nuestra serie, cuál es la tendencia central y si la variable presenta mayor o menor dispersión.

En el siguiente gráfico tenemos la distribución del tipo máximo del IRPF en los 34 países miembros de la OCDE. El gráfico ha sido elaborado en Excel a partir de una hoja de cálculo que podemos encontrar en [5].

Boxplot del tipo máximo del IRPF en países miembros de la OCDEComo podemos apreciar, el grueso de la distribución se concentra en apenas 8 puntos y medio del IRPF. Añadimos que la muestra se ve desplazada hacia la derecha (asimetría por la izquierda: media < mediana < moda) debido a la existencia de algunos valores atípicos.

Curiosidades estadísticas en los medios

Por 100291823

Hace aproximadamente cuatro días, el periódico La Vanguardia (edición digital) publicó una noticia que trataba sobre estadística, aunque más concretamente sobre estadística y música. La noticia me ha parecido muy interesante debido a que  Alicia Coduras y Alex Costa (expertos en música y estadística) han compuesto una pieza musical sobre los datos del Instituto de Estadística de Catalunya centrándose en contabilidad del PIB entre los ejercicios 2000 y 2011.

La pieza musical se llama Fantasía sobre el PIB catalán y sus sectores para violín y guitarra. En esta pieza, la guitarra interpreta los datos del PIB y el violín las diferentes series (agricultura, industria, construcción y servicios).

De este modo, podemos darnos cuenta que la estadística puede sorprendernos ya que no solo la podemos encontrar en los archivos de los Institutos de Estadística o en los titulares de periódicos, sino la podemos encontrar más allá ya que puede ser inspiración para componer una pieza musical.

La estadística y la prensa ¿Quién miente?

Por 100291488

Los ciudadanos, los lectores, terminamos en ocasiones repudiando las cifras. A veces nos desanimamos cuando se nos ofrecen enunciados que empiezan con el típico “las estadísticas dicen que…” o “según las estadísticas…”. Sin embargo, no podemos afirmar que las estadísticas nos engañen, sino que lo hacen aquellos medios que las manejan a su antojo para hacernos creer unas cosas y no otras.

Son muchos los malos usos que se hacen de los datos. Cuando los medios de comunicación, por ejemplo, quieren impresionar a su audiencia agravando una situación suelen emplear números absolutos en vez de porcentajes. Si leemos en un titular “55 muertos en el puente de cuatro días” [1, 2, 3, 4] nos asombraríamos, pero si nos informáramos nos daríamos cuenta de que se trata de aproximadamente el mismo número de víctimas por accidentes de tráfico que en cualquier otro período de cuatro días.

En otras ocasiones, sobre todo cuando se habla de variaciones entre distintos años, se suele hacer lo contrario: utilizar los porcentajes y no los valores absolutos. El titular “El número de asesinatos en X ciudad aumentan un 60% este año”  [6, 7] no nos sorprendería tanto si supiéramos que el año anterior se cometieron 5 homicidios y éste 8.

A pesar de todo, en ninguno de los dos casos podemos decir que el medio o el periodista hayan mentido.

Otro conflicto que surge es el de los intervalos de confianza y los niveles de significación. Una frase más correcta estadísticamente que “El 66% de los ciudadanos prefieren al candidato X” sería “Con un nivel de confianza del 95%, el 66% (más/menos el 6%) de los ciudadanos prefieren al candidato X”, de forma que sabríamos que, con un 95% de confianza entre el 60% y el 72% de la población prefiere al candidato X [8].

Del mismo modo, si una noticia dice que el desempleo ha disminuido del 9’1% al 8’9% de la población activa, nos queda claro que se trata de una buena noticia. Sin embargo, si resulta que el intervalo de confianza es de, por ejemplo, el ±1%, el error asociado al muestreo nos indica que esa aparente disminución puede ser inexistente. Es más, es posible que el paro haya aumentado [8].

Entonces, ¿mienten o no las estadísticas? Con ejemplos tan sencillos y rutinarios como estos, hemos podido comprobar que no es así, siempre y cuando los datos se interpreten de manera fiel y aportando todo aquello que sea necesario para su correcto entendimiento.

La inadecuada interpretación de los resultados de encuestas en titulares

Por 100292300.

A mi juicio, uno de los errores más graves y frecuentes que comenten los periodistas cuando hacen referencia a términos estadísticos es la incorrecta (en muchas ocasiones, por incompleta) interpretación de los datos de que hablan.

Un claro ejemplo quizá lo constituyan los titulares llamativos sobre el “porcentaje de españoles”, en nuestro caso, que opina, hace o afirma algo determinado. Citaré algunos ejemplos: “El cincuenta por ciento de los bebedores españoles lo son por presión social” (El País, 12/06/1976), “El 84 por ciento de los españoles apoya Madrid 2020” (Marca, 02/02/2012) , “El 60 por ciento de las médicos españoles admite que su estilo de vida no es saludable” (La Razón, 08/03/2012).

Como podemos observar, esta ha sido una práctica, en cierto modo, frecuente en el periodismo. A simple vista, podría parecer que dichas encuestas han sido realizadas a toda la población española. Sin embargo, en ningún caso es así. Como bien sabemos, la única encuesta que efectivamente llega a todos los ciudadanos es el censo, y se realiza cada diez años (debido a los elevados costes, tiempo, etc. requeridos para llevar a cabo un estudio de tal magnitud). Así, ni el diario El País encuestó a todos los españoles que beben, ni Marca a toda la población del país, ni La Razón a la totalidad de médicos de España. De hecho, en éste último caso un subtítulo aclara que el estudio se ha realizado en más de 2.500 médicos de Atención. 

Más correctamente, estas encuestas han sido realizadas a un determinado grupo de esa población, lo que se denomina “muestra”. En principio, los valores obtenidos de ésta se suponen aproximados a los valores reales en la población. Sin embargo, no podemos asegurarlo ni, desde luego, afirmar que coinciden totalmente (pues, en general, no podemos averiguarlo de ningún modo).

Por tanto, ¿debemos considerar incorrectos estos datos de los periódicos? Cuando alguien lee un titular de este tipo, puede suponer que se está hablando de una muestra y no de su respectiva población; sin embargo, no se sobrentiende en todos los casos y debemos tener en cuenta que, en muchas ocasiones, esto solo se realiza para conseguir que la noticia sea más llamativa para los lectores o, en el peor de los casos, en servicio de los intereses de un lobby o grupo de influencia. Esto último atenta contra la imparcialidad exigida a los periodistas pero que, paradójicamente, está presente en muchos medios de comunicación.

Las muestras, a veces, una “falsa realidad”

Por 100293399.

La Real Academia Española define la palabra muestra como “Parte o porción extraída de un conjunto por métodos que permiten considerarla como representativa de él.”

Pero, ¿hasta qué punto una muestra es representativa?

Recomiendo la lectura del siguiente artículo, titulado “Encuestas mentirosas” publicado por  diariodesevilla.es. A continuación, lean también el blog de 20 minutos¿Cómo se mide la audiencia en televisión?” y  visualicen este vídeo, titulado “¿Quién está ahí?”. A mí también me pareció un poco largo al abrirlo, pero merece la pena “perder” 10 minutos viéndolo. En él encontraréis opiniones, preguntas y respuestas de lo más interesantes y que motivan pensar en este tema. Por ejemplo:

“Con este aparato, representas entre 10 y 12.000 personas. Representas a más gente que el 90% de los alcaldes de España.” “-Cuando hay un programa que no quieras que esté, ¿te sientes bien al cambiar de canal? +Por supuesto” “-¿Y los documentales de la 2? +Para la hora de la siesta son magníficos” “Es necesario que solo haya una empresa en España controlando esto, y dando unos datos ‘objetivos’. Si hubiese más de una, los datos dejarían de ser objetivos.” “-100 personas con un aparato en casa pueden hacer que una serie se quede o se vaya. ¿No cree que se trata de una falsa realidad? +Claro que es una falsa realidad. No creo que 40.000 personas puedan representar a 40 millones.”

Por supuesto, una entrevista no es representativa de todos los integrantes de ese hogar ni lo es de los 4625 hogares donde están instalados los audímetros.

Estadística pre- y post-electoral

Os recomiendo leer el siguiente artículo publicado por El País: ¿Por qué fallaron las encuestas?

He escogido este artículo porque comenta algo que os puede ocurrir en el futuro cuando vuestro medio de comunicación (de trabajo y de expresión) encargue una encuesta sobre resultados electorales. Se comentan las posibles causas del fallo de las encuestas pre-electorales previas a las elecciones autonómicas de Andalucía.

La principal deficiencia, desde el punto de vista de un estadístico, es que este artículo (y muchos a los que enlaza) no reporta el tamaño de la muestra de las encuestas a las que hace referencia.

La siguiente tabla, extraída del artículo arriba citado, es el resumen de la información que luego desglosa.

Sondeos Electorales en Andalucia, 2012.

A estas alturas del curso, podríamos responder correctamente la siguiente pregunta: ¿Cuál es la probabilidad de que nueve sondeos electorales fallen?

Antes de responder, tendríamos que hacer algunos supuestos: (i) los resultados de los sondeos son independientes; (ii) la probabilidad de acertar es la misma para todos; y finalmente, (iii) la probabilidad es igual al nivel de confianza utilizado en las encuestas, usualmente 0,975.

Con estos supuestos, podríamos pensar que tenemos una variable binomial con n = 9 y p = 0,975. Por tanto, la probabilidad de no tener ningún acierto es 0,0000000000000038147.

En fin, este resultado merecía el artículo de El País y varios más …