Media, mediana y otras medidas del montón

Por 100292017

El uso –muchas veces abuso- de la media aritmética (promedio) como medida de posición central es una constante en los medios de comunicación españoles. Es como si pensaran que su audiencia no va a entender otra medida que no sea la susodicha media, y aunque ese fuera el caso, qué mejor que un periódico o televisión haciendo pedagogía sobre ello.

Mi reflexión nace tras la lectura de un artículo de prensa, publicado el pasado 18 de abril en la versión digital de El País [1]. La pieza analiza  las consecuencias que tendría un tipo impositivo del 75% en el Impuesto sobre la Renta de las Personas Físicas (IRPF) [2], para aquellas rentas que superen el millón de euros, propuesta hecha en campaña por el ya presidente francés François Hollande.

Con el título «75% de IRPF para millonarios: ¿justicia social o castigo al rico?», el autor estudia la relación entre tipos impositivos medios y la brecha entre la renta de clases altas y bajas dentro de los países de la Organización para la Cooperación y el Desarrollo Económico (OCDE) [3]. Uno de los datos que apoya el artículo es la media de los tipos máximos de IRPF, que cifra en un 41,5% para el año 2010.  Si acudimos a los datos originales [4] y observamos la cuarta columna (Top tax rates, año 2010), podemos deducir que la mediana se sitúa en el 45,0% por encima del tipo medio máximo del IRPF para el citado año. La diferencia respecto a la media puede parecer pequeña, pero ¿acaso alguno de nosotros desearía ver subidos sus impuestos en cuatro puntos y medio? Estamos ante un ejemplo de robustez a datos atípicos de la mediana, que no se ve afectada en comparación con la media.

El gráfico de cajas

Aprovecho el tema media vs. mediana para introducir un tipo de gráfico que no hemos visto en las sesiones del curso: el gráfico de cajas, también conocido como de cajas y bigotes o boxplot.

Resulta muy ilustrativo a la hora de representar medidas de localización, como la mediana y los cuartiles; de dispersión, como el rango y el rango intercuartílico; y para visualizar la forma (asimetría).

Dibujamos un rectángulo cuyas bases representan el primer y tercer cuartil de la distribución que estemos estudiando. Además, el rectángulo se verá cortado a lo ancho por otra línea que trazaremos  a la altura del valor que se corresponda con la mediana (en ocasiones se marca, también, un punto o una cruz en el valor asociado a la media). Para completar la representación debemos dibujar una línea que vaya desde el centro de la base inferior, hasta el punto en el que se haya el límite inferior o valor mínimo en los datos. De forma análoga procederemos desde la otra base del rectángulo hasta el límite superior o valor máximo en los datos. Si quisiéramos hacer un gráfico más completo, sustituiríamos los límites inferior y superior por los límites a partir de los cuales consideramos que la variable toma valores atípicos que, usualmente, son Q1-1,5RI y Q3+1,5RI. Finalmente colocaríamos círculos o asteriscos en aquellos valores de la distribución que resultaran atípicos.

Lo interesante del gráfico de cajas es que permite reconocer de forma muy intuitiva cómo es la distribución de los valores de nuestra serie, cuál es la tendencia central y si la variable presenta mayor o menor dispersión.

En el siguiente gráfico tenemos la distribución del tipo máximo del IRPF en los 34 países miembros de la OCDE. El gráfico ha sido elaborado en Excel a partir de una hoja de cálculo que podemos encontrar en [5].

Boxplot del tipo máximo del IRPF en países miembros de la OCDEComo podemos apreciar, el grueso de la distribución se concentra en apenas 8 puntos y medio del IRPF. Añadimos que la muestra se ve desplazada hacia la derecha (asimetría por la izquierda: media < mediana < moda) debido a la existencia de algunos valores atípicos.

La estadística y la prensa ¿Quién miente?

Por 100291488

Los ciudadanos, los lectores, terminamos en ocasiones repudiando las cifras. A veces nos desanimamos cuando se nos ofrecen enunciados que empiezan con el típico “las estadísticas dicen que…” o “según las estadísticas…”. Sin embargo, no podemos afirmar que las estadísticas nos engañen, sino que lo hacen aquellos medios que las manejan a su antojo para hacernos creer unas cosas y no otras.

Son muchos los malos usos que se hacen de los datos. Cuando los medios de comunicación, por ejemplo, quieren impresionar a su audiencia agravando una situación suelen emplear números absolutos en vez de porcentajes. Si leemos en un titular “55 muertos en el puente de cuatro días” [1, 2, 3, 4] nos asombraríamos, pero si nos informáramos nos daríamos cuenta de que se trata de aproximadamente el mismo número de víctimas por accidentes de tráfico que en cualquier otro período de cuatro días.

En otras ocasiones, sobre todo cuando se habla de variaciones entre distintos años, se suele hacer lo contrario: utilizar los porcentajes y no los valores absolutos. El titular “El número de asesinatos en X ciudad aumentan un 60% este año”  [6, 7] no nos sorprendería tanto si supiéramos que el año anterior se cometieron 5 homicidios y éste 8.

A pesar de todo, en ninguno de los dos casos podemos decir que el medio o el periodista hayan mentido.

Otro conflicto que surge es el de los intervalos de confianza y los niveles de significación. Una frase más correcta estadísticamente que “El 66% de los ciudadanos prefieren al candidato X” sería “Con un nivel de confianza del 95%, el 66% (más/menos el 6%) de los ciudadanos prefieren al candidato X”, de forma que sabríamos que, con un 95% de confianza entre el 60% y el 72% de la población prefiere al candidato X [8].

Del mismo modo, si una noticia dice que el desempleo ha disminuido del 9’1% al 8’9% de la población activa, nos queda claro que se trata de una buena noticia. Sin embargo, si resulta que el intervalo de confianza es de, por ejemplo, el ±1%, el error asociado al muestreo nos indica que esa aparente disminución puede ser inexistente. Es más, es posible que el paro haya aumentado [8].

Entonces, ¿mienten o no las estadísticas? Con ejemplos tan sencillos y rutinarios como estos, hemos podido comprobar que no es así, siempre y cuando los datos se interpreten de manera fiel y aportando todo aquello que sea necesario para su correcto entendimiento.

La inadecuada interpretación de los resultados de encuestas en titulares

Por 100292300.

A mi juicio, uno de los errores más graves y frecuentes que comenten los periodistas cuando hacen referencia a términos estadísticos es la incorrecta (en muchas ocasiones, por incompleta) interpretación de los datos de que hablan.

Un claro ejemplo quizá lo constituyan los titulares llamativos sobre el “porcentaje de españoles”, en nuestro caso, que opina, hace o afirma algo determinado. Citaré algunos ejemplos: “El cincuenta por ciento de los bebedores españoles lo son por presión social” (El País, 12/06/1976), “El 84 por ciento de los españoles apoya Madrid 2020” (Marca, 02/02/2012) , “El 60 por ciento de las médicos españoles admite que su estilo de vida no es saludable” (La Razón, 08/03/2012).

Como podemos observar, esta ha sido una práctica, en cierto modo, frecuente en el periodismo. A simple vista, podría parecer que dichas encuestas han sido realizadas a toda la población española. Sin embargo, en ningún caso es así. Como bien sabemos, la única encuesta que efectivamente llega a todos los ciudadanos es el censo, y se realiza cada diez años (debido a los elevados costes, tiempo, etc. requeridos para llevar a cabo un estudio de tal magnitud). Así, ni el diario El País encuestó a todos los españoles que beben, ni Marca a toda la población del país, ni La Razón a la totalidad de médicos de España. De hecho, en éste último caso un subtítulo aclara que el estudio se ha realizado en más de 2.500 médicos de Atención. 

Más correctamente, estas encuestas han sido realizadas a un determinado grupo de esa población, lo que se denomina “muestra”. En principio, los valores obtenidos de ésta se suponen aproximados a los valores reales en la población. Sin embargo, no podemos asegurarlo ni, desde luego, afirmar que coinciden totalmente (pues, en general, no podemos averiguarlo de ningún modo).

Por tanto, ¿debemos considerar incorrectos estos datos de los periódicos? Cuando alguien lee un titular de este tipo, puede suponer que se está hablando de una muestra y no de su respectiva población; sin embargo, no se sobrentiende en todos los casos y debemos tener en cuenta que, en muchas ocasiones, esto solo se realiza para conseguir que la noticia sea más llamativa para los lectores o, en el peor de los casos, en servicio de los intereses de un lobby o grupo de influencia. Esto último atenta contra la imparcialidad exigida a los periodistas pero que, paradójicamente, está presente en muchos medios de comunicación.