Las muestras, a veces, una “falsa realidad”

Por 100293399.

La Real Academia Española define la palabra muestra como “Parte o porción extraída de un conjunto por métodos que permiten considerarla como representativa de él.”

Pero, ¿hasta qué punto una muestra es representativa?

Recomiendo la lectura del siguiente artículo, titulado “Encuestas mentirosas” publicado por  diariodesevilla.es. A continuación, lean también el blog de 20 minutos¿Cómo se mide la audiencia en televisión?” y  visualicen este vídeo, titulado “¿Quién está ahí?”. A mí también me pareció un poco largo al abrirlo, pero merece la pena “perder” 10 minutos viéndolo. En él encontraréis opiniones, preguntas y respuestas de lo más interesantes y que motivan pensar en este tema. Por ejemplo:

“Con este aparato, representas entre 10 y 12.000 personas. Representas a más gente que el 90% de los alcaldes de España.” “-Cuando hay un programa que no quieras que esté, ¿te sientes bien al cambiar de canal? +Por supuesto” “-¿Y los documentales de la 2? +Para la hora de la siesta son magníficos” “Es necesario que solo haya una empresa en España controlando esto, y dando unos datos ‘objetivos’. Si hubiese más de una, los datos dejarían de ser objetivos.” “-100 personas con un aparato en casa pueden hacer que una serie se quede o se vaya. ¿No cree que se trata de una falsa realidad? +Claro que es una falsa realidad. No creo que 40.000 personas puedan representar a 40 millones.”

Por supuesto, una entrevista no es representativa de todos los integrantes de ese hogar ni lo es de los 4625 hogares donde están instalados los audímetros.

Anuncios

8 pensamientos en “Las muestras, a veces, una “falsa realidad”

  1. Me han parecido muy interesante los artículos y el vídeo. Me quedo con la frase “Hay verdades, mentiras y encuestas”. Creo que refleja muy bien la problemática que existe en cuanto a las muestras elegidas para realizarlas. Hay algo que está claro, y es que las muestras nunca podrán representar exhaustiva y fielmente la población a la que pretenden asemejarse. Hay muchos detalles que se nos escapan y que me gustaría destacar con un ejemplo muy simple: las encuestas por teléfono. Sin casi reparar en ello, al realizar una encuesta por teléfono estamos excluyendo de ella a todas aquellas personas que no tienen teléfono. Es una muestra de que siempre existirá un “vacío de verdad” en las encuestas.

    Además, es esencial elegir bien a las personas, es decir, prestar atención a la “calidad” de la muestra, además de la cantidad. Para ello, lo ideal es hacerlo al azar; sin embargo, no es tan fácil como parece.

    Por todo ello, y retomando la frase “Hay verdades, mentiras y encuestas”, creo imprescindible en el lector tener en cuenta que los datos que está leyendo no son una mentira, pero tampoco una absoluta verdad: son encuestas, con todo lo que eso implica.

    • Coincido con el comentario anterior en que una muestra (encuesta) nunca es equivalente a la población (censo).

      Pero, frases como: “+Claro que es una falsa realidad. No creo que 40.000 personas puedan representar a 40 millones.” no son del todo correctas.

      40000 personas (y muchas menos) pueden representar (ser una muestra representativa) de 40 millones.

      Ejercicio para el lector interesado: ¿Cuál debe ser el tamaño de muestra si se desea estimar la proporción de televidentes a los que les ha gustado la serie XYZ con una precisión de 1% y un nivel de confianza del 99%?

  2. Me ha gustado el primer artículo que has publicado en esta entrada. Es curioso cómo la gente miente cuando se le hace una encuesta y cómo le delatan los estudios y los audímetros.
    En relación al primer comentario, quería destacar que, a mi juicio, el mayor sesgo de las encuestas telefónicas no es como dice mi compañero/a el hecho de que pueda haber personas sin teléfono, algo que actualmente se reduce a un número sumamente pequeño y, por tanto, a un sesgo mínimo. El mayor problema que yo creo que conllevan ese tipo de encuestas es que la exagerada longitud de las mismas hace que nos desinteresemos y que, aproximadamente a mitad de la encuesta, contestemos con lo primero que se nos ocurre, en vez de recapacitar y ser fieles a la realidad. Por no mencionar el elevado número de personas que no contesta la encuesta y que podría aportar información significativa al estudio.

    También quería destacar que en una encuesta, la “calidad” no se puede medir y casi diría que no se puede conseguir, porque no todos estamos dispuestos a realizar la encuesta y, si sólo unos pocos contestan y siempre son los mismos, el estudio no sólo es falso; también es interesado y manipulador.

  3. En respuesta a la pregunta de cuál debe ser el tamaño de la muestra si se desea estimar la proporción de televidentes a los que les ha gustado la serie XYZ con una precisión de 1% y un nivel de confianza del 99%:
    Si el coeficiente de confianza (1-alfa) es 0’99, alfa es 0’01. Hallamos 1-(alfa/2), y nos da 0’995. Como a Z(0’995) le corresponde el valor 2’58, m (|mu| en griego) debe estar contenido en el intervalo media-2’58 por la varianza entre la raíz de el número total de televidentes, y media+2’58 por la varianza entre la raíz cuadrada del número total de televidentes.

    Esto, en este ejercicio particular, no lo podemos resolver, pues no se nos da el número total de televidentes y los datos de cada uno para que calculemos la varianza o la media. Del mismo modo, tampoco se nos facilitan los valores de media y varianza de espectadores a los que les ha gustado la serie XYZ. Se calcularía simplemente sustituyendo la varianza y la media, y viendo dentro de qué tamaños de muestra, el nivel de confianza sería del 99% y la precisión, del 1%.

    • Aunque en clase se ha dicho que una proporción muestral es una media muestral, hay que darse cuenta que no es un media media muestral cualquiera. Concretamente, suponemos que es una media muestral de variables Bernoulli(p).

      Un intervalo de confianza de nivel 99% viene dado por: pmuestral +- 2,575 raiz(pmuestral(1-pmuestral)/n). Mientras que un intervalo de confianza de nivel 99% para una media (de variables normales) viene dado por: mmuestral +- 2,575 raiz(sigma^2/n). La precisión en estos intervalos es 2,575 raiz(pmuestral(1-pmuestral)/n) y 2,575 raiz(sigma^2/n), respectivamente. Hay un paralelismo entre ambos intervalos: la media muestral (mmuestral) coincidiría con la proporción muestral (pmuestral); tenemos 2,575 y el tamaño muestral (n) en ambas fórmulas y en los mismos sitios, y sigma^2 sería pmuestral(1-pmuestral).

      En el caso de una media cualesquiera, tal como dice 100293239, necesitamos conocer sigma (o tener una estimación) para poder acotar la precisión. Pero en el caso de una proporción no es tan necesario. Aunque no conozcamos pmuestral(1-pmuestral) podemos acotar superiormente por 0,5^2. Ejercicio para el lector: ¿Por qué?

      Por tanto, si quiero una precisión del 1% (0,01 expresado como proporción) y un nivel de confianza del 99%, lo que podemos hacer es acotar la precisión del siguiente modo: 2,575 raiz(pmuestral(1-pmuestral)/n) < 2,575 raiz(0,5^2/n) < 0,01. Si despejamos n de esa desigualdad, obtenemos que 16577 personas son suficientes. Son muchas, pero muchas menos que las 40000 que se mencionan en la entrevista.

      En la mayoría de las situaciones prácticas se es menos exigente. Por ejemplo, en muchas encuestas del Centro de Investigaciones Sociológicas encontraréis la siguiente frase "El error de muestreo, bajo el supuesto de muestreo aleatorio simple, se sitúa en +1,9% para el conjunto de la muestra, para un nivel de confianza del 95,5% (dos sigmas) y la situación más desfavorable (P=Q)."

      Es decir, la precisión exigida por el CIS es casi del 2% y el nivel de confianza es menor que nuestro exigente 99%. Si repetimos los cálculos con estos valores, comprobaremos que 2770 personas serían suficientes.

      • Cuando hablamos en este problema de pmuestral y (1-pmuestral), nos estamos refiriendo a la probabilidad de que le guste la serie, o la probabilidad de que no, respectivamente. En proporciones, la probabilidad es 0 si falla, y 1 si acierta. Pero, como existe la misma probabilidad de que salga una opción u otra, la probabilidad de que salga una cosa u otra es 1/2, es decir, 0’5. (Con las variables aleatorias, no sabemos cuál es la opción correcta hasta que se descubre el resultado, como en el caso de la moneda que está en el aire y no sabemos si será cara o cruz hasta que cae al suelo; por ello, la probabilidad de una cosa u otra es la misma). Multiplicamos pmuestral y (1-pmuestral) y nos da 0,5^2 puesto que las dos probabilidades son iguales (0’5 cada una).

      • Voy a matizar tu comentario para corregir algunos pequeños defectos y así aprehendemos todos:
        (1) Donde dice “pmuestral y (1-pmuestral), nos estamos refiriendo a la probabilidad de que le guste la serie, o la probabilidad de que no, respectivamente.” debe decir “pmuestral y (1-pmuestral), nos estamos refiriendo a la proporción muestral de que le guste la serie, o la proporción muestral de que no, respectivamente.”
        Es importante diferenciar entre proporción muestral y proporción poblacional (o probabilidad).
        (2) No entiendo completamente la otra parte del comentario. Supongo que se refiere a que cuando calculamos el tamaño muestral, para un error máximo y nivel de confianza prefijados, necesitamos saber cuando vale pmuestral*(1-pmuestral), ¿cómo saberlo si todavía no hemos hecho la encuesta?
        La respuesta a esta pregunta es la siguiente: NO necesitamos saberlo, nos basta con un valor que acote superiormente a este producto y ese valor, como menciona 100293239, es 0.5^2.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s