¿Qué hace más o menos confiable una encuesta?
En tiempos en que se hacen encuestas con alta frecuencia, Ernesto San Martín y Eduardo Alarcón-Bustamante, ambos del Laboratorio Interdisciplinario de Estadística Social UC (LIES UC), explican que los datos nunca hablan por sí solos, sino que requieren supuestos: y la conclusión depende fuertemente de estos últimos.
Encuestamos cuando nos interesa conocer algo de una determinada población y no podemos acceder a ella de modo exhaustivo. Pero nadie está obligado a contestar: algunas y algunos no quieren responder determinadas preguntas, o incluso la totalidad del cuestionario. Así, por ejemplo, en la última Encuesta de Caracterización Socioeconómica Nacional (Casen), realizada por el Ministerio de Desarrollo Social, entre los pensionados consultados sin aporte previsional solidario, un 7,6% no reportó el monto de su pensión. ¿Cómo podemos inferir la distribución del monto de las jubilaciones de esa población si tenemos esta tasa de no respuesta?
Muchos se apresuran en decir que la estadística tiene las herramientas necesarias que nos permitirán estimar los datos faltantes (esto es lo se conoce como imputación).
Sin embargo, las mismas herramientas pueden crear una ilusión de conocimiento si no se explicita lo que los analistas están dispuestos a creer del comportamiento de la población que estudian (y que permite realizar la imputación). Esto se llama supuesto y lo que queremos enfatizar es que el mismo no se puede testear o corroborar empíricamente.
Las mismas herramientas pueden crear una ilusión de conocimiento si no se explicita lo que los analistas están dispuestos a creer del comportamiento de la población que estudian.
Ilustremos estas afirmaciones usando la información que la CASEN aplicada el año 2020 recogió del ingreso de los jubilados, particularmente aquellos que tienen entre 60 y 69 años, y que cuentan con 12 años de escolaridad: entre estos, la tasa de no respuesta fue de un 10%. Pues bien, el séptimo decil de ingreso de esos pensionados que sí revelaron su ingreso es igual a $420.000. Pero, como recordábamos inicialmente, aplicamos la encuesta pues queremos conocer la distribución del ingreso de todos los pensionados que tiene entre 60 y 69 años, con 12 años de escolaridad.
¿Cómo imputamos los ingresos de los pensionados que no lo reportaron? Para hacerlo, es necesario suponer algo acerca del comportamiento de los que reportan su ingreso comparado con el ingreso de los que lo reportan.
Así, por ejemplo, la CASEN supone que el monto de pensión es homogéneo por comuna, nivel educacional y edad: esto se debe a que a los jubilados que no reportaron su ingreso se les atribuye un ingreso igual al promedio de todos los los jubilados que tienen entre 60 y 69 años, y 12 años de escolaridad. Si estamos dispuestos a creer en este supuesto, el séptimo decil de ingreso de dicha población será igual a $450.000. Pero este es un supuesto que no se puede comprobar empíricamente porque hay jubilados que no reportaron su ingreso.
¿Qué tan crítico es este supuesto? Para responder, es necesario analizar el impacto de la tasa de no respuesta sobre la distribución del ingreso de la población que estamos analizando. Para ello, no hacemos ningún supuesto, sino simplemente reportamos los resultados teniendo en cuenta el impacto de dicha tasa. Al hacerlo, podemos decir que el séptimo decil es al menos igual a $400.000 y a lo más igual a $500.000. Un intervalo que incluye todos los posibles ingresos que corresponden a ese decil, por lo que no hay una única manera de describir la realidad de los ingresos.
Los datos nunca hablan por sí solos, sino que requieren supuestos: en nuestro ejemplo, podemos apreciar cómo la conclusión depende fuertemente de un supuesto, lo que se aprecia cuando hacemos el esfuerzo por reportar los resultados explicitando el impacto que la tasa de no respuesta tiene sobre la evidencia.
En un país donde el sistema de pensiones está desacreditado, “pocos” miles de pesos hacen la diferencia, no solo a nivel individual, sino colectivamente. El ejemplo anterior nos debe alertar para constatar que los datos nunca hablan por sí solos, sino que requieren supuestos: en nuestro ejemplo, podemos apreciar cómo la conclusión depende fuertemente de un supuesto, lo que se aprecia cuando hacemos el esfuerzo por reportar los resultados explicitando el impacto que la tasa de no respuesta tiene sobre la evidencia.
Ernesto San Martín, profesor titular
Eduardo Alarcón-Bustamante, investigador
Laboratorio Interdisciplinario de Estadística Social UC