La discutible validez de las encuestas

El relativo éxito de las encuestas pre-electorales ha legitimado la encuesta como técnica de investigación. Pero estas encuestas pre-electorales son un caso excepcional. La mayoría de las encuestas sufren importantes problemas de validez.

Grupo de Registro de Archivos Nacionales de EE. UU. 46: Registros del Senado de EE. UU.,, Dominio público, via Wikimedia Commons

En cada nuevo proceso electoral surge la cuestión de las encuestas: ¿nos permiten predecir los resultados? ¿son una herramienta eficaz? Una reducida desviación de las estimaciones respecto al resultado final desencadena una avalancha de críticas. Y hay casos muy sonados donde han fallado estrepitosamente -como el que señala la viñeta que ilustra este artículo-. No obstante, a pesar de las críticas, las previsiones de la mayoría de las encuestas pre-electorales se alejan poco de los resultados reales. Escudándose en estos éxitos, múltiples voces afirman la “cientificidad” de las encuestas. No sólo de las encuestas pre-electorales. De todas las encuestas. Cuestionarlas sería como negar que la tierra es redonda. De hecho, la legitimidad de las encuestas procede precisamente de las encuestas pre-electorales: el instituto Gallup logró predecir el triunfo de F.D. Roosevelt en las elecciones de 1936 en Estados Unidos a partir de una encuesta a una muestra representativa de votantes. Ese triunfo de la predicción legitimó la extensión del uso de la encuesta a múltiples ámbitos. Pero ¿y si la eficacia de las encuestas pre-electorales fuera algo excepcional respecto a la validez de la mayoría de las encuestas?

Para responder esta pregunta, hemos de realizar primero algunas distinciones. En primer lugar, no todas las estadísticas que describen aspectos de la sociedad proceden de encuestas. Muchas proceden de registros administrativos. Así, los datos de delitos proceden del registro de las denuncias efectuadas, o los de causas de muerte de las consignadas en los certificados de defunción. Algunos de estos registros, como los demográficos, tienen, en sociedades como la nuestra, una validez altísima. Ello se debe a varias razones. Por un lado, muy pocos nacimientos y muy pocas muertes escapan al registro administrativo. Por otro lado, hay una considerable homogeneidad en lo que se registra como nacimiento y muerte: los procedimientos y normas de registro, habitualmente realizados por personal médico, no dejan mucho lugar a interpretaciones divergentes. Otros registros son mucho más problemáticos, entre otras razones, porque pueden sufrir importantes sesgos de selección.

Frente a los registros administrativos, las encuestas generan sus números preguntando a muestras representativas de la población un cuestionario estandarizado. Este cuestionario puede versar sobre hechos o sobre opiniones. En el primer caso, preguntamos a las personas por sus situaciones o sus prácticas: ¿tiene automóvil?, ¿recicla el vidrio? En el segundo, se pregunta por opiniones, valores, actitudes: ¿qué opina vd. de….? ¿está de acuerdo con las siguientes frases…? Ambos tipos de encuestas presentan importantes diferencias. En el primer caso, preguntamos por hechos objetivos y podríamos, teóricamente, contrastar las preguntas con las prácticas o situaciones reales. En el segundo, inquirimos por entidades mentales -actitudes, valores, opiniones…- que no podemos observar directamente y suponemos que existe una fuerte correspondencia entre las respuestas de la encuesta y esas entidades mentales.

Byron H. Rollins, Public domain, via Wikimedia Commons

Las discusiones metodológicas sobre encuestas suelen limitarse a la representatividad estadística: ¿tiene muestra suficiente?, ¿hay muestreo aleatorio? Esa focalización de la atención en asuntos de muestreo no parece neutral, porque es precisamente aquí donde la encuesta puede exhibir mayor músculo metodológico. Además, así se relega un asunto mucho más espinoso: ¿se está midiendo lo que se pretende medir? Aquí la encuesta presenta problemas enormes debido a un hecho sencillo: en ella no tenemos evidencia directa de lo que ocurre o de lo que las personas piensan. Tenemos evidencia de lo que las personas dicen que hacen o dicen que piensan cuando son interrogadas en una interacción fugaz y anónima. En realidad, ni siquiera eso: tenemos evidencia de la respuesta que elige, entre una serie de frases determinadas de antemano, la persona encuestada.

¿Qué relación existe entre esas respuestas y los verdaderos comportamientos u opiniones de las personas encuestadas? En múltiples ámbitos, la relación es muy tenue. Cuando se ha podido contrastar el resultado de las encuestas con otros datos, las encuestas han salido en general bastante mal paradas. Hace ya tiempo Irwin Deutscher lo documentó extensivamente en su libro What we say / what we do (Lo que decimos / lo que hacemos): en muchos ámbitos las encuestas dan una imagen muy distorsionada de lo que hacemos o pensamos. Deutscher recopiló múltiples investigaciones que lo mostraban en los asuntos más diversos: las prácticas de contratación de minorías de los empleadores, las formas de crianza, las forma de enseñar en los centros escolares, las prácticas de salud, el racismo, la igualdad de género, el consumo de alcohol o drogas, la donación a instituciones caritativas, la asistencia a misa… Desde entonces, la evidencia se ha multiplicado. Seth Stephens-Davidowitz publicó en 2017 un libro donde llegaba a la conclusión de que debemos abandonar las encuestas a favor de los big data. El título del libro es significativo: Todo el mundo miente.

Dos son los principales problemas que genera el hecho de que, en vez de acceder directamente a las prácticas, accedamos a respuestas elegidas de las presentadas en un cuestionario: a) el sentido de las expresiones no es el mismo para todo el mundo; b) el sesgo de deseabilidad social.

¿Qué quieres decir?

Un presupuesto implícito de la encuesta es que preguntas y respuestas significan lo mismo para toda la población encuestada y que este significado es el mismo también para el equipo investigador. Éste podría saber exactamente lo que las personas encuestadas “querían decir” al elegir una respuesta gracias precisamente a esa identidad de significado.

Este presupuesto sólo se cumple perfectamente en casos muy limitados. Uno de ellos es precisamente el de las encuestas de intención de voto: cuando una persona contesta “PSOE”, podemos estar razonablemente seguros de que esa persona quiere decir que piensa meter en la urna una papeleta donde ponga “PSOE” -independientemente de que piense que es un partido de izquierdas o de centroderecha-. Sin embargo, a medida que nos alejamos de términos como las marcas políticas o de consumo y vamos hacia términos más comunes y cotidianos, la seguridad de que todo el mundo entiende lo mismo por los enunciados se desvanece. Así, si preguntamos a una persona que se sitúe en una escala de 1 a 10, siendo 1 extrema izquierda y 10 extrema derecha, ¿qué significa un “4”? Significará cosas muy distintas según la concepción que se tenga del espacio político: una antigua maoísta que ahora vota a Sumar puede marcar el 4 igual que un antiguo neonazi que ahora vota al PP.

Este problema afecta a prácticamente todas las expresiones, y especialmente a aquellas que socialmente tienen más relevancia -que son por las que se pregunta en las encuestas-. Cuando los enunciados y las palabras designan términos importantes, términos que clasifican y jerarquizan a las personas y sus prácticas, las personas los utilizamos de forma estratégica, con lo que sus significados van alterándose según los interlocutores y las situaciones.

En una investigación lo puse de relieve con términos como “comer de todo” o “alimentación natural”. Comer de todo nunca significa comer “de todo”. En el lenguaje médico -que adoptan en gran medida las clases cultivadas- significa comer una variedad de alimentos de distintos grupos nutricionales y evitar al mismo tiempo ciertos alimentos ricos en grasas o azúcares. En las clases populares, comer de todo equivale a no ser “remilgado”, a comerse lo que hay -lo mismo lechuga que panceta- sin poner reparos. Y tanto en clases medias como cultivadas, se afirma que se “come de todo” aunque se eviten ciertos alimentos porque su sabor desagrada: la expresión se maneja estratégicamente quitándole importancia a las “excepciones”. De esta manera, cuando distintas personas contestan que “comen de todo” están afirmando cosas muy distintas bajo la misma expresión.

Numerosas expresiones no tienen significados fijos que compartan todos los hablantes de una lengua: aunque compartan ciertos rasgos semánticos, su significado puede ser muy variable.

Pensemos en una pregunta tan común como la frecuencia con que se realiza un comportamiento: ¿qué significa “siempre”, “casi siempre”, “a menudo” o “casi nunca”? El significado de cada respuesta varía en función del grupo de referencia o del comportamiento que se considera “normal” (otro término de significado extremadamente flexible). Lo mismo ocurre cuando preguntamos por el grado de “satisfacción” en el trabajo o cuando suponemos que todo el mundo quiere decir lo mismo cuando afirma valorar “la libertad”, cuando se manifiesta “muy preocupado” por el cambio climático o cuando declara que utiliza anticonceptivos.

En la vida cotidiana también surgen continuamente malentendidos. Pero éstos se reducen en gran medida gracias a la conversación. Esta permite un ajuste mutuo entre las interpretaciones de los hablantes. Cada vez que decimos algo, nuestros interlocutores reaccionan con palabras o gestos. Estos nos sirven para columbrar cómo se han entendido nuestras palabras y a adaptar los siguientes mensajes a esas reacciones. Como nuestros interlocutores hacen lo mismo, el proceso de conversación permite una adaptación continua de mensajes e inferencias que posibilita subsanar malentendidos y reducir las diferencias de interpretación: es lo que hacemos en las entrevistas cualitativas. La encuesta no permite esta acomodación mutua de mensajes e interpretaciones. La persona encuestada sólo puede elegir una respuesta predeterminada y el analista supone que conoce su significado sin posibilidad de retroalimentación que corrija los malentendidos.

Este problema se agudiza por un hecho: en muchos casos, responder a una encuesta supone ya una cierta buena voluntad hacia la persona que nos aborda por la calle o llama a nuestro domicilio para encuestarnos. En estas condiciones, es habitual que respondamos a preguntas que nunca nos habíamos planteado o que no nos interesan lo más mínimo -esto es, dando una respuesta elegida casi al azar-. O incluso a preguntas que no terminamos de entender bien simplemente por no defraudar a la persona que nos interroga -quien, habitualmente, tiene el mandato de evitar los “no sabe, no contesta”-.

Palabras y frases nominalmente idénticas pueden adoptar significados muy distintos en diferentes posiciones sociales. Las encuestas las redactan personas de los estratos superiores: sus preguntas y respuestas se generan, tanto en su contenido como en su forma, a partir de preocupaciones y formulaciones de las clases cultivadas. Pero estas preguntas y respuestas pueden significar cosas muy distintas -o no significar nada en absoluto- para personas de otros estratos sociales. Mientras los porcentajes “tengan sentido” para los analistas, el problema pasa inadvertido: se supone que quienes contestaron respondían exactamente al significado que los investigadores tenían en mente. La diferencia de sentido sólo salta a la vista cuando una pregunta arroja tasas de respuesta “sorprendentes”. Entonces los analistas se consagran a las artes adivinatorias mediante la heurística del “a lo mejor”: “a lo mejor los encuestados respondieron esto porque piensan que…”.

Sonríe, es una encuesta

Un segundo problema, inmenso, es el sesgo de deseabilidad social: tendemos a contestar lo que suponemos que es socialmente deseable, tendemos a dar una imagen idealizada de nosotros mismos. No me extenderé en este sesgo, que ya ha sido tratado aquí. Numerosos estudios han demostrado que en las encuestas aparecemos mucho “mejores” de lo que somos: más solidarios, más preocupados por nuestros semejantes, más igualitarios en género, leemos más, vemos programas más cultos, hacemos más deporte, hablamos más con los profesores de nuestros hijos, etc. Este sesgo de deseabilidad social arroja serias dudas sobre los datos de encuesta siempre que haya implicados comportamientos que reciban una fuerte valoración social –y casi todos los comportamientos importantes suponen un fuerte componente valorativo-.

¿Somos cajones de opiniones?

Todos estos problemas se agudizan cuando tratamos con las encuestas de “opinión”. Éstas suponen que las personas tenemos unas opiniones estables sobre los asuntos sobre los que nos interrogan y que estas opiniones se corresponden con los enunciados que vienen formulados en las preguntas y respuestas de la encuesta. En determinados casos, esto puede ser así: cuando se pregunta sobre un tema que moviliza fuertemente a mucha población y donde ésta se divide en bandos enfrentados bien delimitados. Aquí las encuestas pueden servir para contar cuánta gente hay en cada bando -¿está Vd. a favor de un referéndum por la independencia de Cataluña?-. Más allá de estos casos, a menudo las “opiniones” que “recogen” las encuestas son poco más que ilusorios artefactos. Un buen indicador de ello es el hecho de que las respuestas varíen mucho según cómo se formulen preguntas y respuestas. Esta variación nos indica que las preguntas pueden ser interpretadas de formas muy diversas por distintos segmentos de la población, que cada persona la puede interpretar de formas muy distintas según las palabras utilizadas y/o que mucha población no tiene opiniones sólidas sobre el asunto y puede adherirse a unos enunciados u otros en función de los marcos de significado que evoquen las palabras.

La encuesta de opiniones supone que todas las preguntas que formula son significativas para toda la población encuestada y que todo el mundo tiene una opinión bien establecida al respecto. Sin embargo, esto está muy lejos de ser cierto. Nuestros enunciados sobre lo que opinamos, pensamos o valoramos se adaptan estratégicamente a las situaciones en función de los interlocutores y de los marcos y apuestas en juego. Sólo en asuntos muy específicos repetimos siempre los mismos enunciados, tomamos siempre partido de la misma manera. En la mayoría de los ámbitos, nuestros decires y nuestros haceres van variando y en muchos casos no son coherentes entre sí.

Las encuestas de intención de voto, unas encuestas muy particulares

Teniendo en cuenta los problemas anteriores, ¿qué encuestas reúnen las mejores condiciones para arrojar resultados válidos? Aquellas que:

Preguntan por situaciones o comportamientos, no por valores u opiniones.
Estas situaciones o comportamientos no presentan una fuerte jerarquización valorativa, esto es, no sufren grandes problemas de deseabilidad social.
Se formulan con términos con mínimas diferencias de interpretación en todo el espacio social.

Estas condiciones nos permiten estimar, a priori, las temáticas donde las encuestas arrojarían resultados más válidos: donde se pregunte por situaciones o comportamientos sin un fuerte componente de deseabilidad social en términos cuyo significado fuera uniforme en todo el espacio social. Las encuestas de intención de voto reunirían en gran parte estas características:

Se pregunta por la intención de un comportamiento (es más problemático que un comportamiento efectivo, pero menos que una “opinión” o “valor”).
Supuestamente cada persona vota al partido que ella y su entorno consideran socialmente deseable.
No hay grandes problemas de interpretación: responder “Partido Popular” significa que se elegirá la papeleta donde consta “Partido Popular”.

Las encuestas de intención de voto esquivan así los problemas más graves que acechan a esta técnica. ¿Significa ello que podemos tomarnos sus resultados al pie de la letra? No. Ni siquiera en estas condiciones óptimas, podemos limitarnos a sumar respuestas.Muchas personas ocultan lo que van a votar -refugiándose en el “no sé, no lo he decidido”- o dicen que van a votar cuando no piensan hacerlo. De ahí que estas encuestas requieran “cocina”: si tomáramos los datos tal como salen en la encuesta no acertaríamos. Por ello, en la “cocina” se tienen en cuenta otras muchas respuestas –simpatía por partidos, voto en últimas elecciones- para estimar votos. Además, se tiene en cuenta también la relación que hubo en anteriores elecciones entre lo que se contestó en las encuestas y lo que finalmente se votó.

En otras palabras, la encuesta con las mejores condiciones de validez no tiene validez suficiente sin “cocina”. Y aquí está la característica más excepcional de estas encuestas de intención de voto: frente a la inmensa mayoría de encuestas, aquí se ha producido década tras década una descomunal acumulación de datos de respuestas que se han podido contrastar con los resultados reales de las elecciones. Las encuestas de intención de voto pueden acertar porque se dispone de una enorme riqueza de datos para corregir sus desviaciones de la realidad.

Frente a las encuestas de intención de voto, numerosas encuestas presentan -entre otros- los problemas de diversidad de significados y de deseabilidad social. Además, pocas pueden contrastar sus resultados con la realidad para intentar corregir sesgos y hacer estimaciones más realistas. Esta falta de contrastación constituye un verdadero talón de Aquiles. Pero también supone una ventaja: los sesgos pueden campar a sus anchas, los “datos” ser puros artefactos, pero nadie puede cuestionarlos con datos robustos. Al ofrecer números presuntamente exactos -al 95%…-, legitiman a los investigadores para extraer conclusiones desorbitadas de pequeñas diferencias numéricas o para aplicarles complicadas operaciones estadísticas como si estuvieran manipulando mediciones tan exactas como las de un reloj atómico. Ello se suma a otra ventaja mayor de las encuestas: permiten escribir muchos artículos en poco tiempo sin salir del despacho. Por esa razón, cuando la legitimidad de las encuestas se ve cuestionada, se alzan Santas Alianzas para protegerlas de irreverencias: dudar de su cientificidad sería propio de impíos herejes.

4.6 10 votos

Valora la entrada

Recibe notificaciones para seguir el debate:

Nombre*

Email (No se hará público)*

He leído y acepto la

Haz clic en el icono de la campana que hay arriba para notificarte cuando te respondan a este comentario. Recibirás un email para confirmar la suscripción

0 Comentarios

Inline Feedbacks

Ver todos los comentarios