Cuando investigamos, accedemos a una parte pequeña de la población de personas y casos que pretendemos estudiar. Esa parte, habitualmente, tiene características diferenciales respecto al conjunto de la población que nos interesa. Debemos tener en cuenta siempre la posibilidad de este sesgo de selección para evitar sacar conclusiones erróneas de nuestros datos.

El ubicuo sesgo de selección
Imagen: Entramados Sociales

Siempre son los demás los que se mueren (Marcel Duchamp)

“¡Antes sí que construían a conciencia! ¡Fíjate qué bien aguanta el edificio y ya tiene más de mil años! ¡Qué diferencia con los que hacen ahora!”. No hay nada como visitar monumentos para oír de nuevo los mismos comentarios -que, como esos edificios, desafían el paso del tiempo-. Pero ¿son esos edificios representativos de la construcción de la época de la que proceden -ya sea el medievo, el imperio romano u otra? En absoluto. Los edificios que vemos son los edificios que han perdurado hasta ahora: son los supervivientes de todo lo construido en una época. Los edificios que se derrumbaron, los que sucumbieron a las catástrofes, los que se fueron desmoronando con el paso del tiempo: esos no podemos verlos. Y al no verlos, no los tenemos en cuenta. “Lo que ves es lo que hay” es uno de los sesgos cognitivos más comunes. En este caso, ese sesgo nos lleva a olvidar que los objetos que vemos son sólo una parte pequeña de todos los que existieron: los supervivientes. Por ello este sesgo se conoce como “sesgo del superviviente”.

Ese sesgo se manifiesta de múltiples maneras en la vida cotidiana. Vemos a una persona muy anciana y decimos: “Antes tenían menos, pero vivían más sano, mira la abuela qué bien está y se alimentaba a base de sopas de ajo”. Sólo vemos a la superviviente y olvidamos a los centenares de personas que, nacidas en el mismo año, llevan tiempo criando malvas.

Este sesgo del superviviente nos lleva a tener una imagen distorsionada de los hechos pasados por una sencilla razón: las probabilidades de supervivencia no se distribuyen aleatoriamente. Aunque en parte la supervivencia de personas o edificios sea cuestión de suerte -como en el caso del teatro de Almagro-, no todos tienen a priori las mismas probabilidades de sobrevivir. Los edificios y las personas de los estratos más bajos tienen muchas menos probabilidades de resistir el paso del tiempo. Y si los museos arqueológicos están llenos de sellos de arcilla y no de otros materiales es por la misma razón: los de hueso y madera se corrompieron y los de oro y plata fueron fundidos y reutilizados.

El sesgo del superviviente es un caso particular de uno mucho más general y que resulta muy relevante en ciencias sociales: el sesgo de selección. En ciencias sociales siempre -o casi siempre- estudiamos muestras: subconjuntos de la población. Así, si estoy investigando las prácticas de los estudiantes universitarios, sólo podré entrevistar a un número muy reducido del millón largo de estudiantes en España. Existe sesgo de selección cuando hay procesos que producen que esa muestra a la que accedo tenga características diferenciales respecto al conjunto de la población de estudiantes universitarios. Lo contrario al sesgo de selección sería que la muestra tuviera exactamente las mismas características que la población en la misma proporción: algo prácticamente imposible. Siempre accedemos a una muestra -de personas, objetos, casos- seleccionada. No percatarnos de ello conduce a errores abismales.

El peligro de ignorar el sesgo de selección

Un sociólogo que estudia a la población en situación de pobreza realiza historias de vida de personas a quienes contacta mediante los servicios sociales. Realiza gráficos donde detalla las mejoras y empeoramientos en sus condiciones de vida. Revisándolos llega a una conclusión: todos los gráficos concluyen en descensos en el nivel de vida. Exultante, se convence de que ha llegado a una importante conclusión: hagan lo que hagan, perderán (la tragedia es el género favorito de la sociología). Sin embargo, simplemente es víctima de la ceguera al sesgo de selección: había seleccionado a su muestra a través de los servicios sociales y, por tanto, necesariamente, en ese momento precisaban de ayuda de los servicios sociales.

El mismo error cometen quienes tratan a personas en un servicio determinado y pretenden que esas personas sean representativas del grupo más amplio del que proceden. Así, psicólogos y psiquiatras de finales del siglo XIX forjaron la teoría de que la adolescencia es una época muy conflictiva. Y lo hicieron a partir del examen de los adolescentes que llegaban a sus consultas -esto es, de aquellos a quienes sus padres consideraban conflictivos-.

Los ejemplos anteriores son muy obvios. En ellos, se está investigando a un subgrupo de la población que ha pasado un filtro y, por tanto, tiene características diferenciales respecto al conjunto de la población de la que procede. En otros casos, la selección no es tan obvia. Veamos dos ejemplos.

Primer ejemplo. Quiero estudiar el grado de aceptación de la disciplina de trabajo entre cajeras de hipermercado. Entrevisto a cajeras con diversas antigüedades y saco mis conclusiones. ¿Hay sesgo de selección? Aparentemente, no. Sin embargo, hay un porcentaje importante de trabajadoras que abandonan al poco tiempo de comenzar en la caja. Estas trabajadoras son las que menos aceptan la disciplina de trabajo impuesta y, si no tengo en cuenta esto, apenas accederé a ellas. Sacaré conclusiones de todo el colectivo sin tener en cuenta que tengo muchas más probabilidades de entrevistar a las que más aceptan o se resignan a las condiciones de trabajo impuestas -que es, precisamente, lo que pretendía estudiar-.

Segundo ejemplo. Estoy estudiando las probabilidades diferenciales de inserción laboral de las personas con titulación universitaria respecto a quienes no la tienen. Debido a la limitación de recursos, sólo puedo realizar el análisis en una provincia. Elijo Lleida. Realizo una encuesta a una muestra aleatoria de residentes en la provincia de Lleida. En teoría, todo está bien: he tomado todas las precauciones para que la muestra sea aleatoria -supuestamente sin sesgo-. Pero un hecho se me ha escapado en el diseño: la población se puede desplazar para buscar trabajo. El mercado laboral para personas con titulación superior es mucho mayor en la próxima Barcelona que en Lleida. Posiblemente una buena parte de las personas que estudiaron en Lleida terminen emigrando a Barcelona para obtener un trabajo acorde a su titulación. Si mi objetivo es investigar los beneficios diferenciales de poseer una titulación universitaria, he dejado fuera a la población con más probabilidades de haber obtenido un empleo acorde a sus estudios.

Este último caso es un ejemplo de una dinámica muy general: cuando investigamos delimitando un área geográfica es posible que se nos escapen aquellas personas que han experimentado una movilidad. Debemos tratar siempre a la población residente en un momento en una zona geográfica -o a los miembros de una organización, etc.- como supervivientes de una población originaria -a la que se añaden quienes vinieron posteriormente-. Así, Olivier Fillieule nos advierte de este efecto cuando se comparan distintas generaciones de militantes en una asociación o partido político: los militantes actuales de generaciones antiguas son los que no se fueron -y tienen características diferenciales respecto a los que partieron-. Las diferencias entre militantes antiguos y nuevos no se deben únicamente a un efecto generacional, puesto que ha habido una selección más fuerte de los antiguos. Lo mismo ocurre cuando comparamos estudiantes universitarios por clase social, como nos advertían Bourdieu y Passeron en La reproducción: los de origen obrero no son representativos del conjunto de la clase obrera, puesto que son un colectivo muy seleccionado respecto a su clase de origen -son los pocos que llegaron a la universidad-.

El sesgo de selección en los registros administrativos

Los registros administrativos también presentan el problema del sesgo de selección. Si un caso consta en un registro es porque ha sido registrado. A menos que el registro sea casi automático -como ocurre con los nacimientos y defunciones, donde muy pocos casos escapan al registro administrativo-, siempre hemos de plantear la cuestión: ¿qué casos es más probable que no sean registrados?

Stefan Timmermans ha estudiado en EEUU cómo clasifican causas de muerte los forenses en caso de muertes dudosas. Los suicidios son más probables de ser categorizados como tales cuando las pruebas son muy evidentes -una persona aparece ahorcada en su casa-. Al contrario, si alguien decide morir estrellándose con el vehículo su muerte no se registrará como suicidio. A su vez, una categoría de homicidios resulta mucho más difícil de categorizar como tal: los que realizan policías y personal sanitario. Ello se debe en parte a que los forenses dependen de la colaboración de estos cuerpos profesionales para su tarea cotidiana y han de tener un grado muy elevado de certeza para rellenar la casilla de homicidio en el formulario cuando están implicados policías o médicos.

Durante varios años asistí como representante de la UPO a una mesa sobre violencia escolar en la Junta de Andalucía. La mesa reunía a representantes de universidades, sindicatos, AMPAS, centros escolares, asociaciones que daban cursillos para que los niños no fueran violentos… La reunión comenzaba con un informe sobre los casos reportados de comportamientos sancionables en clase. Estos se dividían en leves y graves. Cada año, los leves descendían, mientras que los graves se mantenían estables -a pesar de que muchos casos graves consistían en la acumulación de incidentes leves-. Desde la consejería se esgrimían estas cifras como evidencia de la reducción de la violencia escolar. Sin embargo, no había nada de lo que congratularse. Los casos que constaban eran los que se registraban en el sistema informático. Para registrarlos la docente debía ir a un ordenador en una sala del instituto a dedicar un tiempo a rellenar los formularios tras la clase -especialmente, después de una clase especialmente problemática-. Simplemente, las docentes se iban cansando de dedicarle un tiempo extra a rellenar estos formularios. Muchas terminaban llegando a la conclusión de que sólo valía la pena dedicarles tiempo cuando no había más remedio: cuando, por la gravedad del comportamiento, se tomaban medidas disciplinarias contra el alumno. De ahí que los incidentes leves descendieran y los graves se mantuvieran estables.

Antes de sacar conclusiones apresuradas de un registro administrativo hemos de preguntarnos cómo se registran los casos: mediante qué rutinas y procedimientos. Así, las estadísticas policiales de delitos no nos informan de todos los delitos cometidos, sino sólo de los denunciados. Ello siempre nos plantea la cuestión: un alza en las estadísticas de un tipo de delitos -como los de violencia de género-, ¿se debe a un incremento de las prácticas delictivas o a que se denuncian más? Así, un aumento de los seguros de hogar puede producir un aumento de las denuncias de robos en los hogares -el seguro de hogar permite obtener compensación si hay denuncia policial-.

Aaron V. Cicourel publicó en 1968 The social organization of juvenile justice. Durante varios años realizó trabajo etnográfico con policías, trabajadoras sociales y jueces en la justicia de menores. Ello le permitió ver que sólo una parte de los delitos que llegan a conocimiento de la policía terminan siendo categorizados como tales y reflejados en las estadísticas judiciales. Para que un delito termine en las estadísticas judiciales -y su autor vaya ante un juez y sea condenado- han de darse una serie de pasos: la policía ha de detectarlo y detenerlo; tras detenerlo ha de llevarlo a la comisaría -en vez de ir a hablar con los padres y dejarlo en casa-; en la comisaría los servicios sociales lo entrevistan y se ponen en contacto con su familia; como resultado de estas entrevistas deciden llevarlo ante un juez o confiar en que la familia lo controlará o lo llevará a un psicólogo… En todos estos pasos la posibilidad de ser detenido y categorizado como delincuente dependen, mucho más que del acto cometido, de la interacción con los agentes del orden, del prestigio y estatus de su familia y de las categorías mediante las cuales policías, trabajadoras sociales y jueces distinguen al “verdadero delincuente” del muchacho “que ha cometido un error”. Esas interacciones y categorías provocan que, ante el mismo acto, un muchacho negro de un barrio marginal termine en un correccional -especialmente si viene de una familia “desestructurada”- mientras que uno blanco de un barrio acomodado sea depositado en su hogar familiar tras una reprimenda. Las estadísticas judiciales son así el resultado de un formidable proceso de selección que está muy sesgado por clase social, etnia y tipo de familia. No nos informan sobre quién comete delitos, sino sobre quién es procesado por cometer delitos. Por ello, son inservibles para explicar las “causas de la delincuencia”.

Cuando tratamos con datos de enfermedades ocurre lo mismo: son datos de personas diagnosticadas con una enfermedad. Nuevamente, la cantidad de personas diagnosticadas aumenta con la cantidad de personas enfermas y con el porcentaje de personas que acceden a un diagnóstico. Una mejor cobertura sanitaria puede así producir un aparente aumento de personas enfermas: simplemente hay más medios de diagnóstico y, con ello, más personas diagnosticadas. Si a ello le sumamos el hecho de que las personas enfermas, con la mejora sanitaria, pueden vivir más años, nos da un resultado claro: aumenta la población enferma -es más diagnosticada y, una vez diagnosticada, sobrevive más años-.

El sesgo de selección nos explica hechos aparentemente muy alarmantes, como el aumento de los casos de cáncer, que desencadena todo tipo de especulaciones -¿será por la comida basura? ¿los móviles? ¿los aviones? ¿las vacunas?, ¿el 5G?-. Sin embargo, el aumento del cáncer se debe, en primer lugar, al progreso de los medios de diagnóstico -que permite detectar más casos-. Pero también se debe a que la salud ha mejorado y, con ello, la esperanza de vida. Toda persona que nace habrá de morir en algún momento y por alguna causa. Si no muere por una causa, morirá por otra. La reducción de causas antes muy comunes de muerte -como las enfermedades infecciosas o, más recientemente, las cardiacas- provoca que las personas mueran de otras causas. Y a medida que envejecen, el cáncer va predominando sobre otras causas de muerte.

Encuestas y sesgo de selección

El sesgo de selección puede afectar incluso a la técnica que esgrime como su principal fortaleza el evitarlo: la encuesta. Precisamente la encuesta ganó legitimidad reduciendo el sesgo de selección. En 1936, Gallup predijo el triunfo de Roosevelt con una encuesta a una muestra de 5599 votantes frente a la encuesta de la revista Literary Digest que, con 2,5 millones de respuestas, había previsto el triunfo de su contrincante. El fracaso de la super-encuesta de Literary Digest radicó en que su muestra estaba sesgada hacia ciertos sectores de la población que tendían a votar republicano. Desde entonces, las encuestas se han alzado como símbolo de la representatividad estadística. Sin embargo, ésta es muy difícil de alcanzar, por lo que habitualmente se intentan corregir los sesgos con herramientas estadísticas.

Así, cuando se hacen encuestas por los domicilios -a priori, las más válidas- la tasa de rechazo es muy alta y se contacta sobre todo a personas que están mucho tiempo en el domicilio -amas de casa, pensionistas, desempleados, enfermos con baja laboral…-. Además, no se llega a múltiples viviendas -protegidas por porteros o conserjes en bloques o por servicios de seguridad en urbanizaciones-.

Las encuestas por teléfono también presentan una elevada tasa de rechazo -lo que supone una fuerte autoselección de la población que responde-. A ello se le puede sumar la selección que supone los horarios “normales” de llamadas. Así, una vez puede leer los resultados de una encuesta telefónica que afirmaba que en España muy poca población comía fuera del domicilio. La encuesta se había realizado desde los servicios de encuesta telefónica de una universidad: se llamaba en horario laboral. El resultado era que, entre la población encuestada, había una fortísima proporción de pensionistas y de amas de casa. Las personas que trabajan todo el día fuera de casa no suelen responder encuestas en horario laboral y tampoco suelen comer en casa.

El sesgo de selección conforma el principal problema metodológico en algunas técnicas como la encuesta a pie de urna. Ésta, realizada en las puertas de los colegios electorales, evita muchos problemas habituales en las encuestas: las personas supuestamente acaban de votar y sólo deben contestar por el partido votado -no es una pregunta por una “intención”, sino por un comportamiento y éste acaba de producirse, por lo que no hay problemas de memoria-. Sin embargo, subsiste el problema de la selección. Por un lado, están los votos por correo, que no acuden presencialmente a la urna. Por otro, una parte de los votantes se niegan a contestar la encuesta. Y estos votantes no se distribuyen aleatoriamente: por ejemplo, son más numerosos entre quienes votan al PP y al PSOE en el País Vasco y en Cataluña.

El problema se agudiza en las encuestas online. Así, Mireia Utzet y Unai Martin compararon una encuesta online con una con muestreo aleatorio sobre eutanasia. En la encuesta online había mucha mayor proporción de personas con visiones contrarias a la eutanasia y mucha menos gente indecisa o con posiciones intermedias. Ello se debe a que ante una llamada a participar voluntariamente en una encuesta responden más aquellas personas más interesadas en el tema de la encuesta, esto es, aquellas que se han posicionado fuertemente sobre el tema y desean hacerse oír.

El problema del cajón

Este sesgo no afecta únicamente a las personas, prácticas o situaciones a las que podemos acceder cuando investigamos. También afecta a los propios resultados de investigación: no todos se publican y ello no depende sólo de que la investigación esté mejor o peor hecha. Es lo que se denomina el problema del cajón: sólo conocemos una parte de las investigaciones realizadas, la que ha logrado publicarse -el resto se quedó en el cajón-. Y hay un claro sesgo en esa probabilidad de ser publicadas: es más fácil publicar aquellas investigaciones que pueden exhibir resultados estadísticamente significativos confirmando sus hipótesis. De esta manera, una cantidad ingente y desconocida de resultados negativos no llega a ver la luz. El problema se agudiza si los investigadores de antemano seleccionan, de los miles de cruces de variables posibles, aquellos que presentan relaciones significativas -y dejan en el cajón el resto-. Este sesgo de selección es el talón de Aquiles de los meta-análisis -que pretenden llegar a conclusiones robustas sopesando los resultados de todas las investigaciones accesibles (principalmente, publicadas) sobre un tema-.

El sesgo de selección es ubicuo y, en muchos casos, prácticamente imposible de evitar. Lo que sí podemos evitar es comportarnos como si no existiera, tomando en cuenta siempre los posibles sesgos de selección a la hora de analizar los datos. Algo que, como el propio concepto de sesgo de selección indica, no todo el mundo hará.

4.9 14 votos
Valora la entrada

¿Quieres recibir las nuevas publicaciones en tu correo electrónico?

Sobre el autor/a

Enrique Martín Criado

Enrique Martín Criado

Profesor de sociología en la Un. Pablo de Olavide y doctor en sociología por la Universidad Complutense de Madrid, con la tesis “Estrategias de juventud” (publicada como “Producir la juventud”, Istmo, 1988). Ha publicado libros y artículos sobre teoría sociológica, técnicas cualitativas de investigación, análisis de discurso, sociología de la educación, transformaciones de las clases populares, sociología de la alimentación o sociología del trabajo. Entre sus publicaciones recientes destacan “La escuela sin funciones. Crítica de la sociología de la educación crítica” (Bellaterra, 2010), “Les deux Algéries de Pierre Bourdieu” (Ed. du Croquant, 2008) y “Conflictos por el tiempo” (coeditado junto a Carlos Prieto, C.I.S., 2015). Miembro fundador del colectivo “Denunciemos los abusos patronales”.

Espacio de debate

Recibe notificaciones para seguir el debate:
Notificarme vía email si hay
guest
0 Comentarios
Inline Feedbacks
Ver todos los comentarios