jueves 28 marzo 2024

Cómo descubrir las mentiras de las estadísticas

por Juan Manuel Alegría

Comienza un nuevo año, importante porque será lo que se llama “año electoral”, donde se determinará el cambio de gobierno con la elección del nuevo presidente de la República, de senadores y diputados federales. La actividad periodística estará en su apogeo, entonces, a cada paso veremos estadísticas de todo tipo.

Los grandes errores de las encuestadoras (y medios) en el mundo, como las que fallaron con el referéndum del Brexit al pronosticar que Reino Unido permanecería en la Unión Europea o que dictaminaron que el primer ministro David Cameron no sería reelegido o que vaticinaron que Podemos adelantaría al PSOE en las generales de España o que consideraron que no ganaría Donald Trump, deberían alertar a todas las empresas para mejorar sus prácticas demoscópicas. Por ello es muy importante conocer los rudimentos para comprender las estadísticas.

Lo primero que la audiencia (y el periodista que publica las estadísticas o se sirve de ellas) debe preguntarse es si le resultan verosímiles los datos que se cuentan. John Allen Paulos, en su libro Un matemático lee el periódico (2009), expone varios casos sobre estadísticas que se repiten en la prensa y por ende son replicadas por los lectores, radioescuchas o telespectadores (y ahora usuarios de la Red).

Paulos critica a los medios que, durante la guerra del Golfo Pérsico hacían muy poco por investigar la cantidad de bajas, pero sí publicaban cifras; por lo tanto, según esos medios, los soldados estadounidenses muertos fluctuaron de 570 mil a un millón 140 mil. Si aceptamos la última cifra, entonces creeremos que ningún soldado regresó vivo a EU y que, además, fallecieron 600 mil que nunca fueron, porque dice Paulos “esa segunda cantidad es el doble del total de soldados estadounidenses que estaba entonces en la zona”.

El matemático menciona también la cifra de un millón de casos de estadounidenses afectados de Sida en un informe de la revista Spy, que hizo el recuento según artículos en medios de gran tiraje entre 1985 y 1993 que repetían esa cantidad.

En marzo de 1994, agrega Paulos, el New York Times publicó su extrañeza por esa cantidad inamovible de casos y la dificultad para concretarla debido al largo periodo de incubación, a las definiciones cambiantes y a las cuestiones tocantes a la intimidad.

Sobre este tema, el periodista o quien hace estadísticas debería tomar en cuenta las preguntas que sugiere el matemático: ¿Qué es un “caso” y qué no lo es? ¿Cuántos se esperan exactamente? ¿Cuántos ha habido ya? ¿Cuántos se consideran algo normal? ¿Quién ha calculado lo que se espera? ¿Se han tomado en cuenta todos los casos? ¿Y su índice de aumento?

La fuente: esencial

Hay otros renglones que se deben tomar en cuenta, como saber cuál es la fuente de los datos, ya que no tienen los mismos intereses una universidad, una empresa privada, una organización de encuestas, un medio, un partido político, un sindicato o un grupo de presión. Como señalo al principio, en las campañas veremos muchas estadísticas.

Sería interesante saber quién las paga y qué calidad moral tiene quien las hace.

Sea cual fuere la fuente, David Randall señala que el periodista deberá preguntarse: ¿Está cualificada para recoger o entender esos datos? Si la estadística la hizo un grupo acreditado, ¿está siendo utilizada por un tercero? De ser así, habrá que buscar a los investigadores originales y conocer qué opinan del uso de sus datos. También se debe cuestionar por qué se hacen públicos ciertos datos: “¿Tiene algo que ganar o alguna posición que promocionar?” o “¿Por qué se hacen públicos ahora?”. El periodista inglés subraya que la publicación de estadísticas “rara vez es accidental”, siempre hay intereses poderosos.

Es frecuente que un político dispare cifras sobre diversos asuntos, y es común que ningún reportero le pregunte cómo las obtuvo. Randall indica que si alguien no puede decirnos de dónde las ha sacado, “deben dispararse todas la alarmas”.

El periodista debe dudar y verificar esos datos, porque pueden estar distorsionados, fuera de contexto o manipulados, como expresa Allen Paulos en su obra citada: “Descubrir que las descripciones de las relaciones numéricas dependen de las intenciones de los autores resuelta a la vez divertido y deprimente”, porque, dice, para que una cantidad parezca grande, un grupo político o un anunciante, por ejemplo, “pueden subrayar una magnitud lineal de su tamaño. Para que parezca pequeña, se puede acentuar su volumen”. Y expone un ejemplo divertido: “Así, aunque una torre de monedas que fuera desde el nivel del mar hasta la cima del Everest contuviese más de cuatro millones de monedas, se podría comprobar fácilmente que este montón cabría con mucha holgura en una caja cúbica de dos metros de arista”.

Por ello los usuarios normalmente verán escenarios catastróficos, porque existe la “administración mediática del miedo”, como lo mostramos en “Los medios administran el temor en las audiencias” (https://www.etcetera. com.mx/revista/los-mediosadministran- el-temor-enlas- audiencias/).

Así, podemos leer que hay miles de muertos más en tal país que en otro, sin explicar que estas estadísticas se miden por cada cien mil habitantes. Eso crea confusión, señala Paulos: “Si se quiere realzar la seriedad de un problema, lo normal es que se hable de la cantidad de afectados a escala nacional. Si se quiere mitigar su importancia, lo más probable es que se hable del índice de incidencia”.

Por ejemplo, un medio puede publicar los “maximizadores”: que es alarmante el número de casos de equis enfermedad en México, pues ya cobró mil 200 víctimas en el país, lo que hace dramático el problema y lo incrementa si entrevista a enfermos o a los familiares. Al contrario, otro medio podrá publicar que hay un afectado por cada cien mil habitantes (en una población de 120 millones), y equiparando un ejemplo de Paulos, podría decir que, si hubiera dos estadios Azteca (en día de la final: cien mil espectadores en cada uno) habría un enfermo por cada estadio; lo que ya no es tan espantable.

Correlación no es causalidad

A veces hay confusión en los periodistas cuando conocen estadísticas y estas les sirven para elaborar dictámenes.

Por ejemplo, algunos creen que correlación es igual que causalidad.

Correlación es cuando ocurren dos o más eventos al mismo tiempo y pueden compartir ciertas características (su nombre lo dice: cuando hay relación recíproca o mutua) y muchas veces es una coincidencia; pero eso no significa que implique causalidad. La correlación no busca explicaciones del porqué esas variables sufren cambios; sirve para comparar o describir.

Por ejemplo, hay correlación entre oferta y demanda: si los precios aumentan, la demanda baja. Pero la causalidad es más precisa; busca la causa y efecto de un fenómeno: esa alza de precios se debió a una devaluación. Hasta el siglo XVII se creía en la teoría de la “generación espontánea”, es decir, que la vida podía surgir de materia inorgánica; la gente en esas épocas encontró una correlación entre las ratas y los desechos. Así que creían que la causalidad del origen de los roedores era la basura.

Algo muy usado en las estadísticas son las gráficas (o los gráficos), pero según Randall, también deberían producirnos desconfianza, ya que, “tienen escalas verticales y horizontales que pueden ajustarse para que produzcan la impresión deseada. Es posible hacer que una ligera subida parezca grande y viceversa. Los gráficos de barras o de línea pueden también ser engañosos. El viejo truco consiste en representar el dinero en forma de bosas. Si unos ingresos son el doble de otros, entonces aparece una bolsa dos veces más alta que la anterior. Pero esto es equívoco, ya que la bolsa de dinero resultante tiene cuatro veces el área, y ocho veces el volumen, de la original”.

Lo más difícil: los tipos de medias

Es hasta cierto punto natural que nos sea particularmente difícil entender las estadísticas si la educación en el país está por los suelos. Durante años hemos estado por debajo del promedio de los países de la Organización para la Cooperación y el Desarrollo Económicos (OCDE) en matemáticas, ciencias y lectura. Y es esencial saber algo de matemáticas para que el periodista comprenda las estadísticas y pueda hacerla digerible para las audiencias.

Citaré un ejemplo que nos entrega David Randall (transformo a pesos sus libras esterlinas). Una empresa sumida en un conflicto salarial informa que el salario medio de su personal es de 28 mil pesos. “Así que publicamos la cifra y quedamos en ridículo”, dice Randall.

¿Por qué? Porque lo que nos dio la empresa es su “valor medio”, que se calcula sumando todos los salarios de su personal “incluidos los de cuatro de sus familiares de la dirección, que reciben más de 200 mil pesos al año”. Si la empresa hubiera proporcionado la “mediana salarial”, dice Randall, esta habría sido de 14 mil 500 pesos. Pero como la ignoramos, por eso “nos toman el pelo”.

El periodista británico nos explica que hay tres tipos de medias (en estadística se manejan más, hasta siete). Una: “la media aritmética”. Es donde se suman todos los valores, se divide el resultado y esa cifra es la media. Es una media falsa y es la más utilizada. “Su debilidad es que oculta tanto como lo que revela”, afirma, porque no dice nada sobre el rango de valores presentes en el cálculo.

La segunda es “la mediana”, y es un conjunto de valores que ocupa el centro de los datos. Explica: así, para salarios que puedan ir de 9 mil a 23 mil pesos, pero en su mayoría estuvieran en el extremo más bajo del rango, el salario del centro podría ser de 14 mil pesos. “Ese sería un reflejo MÁS aproximado de lo que cobra la mayoría que una media distorsionada por los elevados ingresos de un puñado de directores”.

Allen Paulos presenta otro ejemplo. Durante la huelga de béisbol en EU de 1994, los presidentes de clubes repetían que el salario medio de los jugadores era un millón y medio de dólares. “Eso era verdad, aunque la mediana, era de medio millón; la mitad de los jugadores ganaba menos de esta cantidad, la otra mitad, más”.

Randall sospecha que la confusión entre estos dos tipos más habituales de “media” provenga de que pensamos en conjuntos de valores como los números 1—20, donde la media es diez, como la mediana. Acá sus valores están repartidos por igual. “Los datos en el mundo real rara vez son así”. Por si no quedó claro: en la serie: 2, 5, 8, 11, 16, 21, 30; como hay siete números en el conjunto, el número medio (el cuarto en la lista) es 11. Así, la mediana es 11, no 15 (o 16) como dice la lógica de “la media aritmética”.

Finalmente, la última es la media “la moda”: es un conjunto de datos (o números). “en pocas palabras —dice Randall— es el valor más común del conjunto”. Para hacerlo más claro. En la serie: 2, 3, 5, 5, 7, 9, 9, 9, 10, 12, hay números que aparecen una sola vez, uno dos veces y el 9 aparece tres eces. Así, el 9 es “la moda”.

Otro punto en donde los periodistas cometen errores, señala Randall, es al calcular porcentajes. Es sencillo. “se resta el valor viejo del valor nuevo, se divide el resultado por le valor antiguo y se multiplica el resultado por 100”. Pero si se trata de averiguar un incremento porcentual o un decrecimiento porcentual: “restamos la cifra antigua a la nueva, dividimos el resultado por la cifra antigua y luego desplazamos la coma decimal dos lugares a la derecha y obtenemos el porcentaje. Un decrecimiento dará un valor negativo”.

Explica que es importante conocer la “cifra base”, es decir, el valor antiguo con el que se está comparando el nuevo valor. La cifra base muchas veces es ocultada. A veces se parte de la base equivocada, dice Randall, por eso en los medios vemos que, si algo se reduce un 40%, y luego crece 20%, se dice que se ha recuperado la mitad de la pérdida previa. “No es así. Si la base de partida es 100 y se pierden 40, el nuevo total es 60, y un aumento de un 20 por ciento de este es 12, con lo que el nuevo total es 72, por debajo del 80 que obtendríamos caso de que se recuperara la mitad de lo perdido originalmente”.

El periodista recomienda no olvidar que hay una diferencia entre porcentaje y punto porcentual. Cuando se considera el todo como 100, el porcentaje es una parte de ese todo. Un punto porcentual es una centésima parte de ese todo.

***

Aprender a conocer y descifrar las estadísticas es algo complejo, pero no imposible. Es importante usar las preguntas que nos proporciona John Allen Paulos en su libro ya citado. El matemático señala que, en estos temas, además de las preguntas que un reportero formula para hacer una nota, a los lectores les gustaría que se incluyeran: ¿Cuántas?, ¿Con qué probabilidad?, ¿Qué fracción? ¿Cómo se compara la cantidad con otras cantidades? ¿Cuál es el índice de crecimiento y cómo se coteja? ¿Qué hay de los aspectos autorreferenciales de la noticia? ¿Hay un grado apropiado de complejidad? ¿Nos fijamos en las categorías y relaciones que interesan?

Agrega otras sobre las estadísticas: ¿Cómo se han obtenido? ¿Cuánta confianza podemos atribuirles? ¿Proceden de un muestreo aleatorio o de una colección de anécdotas? ¿Sugiere la correlación una relación causal o es simplemente una coincidencia? ¿Entendemos cómo están conectadas las personas y los diversos aspectos de la organización sobre la que se informa? ¿Qué se sabe de la dinámica de sistema en general? ¿Es estable o parece sensible a perturbaciones insignificantes? ¿Hay otra forma de calcular las cifras que se presentan? ¿Miden efectivamente esas cifras lo que dicen medir?¿Es significativa la precisión obtenida?.

También te puede interesar