jueves 28 marzo 2024

La tortura de los datos sobre Covid-19

por Ricardo de la Peña

“Si torturas los datos lo suficiente, la naturaleza siempre confesará”

Ronald Coase[2]

En este breve ensayo no pretendemos en forma alguna la originalidad, sino tan sólo recuperar elementos disponibles en el espacio virtual, accesibles por todo el público, para exhibir un ejemplo de los sesgos en que incurren las autoridades sanitarias mexicanas para manipular a la población en torno al resultado del combate a la pandemia por COVID-19 en nuestro país.

LOS DATOS EXPUESTOS

La disposición de un creciente acervo de información a través de la red mundial ha hecho posible y fortalecido el recurso a lo que se denomina “minería de datos”[3], que suele ser una etapa inicial en procesos orientados al conocimiento. La minería de datos consiste en la extracción de información de bases de datos mediante la búsqueda y detección de patrones antes desconocidos en extensos conjuntos de registros sobre algún aspecto determinado de la realidad, para lo que se recurre muchas veces al sondeo preliminar sobre muestras y a procedimientos automatizados para la exploración de los datos, aunque en general el concepto se aplica al trabajo para encontrar vínculos entre variables mediante lo que pudiera calificarse, parafraseando a Ronald Coase, como estrategias de tortura para hacer confesar finalmente a los datos.

El propio Lowell advirtió que bajo el concepto de minería de datos se enmascara lo que llamó “una variedad de alias”, pues puede corresponder bien a prácticas recomendadas para la investigación científica —reconocer anomalías, agrupar y clasificar datos y generar modelos analíticos—, bien a malas prácticas, ya sea la búsqueda de cualquier relación posible en un conjunto de datos sin ningún sustento lógico o teórico, ya sea la selección de los datos que resultan pertinentes para confirmar una determinada hipótesis elegida de antemano, acorde con los sesgos y preferencias que el analista pretenda confirmar: esa tendencia a recabar e interpretar información para apoyar nociones o creencias preexistentes, incluso cuando dicha perspectiva no se sostiene ante un riguroso escrutinio estadístico.[4]

Eso y no otra cosa es precisamente lo que el subsecretario de Prevención y Promoción de la Salud del Gobierno de México, doctor Hugo López-Gatell, realizó el pasado 28 de junio de 2020, cuando “por ser domingo y tener un poco más de tiempo”, quiso compartir con periodistas y público en general, estadísticas sobre casos confirmados y decesos en el mundo,[5] usando para ello gráficos dinámicos elaborados en el sitio Our World in Data (OWD), de la Universidad de Oxford.[6] ¿Qué datos nos presentó entonces el doctor López-Gatell? El vocero oficial presentó tres gráficos seleccionados de la amplia colección que existe en el sitio referido.

Una primera fue la de incidencia o el acumulado de casos confirmados por millón de habitantes, por día calendario, sobre la que acertada y oportunamente advirtió que “cada país tiene un abordaje diferente de vigilancia epidemiológico. Por lo tanto el número absoluto de casos no se puede comparar porque tienen población distinta, pero además porque tienen abordajes distintos”. Añadió que “la incidencia tampoco se puede comparar en términos absolutos, el número, porque tenemos abordajes distintos”, por lo que “lo que interesa comparar aquí es la velocidad de cambio (que) se representa por la inclinación de esta curva”, que según el expositor “representa el objetivo cumplido de las medidas de mitigación”. A pesar de ello, al partir de un graficado que considera la fecha calendario como base, propicia una presentación que hace confuso el cotejo entre países elegidos.

Un segundo gráfico fue el de mortalidad, es decir el acumulado de decesos por millón de habitantes, por día calendario (como el mismo problema antes mencionado), a la que siguió una relativa a la velocidad con la que se ha incrementado el total de casos confirmados en distintos países en escala logarítmica y a partir de los cien casos confirmados, lo que libraría aparentemente el problema para establecer una comparación. Al respecto, mencionó que “nuestra epidemia desde el principio fue más lenta” debido a “la mitigación comunitaria que fue adoptada muy temprano”. Sin embargo, omitió mencionar una leyenda mostrada en la misma gráfica, que advierte que “el número total de casos confirmados de COVID-19 es menor que el número total de casos. La principal razón de esto es que se limitan las pruebas”.

LOS DATOS SILENCIADOS

Es verdad que México ha cumplido y cumple en lo fundamental con las buenas prácticas para informar sobre sus datos de pruebas referidas a la pandemia de Covid-19.[7] Así, se dispone de datos que permiten construir el gráfico 1, que muestra el promedio móvil semanal del número de pruebas diarias por cada mil personas. En torno a estos datos, en el sitio de OWD se aclara que el número de pruebas no se refiere a lo mismo en cada país, pues en algunos se informa el número de personas evaluadas, mientras que en otros se informa el número de pruebas.[8]

GRÁFICO 1

En otro texto del sitio se afirma que es un hecho que “para poder controlar adecuadamente la propagación del virus, los países con brotes más generalizados deben realizar más pruebas” y que “una forma importante de entender si los países están probando lo suficiente es mirar la proporción de pruebas que arrojan un resultado positivo”.

MAPA 1

Al respecto, expresamente se apunta que “algunos países, como Australia, Corea del Sur y Uruguay tienen una tasa positiva de menos del 1%: se necesitan cientos o incluso miles de pruebas para encontrar un caso en estos países”, pero “otros, como México y Nigeria, tienen tasas positivas del 20% al 50% o incluso más. En estos países se encuentra un caso por cada pocas pruebas realizadas”, por lo que resulta poco probable que en estos países se “realicen pruebas lo suficientemente amplias como para encontrar todos los casos”. Y se recuerda que la Organización Mundial de la Salud “ha sugerido una tasa positiva de alrededor del 3 al 12% como punto de referencia general de pruebas adecuadas”.[9] México, hoy, está por encima de este límite (mapa 1).

GRÁFICO 2

El gráfico 2 “proporciona otra forma de ver el alcance de las pruebas en relación con la escala del brote en diferentes países”, pues “muestra el número diario de pruebas (eje vertical) frente al número diario de nuevos casos confirmados (eje horizontal), por millón de personas”. En el sitio OWD se explica que “mirando hacia abajo en la tabla, vemos que algunos países realizan diez o cien veces menos pruebas que otros países con un número similar de nuevos casos confirmados. Por el contrario, mirando a la derecha, vemos que algunos países encuentran diez o cien veces más casos que otros en un número similar de pruebas. Cuando el número de casos confirmados es alto en relación con el alcance de las pruebas, esto sugiere que puede que no se realicen suficientes pruebas para controlar adecuadamente el brote. En tales países, el número real de infecciones puede ser mucho mayor que el número de casos confirmados”, lo que no ocurriría —o no al menos en la misma magnitud— en el caso de todos los países. Esta última afirmación sería muy relevante que se diera a conocer y no se ocultara al público detrás de la propaganda de la supuesta efectividad de las medidas de mitigación aplicadas en nuestro país.

Los gráficos 3a y 3b permite saber que “los datos ampliamente disponibles sobre el número de casos confirmados solo se vuelven significativos cuando se pueden interpretar a la luz de cuántas pruebas realiza un país”. Al respecto, mientras “algunos países doblaron la curva temprano y monitorearon bien el brote, otros no”. Aclaran que “en la fase inicial del brote no siempre hubo una gran diferencia entre estos dos grupos, pero si bien el primer grupo de países logró ponerse al día con el brote, el segundo aún no lo logró”.

GRÁFICO 3a

“Los datos de Eslovaquia, Tailandia, Nueva Zelanda, Corea del Sur y Alemania muestran que estos países monitorearon bien el brote desde el principio o se recuperaron rápidamente después de un brote inicial. Finalmente, pudieron doblar la curva y reducir el número de casos confirmados, al tiempo que aumentaron la proporción de pruebas a casos confirmados”.

A diferencia, “los datos de Brasil, México, Estados Unidos, Reino Unido, Suecia, India, Pakistán, Sudáfrica y Nigeria muestran que estos países tienen pocas pruebas en relación con el tamaño del brote. Además, estos países reportan, desafortunadamente, muy altos conteos diarios de casos: sus líneas son rojas y están lejos de cero”.

GRÁFICO 3b

Concluyen con una afirmación que usaremos nosotros también como cierre: este gráfico es el “más importante para rastrear el brote global de Covid-19. Nos muestra si los casos reportados van a cero y de manera crucial nos da una indicación de cuán bueno es ese informe”. Esto es lo que calla el vocero oficial mexicano y que está disponible en el sitio del que tomó los datos para la autocomplacencia.


[1] Presidente Ejecutivo de ISA Investigaciones Sociales Aplicadas. @ricartur59.

[2] Ronald Coase. Essays on Economics and Economists. University of Chicago Press, Chicago, 1994, p. 27.

[3] Michael Lowell. “Data Minning”. The Review of Economics and Statistics, 1983, vol. 65, issue 1, pp. 1-12.

[4] Peter Carhcart Wason. “Reasoning about a Rule”. Quarterly journal of Experimental Psychology, 20(3), 1968, pp. 273-81.

[5] Secretaría de Salud del Gobierno de México. Conferencia de prensa. Informe diario sobre Coronavirus Covid-19 en México. Domingo 28 de junio de 2020, 40:50-55:46. Disponible en: https://www.youtube.com/watch?v=vI2ElJYJZ7Y.

[6] Localizado en: https://ourworldindata.org/.

[7] Joe Hasell, Edouard Mathieu, Esteban Ortiz-Ospina and Max Roser. “Best practices for governments reporting COVID-19 testing data”. Our World in Data, Jun 8, 2020. Disponible en: https://ourworldindata.org/covid-testing-data-guidelines.

[8] Max Roser. “Is the world making progress against the pandemic? We built the chart to answer this question”. Our World in Data, Jun 8, 2020. Disponible en: https://ourworldindata.org/epi-curve-covid-19.

[9] Hannah Ritchie, Esteban Ortiz-Ospina, Diana Beltekian, Edouard Mathieu, Joe Hasell, Bobbie Macdonald, Charlie Giattino, and Max Roser. “Coronavirus (COVID-19) Testing”. Our World in Data, Last Update: Jun 29, 2020. Disponible en: https://ourworldindata.org/coronavirus-testing.

También te puede interesar