Entendiendo la pandemia

Normalizar para comparar

Supongamos que una persona te sugiere comprar cierta marca de medicamento porque cuesta $100 mientras que otra marca cuesta $150. ¿Comprarías, sabiendo que el medicamento puede venir en tamaños diferentes? Antes quizás te gustaría saber el precio por unidad. Lo que estás haciendo es una normalización que te permite comparar mejor los precios de marcas diferentes. Ahora bien, cuando se trata de la pandemia de COVID-19, ¿cómo se hace para comparar entre países?

Comparar es fundamental… y difícil.

Para enfrentar la pandemia de COVID-19 debemos tomar las mejores decisiones posibles. Y para eso es fundamental comparar las diferentes estrategias, circunstancias y resultados de otros países. Hemos visto que, para analizar los resultados de las medidas tomadas, los datos de fallecimientos son en varios aspectos más confiables que los de casos confirmados, pero… ¿podemos comparar el número total de fallecimientos entre países para saber cuál tuvo mejores resultados frente a la pandemia? La respuesta rápida es NO, pero podemos aprender en el camino y en base a eso construir una medida de fallecimientos “corregida” que sí se pueda comparar. Veamos.

La tabla a continuación muestra el ranking de países de acuerdo al número total de fallecimientos por COVID-19, con datos al 01/12/2020 (columna de la izquierda). Notá que muchos de los países que aparecen arriba en el ranking de muertes por COVID-19 son también los más poblados del mundo (columna de la derecha).

tabla_muertexmillon_poblacion\

Estos dos ordenamientos son sospechosamente similares… No es exactamente el mismo orden, pero varios de los primeros puestos en una de las columnas también están en la otra. En el fondo, ¿a qué se debe que los países queden ordenados de manera similar? ¿A la cantidad de fallecimientos, al tamaño de su población, o a ambos?

No sabemos por qué, pero no importa

La mejor respuesta es “no sabemos”. Podríamos considerar varias explicaciones, como por ejemplo que ante una misma probabilidad de contagio el número real de casos (y por lo tanto de fallecimientos) es mayor en poblaciones más grandes que en poblaciones más chicas. O que la detección de casos es más lenta/difícil en poblaciones más grandes y por lo tanto la chance de fallecer es mayor. O varias causas al mismo tiempo. La cuestión es que no sabemos a qué se debe dicha relación y, para lo que queremos mostrar aquí, tampoco importa. El hecho es que parece haber una relación entre la cantidad de muertes por COVID-19 y el tamaño de la población de cada país: los que tienen mayor población también tienden a tener mayor cantidad de fallecimientos por COVID-19.

Para ver si nuestra intuición es real, en vez de comparar renglón por renglón en la tabla de arriba podemos tomar los datos de cada país y dibujarlos en un gráfico para mirar de manera más global. En otras palabras, para cada país ponemos su dato de fallecimientos en el eje vertical y su dato de población en el eje horizontal. Lo que queda es esto:

correlacion
Fuente: Our World In Data
Datos al 01/12/2020

En este gráfico cada punto representa a un país (mostramos solo los países que tienen al menos un millón de habitantes y al menos 100 fallecimientos por COVID-19). Lo primero que se puede apreciar es que los puntos están dispersos por aquí y por allá, pero no lo hacen de cualquier manera: los que están más a la izquierda también se ubican más abajo, y los de la derecha lo hacen más arriba. Es decir que la nube de puntos tiene una forma estirada en diagonal. Parece haber un patrón (es decir, una regularidad) que habíamos sospechado mirando la tabla pero que en este gráfico se hace muy evidente: hay una tendencia general a que los países con mayor población tengan también la mayor cantidad de fallecimientos por COVID-19.

Notá que dijimos que existe “una tendencia general”. Queremos decir que se cumple a grandes rasgos, aunque no sea una relación perfecta: estamos dejando de lado por un momento que los puntos están efectivamente dispersos. Tomá por ejemplo Corea del Sur, Italia y Argentina, que tienen poblaciones muy similares (alineados verticalmente) pero una cantidad muy diferente de fallecidos (Corea del Sur muy abajo). O, en la otra dirección, Corea del Sur y Australia tuvieron una cantidad muy similar de fallecidos a pesar de que Corea del Sur tiene mayor población. Pero, a pesar de estas variaciones, la tendencia general sigue ahí y es muy fuerte. Esa tendencia general que observamos arriba está representada por la recta verde: es la recta que mejor describe a ese conjunto de puntos. La inclinación de la recta, es decir el valor de su pendiente, nos dice cuánto efecto tiene el tamaño de la población en la cantidad de fallecimientos (si la pendiente fuera cero significaría que la cantidad de fallecimientos no depende del tamaño de la población: sería una recta horizontal). En términos científicos decimos que el valor de la pendiente es significativamente distinto de cero.

Un ranking corregido

Esa tendencia es uno de los motivos por los cuales no está bien comparar directamente el número de fallecimientos entre países: hay países que tienen muchos fallecidos por COVID-19 pero no necesariamente por haber manejado mal la pandemia sino simplemente por tener mayor población. ¿Qué podemos hacer entonces? Para empezar, es sorprendente que no necesitemos una explicación sobre las causas de esta relación; no es necesario saber por qué ocurre, alcanza con saber que existe. Es lo que llamamos una correlación (donde no nos importa cuál es la causa y cuál el efecto). Es un hecho que los países con mayor población tienen mayor cantidad de muertes por COVID-19: sería bueno incorporar esa información y hacer así una mejor comparación entre países. ¿Cómo podemos entonces utilizar esto para corregir el ranking? Es bastante simple: dividimos el número total de fallecimientos de cada país por el tamaño de su población expresado en millones de personas. Lo que obtenemos es el “número de muertes por millón de habitantes”, un dato que fue haciéndose más importante a medida que aprendíamos sobre esta pandemia.

ranking_corregido\

Segundo factor: la edad

¿Podemos quedarnos conformes con el ranking corregido? Incorporar la información sobre el tamaño de la población es un gran paso para mejorar la comparación entre países, pero a medida que vamos generando conocimiento surgen factores adicionales para tener en cuenta. Por ejemplo, a esta altura de la pandemia ya sabemos que la COVID-19 afecta más gravemente a los más ancianos. Quizás entonces los países donde hay mayor proporción de ancianos son los más perjudicados. Veamos qué datos tenemos para respaldar esta hipótesis. En el siguiente gráfico pusimos un punto por cada país, con el eje horizontal indicando la edad de su población (representada por la mediana) y en el eje vertical el número de fallecimientos COVID-19 por millón de habitantes que sale del ranking corregido.

correlacion_nueva_correcion
Fuente: Our World In Data
Datos al 01/12/2020

Efectivamente, parece ser que en este caso también hay una correlación. La recta que mejor representa al conjunto de los puntos en este gráfico tiene una pendiente que no es horizontal sino diagonal (es decir, significativamente distinta de cero). Esto significa que los puntos no están distribuidos completamente al azar sino que hay una relación subyacente. Y, como antes, podríamos encontrar varias hipótesis muy razonables para explicar esta relación: por ejemplo, que los más ancianos tienen mayor chance de tener enfermedades de base (diabetes, hipertensión, insuficiencia respiratoria por tabaquismo, etc) y eso los hace más propensos a desarrollar síntomas graves por COVID-19 y por ende fallecer. Pero no necesitamos una explicación para continuar; solo necesitamos saber que la relación existe.

Con esto en la cabeza volvamos a considerar el último ranking que mostramos: número de fallecimientos por millón de habitantes. Los países con poblaciones de mayor edad están “penalizados” en este ranking porque ahora sabemos que las personas más ancianas tienen más chances de fallecer por COVID-19, y esto ocurre por las características de la enfermedad más allá de las medidas sanitarias que hayan tomado los países. Dicho de otro modo, si imaginamos dos países que hayan adoptado exactamente las mismas medidas de prevención, mitigación y contención, el que tenga mayor proporción de personas grandes tendrá probablemente mayor cantidad de fallecimientos.

Un ranking doblemente corregido

Entonces para ser justos también deberíamos compensar el evidente efecto que tiene la edad en el número de fallecimientos. ¿Cómo? De modo similar a cuando incorporamos el dato del tamaño de la población: tomamos el número de fallecimientos por millón de habitantes que nos dejó el ranking anterior y lo dividimos por la edad de la población.

ranking_corregido_dos_factores\

Notá algunos detalles interesantes. Como partimos de un ranking ya corregido (al tener en cuenta la población de cada país), ahora estamos en un nivel superior de detalle y en el tercer ranking los países se acomodan otro poco. Mirá por ejemplo los dos primeros lugares: Perú y Bélgica intercambian posiciones. Es esperable que los países con poblaciones más ancianas (por ejemplo España, Italia, Reino Unido) bajen un poco en el nuevo ranking, mientras que los que tienen poblaciones más jóvenes suban un poco (por ejemplo Bolivia, México, Brasil). Es el efecto de la corrección por edad.

Armar un ranking es una manera de comparar: ¿qué país enfrentó mejor la pandemia? Incorporar a ese ranking información adicional para compensar correlaciones es una manera de normalizar o estandarizar el número de fallecimientos para que el dato sea más comparable entre países que de entrada son diferentes entre sí. Lo que queda, es decir, el ranking doblemente corregido, está libre de ambas correlaciones: es una escala que representa mejor los resultados de las medidas tomadas por los distintos países para enfrentar la pandemia.

Para seguir pensando

Una observación que profundiza en el camino de la cuantificación y el análisis de estas correlaciones es la siguiente: al considerar la edad de la población como segunda corrección al ranking, deberíamos asegurarnos de que no correlaciona con el factor que ya habíamos considerado para la primera corrección. Es decir, si ya corregimos por el tamaño de la población y ahora queremos corregir por edad de la población, deberíamos descartar que haya una correlación entre ambos factores. De otro modo, al aplicar la segunda corrección en realidad sería como aplicar dos veces la primera. De acuerdo a lo que mostramos en Métodos (más abajo), se ve que la correlación entre tamaño y edad de la población es muy débil (pendiente casi nula). Es decir, podemos hacer la segunda corrección con tranquilidad. Un posible siguiente paso sería comparar solo entre países que hayan pasado su primera ola de contagios, en vez de mezclar países que se encuentran en diferentes etapas de la pandemia.

A medida que generamos conocimiento se hace evidente la necesidad de considerar más y más detalles. Por ejemplo, ya hay datos que señalan la profundización de las inequidades debido a la pandemia. En su informe de septiembre de 2020 con datos de Estados Unidos (informe en inglés), la consultora McKinsey muestra que la chance de morir por COVID-19 es mayor para las personas en situación de vulnerabilidad socioeconómica. Muestra además que, dentro de ese gran grupo, el subconjunto de los que tienen problemas graves de alojamiento está especialmente perjudicado. Esto es evidencia para seguir corrigiendo el ranking de fallecimientos, ya sea por grado de vulnerabilidad de la población de cada país o por segmentos dentro de un mismo país.

riesgo_segun_vulnerabilidad
Fuente: McKinsey & Company, reporte “US Hispanic and Latino lives and livelihoods in the recovery from COVID-19” (septiembre 2020)
https://www.mckinsey.com/featured-insights/coronavirus-leading-through-the-crisis/charting-the-path-to-the-next-normal/socioeconomic-vulnerability-increases-the-risk-of-dying-from-covid-19#

Métodos

Para cada factor de normalización calculamos una regresión lineal robusta (es decir, insensible a datos atípicos) por medio de la función RLM de la librería statsmodels en Python:

Muertes vs población

Modelo: log(muertes) = M*log(población) + B
Pendiente: M = 0.71 +/- 0.15, p=2x10-11, intervalo de confianza 95% = [0.50 ; 0.92]

Muertes vs edad

Modelo: log(muertes por millón) = M*edad (lineal) + B
Pendiente: M = 0.0543 +/- 0.0055, p=8x10-23, intervalo de confianza 95% = [0.0435 ; 0.0651]

Población vs edad

Modelo: log(población) = M*edad (lineal) + B
Pendiente: M = -0.013 +/- 0.006, p=0.035, intervalo de confianza 95% = [-0.025 ; -0.001]