La estadística en tiempos de pandemia
Lynne Billard, en un artículo publicado en 1998 en The American Statistician sobre el rol de la estadística y de los estadísticos, escribía: “No science began until man mastered the concepts and arts of counting, measuring, and weighting”. Dado que los conceptos y artes de contar, medir y ponderar constituyen la esencia misma de la estadística, dos de los mensajes que encierra esta cita son que la estadística, al menos en sus etapas más rudimentarias, es muy antigua, y que es fundamental para el desarrollo de todas las ciencias. Hoy en día la estadística moderna va más allá: se constituye en la herramienta básica para la toma de decisiones en cualquier ámbito y, también, como una ciencia en sí misma. Bajo estas consideraciones, la estadística normalmente recibe la presión de una sociedad ávida por mejorar sus condiciones de vida y tomar decisiones acertadas; en tiempos de crisis, es natural que esta presión aumente.
Hoy vivimos una crisis mundial producto de la pandemia de la COVID-19 y en cierta medida los reflectores están sobre la estadística. ¿Cuál es la tasa de letalidad de esta enfermedad?, ¿cuándo llegaremos al pico de contagio?, ¿cuándo podremos volver a cierta normalidad en nuestras vidas? o ¿qué tratamientos son efectivos? son algunas de las preguntas que todos se hacen y que recaen, aunque a veces pasando por otras ciencias, finalmente en la estadística. Una ventaja con la que contamos hoy es que, como decía en el principio, la estadística es ya una ciencia bien constituida. Si ya en los tiempos del brote del cólera de mediados del siglo XIX en Londres John Snow (1849) demostró la utilidad del análisis y la visualización de los datos (Frerichs, s. f.) para controlar la enfermedad, hoy en día, con herramientas muchísimo más poderosas, las posibilidades son más prometedoras. Sin embargo, a pesar de estas ventajas y fortalezas, son aún muchos los peligros que la estadística y los estadísticos deben sortear. El terreno de la estadística siempre ha estado lleno de trampas, paradojas y problemas cotraintuitivos, y en esta pandemia global, que no es la excepción, el estadístico y, en general, cualquiera que analice datos, debe proceder con mucho cuidado.
Una de las confusiones más comunes en esta ocasión es la de considerar los números oficiales de contagios y de fallecidos como si fueran los números reales. Los datos oficiales responden a los casos confirmados con pruebas de diagnóstico y, por tanto, dependen en gran medida del número de pruebas hechas o, como se suele decir, de la capacidad de testeo. Dado que no se hacen pruebas a toda la población, estos resultados tendrán indefectiblemente un subregistro de casos que bien podría ser de dos, cinco, diez o cien casos reales por cada caso oficial; al final, todo dependerá de la capacidad de testeo, que es muy diferente entre países e incluso entre regiones dentro del mismo país. Además, si lo que se quiere es construir modelos para explicar la evolución de la enfermedad o hacer cualquier tipo de inferencia, estos datos presentan dos problemas fundamentales: son datos observacionales (no experimentales) y son resultado de pruebas que no se hacen al azar, sino direccionadas hacia donde se cree que hay más casos o mayores probabilidades de tener un contagiado.
Los modelos construidos con estos datos, por tanto, sirven más para explicar la capacidad de testeo (Silver, 2020) y la política de aplicación de pruebas que la evolución real de la enfermedad. En esta línea, creo que la mejor opción para modelar la evolución de la enfermedad y su impacto real es la que se basa en el análisis del exceso de muertes observadas este año respecto de años anteriores (Eyzaguirre, 2020), que son datos que afortunadamente están disponibles para el Perú (Ministerio de Salud del Perú, 2020). Análisis de este tipo vienen reportándose ya desde hace buen tiempo y son utilizados para tratar de evaluar el subregistro (Chopin, 2020) o el verdadero impacto de la enfermedad (Burn-Murdoch y Giles, 2020). Por supuesto no podemos asegurar que todas estas muertes sean por causa de COVID-19, pero es factible suponer que este número esté mucho más cercano al impacto real de la enfermedad que el número oficial de casos registrados. Estas diferencias se observan, en mayor o menor medida, en todos los países.
Los tiempos de crisis, lo lamentamos todos, traen siempre mucho sufrimiento y dificultades. Pero traen también, con esa presión extra, una oportunidad para mejorar en muchos sentidos como sociedad. Las ciencias, y entre ellas la estadística, seguro se nutrirán de esta presión para estar mejor preparadas para afrontar las crisis del futuro.
Citar esta entrada de blog (APA, 7.a edición) Eyzaguirre-Pérez, R. (8 de junio de 2020). La estadística en tiempos de pandemia. Scientia et Praxis: Un blog sobre investigación científica y sus aplicaciones. https://www.ulima.edu.pe/instituto-de-investigacion-cientifica/blogs/la-... |
Referencias
Billard, L. (1998). The role of statistics and the statistician. The American Statistician, 52(4), pp. 319-324.
Burn-Murdoch, J. y Giles, C. (28 de mayo de 2020). UK suffers second-highest death rate from coronavirus. Financial Times.
Chopin, N. (12 de abril de 2020). A quick, preliminary study of COVID death under-reporting in France. Statisfaction.
Eyzaguirre, R. (2 de junio de 2020). Seguimiento del número de fallecimientos diarios en el Perú.
Frerichs, R. R. (s. f.). Mapping the 1854 Broad Street pump outbreak. John Snow site. Department of Epidemiology, University of California Los Angeles (UCLA).
Ministerio de Salud del Perú (2020). Sistema Informático Nacional de Defunciones: Tablero de control.
Silver, N. (4 de abril de 2020). Coronavirus case counts are meaningless. FiveThirtyEight.
Snow, J. (1849). On the mode of communication of cholera. Londres: John Churchill.
Deja un comentario