CUANDO LA VIDA NO NOS DA LIMONES

Cuando descubrimos que las observaciones y los experimentos son parte de una estrategia de resolución de problemas, un modo de obtener respuestas confiables para las preguntas que nos surgen, nos damos cuenta de que podemos aplicar esa misma estrategia a una enorme variedad de temas. Conseguir evidencias es una gran manera de hacer a un lado varias fuentes posibles de equivocaciones: nuestra intuición, las tradiciones o la sensación de que sabemos cómo son las cosas. Queremos enfocarnos en la metodología que nos permite entender mejor cómo es efectivamente la realidad, como un camino para distinguir los hechos de las ideas vagas, y separar la verdad de la mentira o el error.

¿Cómo se aplican las ideas a sistemas más inciertos, ruidosos, complejos e, incluso, con voluntad, como son los que nos contienen a nosotros, las personas? Hablaremos de la medicina, que tiene una base metodológicamente científica pero no se limita a ella, y mostraremos que, aunque es fundamental tener evidencias, eso no es suficiente. La complejidad que aparece en la medicina puede servirnos también como un puente entre los temas propios de disciplinas científicas y los problemas más complejos que debemos resolver hoy y en los que, cuando surge la posverdad, nos resulta más difícil encontrar respuestas claras.

La medicina resolvió ya muchos de los mismos problemas que estamos enfrentando hoy en todas las demás áreas y, aunque tampoco es infalible ni logra respuestas en todos los casos, está bastante adelantada en este camino. ¿Cómo saber si un tratamiento es efectivo? ¿Cómo decidir cuál aplicar a un paciente entre varios que dan buenos resultados? Para responder estas preguntas, se acude a pruebas obtenidas mediante cuidadosa observación y experimentación. Este es el enfoque de la medicina actual, denominada medicina basada en evidencias, que busca establecer la fuerza de las pruebas y los riesgos y beneficios de los tratamientos. En un editorial del British Medical Journal de 1966, el médico canadiense David Sackett explicó los principios centrales de esa medicina, que definió como “el uso concienzudo, explícito y juicioso de la mejor evidencia disponible para tomar decisiones acerca del cuidado de pacientes individuales”. Lo principal de este enfoque es tomar decisiones basándose en evidencias y no en anécdotas o en opiniones personales.

En la antigua Grecia, se creía que el cuerpo tenía cuatro fluidos, o humores (la sangre, la bilis amarilla, la bilis negra y la flema), y que las enfermedades se producían por un desequilibrio entre estos cuatro humores. No parecía descabellado, en ese contexto, pensar que las enfermedades se podían curar si al paciente se le extraía sangre por medio de cortes en algunos vasos sanguíneos o adhiriéndole sanguijuelas para que succionaran su sangre. No había ninguna evidencia que sostuviera esta idea, pero el enfoque basado en tradiciones la hizo sobrevivir por siglos y siglos. Aunque Hipócrates, el “padre de la medicina”, dijo que “hay, de hecho, dos cosas: ciencia y opinión; la primera genera conocimiento, la segunda, ignorancia”, la realidad era que entonces todavía no se sabía hacer ciencia como ahora.

El camino desde la medicina basada en tradiciones hasta la medicina basada en evidencia no fue rápido ni sencillo. Cada medicamento que hoy sabemos que funciona fue aprobado luego de atravesar –exitosamente– muchas pruebas rigurosas, incluidas pruebas hechas en seres humanos con extremo cuidado médico y ético. A estos experimentos médicos que se realizan con personas los llamamos ensayos clínicos.

El primer ensayo clínico del que tenemos registro fue el realizado por el cirujano James Lind en 1747. Lind era un joven escocés que se propuso entender el escorbuto, una enfermedad lenta e implacable que, en los largos viajes marítimos, mataba a más marineros que las batallas navales o los naufragios. Se estima que unos 2 millones de marineros murieron por escorbuto: una muerte dolorosa en la que se les aflojaban los dientes en las encías, se les hundía la piel en las mejillas y se les debilitaban las piernas tanto que no podían mantenerse en pie.

Hoy, sabemos que esta enfermedad se debe a la deficiencia de vitamina C. Sí, la misma vitamina de la que ya hablamos en relación con los resfríos y con Pauling. Esta vitamina es necesaria para la síntesis de colágeno, que es una proteína esencial para la piel, los tendones, los cartílagos, los músculos y otros tipos de tejidos. Para estar saludables, es necesario incorporar vitaminas. En particular, la vitamina C se encuentra en algunas frutas y verduras, especialmente en los cítricos, y con una dieta equilibrada podemos estar tranquilos de que estaremos incorporando más de lo necesario (el exceso se elimina por orina, así que tampoco representa, en principio, un problema). Pero en la época de los largos viajes en mar sin heladeras, la dieta de los marineros consistía casi íntegramente en carne salada y galletas.

Cuando, en medio del océano, un marinero presentaba los primeros síntomas, trabajaba un poco menos. Como trabajaban menos, eran catalogados de “vagos”, en un horrible ejemplo de inversión en la interpretación de cuál era la causa y cuál la consecuencia. Por eso, uno de los tratamientos que se hacía con estos marineros enfermos era hacerlos trabajar mucho, con la idea de que eso contrarrestaría los síntomas. Por supuesto, esto los debilitaba aún más.

Como el poderío marítimo de los países dependía de la salud de los marineros, muchos sabios europeos intentaron por varios años entender el problema. No sabían de vitaminas, ni sabían demasiado de medicina. Pero tampoco sabían –y esto era todavía más grave– de la metodología científica que permite obtener evidencias confiables. Actuaban a ciegas, y muchas veces lo que proponían era un remedio peor que la enfermedad.

Esto fue así por siglos, hasta que James Lind abordó el problema y el navío HMS Salisbury. Estaba decidido a buscar una cura y no prestar atención a las anécdotas ni a la tradición de lo que se solía hacer ante esta enfermedad. Tomó a doce marineros con escorbuto y los dividió en seis parejas. Tuvo especial cuidado en elegir doce marineros con un grado similar de avance de la enfermedad, y les asignó el mismo régimen de comidas, excepto por una diferencia: el posible tratamiento que se ponía a prueba. A cada pareja, le dio una de estas sustancias: sidra, elixir vitriólico (una solución de ácido sulfúrico), vinagre, agua de mar, naranjas y limones, o una mezcla de mostaza, ajo y rabanito. Observó también a otros marineros enfermos, a los que no les dio ningún tratamiento. Estos marineros funcionaron como grupo control con el cual comparar si los diferentes tratamientos habían sido o no efectivos: si los del grupo control no se curaban y los tratados sí, por ejemplo, la conclusión habría sido que los tratamientos ayudaban a los enfermos; y en el caso contrario, la conclusión habría sido que los perjudicaban.

Solo seis días después de comenzar los tratamientos, los dos marineros que habían ingerido cítricos se habían curado del escorbuto y los demás, no. Lo brillante de esto no fue solo que él probó metódicamente distintos tratamientos posibles, sino que generó distintos grupos para tener con qué comparar el resultado obtenido. Si él no hubiera comparado a los marineros que habían recibido distintos tratamientos, o no hubiera contado con marineros que no habían recibido ningún tratamiento, no habría podido concluir cuál era el efecto de los cítricos sobre la enfermedad.

Lind publicó estos resultados en 1753, y unos años después, se comenzó a incluir cítricos en la dieta de los marineros. Su experimento demostró que los cítricos curan el escorbuto, pero, lo que es aún más importante para nosotros respecto de cómo averiguar cuál es la verdad, ese experimento fue, que sepamos, el primer ensayo clínico que incluía grupos control. Por esto, hoy a Lind se lo considera el “padre de los ensayos clínicos”.

Hasta hace muy poco, no había una mirada muy sistemática acerca de la metodología deseable para averiguar si un posible medicamento o tratamiento era o no efectivo. La medicina moderna se basa en evidencias obtenidas de manera científica –observaciones y experimentos como los que describimos en el capítulo anterior– , pero aclaremos un punto antes de continuar: cuando un médico trata a sus pacientes, las evidencias no son su único insumo para tomar decisiones. Hay mucho de experiencia, y quizá también cierta “intuición del experto”, como lo que ocurre cuando un arquero profesional ataja penales: aparece una forma de razonamiento heurístico basado en múltiples variables analizadas al mismo tiempo, y no una característica sobrenatural. Miles de atajadas de práctica le dieron un saber valioso que ahora opera por debajo del umbral de la atención consciente. Así como un arquero no podrá explicar racionalmente qué vio en el otro jugador para tomar la decisión de tirarse para un lado en particular, un cirujano podría decidir que hay que operar con urgencia a un paciente porque ve algo que no lo convence. En la medicina, también influye lo personal, lo social, lo humano: el contexto, en líneas generales.

Así, en la práctica médica, existen muchos aspectos que no son necesariamente “racionales”, probablemente porque las personas que practican y reciben los tratamientos médicos son mucho más que máquinas racionales de interactuar con el entorno. Por este motivo, el ejercicio de la medicina no es una ciencia, pero sí se alimenta de ella. Detrás de todo, están las evidencias.

LA VERDAD DETRÁS DE LAVARNOS LAS MANOS

Si bien la historia moderna de la medicina basada en evidencia empezó hacia 1940 con los primeros ensayos diseñados con rigor científico para determinar la eficacia de algunos tratamientos, mencionamos que sus raíces se remontan a los siglos XVIII y XIX, a los trabajos de unos pocos pioneros como Lind. Otro de esos pioneros fue el médico obstetra húngaro Ignaz Philipp Semmelweis, cuyos descubrimientos en la maternidad del Hospital General de Viena permitieron controlar una de las principales fuentes de mortandad de las madres después de los partos. Al menos, por un tiempo.

En la época de Semmelweis, no era raro que las mujeres murieran durante o después del parto. La causa más frecuente de mortandad materna era una enfermedad incontrolable que se desencadenaba poco después del nacimiento del bebé y que, muchas veces, también ocasionaba la muerte de los recién nacidos. Las autopsias revelaban un deterioro generalizado, que recibió el nombre de fiebre puerperal. En la Europa de la época, dar a luz era un riesgo muy real para las mujeres, incluso para las que llegaban con excelente salud al momento del parto.

El Hospital General de Viena estaba en ese entonces entre los mejores de Europa, y contaba con una enorme maternidad. Entre 1841 y 1846, tuvieron lugar allí más de 20.000 partos, en los que casi 2000 parturientas murieron, la mayoría, por fiebre puerperal. Prácticamente una de cada diez. Para comparar y entender cuán grande era este número, en el mundo actual mueren unas 200 mujeres por cada 100.000 nacimientos, 50 veces menos. Si el mundo actual estuviera en la Viena de Semmelweis, por cada 100.000 nacimientos habría 10.000 muertes maternas, no 200.

En 1847, la situación del hospital vienés empeoró aún más: la proporción de muertes se elevó del 10% a casi el 17%. Una de cada seis madres moría en el parto. Los médicos suponían que la fiebre puerperal era algo propio de los partos, natural e imposible de prevenir, y aceptaban resignados esta mortandad. La observación de que la fiebre puerperal afectaba a mujeres perfectamente sanas al internarse en el hospital llevó a Semmelweis a buscar de modo casi obsesivo su causa para establecer cómo prevenirla.

Semmelweis comenzó por imaginar posibles explicaciones.

Tengamos además en mente el contexto histórico: recién unas dos décadas más tarde, la comunidad médica aprendió, a través de los trabajos de Louis Pasteur y otros, que muchas enfermedades eran causadas por microorganismos, lo que permitió formular la teoría de los gérmenes (sí, una teoría científica como la de la evolución). De hecho, los descubrimientos de Semmelweis son antecedentes que condujeron a esa teoría.

Semmelweis pensó varias hipótesis para explicar la fiebre puerperal, algunas de las cuales podrían parecer ridículas a la luz de nuestros conocimientos actuales. Por ejemplo, una proponía que usar ropa demasiado apretada al comienzo del embarazo provocaba “que la materia fecal quedara detenida en el intestino y sus partes pútridas entraran en la sangre”; otra cuestionaba el hecho de que dieran a luz acostadas de espaldas en vez de hacerlo de lado, y otra sostenía que tenían mala predisposición personal, lo que las hacía enfermar y morir. Varias de las hipótesis que imaginó Semmelweis apuntaban a la conducta de las mujeres, algo posiblemente relacionado con el hecho de que todos los obstetras eran varones. La medicina del siglo XIX parece hoy muy primitiva, pero constituía el mejor saber del que disponían los médicos, de cuya autoridad y sabiduría no se dudaba en esos tiempos.

La fiebre puerperal presentaba una curiosa paradoja: las mujeres que daban a luz en sus casas con la ayuda de una partera –lo cual era bastante frecuente– tenían 60 veces menos probabilidad de morir de fiebre puerperal que las que parían en el hospital. ¿Cómo podía ser más peligroso tener un hijo en uno de los mejores hospitales de Europa, con los mejores médicos del momento, que en un colchón sucio de una casa de pueblo y bajo el cuidado de una partera? Incluso las mujeres más pobres que llegaban al hospital con un recién nacido dado a luz en la calle no contraían la infección, mientras que las que se habían internado con anticipación casi invariablemente se enfermaban, especialmente si habían pasado más de 24 horas con dilatación en el ambiente hospitalario.

Estas observaciones hicieron pensar a Semmelweis que había algo diferente en el hospital, y que ese factor hacía más probable que las mujeres enfermaran de fiebre puerperal. Decidió analizar las muertes, para lo que recopiló datos y procuró sacar conclusiones a partir de ellos. Este procedimiento, con un enfoque tan cuantitativo, no se aplicaba todavía casi nunca en la medicina de la época y, si lo pensamos, esta época no fue hace tanto tiempo.

En el hospital, había dos pabellones dedicados a la atención de las parturientas. Cuando Semmelweis analizó detenidamente las estadísticas de muerte materna, algo le llamó la atención: las mujeres atendidas en el pabellón 1 tenían 2,5 veces más probabilidad de morir que las atendidas en el pabellón 2.

¿Qué había de diferente entre ambos pabellones? Las mujeres eran asignadas a los pabellones prácticamente al azar, así que eso no podía explicar la diferencia en la mortandad. Sin embargo, el primer pabellón era atendido íntegramente por médicos y sus estudiantes, todos varones, mientras que el segundo estaba a cargo de parteras y sus aprendices, todas mujeres. Pero, aun teniendo en claro que existía esta diferencia, ¿por qué importaría?

Parecía un callejón sin salida. Desolado, Semmelweis escribió: “Todo estaba en duda, todo parecía inexplicable. Solo la enorme cantidad de muertes era una realidad”. La respuesta llegó de la mano de un trágico accidente: un profesor admirado por Semmelweis murió en 1847 después de que el escalpelo de un estudiante al que guiaba durante una autopsia le hiriera un dedo. Los síntomas y trastornos ocasionados por la enfermedad que le quitó la vida resultaron idénticos a los de las mujeres con fiebre puerperal. Esto levantó en Semmelweis la sospecha de que algo del cadáver que el profesor sometía a autopsia había ingresado en su sangre y provocado la enfermedad. Llamó al hipotético causante partículas cadaverosas. ¿También las mujeres estarían recibiendo en su sangre esas partículas? Volvió a analizar, entonces, la mortalidad materna de los dos pabellones y se dio cuenta de que había algo definitivamente diferente entre ambos: los médicos enseñaban y aprendían anatomía realizando autopsias. Los médicos realizaban autopsias y las parteras no.

Cada paciente muerto, incluidas las mujeres que sucumbían a la fiebre puerperal, era llevado a la sala de autopsias con propósito de enseñanza. Con frecuencia, los médicos iban directamente de la sala de autopsias a atender mujeres en la sala de partos. En el mejor de los casos, entre ambas tareas se lavaban las manos con jabón (recordemos que entonces nadie sabía de la existencia de los gérmenes). Esta circunstancia condujo a Semmelweis a una nueva hipótesis: quizá, los médicos estaban trasladando partículas cadaverosas de un lugar al otro.

Semmelweis puso a prueba su hipótesis mediante un experimento en el que la variable que modificó fue que los médicos se lavaran cuidadosamente las manos y las desinfectaran con lavandina cada vez que terminaban una autopsia y antes de asistir a las parturientas. Casi inmediatamente, la mortalidad del pabellón 1 descendió a los niveles del pabellón 2, el atendido por parteras. En los doce meses siguientes, las medidas de Semmelweis salvaron la vida de unas 300 madres y 250 bebés. En su estructura, el experimento de Semmelweis no era diferente de lo que imaginábamos en el capítulo anterior con el control remoto y el cambio de pilas, aunque en este caso se tratara de cuestiones de vida o muerte.

Semmelweis había intuido que los médicos eran causantes involuntarios de las muertes por fiebre puerperal porque transferían las partículas cadaverosas (hoy hablaríamos de microorganismos infecciosos) desde los cuerpos muertos a las parturientas. Tuvo una intuición, sí, pero no se quedó solo con ella, sino que la puso a prueba. Fueron los resultados los que le demostraron que su intuición era correcta.

“Ninguno de nosotros sabía –se lamentó luego Semmelweis– que éramos los causantes de esto”. Gracias a él y a su minucioso trabajo, finalmente, se pudo controlar la tragedia. No solo eso, sino que con estos descubrimientos nació el lavado de manos como medida preventiva para evitar enfermedades.

El lavado de manos, la disponibilidad de agua potable y las vacunas son hoy las medidas preventivas de salud pública que más vidas siguen salvando. A veces, me llama la atención lo fácil que es que olvidemos esto, pero es comprensible quizás. Después de todo, las vidas salvadas no son evidentes. Nos damos cuenta de que alguien muere. Que haya gente que en otra situación habría muerto no se nota. Sencillamente está viva. Vaya un reconocimiento tardío para Semmelweis, que no lo tuvo en su época.

Si la vida de Semmelweis fuera una película de Hollywood, después de sus luchas y logros, y de las vidas salvadas, se habría transformado en un héroe destinado a la felicidad y el reconocimiento. No fue así. Las medidas tomadas por Semmelweis fueron muy poco populares, y aunque sus resultados eran sólidos y los datos avalaban lo que decía, muchos médicos se rehusaron a aceptar que lavarse las manos pudiera salvar vidas. Un mojón de posverdad en la historia de la medicina: había información, estaba sostenida por evidencias claras conocidas por todos y, aun así, esa información no logró modificar percepciones, ideas ni comportamientos.

Semmelweis hizo muchos enemigos, y en 1849 debió dejar el Hospital General de Viena. Cuando se fue, la mortalidad de parturientas volvió a subir. Continuó trabajando en otros hospitales, pero nunca volvió a su nivel profesional anterior. Años después, en 1879, Pasteur estableció que la fiebre puerperal era provocada por una bacteria del género Streptococcus. Las mujeres que habían dado a luz se infectaban con estreptococos ingresados en su organismo por la herida de la placenta.

Si los médicos no se lavaban las manos, las mujeres morían. Si se lavaban las manos, y no se modificaba más que eso, al ver que entonces morían menos mujeres, podemos concluir que el lavado de manos era la causa de que hubiera menos muertes. Saber que una cosa causa otra no es poco, y por esto, los experimentos son centrales como estrategia para averiguar cuál es la verdad. No es un capricho metodológico, un elemento estético. Es la diferencia entre salvar millones de vidas y no salvarlas.

Lavarse las manos sirve. No da lo mismo. Y lo sabemos por este tipo de evidencias. Esto es algo real, algo que ya no podemos seguir discutiendo (o que podemos volver a discutir si alguien ofrece evidencia más numerosa y robusta que aquella con la que contamos hoy, que es muchísima). Esta es, entonces y en términos prácticos, una verdad.

Estamos de acuerdo en que lavarse las manos es algo maravilloso. Esa es una solución a un problema, pero ¿cómo encaminarnos a encontrar la solución para todas las soluciones? El primer paso está en la estrategia de conseguir evidencias empíricas, sean observacionales o sean experimentales, para averiguar cuál es la verdad. La solución para todas las soluciones comienza en la metodología de la ciencia aplicada a cuestiones que van más allá de lo típicamente científico. Y Semmelweis, sin ser consciente de esto, lo logró para la medicina. Con él, y con el trabajo de otras personas alrededor de la misma época, la medicina empezó a migrar hacia una modalidad basada en evidencias, y no tanto en intuiciones vagas o en tradiciones. La solución para todas las soluciones comienza por tratar de averiguar cuál es la verdad. Pero no alcanza: sabemos que la posverdad puede avanzar incluso cuando la verdad es conocida, así que, además de averiguarla, hay que defenderla.

LA CONFIABILIDAD DE LAS EVIDENCIAS

No toda la evidencia es igual. Las evidencias generan distintos grados de certeza: algunas son más confiables que otras. Aunque los ejemplos que daremos están enfocados en la medicina, el abordaje general es aplicable a otros temas. El camino recorrido por la medicina en esta dirección la vuelve un buen caso de estudio, y puede servir para orientarnos en otras áreas que se beneficiarían de un mayor uso de evidencias, como la comunicación, las políticas públicas o la educación: lo que nos interesa es una metodología que pueda funcionar en otros campos del conocimiento.

Para empezar, ¿cuán confiables son las anécdotas? No demasiado. Muchas veces, las tomamos en cuenta para tomar decisiones. Si compramos leche en un almacén, y después notamos que estaba vencida, posiblemente no volveremos a ese almacén e iremos a otro. Pero no sabemos realmente si en ese almacén son especialmente descuidados respecto de todos los productos, ni si el nuevo almacén es mejor, y mucho menos podríamos justificar ni el cierre del primero ni la habilitación del segundo basándonos en un caso aislado. Si queremos averiguar si un posible medicamento funciona para algo y lo probamos con una sola persona, nunca podremos saber si lo que ocurra se habrá debido al medicamento o a alguna particularidad de esa persona. Estas son evidencias anecdóticas, y son problemáticas. No son una evidencia científica en el sentido de que no se trata de observaciones cuidadosas o experimentos prolijos, sino tan solo de casos al azar que, por los motivos que fuera, justo resultan destacados. Podrían ser ciertas. O podrían no serlo. El medicamento que parece funcionar en una persona podría estar efectivamente funcionando, pero quizá no. Una anécdota no es un dato. Muchas anécdotas tampoco. El plural de anécdota no es datos.

Una encuesta de opinión tampoco nos da datos. Ante eventos que ocurren en el mundo real, ante los hechos, no hay opinión que valga. Uno puede dar su opinión acerca de un hecho, pero el hecho en sí no es opinable, y esta es una distinción importante.

Esto no quiere decir que las opiniones o las anécdotas no sean valiosas. Por el contrario, indican puntos de vista e ideas existentes. Incluso, a partir de ellas podemos generar hipótesis que luego podríamos poner a prueba con mecanismos más sofisticados. Pero, en cuestiones fácticas, no podemos construir argumentos válidos apoyándonos solo en ellas. En todo caso, pueden ser un punto de partida, pero no un punto de llegada. El machacado de corteza de sauce se usó como analgésico por siglos, porque había evidencias anecdóticas de que funcionaba, y se siguió usando por tradición. Al investigar sus componentes, se terminó descubriendo que contenía una sustancia que, efectivamente, es analgésica: el ácido acetilsalicílico, que es con lo que se hacen las aspirinas. Edward Jenner inventó la primera vacuna, contra la viruela, luego de notar que las mujeres que ordeñaban vacas parecían estar protegidas contra la enfermedad (las vacas desarrollan una viruela bovina que no enferma a las personas, pero que puede despertar en ellas una respuesta de defensa que resulta efectiva contra la viruela humana). Estos son ejemplos de anécdotas, o tradiciones, que originaron hipótesis que luego se pusieron a prueba y permitieron generar conocimiento.

En este punto, no puedo evitar notar que, además, estoy seleccionando anécdotas para ilustrar una idea de manera quizá más amable, o para poder contar historias con las que podríamos empatizar. Este es otro uso frecuente de las anécdotas. Como antes, estas anécdotas tampoco son, por sí solas, evidencia de que lo que digo es así. Las anécdotas no suelen servir para generar argumentos válidos, sino, a lo sumo, para ilustrar o ejemplificar algún punto particular que se confirmó con evidencias más confiables.

El problema aparece cuando usamos esas anécdotas o esas encuestas de opinión como si fueran datos que nos permiten tomar decisiones y no con la intención de contar una historia o embellecer una idea. Si alguien refuta nuestra postura con evidencias concretas y confiables, no podemos defendernos diciendo que muchísima gente concuerda con nosotros. La realidad no es un concurso de popularidad.

Pero volvamos a las evidencias obtenidas por metodología científica, como las observaciones y los experimentos, que presentamos en el capítulo anterior. Hagamos foco en otro aspecto que, hasta ahora, habíamos postergado: cómo evaluar la calidad de las evidencias, cómo saber cuánto confiar, a priori, en ellas. Y necesitamos abordar esto porque podemos protegernos de la posverdad mirando no solo si hay o no evidencias, sino cuán confiables son. Agregamos así una capa más de complejidad a la base firme de evidencias.

Veamos el rango más amplio de confiabilidad de evidencias que podría existir. En un extremo, con confianza 0%, digamos, las ideas que no se basan en la experiencia. Básicamente, una lotería en la que se puede acertar o no acertar, y nunca sabremos nada. Esto no es un tipo de evidencia, aun si la percibimos como tal. Del otro extremo, encontramos la verdad absoluta, con un 100% de confianza. Esta verdad, incluso si partimos de que existe, casi nunca es accesible a nuestra metodología empírica y, como venimos planteando, no se relaciona con el tipo de verdad práctica de la que queremos ocuparnos ahora. Podemos decir que la Tierra es un planeta que gira alrededor del Sol, sí. Esto es una certeza desde el punto de vista de la ciencia, pero si nos ponemos puristas –y filosóficos–, no sabemos si no estamos todos viviendo un sueño compartido en la Matrix. Así que, en la práctica, para resolver cuestiones fácticas, nos movemos en un rango de certezas que ignora esos dos extremos de 0% y 100% de confianza. Trataremos de acotar un poco el rango, y ocuparnos de las evidencias débiles y de las evidencias más sólidas, más confiables. Y acá, las cosas vuelven a ser útiles para nuestro propósito de buscar acercarnos a la verdad. Es en esto que, como ciudadanos, debemos entrenarnos: no solo debemos pedir las evidencias que sostienen las afirmaciones de los demás, sino comprender, al menos a grandes rasgos, cuán confiables son. Con este enfoque, no es necesario volvernos expertos en cada disciplina. Eso sería imposible. Lo que sí podemos hacer es aprender a evaluar la calidad de las evidencias disponibles.

En el caso de la medicina, podemos hablar de distintos tipos de evidencia que se ordenan en una jerarquía según su grado de confiabilidad. En esta jerarquía, no descartamos nada: tanto las evidencias débiles como las fuertes son útiles, siempre y cuando tengamos bien claro hasta qué punto podemos confiar en ellas.

Planteemos, para empezar, una pirámide imaginaria: en la base, se ubican las evidencias menos confiables, y en la punta, las más confiables. De esa manera, armamos una jerarquía aplicable al área biomédica en la que ubicaremos únicamente las evidencias obtenidas a partir de seres humanos, y excluiremos así las obtenidas, por ejemplo, con animales de laboratorio o sistemas in vitro, que casi siempre complementan o preceden a las que provienen de seres humanos. A modo de ejemplo, analizaremos el cáncer de pulmón.

Comencemos con los casos clínicos. Esta sería la base de nuestra pirámide de jerarquía de evidencias. Se trata de un análisis de lo que le ocurre a un paciente o a un pequeño grupo de pacientes. Sería la descripción, por ejemplo, de lo que le ocurre a una o pocas personas que tienen cáncer de pulmón. Son casi evidencias anecdóticas. No podemos generalizar demasiado a partir de ellas, pero quizá permitan imaginar alguna hipótesis que podría ponerse a prueba en otra situación.

Luego de los casos clínicos, podemos ubicar algunos tipos de estudios observacionales, es decir, aquellos en los que los investigadores no controlan ninguna variable, sino que se limitan a analizar lo que ocurre en la realidad mediante la recolección de datos y su interpretación. Los más sencillos de todos son los estudios de prevalencia o estudios epidemiológicos, en los que se observa, por ejemplo, la distribución de una enfermedad en un momento dado: “De este grupo de gente, en este lugar y en este momento, ¿cuántas personas tienen cáncer de pulmón?”. Los estudios epidemiológicos no nos dan información respecto de posibles causas. Son como sacar una foto de una situación. Subiendo un nivel más en confiabilidad –y complejidad–, dentro de los estudios observacionales, tenemos los estudios de casos y controles. Estos son estudios epidemiológicos con una particularidad importante: se compara un grupo de pacientes que tiene determinada condición (los casos) con otro que no (los controles) y, además, se mira hacia atrás en el tiempo (son estudios retrospectivos) para entender en qué difieren los dos grupos. Son muy útiles para identificar posibles factores de riesgo de algo. Podemos comparar un grupo de personas con cáncer de pulmón y un grupo de personas sanas, y preguntarnos en qué son distintos. Ahí podría llamar la atención, por ejemplo, que el grupo que tiene la enfermedad tiene también un mayor porcentaje de personas fumadoras. Otros estudios observacionales que dan resultados un poco más confiables son los estudios de cohorte. En este caso, se identifica un grupo de personas (cohorte) y se las sigue en el tiempo (son estudios prospectivos, hacia adelante) para ver cómo distintas exposiciones afectan el resultado. Se suelen usar para ver el efecto de supuestos factores de riesgo que no se pueden controlar experimentalmente. Así, se puede tomar un grupo de gente, identificar quiénes deciden ser fumadores y quiénes no, seguirlos en el tiempo y averiguar si luego hay diferencias en el porcentaje de cáncer de pulmón entre los dos grupos.

Las observaciones son muy útiles para responder preguntas y para generar preguntas nuevas acerca de un determinado problema. Como vimos, el grado de confiabilidad de las evidencias que generan es variable. Si queremos entender si fumar aumenta las probabilidades de sufrir cáncer de pulmón (la pregunta que buscamos responder), los estudios de cohorte dan evidencias más confiables que los de casos y controles, que, a su vez, dan más información que los estudios epidemiológicos básicos, y estos, a su vez, suelen ser más útiles que los casos clínicos.

De cualquier manera, tenemos escalones de confiabilidad todavía mayores. Podemos hacer experimentos en los que el investigador controla las variables. Siempre enfocándonos solo en áreas biomédicas, “por encima” de los estudios observacionales, aparecen los experimentos en humanos. En líneas generales, podemos considerar que un experimento en humanos es más confiable que una observación en humanos. Por supuesto, con el ejemplo del cáncer de pulmón no podemos, por motivos éticos, hacer fumar a algunas personas para ver si desarrollan o no la enfermedad, pero sí se puede hacer algo así con animales de laboratorio o usar otras estrategias. Hacer experimentos en humanos tiene su dificultad metodológica y ética, y discutiremos eso brevemente a continuación.

DE PLACEBOS Y EXPERIMENTOS CON HUMANOS

Desde el ensayo clínico de Lind para combatir el escorbuto hasta los que se realizan ahora, la metodología mejoró muchísimo. Los primeros ensayos clínicos hechos con rigurosidad comenzaron recién a mediados del siglo XX, así que no tenemos ni cien años de utilizar este enfoque.

Estos ensayos son importantes hoy como etapa final para averiguar, por ejemplo, si un medicamento funciona o no. Generalmente, un medicamento se prueba primero en animales de laboratorio y, si se supera esa etapa, se pasa a los ensayos clínicos en seres humanos. Es importante que, en un experimento, podamos comparar distintas cosas. Si estamos probando un posible medicamento nuevo, debemos administrarlo a un grupo de personas (grupo tratado) y a otro no (grupo control). Algo así hizo Lind. Pero, para ser muy cuidadosos, la única diferencia entre los grupos debería ser el medicamento que está siendo puesto a prueba. Así, si se observa una mejoría en el grupo tratado respecto del grupo control, podemos atribuir esa diferencia al medicamento nuevo. Esto nos indicaría una relación causal en la que podemos afirmar que el medicamento nuevo provoca efectivamente una mejoría en los pacientes. Conocer causas es importantísimo en la medicina (y en tantos otros campos).

¿Cómo lograr, en la práctica, dos grupos de personas en los que la única diferencia sea el medicamento experimental? Primero, debemos generar dos grupos iguales de personas. Si las personas jóvenes quedan en un grupo y las más viejas en otro, o si las mujeres van a un grupo y los hombres a otro, los efectos del medicamento que se está poniendo a prueba podrían ser diferentes, pero porque las personas son diferentes, y no por su efecto en sí. Pero, si algo está claro, es que la gente no es igual entre sí. Somos todos diferentes, inclusive los hermanos gemelos, que son clones, genéticamente hablando, pero tienen entre sí muchísimas diferencias, como sabe cualquiera que haya conocido a gemelos. Este problema se resuelve con estadística, no fotocopiando gente. Lo que necesitamos no es dos grupos de clones idénticos, sino dos grupos de personas que, en términos estadísticos, sean iguales entre sí.

Hay varias maneras de solucionar esto. Podríamos, por ejemplo, intentar hacer “a mano” dos grupos estadísticamente iguales: si un grupo tiene una mujer de 25 años, el otro también; si un grupo tiene un varón fumador de 40 años, el otro también, y así. Este enfoque funciona bastante bien desde el punto de vista técnico siempre que se tengan muchos recaudos. El primer inconveniente que salta a la vista es qué variables tener en cuenta. Género y edad parecen evidentes, pero ¿deberíamos también incorporar variables comportamentales o culturales? ¿Importa si alguien es vegetariano, de vida sedentaria, fanático del bádminton, o alcanzó un nivel universitario de educación? Esto puede importar más o menos según la pregunta que intentemos responder. No podemos generalizar. Pero lo que queda claro es que, aun clasificando con cuidado, casi con seguridad caeremos en distintos sesgos de selección. ¿Cómo podemos reducir lo más posible nuestros sesgos? Primero, tengamos en cuenta que, si metemos mano, metemos sesgos. El problema no es solo incorporar sesgos, sino nunca saber cuáles incorporamos y en qué medida afectan nuestros resultados.

Si queremos acercarnos lo más posible a la verdad, tenemos que diseñar y ejecutar procedimientos que no dependan tanto de nosotros, que aporten objetividad a nuestra mirada subjetiva. Una de las maneras de lograr esto es, de nuevo, quizás un poco anti-intuitiva, y se trata de generar grupos de personas al azar, como con un sorteo. Si tenemos un número suficientemente grande de personas, en donde “suficientemente grande” se mide en términos estadísticos, cuando separamos al azar a las personas en grupos, sus diferencias se compensan. Todas sus diferencias se compensan. Así, aleatorizar es una manera de anular las diferencias entre los grupos de personas, incluidas aquellas diferencias que ni siquiera sabemos que existen. Esta idea de generar grupos al azar y “tratar” a uno y dejar al otro como “control” es central para considerar que un diseño experimental es riguroso.

Ya tenemos, entonces, dos grupos estadísticamente iguales de personas. A un grupo, lo trataremos con el medicamento que estamos evaluando, ¿y al otro? Lo obvio sería no darle nada, pero esto no sirve mucho. Como dijimos, las personas somos complicadas. En el ejemplo de la vitamina C, vimos lo fácil que es creer que algo funciona en medicina sin tener pruebas contundentes de que realmente es así. Cuando un chico se lastima, los padres pueden abrazarlo, o quizá ponerle solo un poco de agua fría en donde se golpeó. Eso, muchas veces, es suficiente para que el chico se sienta mejor. A los adultos también nos pasa. Si nos duele la cabeza y tomamos un medicamento que creemos que es para el dolor de cabeza, seguramente nos sentiremos mejor. Una sonrisa o un trato cálido y tranquilo también ayudan a hacernos sentir mejor. Uno de los aspectos más maravillosos de este tipo de ensayos –y quizá de los menos comprendidos todavía– es el hecho de que a veces hay sustancias o procedimientos que no son efectivos realmente, pero nos hacen sentir mejor. A este efecto lo conocemos como efecto placebo.

El efecto placebo es posiblemente uno de los sesgos más estudiados y, quizás, el responsable de que muchos sigan acudiendo a la homeopatía o a la acupuntura a pesar de las repetidas evidencias de que estas prácticas no son más efectivas que un placebo.

Suelo tener muy presente que, en este tipo de cosas, la intuición o la experiencia personal no son muy confiables. Trato de hacerlas a un lado y pensar en qué evidencias me convencerían de algo. Pero aun intentando estar atenta, no lo logro con frecuencia. Muchas veces, se cuelan la intuición o el “a mí me funciona”, y de una manera muy tramposa: si las evidencias terminan confirmando lo que yo ya creía de antes, digo “y, sí, era obvio”, mientras que si no lo hacen, trato de darle vueltas al asunto, busco más evidencias o tardo más en confiar. Estos experimentos, bien diseñados e implementados, con grupos aleatorios y grupos control, dan respuestas mucho más confiables que la experiencia propia, que el amímefuncionismo. Sin embargo, ¡cómo cuesta aceptar esas respuestas cuando se contradicen con lo que pensamos! Es difícil entender que no sabemos algo de igual manera antes y después de tener esas respuestas obtenidas en experimentos cuidados: aun si la respuesta es la misma, en un caso se trata de una idea no confirmada, y en el otro, de una que sí lo está. Pero bueno, incluso teniendo esto claro, habrá veces en las que ninguna evidencia podrá hacernos cambiar de postura. Creo que, si esto ocurre, al menos podemos intentar darnos cuenta de que nos está ocurriendo. Viva la introspección.

No está todavía muy claro cómo se produce el efecto placebo, pero la sensación de mejoría es genuina. Eso no se debe –al menos no solamente– a la imaginación del paciente, sino que hay cambios bioquímicos en el cerebro: se liberan neurotransmisores como dopamina o endorfinas. Enfaticemos esto: estamos hablando de sensación de bienestar, informada de manera subjetiva por el mismo paciente, y no de una cura real en el sentido de que se genere un cambio biológico en el cuerpo. Si solo tenemos una molestia leve, un pequeño dolor de cabeza, dificultad para dormir, etc., un placebo quizá sea suficiente para nosotros. Pero si tenemos enfermedades graves, como un cáncer o incluso una simple infección en una muela, puede ser extremadamente peligroso postergar o descartar la medicina que sí sabemos que es efectiva en pos de tratamientos que podrían hacernos sentir levemente mejor, pero que de ninguna manera afectan el desarrollo de un tumor o el crecimiento de las bacterias.

¿Cómo saber si estamos o no ante un efecto placebo? ¿Cómo saber si un posible medicamento tiene un efecto real más allá del placebo? Recordemos que nuestro propósito es acercarnos a la verdad, y para eso necesitamos pruebas confiables, no impresiones vagas.

Dado que el efecto placebo existe, cuando queremos averiguar si un medicamento funciona o no, el grupo control debe recibir lo mismo que el grupo tratado, y solo deben diferir en aquello que se pone a prueba. Si estamos evaluando un posible analgésico que se administra en un comprimido, entonces el grupo control debe recibir un comprimido idéntico (en forma, tamaño, color, gusto, modo de administración, etc.) que el grupo tratado, pero sin la droga analgésica que se está evaluando. En realidad, no es solo esto. Se demostró en algunas investigaciones que el efecto placebo también depende del entorno, de la amabilidad de quien da el comprimido, etc. Si, al comparar ambos grupos, vemos una mejoría en el grupo tratado respecto del grupo control, podemos concluir que ese medicamento es efectivo. Si los grupos dan resultados idénticos, entonces lo que vemos es solo efecto placebo.

Estos experimentos que tienen al menos dos grupos generados al azar, uno tratado y otro control, se conocen como estudios controlados aleatorizados. Son controlados porque hay grupo control, y son aleatorizados porque los grupos se generaron al azar. En inglés esto se dice randomised controlled trial, que suele abreviarse como RCT. La sigla RCT es de uso relativamente corriente aun en español, y la seguiremos usando aquí.

Para asegurarnos de que el paciente no se “dé cuenta” por la actitud del médico de si le está administrando el comprimido que lleva el placebo o el otro, podemos simplemente no darle esa información al médico tampoco. Esta es una manera de eliminar todavía más la deformación de los resultados por factores ajenos a lo que queremos estudiar. Para lograr esto, se usan sistemas de códigos para que ni el médico ni el paciente sepan si un comprimido tiene el medicamento o el placebo, pero las personas que luego analizan los datos, sin estar en contacto con el médico o el paciente durante la prueba, sí lo saben. A esto se lo llama doble ciego (es doble porque refiere tanto a los pacientes como a los médicos). Inclusive existe un triple ciego, en el que se analizan los resultados sin identificar cuál set de datos corresponden al tratamiento y cuál, al control.

Más allá de qué hace la medicina respecto del efecto placebo, me parece que esto es interesante a otro nivel. El efecto placebo muestra que somos complejos y que la intuición nos puede engañar. Es importante que podamos aceptar esto genuinamente. Así, en la lucha contra la posverdad, si nosotros creemos algo, pero las evidencias nos contradicen, podemos intentar darnos cuenta de lo que nos ocurre y cambiar de postura. Reconocernos como víctimas de algo tan pequeño como un efecto placebo nos puede ayudar a tener la perspectiva que necesitamos para resistir mejor los efectos de la posverdad.

Cuando Lind hizo su ensayo clínico controlado en el que probó distintos tratamientos contra el escorbuto, no había aleatorizado a los marineros ni se trataba de un ensayo doble ciego, pero sin esos comienzos no estaríamos hoy, metodológicamente hablando, donde estamos ahora. Así que gracias, James.

En el campo de la investigación biomédica, los RCT son considerados el tipo de evidencia más confiable. No solo son muy cuidados y muy útiles para eliminar sesgos, sino que nos dan un tipo de información que es muy valiosa para entender la realidad: permiten, con mucha confianza, establecer una relación causal.

Ya discutimos cuestiones metodológicas de los ensayos clínicos. ¿Qué hacemos con los aspectos éticos? Hoy, todo esto está bastante regulado y controlado. Antes de hacer un ensayo clínico, el diseño experimental debe ser aprobado, no por quienes lo llevarán a cabo (podrían sin querer introducir sesgos, o tener sencillamente un conflicto de intereses), sino por un comité externo. Los pacientes que forman parte del ensayo tienen que ser adecuadamente informados respecto de los posibles riesgos, y deben firmar un consentimiento. En los casos en los que ya existe un tratamiento efectivo para una determinada enfermedad o condición, el grupo control, en vez de recibir el placebo, debe recibir ese tratamiento, por razones éticas y porque lo que les interesará luego a los médicos no es tanto saber si el nuevo medicamento experimental funciona o no, sino si funciona mejor que lo que ya está en el mercado.

Por estos motivos, si tenemos un ensayo controlado, aleatorizado y triple ciego, estamos ante la crème de la crème de la investigación en humanos.

Pero claro, esto es un solo ensayo clínico. Para tener mayor certeza de que el resultado es correcto, debería poder ser repetido en otros lugares, por otros investigadores, y con otros pacientes. Si tenemos muchos ensayos clínicos, aleatorizados, doble o triple ciego, que permiten concluir que un determinado medicamento es efectivo y seguro, entonces la certeza aumenta. Notemos que seguimos sin hablar de absolutos, sino que nos movemos exclusivamente en un eje lineal de mayor o menor certeza. Aunque un solo RCT es de altísima confiabilidad, si muchos RCT que estudian lo mismo dan resultados similares, entonces esa confiabilidad es aún mayor.

Pero, como siempre, todo este enfoque de búsqueda de evidencias observacionales o experimentales también puede fallar. Que algo sea muy confiable y dé evidencias poderosas no implica que sea infalible. Incluso sin entrar en fraude o incompetencia, los motivos de las fallas pueden ser metodológicos, es decir, pueden darse al diseñar los estudios, al recolectar los datos, o al interpretar los resultados. A veces, un experimento es repetido y no da los mismos resultados. Algo que funciona en ratas puede no funcionar en humanos. La evidencia que hay sobre algo puede ser incompleta o haber sido obtenida con metodología imperfecta. No hay que desesperar ni pensar que, entonces, nunca podremos saber algo. Estemos dispuestos a aceptar nuestros errores e intentemos corregirlos. Saber es mejor que no saber.

Ahora, ¿qué hacemos si algunos estudios dan un resultado, pero otros estudios los contradicen? Lo que se puede hacer es tomar toda la evidencia disponible sobre un tema y empezar a analizarla desde un punto de vista estadístico y teniendo en cuenta cuán confiable es cada una. ¿Una evidencia proviene de un estudio observacional o de uno experimental? ¿El grupo control del RCT tenía un placebo o no tenía nada? ¿Se trataba de un estudio doble ciego o no? ¿Cuán grandes eran los grupos de personas? Esto permite hacer una especie de “resumen” de lo que dicen las evidencias disponibles hasta el momento, que tiene un mayor poder estadístico que las evidencias por separado. Estos análisis que engloban las evidencias disponibles hasta un momento se conocen como revisiones sistemáticas o metaanálisis, y son considerados la punta de máxima confiabilidad en esta jerarquía de confiabilidad de evidencias del área médica.

Se suele usar el prefijo meta para indicar algo que está un nivel “por arriba” de esa misma categoría. Así como metacognición es la cognición sobre la cognición, un metaanálisis es un análisis sobre el análisis. Es hacer ciencia sobre la ciencia. El “mundo meta” es hermoso.

Los metaanálisis no incorporan información nueva, sino que analizan la información ya existente. Actualmente, la red más conocida de investigadores que se dedican específicamente a hacer esto en medicina es la Colaboración Cochrane, que genera revisiones sistemáticas disponibles para todos los que quieran la información.

Ya discutimos a grandes rasgos qué tipos de evidencias podemos tener y cuán confiable es, en principio, la información que proveen. Veremos a continuación que no todo es tan claro y que, a veces, hay problemas.

NO TODO LO QUE BRILLA ES ORO

Antes de la medicina basada en evidencias, lo único que guiaba a los profesionales de la salud era su experiencia clínica, y era esta experiencia lo que transmitían a sus estudiantes y discípulos.

Sin embargo, y tal como vimos hasta ahora, en la vida real no todo es tan claro ni sigue un orden tan prolijo. La medicina es un buen ejemplo de cómo abordar problemas que son todavía más complejos, como definir políticas públicas realmente efectivas, porque ya tropezó y se levantó varias veces. Así que seguiremos un poco más con la medicina, pero siempre con la intención de que eso nos ayude a identificar problemas y posibles soluciones que podrían surgir de manera similar en otros temas.

Algunas de las dificultades que aparecen en la medicina real tienen que ver con que no siempre la jerarquía de evidencias que planteamos antes puede seguirse a rajatabla. Un estudio de cohorte, bien implementado e interpretado, puede ser más informativo, más útil, que un RCT mal hecho. A veces, ni siquiera tiene sentido, o no es factible, realizar un RCT. Los metaanálisis mismos pueden tener problemas; por ejemplo, si un efecto es real pero no demasiado grande, puede “perderse” en un análisis que tome en cuenta evidencias que provienen de muchos lados diferentes. Esto con respecto a las evidencias mismas, pero también, la medicina se enfrenta a dificultades que tienen que ver con cómo se implementa en la realidad, o con la influencia de grupos interesados que se benefician con una u otra decisión.

En cuanto a las evidencias, vamos con un ejemplo. En 2003, se publicó en la revista The BMJ un trabajo irónico que, más allá del tono en chiste, fue muy leído y citado.

Fue leído y citado, y yo, al nombrarlo acá, estoy colaborando con que eso siga ocurriendo. Una muestra de que lo que más se difunde no es necesariamente lo más relevante, sino –como en este caso– lo que, por algún motivo, llama la atención.

Este trabajo se titulaba “Uso de paracaídas para prevenir la muerte y heridas graves relacionadas con un desafío gravitacional: una revisión sistemática de ensayos controlados aleatorizados”. Como resultado, dijeron: “No pudimos identificar ningún RCT de uso de paracaídas”, a partir de lo cual concluyeron que “los paracaídas no fueron sometidos a una evaluación rigurosa mediante RCT”. Los autores agregaron esto en su “conclusión”: “Los partidarios de la medicina basada en evidencias criticaron la adopción de intervenciones que solo fueron evaluadas mediante datos observacionales. Creemos que todos se beneficiarían si los protagonistas más entusiastas de la medicina basada en evidencias se organizaran y participaran de un ensayo sobre los paracaídas que fuera doble ciego, aleatorizado y controlado por placebo”.

Este “trabajo” es una muestra de algo muy real: no siempre podemos hacer RCT, por lo que, a veces, lo mejor que podremos tener será buenos datos observacionales. Sin embargo, esto no implica concluir que da todo lo mismo y que, entonces, para qué tomarnos el trabajo de exigir evidencias más confiables.

Encontrar los problemas de lo que sostenemos nos ayuda a mejorarlo. La mayor parte de las prácticas médicas no son como los paracaídas, y sí requieren RCT, como sostienen los autores de un trabajo científico realizado en 2018 en respuesta al anterior. El título del artículo, publicado en CMAJ Open, es “La mayor parte de las prácticas médicas no son un paracaídas: un análisis de citas de prácticas que los autores consideran análogas a los paracaídas”.

Los RCT siguen siendo considerados el gold standard de la investigación clínica, pero entender sus limitaciones puede ayudar a no generar falsas expectativas. Que haya un RCT sobre un tema no invalida las evidencias observacionales que pueda haber, ni hace que no sea importante tenerlas en cuenta. Todo puede ser considerado en conjunto. De hecho, si los resultados de ambos enfoques –el observacional y el experimental– son consistentes entre sí, la confianza en que esa sea la respuesta correcta a la pregunta que se plantea se potencia. Entonces, esa confianza es, en cierto modo, “más que la suma de sus partes”. Si un RCT no concuerda con lo que se viene observando por otros métodos, se debe seguir investigando. No es que se descarte lo observacional porque se considere evidencia de “peor” calidad. Por este motivo, además de producir evidencias lo más confiables que sea posible, generalmente se buscan evidencias que provengan de enfoques metodológicos bien distintos.

Esto es central en medicina, y también en nuestra vida cotidiana y en otros ámbitos en los que a veces se invocan evidencias. Cada vez que nos dicen que “se publicó un trabajo que muestra que…”, o que “investigadores de la Universidad de… mostraron que…”, debemos preguntarnos, como mínimo, cuán confiables son esas evidencias y qué dicen las demás evidencias sobre el tema.

Hay muchas situaciones en medicina en las que no podemos, o no debemos, hacer RCT. Por ejemplo, si sospechamos que una sustancia podría ser cancerígena porque se demostró que lo es en experimentos con animales, no haríamos un RCT en seres humanos para ver si el grupo tratado enferma más de cáncer que el grupo control. En el caso de enfermedades o condiciones extremadamente raras, con decenas o a lo sumo centenas de personas afectadas en el mundo, es poco práctico (y poco informativo) hacer un RCT. Especialmente, porque el número de personas en cada grupo sería demasiado pequeño. Para que un RCT dé resultados medianamente confiables, los grupos deben ser bastante grandes, y esto es aún más relevante si la diferencia entre un grupo y otro es muy pequeña. Para enfermedades muy raras, puede ser preferible un buen estudio observacional a un RCT.

Entonces, la jerarquía de evidencias de la que venimos hablando es válida, solo que no podemos tomarla como algo para seguir a ciegas sin tener en cuenta este tipo de cuestiones de contexto. Y mucho, pero mucho menos, podemos considerarla aplicable, sin reflexión alguna, a otros campos del conocimiento más allá de la medicina. Recordemos que hay áreas enteras de la ciencia en las que no podemos hacer RCT (clima, astrofísica, evolución), y no por eso se trata de disciplinas menos “científicas”.

La medicina basada en evidencias permite no solo saber qué funciona y qué no, sino entender riesgos relativos, probabilidades, o si el potencial beneficio de algo es mayor que los riesgos que acarrea.

No es un sistema perfecto ni mucho menos. A veces, se toman decisiones que se basan en evidencia que no es lo suficientemente sólida. Esto es extremadamente frecuente. Otras veces, hay intereses externos, de compañías farmacéuticas, empresas de seguros, etc., que influyen en las decisiones que se toman. El científico John Ioannidis es más extremo, y considera que “la medicina clínica fue transformada en medicina basada en las finanzas”.

Por supuesto, una medicina basada en evidencias que realmente lo sea tiene en cuenta si hay o no suficientes evidencias de calidad y cuida que no haya influencias de grupos interesados. Es indispensable que medicina basada en evidencia no sea solo un rótulo vacío que intenta dar credibilidad, sino que refleje que, realmente, el proceso ocurrió con estándares de calidad adecuados. Mientras somos exigentes con que esto efectivamente ocurra, no nos olvidemos de que las alternativas son todavía menos confiables.

MEDICINA BASADA EN EVIDENCIAS

En este capítulo mostramos cómo las evidencias, que habíamos presentado en el capítulo anterior, impactan en la medicina. Hicimos eso, principalmente, por tres motivos.

Uno: para ilustrar que hay áreas en las que las evidencias son esenciales como cimientos que sostienen lo demás. Hoy, la medicina se nutre de evidencias, pero no se limita a ellas por varias razones. Primero, porque aunque no siempre hay evidencias claras y completas, no es posible postergar la decisión hasta que la haya. Por eso, en la medicina basada en evidencias se decide según las mejores evidencias disponibles. Además, porque más allá de las evidencias, influye la experiencia del médico, su intuición experta, las tradiciones. El ejercicio de la medicina es una mezcla de ciencia y arte, donde debemos demandar evidencias disponibles cada vez de mejor calidad y aceptar que nunca serán suficientes como para excluir al médico y al paciente de la ecuación.

Dos: porque, a veces, la posverdad ataca en temas médicos, como la creencia de algunos grupos en la peligrosidad de las vacunas, la adhesión a tratamientos médicos “alternativos” que no se sabe si son efectivos o se sabe que no lo son, o aun la negación a aceptar que algunos virus o bacterias provocan enfermedades. Esto será retomado más adelante en el libro, pero digamos aquí que la posverdad en medicina pone en riesgo a las personas particulares que creen estas ideas, pero también puede poner en riesgo al resto de la sociedad, por ejemplo, al favorecer la propagación de enfermedades.

Sé que esto es delicado y que, si alguna persona se siente aludida por estas palabras, debe pensar que no sé de qué hablo, que no puedo decirlo así, de manera descuidada y sin fundamentarlo adecuadamente, o que fui engañada o manipulada. Si eso ocurre, le pido a esa persona un poco de paciencia: más adelante intentaré desgranar un poco los mecanismos de posverdad que actúan en estos casos.

Tres: porque hablar de medicina es un buen ejemplo intermedio entre lo que es típico de disciplinas científicas –en las que los mecanismos de generación, validación y aceptación de evidencias son cuidados y aceptados por la comunidad– y lo que ocurre en el “mundo real”, donde los problemas son más complejos y no solo involucran evidencias, sino que aparecen conflictos relacionados con nuestro comportamiento individual y social. Muchos de estos complejos problemas terminan distorsionados por la posverdad, pero no podemos abordarlos sin dejar un poco más en claro el papel de la evidencia.

La mirada histórica sobre la medicina nos puede servir para otros temas en los que la incorporación de evidencias en la toma de decisiones viene siendo más lenta. Por ejemplo, cuando un Estado decide qué hacer respecto de la salud, educación, seguridad, etc. –lo que se conoce en conjunto como políticas públicas–, muchas veces se basa en tradiciones, intuiciones, evidencias anecdóticas o, incluso, responde a la influencia de grupos de interés. Las políticas públicas se definen, supuestamente, para mejorar la vida de los ciudadanos, pero al no incorporar las evidencias de si funcionan o no, es difícil evaluar si son realmente efectivas en cuanto a lograr lo que se proponen. En políticas públicas, es como si todavía estuviéramos como la medicina en el siglo XVIII: unos pequeños intentos acá y allá para lograr averiguar si lo que se hace efectivamente funciona, perdidos en medio de decisiones que se toman de otro modo.

¿Cómo podemos evaluar si una afirmación médica está respaldada por evidencia? ¿A qué deberíamos prestarle atención? Llegó el momento de presentar la segunda Guía de Supervivencia de Bolsillo, que esta vez busca orientarnos en qué preguntas podríamos hacernos para saber si confiar o no en una afirmación médica.

Así, agregamos a nuestra caja de herramientas una nueva serie de preguntas aptas para cualquier tema médico, más allá de cuán expertos seamos o no en ese tema particular. Las herramientas de nuestras Guías de Supervivencia no intentan conocer más de cada disciplina, sino ser conscientes de los procesos y mecanismos de validación que hay detrás de ellas.

Como decíamos, este enfoque puede aplicarse a cualquier cuestión fáctica, y lo que les ocurre a los ciudadanos es algo fáctico. Ya llegaremos a eso e incluiremos la complejidad que viene con la posverdad. Pero, por ahora, incorporamos a nuestra caja estas nuevas herramientas, relacionadas con la medicina, y seguimos adelante para abordar el problema del consenso de las evidencias y la incerteza que traen aparejadas.

GUÍA DE SUPERVIVENCIA DE BOLSILLO N° 2
¿Cómo decidir si confiar o no en una afirmación médica?

1. ¿La afirmación médica está respaldada por evidencias (observacionales y/o experimentales)?

2. ¿Pueden influir otros factores como las tradiciones o las evidencias anecdóticas?

3. Según la jerarquía de evidencias, ¿las evidencias son de “buena calidad” (por ejemplo, ensayos clínicos o metaanálisis)?

4. ¿Las distintas evidencias concuerdan a grandes rasgos entre sí?

5. ¿La afirmación concuerda con las evidencias de “buena calidad” o las contradice?

6. Si la evidencia no es decisiva en ninguna dirección, ¿puede ser que la decisión médica esté influida por opiniones o intereses de otro tipo? ¿Cuales? ¿Compartimos esas opiniones?