La investigación en medicina Bases teóricas y prácticas Elementos de Bioestadística
La investigación en medicina Bases teóricas y prácticas Elementos de Bioestadística
Ricardo J. Esper
Rogelio A. Machado
Profesor Titular de Medicina, Universidad de Buenos Aires. Profesor Titular de Cardiología, Universidad del Salvador, Buenos Aires. Consultor en Cardiología, Hospital Militar Central, Buenos Aires. Ex-Presidente, Sociedad Argentina de Cardiología. Ex-Presidente, Fundación Cardiológica Argentina. Ex-Presidente, InterAmerican Heart Foundation, Dallas, Texas, USA. Ex-InterAmerica Representative, Executive Board, World Heart Federation, Ginebra, Suiza. Fellow, American College of Cardiology. Fellow, American Heart
Profesor Titular de Semiología Cardiovascular y Ecocardiografía, Carrera de Cardiología, Universidad del Salvador, Buenos Aires. Docente de Bioestadística, Carrera de Cardiología, Universidad del Salvador. Departamento Cardiovascular, Servicio de Cardiología, Hospital Militar Central, Buenos Aires. Jefe Laboratorio de Ecocardiografía, Hospital Fancés, Buenos Aires. Miembro Titular, Sociedad Argentina de Cardiología.
Association
Esper, Ricardo La investigación en medicina: bases teóricas y prácticas. Elementos de bioestadística / Ricardo Esper y Rogelio Machado. - 1ª ed. - Buenos Aires: La Prensa Médica Argentina, 2008. 360 p.; 25 x 18 cm.
ISBN 978-950-9250-25-3
1. Investigación en Medicina 2. Bioestadística. I. Machado, Rogelio. II. Título. CDD 610.7
© 2008, Prensa Médica Argentina ISBN 978-950-9250-25-3 Queda hecho el depósito que marca la ley 11723. Libro de edición argentina Impreso en la Argentina Printed in Argentina
Impreso en mayo de 2008, en Ghione Impresores S. R. L. Gaebeler 602-618, Lanús Oeste
[email protected] A Alcira, Andrea y Claudia A Isabel, Sole y Santi
Índice
Prólogo: Investigar y comunicar: habilidades esenciales del médico Prefacio Co-autores
11 13 15
I. La Investigación en el campo de la Medicina
19
Guillermo Jaim Etcheverry
Capítulo 1. El conocimiento. Conocimiento humano e investigación. El método científico. Fuentes del conocimiento: observación y experimentación. Inducción y deducción. Teorías e hipótesis. Prueba de una hipótesis. Los métodos en las ciencias de la naturaleza. Patricio F. Jacovella, Raúl A. Borracci, Rodolfo J. Giuliano Capítulo 2. Leyes Científicas. Extensiones y límites del conocimiento científico Rodolfo J. Giuliano
30
II. Comunicación de los Resultados
37
Capítulo 3. Como escribir un manuscrito para su publicación Andreas Wielgosz Capítulo 4. La revista científica: criterios editoriales para evaluación de artículos médicos. Enrique Fisman y Alexander Tenenbaum Capítulo 5. ¿Qué es y como se elabora una monografía científica? Daniel J. Piñeiro Capítulo 6. ¿Qué es un trabajo de Tesis de Doctorado? Roberto E. P. Sica Capítulo 7. La comunicación oral de la investigación científica. Una herramienta para transmitir conocimiento. Ricardo J. Esper y Antonio Paragano
III. Desarrolos Modernos en las Ciencias Médicas Capítulo 8. Capítulo 9.
Metaanálisis Luis Alcocer ¿Qué es la cardiología basada en la evidencia? Salim Yusuf y Rafael Díaz [ 9 ]
21
39
45 51 58
75 89
91 105
IV. Análisis del Conocimiento y Herramientas para su Validación Capítulo 10. Lectura crítica de la literatura científica. Daniel Fernández-Bergés y Antonio Paragano Capítulo 11. Delimitación de un área de investigación. Análisis de los conocimientos existentes y elaboración de nuevas cuestiones. Eduardo B. Arribalzaga Capítulo 12. Comité de Ética e Investigación Clínica. Luis María Ziehr, Rubén F. Iannantuono, José Luis Cacharrón
V. El médico como Docente y Comunicador Público Capítulo 13. Investigación en Educación Médica. Alberto Alvés de Lima Capítulo 14. Cómo hablar con los medios. El supermercado de la salud. Nora Bär
VI. Elementos de Bioestadística Referencias 1. Introducción 2. Conceptos básicos 3. Frecuencia y probabilidad de un suceso 4. Distribuciones de probabilidades 5. Muestreo. El desvío estándar de la media o error estándar 6. Inferencia estadística 7. Comparaciones entre dos medias muestrales. La distribución t 8. Comparaciones entre proporciones 9. Correlación y regresión 10. Análisis de la varianza 11. Regresión múltiple 12. Regresión logística 13. Métodos no paramétricos 14. Pruebas diagnósticas 15. Análisis de la sobrevida 16. Enfermedades en las poblaciones
[ 10 ]
121
123
143 155 165
167 175 181 182 185 187 201 209 226 232 250 257 268 284 294 304 313 321 336 344
Prólogo Investigar y comunicar: habilidades esenciales del médico
U
no de los aportes fundamentales de los médicos a la disciplina que cultivan es el de generar nuevos conocimientos. En esta tarea se refleja su capacidad intelectual para descubrir nuevas regularidades en la naturaleza pero ella también depende, en no menor medida, de la técnica que pone al servicio de una observación rigurosa. Es entonces cuando interviene su habilidad para comunicar lo que ha encontrado, interactuando con sus colegas en ese proceso dialéctico en el que se sustenta el avance científico. En términos más generales, la actividad del médico está estrechamente relacionada con su capacidad para comunicarse con pacientes, familiares y colegas. Por eso, dicha habilidad debería constituir uno de los objetivos esenciales de todo programa de formación profesional. Lamentablemente, esto no es así ya que se considera que la capacidad de comunicación no requiere entrenamiento para su desarrollo. De esta manera advertimos que muchos profesionales que carecen de esa habilidad, debido a su educación previa o al ámbito en el que se desenvolvieron, encuentran serias dificultades en el ejercicio de su actividad cotidiana. Vinculado a esa dificultad en la comunicación está el desafío que enfrentan los médicos cuando se ven obligados a presentar, tanto de manera oral como escrita, los resultados de sus investigaciones experimentales o clínicas. En estas ocasiones quedan también en evidencia las dificultades de todo tipo que acechan a los profesionales quienes, en la mayor parte de los casos, no han sido debidamente preparados para realizar una lectura crítica de los resultados de las investigaciones realizadas por otros, carecen de las herramientas estadísticas esenciales como para poder llegar a conclusiones válidas a partir de sus propias observaciones o experiencias y no manejan las técnicas que les permitan comunicar sus hallazgos a sus colegas. Las instituciones educativas, tanto durante la formación de grado como en el posgrado, dedican escasos esfuerzos a dotar de esas herramientas esenciales a sus alumnos, en aquellos contados casos en los que lo hacen. Ese importante vacío es el que viene a ocupar esta interesante obra de los Profesores Ricardo Esper y Rogelio Machado quienes, recurriendo a la colaboración de destacados especialistas locales y extranjeros, encaran prácticamente todas las cuestiones de interés para quien se proponga investigar en el campo de la medicina y, sobre todo, comunicar a otros el resultado de su labor. Varios capítulos generales se ocupan de analizar la naturaleza del método científico y el carácter de las leyes así como de la formulación clara de las cuestiones que serán motivo de estudio. Se jerarquiza la recolección de información acerca del conocimiento [ 11 ]
existente sobre un determinado problema como paso previo a la elaboración de nuevas hipótesis a ser investigadas. La lectura crítica de las publicaciones científicas, requisito imprescindible para quien intenta realizar un nuevo aporte al conocimiento, es motivo de especial análisis. Uno de los rasgos fundamentales de este libro reside en la completa y ágil descripción de los elementos básicos de la bioestadística, cuyo dominio resulta imprescindible ya que en sus técnicas se basa cualquier análisis serio de los hallazgos de la investigación científica. En lo que respecta a la comunicación de los resultados, se describe la manera de encarar la redacción de un manuscrito para ser publicado así como las expectativas de los editores de las revistas en las que se realizará esa publicación. También se analizan los procedimientos apropiados para redactar una monografía o enfrentar la nada sencilla tarea de planear, llevar a cabo y presentar una tesis de doctorado. No se descuida tampoco el importante aspecto de la exposición oral de los resultados y se describe el aporte que a su difusión realizan las nuevas tecnologías de la comunicación y la información. Especial atención se presta en el libro a la naturaleza de los distintos tipos de ensayos clínicos así como a las técnicas empleadas para su evaluación individual y de conjunto, como es el caso de los meta-análisis, atendiendo también a la presentación del importante movimiento conceptual generado en la medicina contemporánea a partir de los resultados de los estudios clínicos: la medicina basada en la evidencia. El hecho de que la actividad del médico esté íntimamente ligada a su vocación de compartir con los demás sus conocimientos, hace que la labor docente resulte inseparable de la tarea asistencial o de investigación. Por este motivo, se ha incluido un capítulo dedicado al estudio de las técnicas que permiten realizar investigaciones en el campo de la educación médica y compartirlas con los colegas luego de someter a un análisis riguroso los resultados obtenidos mediante las innovaciones educativas. Asimismo, puesto que la interacción del médico con la sociedad ha adquirido una creciente importancia en las últimas décadas, se justifica ampliamente la inclusión de un capítulo sobre el periodismo médico ya que esa relación con la prensa masiva no hará sino incrementarse en el futuro, cimentando así un vínculo que es hoy esencial para la medicina en sus actividades de prevención, diagnóstico, tratamiento y rehabilitación. En síntesis, es esta una obra oportuna que brindará una eficaz compañía a los profesionales que aspiren a realizar tareas de investigación y comunicar sus resultados de manera apropiada. Por la trascendencia de los temas que aborda así como por los conocimientos y experiencia de quienes los desarrollan, este manual sobre la investigación en medicina, está llamado a convertirse en una herramienta indispensable para los médicos y otros profesionales de la salud que quieran internarse por el apasionante sendero que siempre representa la búsqueda de nuevos conocimientos. Guillermo Jaim Etcheverry Profesor Titular de Biología Celular e Histología, Facultad de Medicina, Universidad de Buenos Aires. Ex-Decano, Facultad de Medicina, Universidad de Buenos Aires. Rector, Universidad de Buenos Aires, 2002 - 2006
[ 12 ]
Prefacio Tu verdad? No, la Verdad, y ven conmigo a buscarla… Antonio Machado. Proverbios y Cantares
E
l continuo crecimiento de las áreas de interés de la medicina y el vertiginoso incremento de sus recursos técnicos y metodológicos, tanto en lo relativo a las ciencias básicas como en lo que concierne a la medicina asistencial, han aumentado manifiestamente la complejidad de la investigación médica en las últimas décadas. En tal sentido, el auge de los estudios clínicos aleatorizados, los grandes estudios conjuntos o mega ensayos, el metanálisis, el concepto aceptado universalmente de “basarse en la evidencia,” y el notable desarrollo de los métodos y modelos de la estadística, son algunos de los factores que, juntamente con los avances tecnológicos y un intercambio y difusión cada vez más activos de los conocimientos entre todos los estratos de la sociedad, han situado a la investigación en un escenario dominante dentro del quehacer médico. En relación con esto, el desarrollo de las hipótesis de trabajo a través de la selección del material y los métodos adecuados, el tratamiento estadístico de los resultados y su interpretación, su discusión y, por último, la obtención de conclusiones, reconocen y en general se atienen, a lineamientos generales bien establecidos y a requisitos, tanto teóricos como formales, aceptados por la comunidad científica. Estos lineamientos y directrices, que no pretenden restringir la iniciativa y creatividad de los investigadores, tienden sin embargo a respaldar la validez general de los trabajos y a asegurar su comunicación exitosa y su integración al extenso y creciente bagaje de los conocimientos de la medicina actual. Así, desde la búsqueda de la información preexistente hasta la redacción final de un trabajo para su sometimiento a la aprobación por pares para su publicación, es conveniente que en cada una de las etapas en su elaboración, sean utilizados los criterios más adecuados y las técnicas más eficaces, para poder así contener y dar forma a los hallazgos realizados y a las ideas de los autores. Este texto reconoce entre sus antecedentes, la reiterada comprobación por parte de los editores, del aumento del número de las consultas que han venido recibiendo a diario de parte de los médicos más jóvenes, en particular residentes y cardiólogos en el inicio de sus carreras, respecto de la forma de encarar la lectura y la interpretación de los trabajos científicos y, además, acerca del modo de dar forma y llevar a cabo esfuerzos de investigación originales. Esta última inquietud, motivada generalmente por una afinidad individual con este tipo de tareas, está también, muchas veces, estimulada por las exigencias crecientes de los diversos ámbitos del quehacer médico, no solamente las universidades sino también los hospitales, las sociedades médicas y la propia comunidad, que más que nunca se interesa por la fundamen[ 13 ]
tación y la solidez de las propuestas que la medicina le ofrece a sus integrantes. Hemos podido comprobar que, junto con el número, ha aumentado también la complejidad de las preguntas dirigidas al médico con mayor experiencia. Esto es particularmente evidente cuando las consultas se orientan hacia aspectos particulares como, por ejemplo, la interpretación del diseño de estudios clínicos de cierta complejidad, las posibilidades y limitaciones de los distintos modelos de análisis estadístico aplicado, y la lacitud de extender las conclusiones a distintas poblaciones. Esta mayor necesidad de acceder a los niveles en los que se funda la obtención del conocimiento en medicina, muy ostensible en los médicos jóvenes, es probablemente un fenómeno de validez general que abarca a toda la comunidad de los integrantes de las ciencias médicas. Los grandes avances de la medicina, facilitados por los avances tecnológicos y fundados en importantes desarrollos teóricos, no hacen más que reforzar el interés general por los aspectos básicos de la investigación médica. Para el presente texto, los editores han solicitado y han tenido el privilegio de obtener, la colaboración de un conjunto de personalidades de las ciencias médicas internacionalmente reconocidas, que han permitido iluminar desde varios ángulos las ilimitadas facetas de ese todo que es la investigación científica en el campo de la medicina. De ellos es el mérito de la obra, y a ellos se dirige el agradecimiento de los editores, a quienes por su parte, les ha tocado organizar los capítulos de manera de permitir desplegar en forma sucesiva los diferentes escenarios propuestos por los autores. Llegue también nuestro agradecimiento a los colegas y amigos que, de una u otra forma, nos ayudaron en la concreción del trabajo, y a los Dres. Juan Carlos y Sebastián Bagó, cuyo apoyo resultó esencial para su llegada a buen puerto. Los elementos de bioestadística compilados al final de la obra hallan su justificación en el deseo de los editores de invitar al lector ajeno a la materia, a transponer los umbrales de una disciplina tan imprescindible como en general poco familiar para el médico que no ha tenido un acercamiento previo a sus ideas y métodos. Los editores esperan que el producto de su trabajo pueda ser de alguna utilidad para aquellos que se hallan comprometidos con la investigación en medicina, y que la lectura del libro les proporcione al menos una parte del placer que ellos han tenido en elaborarlo. Y recuerde el lector que para ser exitoso no tiene que hacer cosas extraordinarias, simplemente hacer cosas ordinarias, pero extraordinariamente bien. Ricardo J. Esper Rogelio A. Machado
[ 14 ]
Co-autores
Luis Alcocer Jefe del Servicio de Cardiología del Hospital General de México. Profesor Titular de Medicina (Cardiología) y del Curso de Especialización en Cardiología, Facultad de Medicina, Universidad Nacional Autónoma de México. Investigador Titular de los Hospitales de Referencia e Institutos Nacionales de Salud de México.
Alberto Alvés de Lima Director de Capacitacion, Instituto Cardiovascular de Buenos Aires. Co-Director, Carrera de Especialista en Cardiología, Universidad de Buenos Aires. Profesor Adjunto de Medicina, Universidad del Salvador, Buenos Aires. Master en Educación Médica, Universidad de Maastricht, Holanda
Eduardo Benigno Arribalzaga Profesor Regular Adjunto de Cirugía, Universidad de Buenos Aires. Profesor Titular de Bioestadística, Universidad Austral, Buenos Aires. Profesor Titular de Bioética y Humanismo Médico y Profesor Titular de Metodología de la Investigación, Universidad de Ciencias Empresariales y Sociales. Editor Jefe, Revista Argentina de Cirugía. Secretario de Redacción, Archivos de Bronconeumonología, España.
Nora Bär Periodista científica. Editora de la Sección Ciencia y Salud del diario La Nación. Miembro de la Academia Nacional de Periodismo.
Raúl Alfredo Borraci Magíster, Biología Molecular, Fundación Favaloro – INGEBI. Profesor Invitado, Metodología de la Investigación, Escuela de Medicina, UCES. Coordinador, Curso Anual de Postgrado, Asociación Argentina de Cirugía. Coordinador, Metodología y Estadística, Curso de Especialista en Cardiología UBA-SAC. Director Asistente, Comité Editorial, Revista Argentina de Cardiología. Director, Area de Investigación, Sociedad Argentina de Cardiología. Coordinador, Comité de Bioética, Sociedad Argentina de Cardiología
José Luis Cacharrón Médico Especialista en Cardiología. Jefe, Sección Eco-Doppler Cardíaco, Policlínica Bancaria. Docente, Cátedra de Farmacología, Facultad de Medicina, Universidad de Buenos Aires. Profesor Adjunto de Farmacología, Carrera de Cardiología, Universidad del Salvador, Buenos Aires.
[ 15 ]
Rafael Díaz Instituto Cardiovascular de Rosario. ECLA Argentina
Ricardo Jorge Esper Profesor Titular de Medicina, Universidad de Buenos Aires. Profesor Titular de Cardiología, Universidad del Salvador, Buenos Aires. Consultor en Cardiología, Hospital Militar Central, Buenos Aires . Ex-Presidente, Sociedad Argentina de Cardiología. Ex-Presidente, Fundación Cardiológica Argentina. Ex-Presidente, InterAmerican Heart Foundation, Dallas, Texas, USA. Ex-InterAmerica Representative, Executive Board, World Heart Federation, Ginebra, Suiza. Fellow, American College of Cardiology. Fellow, American Heart Association
Daniel Fernández-Bergés Doctor en Medicina, Universidad Complutense de Madrid, España. Médico Cardiólogo Universitario, Universidad del Salvador, Buenos Aires, Argentina. Médico Cardiólogo Adjunto, Sección de Cardiología, Departamento de Medicina Interna, Hospital Don Benito Villanueva, Badajoz, España. Presidente, Comisión de Investigación de la Sociedad Extremeña de Hipertensión Arterial y Otros Factores de Riesgo Cardiovascular. Miembro, Grupo Técnico de Cardiopatía Isquémica del Plan Integral de Enfermedades Cardiovasculares de Extremadura.
Enrique Fisman Profesor de Cardiología, Facultad de Medicina Sackler, Universidad de Tel-Aviv, Tel-Aviv, Israel. Profesor Honorario de Cardiología, Facultad de Medicina, Universidad del Salvador, Buenos Aires, Argentina. Presidente, Fundación de Investigación en Diabetología Cardiovascular, Holon, Israel. Editor en Jefe, Cardiovascular Diabetology, Londres, Gran Bretaña
Rodolfo José Giuliano Médico Tocoginecólogo. Jefe de la Unidad Alto Riesgo Obstétrico del Hospital de Clínicas “José de San Martín”, Buenos Aires. Profesor Regular Adjunto, Bioética y Humanismo Médico. UCES. Universidad de Ciencias Empresariales y Sociales, Buenos Aires. Director, Escuela de obstetricia - FASGO: Federación Argentina de Sociedades de Ginecología y Obstetricia
Rubén F. Iannantuono Vicepresidente 1º, Comité Independiente de Etica para Ensayos en Farmacología Clínica de la Fundación de Estudios Farmacológicos y de Medicamentos (FEFyM). Docente Adscripto de Farmacología, Facultad de Medicina, Universidad de Buenos Aires. Ex Subdirector, Carrera de Médico Especialista en Farmacología, Facultad de Medicina, Universidad de Buenos Aires.
Patricio Fernando Jacovella Profesor, Universidad de Belgrano. Subdirector, Carrera de especialista en Cirugia Plástica, Unidad academica Clínicas.
Rogelio Alberto Machado Profesor Titular de Semiología Cardiovascular y Ecocardiografía, Carrera de Cardiología, Universidad del Salvador, Buenos Aires. Docente de Bioestadística, Carrera de Cardiología, Universidad del Salvador. Departamento Cardiovascular, Servicio de Cardiología, Hospital Militar Central, Buenos Aires. Jefe Laboratorio de Ecocardiografía, Hospital Fancés, Buenos Aires. Miembro Titular, Sociedad Argentina de Cardiología.
[ 16 ]
Antonio Paragano Cardiólogo Universitario, Universidad de Buenos Aires. Médico, Internación y Unidad Coronaria, Departamento Cardiovascular, Servicio de Cardiología, Hospital Militar Central, Buenos Aires. Instructor de Residencia en Cardiología, Departamento Cardiovascular, Servicio de Cardiología, Hospital Militar Central, Buenos Aires. Miembro, Comité Institucional de Revisión de Ensayos Clínicos (CIREC), Hospital Militar Central, Buenos Aires. Docente, Carrera de Cardiología, Universidad del Salvador, Buenos Aires. Docente, Facultad de Medicina, Universidad de Buenos Aires. Miembro Adherente, Sociedad Argentina de Cardiología.
Daniel José Piñeiro Profesor Titular Regular de Medicina Interna, Universidad de Buenos Aires. Vicepresidente de la Sociedad Interamericana de Cardiología (2007-2008). Médico del Hospital de Clínicas “José de san Martín”, Universidad de Buenos Aires. Ex-presidente de la Sociedad Argentina de Cardiología (2005)
Roberto Ernesto Pedro Sica Profesor Titular Consulto de Neurología. Facultad de Medicina. Universidad de Buenos Aires. Jefe, División Neurología. Hospital Ramos Mejía Buenos Aires. Responsable de la Secretaría de Ciencia y Técnica. Facultad de Medicina. Universidad de Buenos Aires.
Alexander Tenenbaum Profesor Asociado de Cardiología, Facultad de Medicina Sackler, Universidad de Tel-Aviv, Tel-Aviv, Israel. Secretario General, Fundación de Investigación en Diabetología Cardiovascular, Holon, Israel. Editor en Jefe, Cardiovascular Diabetology, Londres, Gran Bretaña. Director de Investigación, Instituto de Rehabilitación Cardíaca, Centro Médico Sheba, Tel-Hashomer, Israel.
Andreas Wielgosz MSc, MD, PhD. Professor of Medicine and Community Medicine & Epidemiology. University of Ottawa, Ontario, Cánada. Editor-in-Chief, Prevention and Control. Official Journal of the World Heart Federation, Ginebra, Suiza.
Luis María Ziehr Presidente, Comité Independiente de Etica para Ensayos en Farmacología Clínica de la Fundación de Estudios Farmacológicos y de Medicamentos (FEFyM). Director, Carrera de Médico Especialista en Farmacología, Facultad de Medicina, Universidad de Buenos Aires. Ex Profesor Titular de Farmacología, Facultad de Medicina, Universidad de Buenos Aires.
Salim Yusuf Heart and Stroke Foundation of Ontario Research Chair, Ontario, Canada. Senior Scientist of the Canadian Institute of Health Research. Director of Cardiology and Professor of Medicine, McMaster University, Hamilton Health Sciences, Hamilton, Canada.
[ 17 ]
I. La Investigación en el campo de la Medicina
El conocimiento Capítulo 1
Conocimiento humano e investigación. El método científico. Fuentes del conocimiento: observación y experimentación. Inducción y deducción. Teorías e hipótesis. Prueba de una hipótesis. Los métodos en las ciencias de la naturaleza.
Patricio F. Jacovella,
Raúl A. Borracci,
Rodolfo J. Giuliano
1. El conocimiento Es importante diferenciar los conceptos de conocimiento e información. Conocimiento es lo que se sabe. Cuando el conocimiento permite tomar decisiones se transforma en información. Para resolver problemas en medicina es necesario tener acceso a la información y procesarla adecuadamente.1,2 La epistemología es un rama de la filosofía que se encarga de los problemas que rodean a la teoría del conocimiento. Sus principales problemas son la posibilidad del conocimiento, su origen o fundamento, su esencia o trascendencia y el criterio de verdad. 3 Todo conocimiento es una relación entre el sujeto que conoce y el objeto que es conocido. La relación de un determinado conocimiento no puede estudiarse dejando de lado al sujeto y al objeto. La epistemología como ciencia, estudia la relación entre el sujeto y el objeto y todos los problemas que esa relación plantea.
2. La ciencia La ciencia es el conocimiento ordenado y mediato de los seres y sus propiedades por medio de sus causas. El saber científico no aspira a conocer las cosas superficialmente, sino que pretende entender sus causas, porque de esa manera se comprenden mejor sus efectos. Se distingue del conocimiento espontáneo por su orden metódico, su sistema y su carácter mediato. Para conocer las cosas a fondo es necesario utilizar la razón y observar más detenidamente los procesos. Las características de dedicación ordenada, constante y metódica diferencian al conocimiento científico del común. La ciencia es descriptiva, explicativa, definitoria, etc., investiga qué son las cosas, como actúan, cómo se relacionan, cuándo, cómo, dónde, por qué. La ciencia es un conjunto de [ 21 ]
conceptos y propiedades que convergen en un objeto, y que contiene datos, explicaciones, principios generales y demostraciones acerca de éste. Las ciencias pretenden establecer leyes basadas en conceptos generales, en las características en común de las cosas y en lo que se repite en los fenómenos. La filosofía busca conocer los principios más profundos de las cosas, mientras que las ciencias particulares buscan las causas más próximas. Se puede concluir entonces que la ciencia es el conjunto unificado de conocimientos e investigaciones, de carácter objetivo, acerca de las relaciones entre los hechos, que se descubren gradualmente y que se confirman por métodos de verificación definidos.
3. El conocimiento científico El conocimiento científico es un saber crítico, fundamentado, metódico, verificable, sistemático, unificado, ordenado, universal, objetivo, comunicable (por medio del lenguaje científico), racional, provisorio y que explica y predice hechos por medio de leyes.2-4 El conocimiento científico es crítico porque intenta distinguir lo verdadero de lo fa1so. Se distingue por justificar sus conocimientos y dar pruebas de sus verdades. Al demostrar que es cierto, queda fundamentado. El investigador sigue procedimientos planificados según un orden y un método. Fundamenta sus conocimientos mediante observación, investigación y prueba. De esta manera la investigación científica es planificada. Se considera verificable ya que siguiendo los pasos descriptos en un trabajo científico, otro investigador puede reproducir la experiencia. Es sistemático porque en cada etapa, los nuevos conocimientos se integran al sistema, relacionándose con los que ya existían. Es un saber unificado porque no busca un conocimiento de lo singular y concreto, sino el conocimiento de lo general y abstracto, o sea aquello que las cosas tienen de idéntico y permanente. Es universal porque es válido para todas las personas sin reconocer fronteras ni determinaciones de ningún tipo, no varía con las diferentes culturas. Es objetivo porque es válido para todos los individuos y no solamente para uno determinado. Es de valor general y no de valor singular o individual. Pretende conocer la realidad tal como es, y la garantía de esta objetividad son sus técnicas y sus métodos de investigación y prueba. Es comunicable mediante el lenguaje científico, que es preciso, comprensible para cualquier sujeto capacitado, quien podrá obtener los elementos necesarios para comprobar la validez de las teorías en sus aspectos lógicos y verificables. Es racional porque la ciencia conoce las cosas mediante el uso de la inteligencia, de la razón. El conocimiento científico es provisorio porque la tarea de la ciencia no se detiene, prosigue sus investigaciones con el fin de comprender mejor la realidad. La búsqueda de la verdad es una tarea abierta. La ciencia explica la realidad mediante leyes, que son las relaciones constantes y necesa[ 22 ]
rias entre los hechos. Son proposiciones universales que establecen en qué condiciones sucede determinado hecho, por medio de ellas se comprenden hechos particulares. También permiten adelantarse a los sucesos, predecirlos. Las explicaciones de los hechos son racionales, obtenidas por medio de la observación y la experimentación. En síntesis se pude decir que la ciencia busca explicar la realidad mediante leyes que permiten predicciones y aplicaciones prácticas mediante tecnología. El conocimiento científico es un saber objetivo que se estructura en sistemas verificables, obtenidos mediante métodos específicos (método científico) y comunicados en un lenguaje propio con reglas precisas.
4. El método científico Se puede definir investigación como un sistema de actividades intelectuales y manuales destinado a la producción de información, con el fin de resolver problemas. En las ciencias, se aceptan informaciones que han sido producidas bajo un conjunto de normas mundialmente aceptadas. Al conjunto de normas se lo conoce como método científico. La metodología de investigación es una disciplina derivada de la lógica y tiene como objeto de estudio el sistema de normas llamado método científico.4 Se puede concluir que método o proceso científico es un conjunto de prácticas utilizadas y ratificadas por la comunidad científica como válidas a la hora de proceder con el fin de exponer y confirmar sus teorías. Las teorías científicas, destinadas a explicar de alguna manera los fenómenos que observamos, pueden apoyarse o no en experimentos que certifiquen su validez. 4.1. Etapas del método científico: 1) Observación: es la aplicación de los sentidos a un objeto o fenómeno, para estudiarlos tal como se presentan en la realidad. El primer paso del método científico tiene lugar cuando se hace una observación a propósito de algún evento o característica del mundo. Esta observación puede inducir una pregunta sobre el evento o característica. 3 Por ejemplo, un día un observador puede dejar caer un vaso de agua y observar como se hace añicos en el piso cerca de sus pies. Esta observación puede inducirle la pregunta, “¿Porqué se cayó el vaso?” 2) Inducción: es la acción de extraer el principio particular a partir de determinadas observaciones. 3) Hipótesis: es el planteo a resolver Tratando de contestar la pregunta, un científico formulará una hipótesis o conjetura a propósito de la respuesta a la pregunta. En el ejemplo del vaso hay varias posibles hipótesis, pero una de ellas podría ser que una fuerza invisible (gravedad) tiró el vaso al suelo. 3 4) Experimentación: es la prueba de la hipótesis De todos los pasos en el método científico, es el que verdaderamente separa la ciencia de otras disciplinas. Para comprobar o refutar una hipótesis, el científico diseñará un ex[ 23 ]
perimento para probar esa hipótesis. A través de los siglos, muchos experimentos han sido diseñados para estudiar la naturaleza de la gravedad. 5) Demostración de la hipótesis: refutación de la hipótesis 6) Tesis: conclusiones Una común percepción sobre la ciencia, aunque errada, es que la ciencia define “la verdad”. La ciencia no define la verdad, más bien define una manera de pensar. Es un proceso en el cual se usan experimentos para contestar preguntas. A este proceso se lo denomina el método científico y comprende los pasos citados. 3
5. El método científico aplicado a la medicina A los fines prácticos, en investigación médica se pueden dar diferentes tipos de problemas relacionados: descriptivos, de correlación, de comparación y de explicaciones causa efecto. La descripción de un caso o de un cierto número de casos puede ser suficiente motivo como para presentar o publicar un estudio. Simplemente se presentan las coordenadas de tiempo y espacio y se describe lo que se hizo. Los estudios de correlación, como su nombre lo indica, asocian variables como por ejemplo la variación del pulso con el aumento de la temperatura corporal. Mediante fórmulas adecuadas se establece si existe correlación entre las series estudiadas. En el caso de comparación, se analizan resultados y se comprueba si existen o no diferencias significativas como para inferir discrepancias y similitudes. Para estos tipos de problemas de investigación, se usa el método estadístico. En las explicaciones causa efecto, la investigación es más detallada y plantea hipótesis. En estos casos se pone en práctica el método hipotético deductivo.
6. Teorías e hipótesis Desde el punto de vista científico, si se acepta que un sistema es un conjunto de partes que interactúan entre sí, una teoría es un sistema de hipótesis. 2 Hipótesis es un planteamiento o supuesto que debe ser comprobado o refutado siguiendo las normas establecidas por el método científico Tiene, como condición imprescindible, que debe ponerse a prueba. En general, en un trabajo de investigación científica se plantean dos hipótesis mutuamente excluyentes: la primera es llamada hipótesis nula (H0) y la otra usualmente se conoce como hipótesis alterna (H1). El procesamiento de los datos, según la metodología de investigación diseñada, mostrará cuál de las dos hipótesis se comprueba como cierta, de manera que sólo ésta se incorporará al conocimiento que la investigación aporta a la ciencia.1,2,4
[ 24 ]
7. Método hipotético deductivo De acuerdo con lo expuesto por Castiglia, 2 más detalladamente, el método hipotético deductivo permite mediante los siguientes pasos realizar la comprobación de la hipótesis: 1) Formular una hipótesis 2) Suponer que es verdadera 3) Deducir cuales serán las consecuencias observacionales. 4) Establecer los criterios de corroboración o refutación: si las consecuencias de la observación se producen en los hechos se debe corroborar; si en cambio las consecuencias de la observación no se producen en los hechos, se debe refutar. 5) Establecer si las consecuencias observacionales se producen en los hechos. 6) Tomar la decisión: corroborar o refutar la hipótesis. Más específicamente, en un modelo de toma de decisiones, es necesario hacer uso de pruebas estadísticas para aceptar o rechazar una diferencia en un resultado. Según lo visto, la prueba de H0 dice que no hay diferencia bajo la premisa que la diferencia entre la muestra y la población estudiadas se debe al azar. Es decir que por ejemplo, no hay diferencias entre los dos grupos estudiados. Si se pone un ejemplo de “complicaciones graves” en medicina, en cualquier entorno a manera ilustrativa, aceptar la hipótesis de nulidad o no poder rechazarla, significa aceptar que la diferencia no existe. Es necesario y muy importante decidir el nivel de aceptación de una hipótesis según la gravedad del caso. Siempre se debe calcular el riesgo de equivocarse y emplear la estadística como herramienta imprescindible.1 Los problemas de investigación científica del tipo causa-efecto hacen uso del planteamiento de hipótesis. 2 Para resolver problemas de relación causa-efecto es necesario seguir tres pasos: 1) Construir una teoría explicativa 2) Verificar (contrastar) la teoría 3) Formular conclusiones En síntesis, las hipótesis son proposiciones provisionales y exploratorias sobre la veracidad o falsedad de un concepto, una teoría o un modelo con un alcance de trabajo de investigación por simulación y con métodos de campo o de laboratorio.
8. Los métodos en las ciencias de la naturaleza La palabra ciencia deriva de science, y es un término introducido por Whewell en 1840 para reemplazar a la llamada “filosofía de la naturaleza”. Esta cercanía de la ciencia con la filosofía permitió que Albert Einstein (1879-1955) comentara que “la ciencia es como un reloj cuyo mecanismo se halla en una caja negra inviolable, y del que sólo podemos ver el movimiento de las manecillas”. En consecuencia la ciencia estaría constituida por las hipótesis que [ 25 ]
se elaboran para explicar el movimiento de esas manecillas, y aunque la explicación fuera verdadera, nunca podría conocerse el mecanismo real por el cual funciona el reloj. La ciencia, como una explicación finita de la realidad, se asienta en tres principios no demostrables llamados de inteligibilidad, objetividad y dialéctica. Cuando se hace ciencia sobre la naturaleza se asume que ésta puede ser entendida, o sea que es inteligible. De todas formas, la naturaleza podría también tener fenómenos azarosos que la hicieran no entendible. Por su parte, el postulado de objetividad indica la separación entre la mente investigadora y el objeto de conocimiento observado o analizado. Sin embargo, esta independencia de la ciencia sobre el objeto de estudio podría ser difícil de aceptar si se considera la ineludible influencia entre el observador y lo observado. Por último, el principio dialéctico permite exponer el conocimiento científico a la refutación por medio de nuevas experiencias u observaciones. En realidad los métodos de la investigación científica dependen de la perspectiva filosófica del conocimiento. Las dos corrientes principales que fundamentan la adquisición y el desarrollo del conocimiento son la positivista lógica y la corriente naturalista, que dan lugar a paradigmas de investigación diferentes. Un paradigma es un conjunto de formas que orienta la perspectiva que el investigador tiene sobre la investigación o el estudio que desarrolla. De acuerdo a la filosofía positivista, la realidad se percibe como única e invariable, o sea que existirían hechos objetivos que pueden ser descubiertos con independencia del investigador. Desde este punto de vista, los fenómenos naturales y humanos podrían ser previsibles y controlables. Estos hechos fundamentan el esfuerzo científico para adquirir la habilidad de predecir y controlar dichos fenómenos. Por contrapartida, la filosofía naturalista sostiene que la realidad no es única sino múltiple, y que se descubre a través de un proceso dinámico en el cual el investigador interactúa con el entorno y obtiene un conocimiento relativo o contextual. En este caso los fenómenos no serían ni únicos ni previsibles, y el observador constituiría otro factor de influencia sobre la realidad del entorno. En consecuencia no existiría una independencia absoluta entre el observador y lo observado, lo que pondría en tela de juicio el principio científico de objetividad. A partir de estas dos perspectivas filosóficas surgen dos métodos de investigación tradicionales conocidos como cuantitativo y cualitativo. El método de investigación cuantitativo se basa en la filosofía positivista, y está fundado en la observación de hechos o acontecimientos objetivos que surgen con independencia del observador. Este último emplea un proceso sistemático de recolección de datos observables y cuantificables, disminuyendo la aparición de sesgos. El método se basa fundamentalmente en la objetividad, la predicción, la generalización de los resultados y el control de los fenómenos. Su objetivo final es desarrollar un conocimiento de tipo valorativo. Por su parte, la investigación basada en el método cualitativo se fundamenta en la filosofía naturalista, y es típica de los estudios sociales que tienen en cuenta los contextos históricos y culturales en el que se desarrollan los fenómenos. El investigador que aplica el método cualitativo observa, describe e interpreta el fenómeno como se presenta, sin intentar controlarlo como en el caso del método cuantitativo. En resumen el fin de este método es desarrollar un conocimiento descriptivo e interpretativo, en lugar de uno valorativo. Aunque estos dos métodos proponen modos diferentes de abordar la realidad, ambos se interrelacionan y se complementan en la investigación actual. La medicina se nutre de diferentes ciencias para llevar a cabo su cometido de lograr una mejor comprensión de la salud y la enfermedad mediante la observación, la comparación, la [ 26 ]
experimentación, el análisis, la síntesis y la conceptualización. Esta paráfrasis de una definición de ciencia nos induce a pensar que la medicina está hecha de ciencias, y en consecuencia comparte los mismos métodos científicos. Pero la verdad es que la definición de ciencia más amplia que podamos hallar, con seguridad dejará afuera gran parte de lo que es la medicina. El filósofo y matemático Gottfried W. Leibniz, nacido en Leipzig en 1648 (cincuenta años después de Descartes) concibió a la ciencia como “un cuerpo doctrinal que podía ser conocido sistemáticamente y con un alto grado de certeza”, y la contraponía o bien a la “opinión”, que sólo implica un grado de certeza menor, o bien al “arte”, que involucra una práctica más que una doctrina. Atenerse a ésta última definición obliga en consecuencia a separar de la ciencia médica los aspectos prácticos y técnicos vinculados con su arte. Después de ésta aclaración podría escudriñarse en los métodos de la ciencia que la medicina utiliza. En primer lugar se debería analizar si existe un único método científico, ya que a la biología (y de allí la medicina) puede considerársela una disciplina con autonomía científica y acreedora a su propio método, o bien una ciencia que comparte las reglas y metodología de la física. La corriente denominada fisicalismo comprime a la biología en el marco conceptual de la física. Su origen formal podría remontarse a Galileo (1564-1642) en cuya época únicamente existía la mecánica como ciencia y la matemática como su necesaria aliada. Para su época hasta 350 años después, el libro de la naturaleza estaba escrito en el lenguaje de la matemática, y este modelo de ciencia sobrevive aún para muchos. El papel dominante de la física y la matemática en la ciencia obtuvo el apoyo de figuras como Isaac Newton (16421727) e Immanuel Kant (1724-1804) quien llegó a afirmar que “solo hay ciencia genuina, en la medida que contenga matemática”, a pesar que su “Crítica del juicio” (1790) tuvo un éxito limitado para intentar explicar la naturaleza en base a los principios newtonianos. En los últimos 100 años ha habido cierta liberalización de esta corriente llamada fisicalismo, y a pesar de su incontrovertible aporte, muchos autores modernos consideran que el método científico de la física no es el más adecuado para una disciplina como la biología, de la cual depende la medicina. Ernest Mayr (1904-2005) fue médico y biólogo, evolucionista, y ha sido reconocido como “el Darwin del siglo XX”. Este científico y filósofo postuló que “cualquier enfoque de una filosofía de la biología basado fundamentalmente en la lógica y la matemática más que los conceptos específicos y particulares de la biología resultará insatisfactorio”, y planteó una serie de consideraciones sobre la autonomía científica de la biología (2004). En particular, demostró que algunas ideas fisicalistas (de la física) no eran aplicables a la biología. Por ejemplo desde los pitagóricos y Platón, el concepto tradicional de diversidad del mundo se planteaba con la existencia de una cantidad limitada de eide o esencias, que consistían en clases o tipos netamente delimitados (tipología o esencialismo). Bajo esta concepción, los miembros de una misma clase eran idénticos, constantes y separados con precisión de los miembros de otro tipo o esencia. La idea central del racismo se basa en estas diferencias de grupos étnicos humanos que se hallarían netamente separados en clases distintas. Darwin fue quien rechazó este pensamiento tipológico propio de la física y empleó en consecuencia un concepto completamente diferente denominado actualmente poblacional, que admite las variaciones dentro de las clases, como ocurre ciertamente en las poblaciones de seres vivos. [ 27 ]
Otra idea de la física no aplicable enteramente al estudio de los seres vivos es el llamado determinismo, que no deja espacio para la variación o los hechos fortuitos. El matemático y físico francés Pierre Laplace (1749-1827) se ufanaba de que el conocimiento completo del mundo actual permitiría predecir el futuro sin limitación en el tiempo. Este concepto claramente determinista, no puede sostenerse actualmente ante la perspectiva de la nueva teoría de los sistemas dinámicos o del “caos” en el que una mínima variación en las condiciones iniciales hacen impredecible el desenvolvimiento futuro de una variable. La refutación del determinismo estricto y de la posibilidad de predicción absoluta permite la aceptación de la variación y de los fenómenos aleatorios tan comunes en la biología. Finalmente, otras de las clásicas ideas fisicalistas se refiere al denominado reduccionismo. Este explica que la resolución de un problema se obtiene a partir de la partición y reducción del sistema a sus componentes más pequeños. Esta división, junto con la determinación de la función de cada elemento, permitiría explicar el problema. La realidad es que a partir de la teoría de los sistemas, el estudio de los seres vivos admite que éstos están compuestos por elementos y relaciones que se pierden si se reduce el sistema a sus partes, y que en consecuencia el todo pasa a ser mucho más que la suma individual de las partes que lo componen. El estudio más moderno de los denominados autómatas celulares permite demostrar que no es posible inferir el comportamiento de unidades simples en cuanto al desarrollo de propiedades emergentes a partir de la interacción de estas unidades. Es así que la estructura de los tejido vivos no puede explicarse enteramente si se los reduce a sus componentes celulares; la interacción de estas últimas generan características emergentes no inferibles a partir del estudio celular individual. Hasta aquí se pueden resumir una serie de conclusiones sobre los métodos de las ciencias de la naturaleza. Por un lado la tipología que asume la invariabilidad de los tipos o clases se reemplaza por el pensamiento poblacional que admite pequeñas variaciones entre los elementos o seres de la misma clase. En segundo lugar el estudio de la naturaleza admite el uso del caos determinista y el azar en lugar de un determinismo rígido. Y por último se complementa el reduccionismo o análisis individual de las partes con el pensamiento sistémico o de análisis sintético para la comprensión de los sistemas vivientes en conjunto y de las propiedades emergentes a partir de elementos constitutivos simples. Tanto la rama de la biología que estudia la evolución como la medicina clínica asistencial que indaga la historia de la enfermedad, requieren de otro método que podría llamarse “narrativa histórica”. La biología evolucionista debe recrear la historia pasada con los datos del presente, o con aquéllos que pueda recoger en la actualidad, y así construir una narración que explique el fenómeno de la evolución. De la misma forma, el oficio de un médico consiste en escuchar, narrar y construir historias a partir del relato de los hechos médicos referidos por el paciente. De la misma forma, los signos que recoge el médico, reflejan una foto del estado actual que necesita ser reconstruido hacia atrás a la manera de un detective.
Referencias 1. Arribalzaga EB, Borracci RA, Giuliano RJ, Jacovella PF: El artículo científico: del papiro al formato electrónico. Buenos Aires, Magíster Eos, 2005 [ 28 ]
2. Castiglia VC: Principios de investigación biomédica. (Segunda Edición). Buenos Aires, R. Primavera. 1995 3. Klimovsky G: Las desventuras del conocimiento científico. Una introducción a la epistemología. Buenos Aires, A-Z editora, 1997. 4. Tarski A: Introducción a la lógica y a la metodología de las ciencias deductivas. (Tercera Edición). Madrid, Espasa Calpe, 1977 5. Fortín MF. El proceso de investigación: de la concepción a la realización. México, McGraw-Hill Interamericana, 1999 6. Mayr E. Por qué es única la biología. Consideraciones sobre la autonomía de una disciplina científica. Buenos Aires, Katz Editores, 2006 7. Doval HC. A qué llamamos “ciencia” y por qué la biología es una ciencia autónoma. Rev Argent Cardiol 2007; 75: 79-83
[ 29 ]
Capítulo 2
Leyes científicas
Extensiones y límites del conocimiento científico
Rodolfo José Giuliano
L
a ciencia es un estilo de pensamiento y acción, que ha avanzado a través del tiempo sorteando un sinfín de contratiempos. Sus grandes revoluciones han sido el hallazgo y la explicación de los sucesos naturales, la formulación de teorías y el desarrollo de nuevas tecnologías. Por lo tanto, en la ciencia, como sucede ante toda creación humana, debemos distinguir el trabajo -investigación- de su producto final, el conocimiento. Toda investigación científica arranca con la percepción de que el conocimiento disponible es insuficiente para manejar determinados problemas. El conocimiento previo con que se inicia un proyecto de análisis es conocimiento ordinario, no especializado, y solo una parte de él es científico; o sea que el conocimiento científico es “aquel que se ha obtenido mediante el método de la ciencia y puede nuevamente someterse a prueba, enriquecerse y, llegado el caso, superarse mediante el mismo método”. La idea central de la antropología griega fue el hombre como naturaleza cósmica. El cristianismo luego distinguió la nueva realidad humana: la tríada compuesta por cuerpo, cosmos y espíritu. Así lo admitieron casi todos los pensadores de occidente hasta finales del siglo XVIII. A partir de ahí la civilización recibió la doble influencia de la religión y de la filosofía. Las historia de las grandes revelaciones científicas estuvieron asociadas a nombres ilustres como Aristóteles, Pitágoras, Leonardo, Galileo, Newton… y extremando la idea kantiana de la Ilustración –en que el hombre debía hacer su vida atenido no mas que a su propio entendimiento–, los sabios del siglo XIX fueron los protagonistas de un nuevo naturalismo antropológico que orientaron sus mentes a un pluralismo filosófico dispar: evolucionismo, positivismo y eclecticismo. Descartes, en los albores del modernismo, había establecido que la verdadera ciencia era demostrable según el modelo de las matemáticas y edificó la filosofía racionalista tomando como criterio básico las ideas claras y distintas. El racionalismo cartesiano tenía una actitud cautelar que no solo llevaba a admitir falencias en nuestro propio conocimiento, sino que admitía como racional sus propios límites. La razón era una fuerza única, infalible y omnipotente: •
única, por que tenía sentido de identidad en todos los hombres y todos disponían de ella en igual medida [ 30 ]
• •
infalible, porque no era susceptible de errar omnipotente, porque extraía de si misma su material y sus principios fundamentales
De un modo especial la gnoseología renunciaba a la esencia del conocimiento sin que ello significara una negación manifiesta, pues la filosofía moderna se instalaba de a poco en el pensamiento, la conciencia y la razón, lo que provocaba un desajuste progresivo entre el conocimiento y la realidad. En el siglo XVIII nacía el empirismo de Locke, llevado hasta sus últimas consecuencias por David Hume, quienes basaron sus teorías en la experiencia. Ambos afirmaron que el límite del conocimiento era realmente la experiencia y que ninguna ciencia podría extenderse más allá de esa frontera o establecer principios que no se fundieran dentro de esa jerarquía. Con el advenimiento de la ilustración se continuó con el concepto de que el límite del conocimiento era la prueba, la demostración. Voltaire, en El filósofo ignorante decía: “Hay que haber renunciado al sentido común para no estar de acuerdo en que nada sabemos en el mundo, si no es por la experiencia”. Sin embargo, nadie como Kant advirtió sobre los límites del conocimiento e intentó salvar la contradicción en su Crítica de la razón pura de 1871. Tomando como principio los enunciados cartesianos, teorizó sobre el conocimiento objetivo y afirmó que el conocimiento científico se apoyaba sobre bases ciertas, que estaba construido por conceptos y leyes “a priori” independientes de la experiencia y que proporcionarían el escenario donde se ubicarían los datos de esa experiencia. Con la formulación de las geometrías no euclídeas y la enunciación de la teoría de la relatividad, a fines del siglo XIX y principios del XX, la idea de la física newtoniana perdió la vigencia que Kant le atribuía. En realidad, las leyes científicas no serían ni verdaderas ni falsas, sino simplemente convenciones o estipulaciones avaladas por sus consecuencias. El surgimiento del racionalismo crítico, enunciado por Karl Popper en 1934, sostuvo que las teorías jamás podrían justificarse o demostrarse porque la experiencia nunca accedería a demostrar la verdad. Por lo tanto toda teoría que contradijera la experiencia debería considerarse falsa. “Así como nunca estaríamos seguros de alcanzar la verdad, en ocasiones podríamos detectar el error”. Según la doctrina popperiana el conocimiento, por ser conjetural, progresaría gracias a la detección de errores y las teorías siempre serían hipótesis o conjeturas que jamás alcanzarían la condición de verdad. Nacía, pues, el falsacionismo. A fines del siglo pasado, en 1974, Donald Campbell enunció la epistemología evolucionista, que consistía en abordar la problemática del conocimiento bajo la perspectiva de la evolución biológica. Según esta corriente, nuestro conocimiento corresponde a la realidad porque descendemos de otros seres, que a través de la evolución desarrollaron capacidades perceptivas e ilustrativas adaptadas al entorno. [ 31 ]
Las ideas básicas del racionalismo crítico y de la epistemología evolucionista se fundieron ampliamente en la mentalidad de nuestros días, aunque muchas alarmas suenan con el objeto de despertar ese conocimiento aletargado, que afrontaría nuevas instancias difíciles de resolver. Según P. W. Atkins, profesor de física y química de la Universidad de Oxford, somos meros productos del mundo físico. La física está a punto de explicarlo todo, incluso la creación del universo a partir de la nada, sin necesidad de recurrir a un Dios creador. Atkins no es el único ser que anticipa el final de la física fundamental. Otros teóricos ya describen un presunto final de la ciencia. Seguramente nada de ello ocurrirá porque la ciencia experimental continúa marchando por la ruta que los genios, como Newton, trazaron lejos de cualquier extravagancia. El siglo XX además produjo, sobre el fin de su primera mitad, una de las grandes conmociones del saber mundial con el advenimiento de la informática. La concepción de la informática generó una revolución tal, que la filósofa Esther Diaz la equiparó con el impacto histórico que produjo la enunciación heliocéntrica de Copérnico. Ese itinerario histórico, que aún transcurrimos, se inició con la telemática cuando el gobierno de Estados Unidos convocó a una serie de distinguidos investigadores de élite, para que indagaran en tecnologías apropiadas que mantuvieran comunicaciones rápidas y eficientes. La preocupación del gobierno central era más que apremiante. La Unión transitaba simultáneamente por dos guerras entre Oriente y Occidente y necesitaba mantener contactos instantáneos entre las metrópolis americanas y los remotos campos de batalla. Esa conjunción explosiva entre tecnociencia y política exterior dio vida a una de las criaturas artificiales mas inquietantes de la historia de la humanidad, la computación, y con ella un nuevo paradigma de la ciencia: la globalización científica. Actualmente, la robustez digital posibilitó que se liberaran las fórmulas de la fisión del átomo y comenzaran las prácticas atómicas, las nuevas ecuaciones físicas que concibieron los viajes interplanetarios y las investigaciones biológico-digitales que culminaron con la ingeniería genética, entre otros. Fedoseev y Pájaro en nuestros días, plantean que el proceso del conocimiento transcurre por tres etapas: • • •
La acumulación y elaboración de datos obtenidos mediante procesos empíricos. La construcción y elaboración de la teoría sobre la base de la compilación y tratamiento de los datos empíricos obtenidos. La explicación de los datos empíricos conocidos, la deducción de predicciones a partir de los nuevos datos con la colaboración de la teoría elaborada y la confirmación de la teoría por el material empírico.
Como se ha visto, no se puede hablar de ciencia sin recurrir a la “filosofía de la ciencia”, entendida como un nivel de razonamiento y no como una disciplina académica. La percepción, la intuición y la lógica que fueron las tres armas esgrimidas por el hombre para dominar la naturaleza, son los instrumentos en que se basa el método científico y, en alguna medida, toda teoría se asienta en la combinación de las tres. [ 32 ]
Sin embargo no se puede conjeturar sobre el método si se desconoce la ley. Pero, ¿qué es ley? ¿qué es ley científica? Ley objetiva - Ley científica El término “ley” no tiene un uso fijo sino que es un signo ambiguo que designa varios juicios. No nos interesa definir ahora el concepto jurídico de ley, sino las acepciones relevantes que son útiles para la ciencia pura y aplicada. Según Mario Bunge se designa como ley o ley objetiva o pauta nómica a “un patrón objetivo de una clase de hechos: cosas, acontecimientos, procesos.... O sea; cierta relación o red de relaciones constantes que se cumplen realmente en la naturaleza, las conozcamos o no”. Por lo tanto una ley es un objeto extraconceptual que se sitúa en la realidad. Ley científica “es una proposición científica confirmada que afirma una relación constante entre dos o mas variables cada una de las cuales representa, parcial e indirectamente, una propiedad de sistemas concretos”, es decir es “una regla y norma constante e invariable de las cosas, nacida de la causa primera o de las cualidades y condiciones de las mismas”. Por lo tanto, toda ley científica no deja de ser una hipótesis confirmada que refleja una pauta objetiva y su lugar central en las ciencias es el fin capital de toda investigación científica: el descubrimiento de pautas o regularidades. Dice Bunge que hay tantas clases de leyes científicas como puntos de vista o criterios de clasificación queramos adoptar y si tienen niveles cualitativos diferentes tendrán un nivel dispar de integración. Como cada uno de esos niveles se distingue por tener variables y leyes propias, las relaciones objetivas entre las mismos se explican por “leyes interniveles”. En cambio se define como “leyes intranivel” a aquellas que relacionan variables de igual estatura científica. Las leyes intranivel contienen las siguientes variables de una investigación científica:
Biológicas (vg: reproducción de los seres vivos - fotosíntesis)
Físicas (vg: intensidad del sonido - transmisión de la luz)
Químicas (vg: función hormonal - acción enzimática)
Sociológicas (vg: división de clases - clasificación del trabajo)
Psicológicas (vg: la psique - el vínculo)
Las leyes interniveles se agrupan en: Biofísicas y bioquímicas Psicofísicas y psicoquímicas Psicobiológicas Sociofísicas Sociobiológicas Sociopsicológicas [ 33 ]
Psicobiofísicas Sociobiofísicas Sociopsicofísicas Sociopsicobiológicas Sociopsicobiofísicas
Si un método es un procedimiento que sirve para tratar un conjunto de problemas, el método científico es en consecuencia una “sistematización u orden que define el conocimiento del saber y lo diferencia de otros tipos de conocimientos”. La filosofía de la ciencia lo delinea como todo fenómeno que es aceptado por el sentido común y por ende por la comunidad científica y la sociedad toda. Por su naturaleza debe carecer de subjetividad. En consecuencia, cada método especial es relevante para algún estadio particular de la investigación científica, y si el método general de la ciencia es un procedimiento que se aplica al ciclo entero de la investigación en el marco de cada problema, la finalidad del método científico será establecer la diferencia que existe entre la ciencia y la no ciencia. Aunque se lo asocia ecuménicamente con todas ellas, básicamente suele aplicarse en las llamadas ciencias naturales (biología, física, química,...) en contraposición con las ciencias humanas (economía, política,...) que se rigen por la dialéctica, el funcionalismo, el estructuralismo, la hermenéutica y el método fenomenológico entre otros. Los tres procedimientos esenciales que reciben genéricamente la denominación de método científico son: inductivo, deductivo e hipotético-deductivo o de contrastación de hipótesis. El primero crea leyes desde la observación de los hechos, mediante la generalización del comportamiento observado. Diría que es más representativo de las ciencias empíricas. El segundo aspira a obtener conclusiones a partir de premisas mediante el uso de la lógica pura. Es el método axiomático propuesto por Aristóteles como el método científico ideal y es propio de las ciencias formales. Ambos encierran elementos filosóficos subyacentes, se valen de la lógica y marchan en ambos sentidos: de lo particular a lo general y viceversa. Por último el hipotético-deductivo o experimental, que generalmente no plantea problemas porque su validez surge de los resultados obtenidos del contraste de las propias pruebas. Sin embargo se destaca su carácter predominantemente intuitivo ya que necesita contrastar sus conclusiones tanto para ser validado como rechazado. Como se puede observar la metodología de la ciencia está llena de matices según la corriente filosófica perseguida. Para María José Molina el “árbol del conocimiento científico” respondería al siguiente algoritmo.
[ 34 ]
METODOLOGÍA DE LA CIENCIA - ETAPAS I.- PASOS DEL MÉTODO CIENTÍFICO.
Planteamiento
Argumentación
Lógica
Intuición
Creatividad (“Jump” o salto)
Conclusión y proposición de la teoría
II.- PROCEDIMIENTOS DE CONTRASTACIÓN DE UNA TEORÍA.
Experimental (Verificación o Falsación)
Sentido Común (Galileo - Pop up autónomo)
III.-ACEPTACIÓN. (Sociología de la Ciencia)
Comunidad científica
Sociedad en su conjunto
Referencias 1. Artigas M. Los límites del lenguaje científico. En: Ortíz JM (ed). Veinte claves para la nueva era. Madrid, Rialp 1992; pp 113-131 2. Bunge M. La investigación científica. México, Siglo veintiuno editores 2000; pp: 7, 265, 283-289, 299, 315. 3. Díaz E. El desafío de las investigaciones disciplinarias e interdisciplinarias, articuladas con una pedagogía del orden y del caos-2005. www.estherdiaz.com.ar 4. Díaz Narváez VP, Calzadilla Núñez A., López Salinas H. Una aproximación al concepto del hecho científico. Cinta de Moebio- Facultad de Ciencias Sociales. Chile, Universidad de Chile 2005, n° 22 5. Espinosa Padierna LE. Tecnología y educación. ¿Integración del conocimiento o fragmentación cultural? . www.redespecialweb.org/congreso6.htm 6. Hartmann N. Metafísica del conocimiento. Buenos Aires, Editorial Losada 1957; pp: 208 7. Ibáñez JJ. Las teorías científicas según Karl Popper: La falsabilidad. weblogs.madrimasd.org/universo/archive/2007/02/1059009.aspx 8. Laín Entralgo P. Conocimiento científico del hombre Sección II. In Historia de la Medicina. Barcelona, Salvat 1979 pp: 418-463 [ 35 ]
9. Magnus D. Down the primrose path competing epistemologies in early XX century biology. In: Creath R, Mainchistein J (eds). Biology & epistemology. Cambridge, Cambridge University Press 2000 10. Molina MJT. Globalización científica. Nuevos paradigmas de la ciencia. www.molwick. com/es/métodos-científicos 11. Pájaro D. La formulación de la hipótesis. Cinta de Moebio- Facultad de Ciencias Sociales. Universidad de Chile. 2002 n° 15.
[ 36 ]
II. Comunicación de los resultados
Capítulo 3
Cómo escribir un manuscrito para su publicación
Andreas Wielgosz
E
scribir un artículo médico que sea considerado adecuado para su publicación luego de su revisión o arbitraje por pares (peer review) requiere una estrategia clara y efectiva. También requiere una cuidadosa atención a los detalles. Las exigencias cada vez mayores y la gran competencia por publicar, en particular en las revistas más calificadas, hacen de lograr la aceptación un verdadero desafío. Generalmente, la tasa de aceptación suele ser menor del 50%, con un 20 a 25% de trabajos rechazados aún sin haber ingresado en la fase de arbitraje por pares. Los autores exitosos tienen una forma sistemática de encarar la tarea y este capítulo delinea los pasos que deberían darse, juntamente con indicaciones útiles, para facilitar el procedimiento. También da una visión de algunos de los errores más comunes en que se suele incurrir y de cómo evitarlos. La satisfacción no solo debería provenir de la contemplación del trabajo en prensa, sino también del esfuerzo realizado en su elaboración. Hay varios tipos de comunicaciones que pueden aparecer en un periódico médico, incluyendo trabajos originales de investigación, artículos de revisión o puesta al día de distintos temas, comentarios editoriales, comunicaciones breves, casuística, comentarios de libros y cartas al editor. La mayoría de los comentarios que siguen se referirá al artículo original de investigación, aunque los mismos principios se aplican a otros tipos de trabajo en general. Aunque pueden existir beneficios secundarios en publicar, tales como elaborar una lista de publicaciones para promover o facilitar la obtención de fondos para la investigación, etc., la más importante de las motivaciones debería ser el poder comunicar hallazgos, conceptos e ideas. En este sentido, es útil considerar el manuscrito como un medio de comunicación, como si se refiriera una historia. La clase de audiencia y la facilidad con la cual dicha audiencia podrá ser alcanzada, están determinadas en gran parte por la elección de la revista. Generalmente, el mayor alcance se obtiene publicando en inglés en una revista Norteamericana o Británica. Si el objetivo es llegar a colegas que se hallen trabajando en el mismo campo, entonces quizás lo más apropiado sea un periódico de la subespecialidad. Desde ya, el tema del trabajo debe estar en consonancia con las metas y objetivos de la revista elegida. Si quedara alguna duda respecto de la elección, lo mejor es contactar al editor. Esto puede tener el beneficio adicional de interesar al editor en el artículo propuesto y lograr que aguarde ansiosamente su envío. En caso [ 39 ]
contrario, el editor podrá ahorrarle un tiempo valioso dirigiendo el envío a una revista más acorde con el mismo. Muchos autores eligen una publicación en base al factor impacto, el cual depende de que la revista se halle indexada. El factor impacto es una medida de la frecuencia con la cual los artículos de una revista en particular son citados por autores que escriben en las demás revistas indexadas. Esto es llevado a cabo por el Instituto para la Información Científica (Institute for Scientific Information), que sigue las citas por un período de tres años. Aunque existe un consenso general en que las citaciones frecuentes de un artículo son indicativas de su calidad e importancia, este no es siempre el caso. De esta forma, cierta controversia rodea la significación atribuída a los factores de impacto.1 La elección de una publicación específica debería surgir tempranamente en el proceso de escritura porque determinará el formato y el estilo que deberán adoptarse. Los requerimientos de estilo son publicados por las revistas al menos una vez al año, aunque en algunos casos pueden encontrarse en todos los números y también se pueden conseguir en Internet. Luego, el primer paso crítico es delinear la estructura del artículo en ciernes de acuerdo a los requerimientos de la revista en la cual se intenta publicarlo. La mayoría de las publicaciones tienen requerimientos similares, con artículos originales limitados a alrededor de 3.000 a 4.000 palabras, más un resumen de alrededor de 250 palabras. La primera página es la del Título, que también incluye un título breve de alrededor de 40 a 90 caracteres, que puede ser utilizado para búsquedas computarizadas. Los autores están listados en esta página, en ciertos casos con sus correspondientes grados y afiliaciones académicas. Un autor, típicamente el primero, es identificado como corresponsal y la información para su contacto es provista tanto para correspondencia durante el proceso de arbitraje como para la publicación definitiva del artículo. Nadie más debería mantener la comunicación con la oficina editorial. Finalmente, en la primera página deberían incluírse varias palabras clave (key words) destinadas a facilitar las búsquedas computarizadas que podrán conducir a la identificación del artículo. La terminación de la primera página puede ser pospuesta hasta el final, aunque el acuerdo acerca de la autoría y orden de los autores es mejor que sea abordado tempranamente. El siguiente item es el Resumen. Muchas, aunque no todas las revistas, requieren un resumen estructurado. 2 Este requisito debería estar incluído en las instrucciones para los autores. Algunas revistas no lo especifican, dejando la cuestión a la discreción de los autores. Un resumen estructurado es más probable que sea advertido y examinado, lo cual favorece que el artículo sea leído. En 1987, los Annals of Internal Medicine introdujeron como un requisito los resúmenes estructurados, con los siguientes sub-enacabezamientos: Objetivo, Diseño, Campo (Setting), Pacientes, Intervención, Mediciones, Resultados Principales y Conlusiones. En 1996 fue agregado a la lista Antecedentes (Background) y en 2004, Limitaciones. Algunos autores escriben primero el resumen, con el fin de servir como un bosquejo para el resto del trabajo. Esto puede llegar a perturbar la escritura y causar mucha frustración en la medida en que el autor intenta resumir el artículo antes de que esté concluida su redacción. Lo mejor es dejar el resumen para el final, lo que a su vez permite que las mejores frases o enunciados para resumir el trabajo sean copiados y pegados directamente desde el artículo terminado. [ 40 ]
El artículo propiamente dicho comienza con una Introducción. Su objetivo es proveer la información de fondo que explicará porqué fue emprendido. La introducción debería asimismo precisar los temas específicos que el trabajo apunta a tratar y el porqué los investigadores desearon llevarlo a cabo. Debería comunicar el entusiasmo que motivó a los investigadores, de manera de generar interés por parte de los lectores. La introducción no está dirigida a ser una revisión de la literatura, lo cual es un error común en investigadores que transforman esta sección en una larga polémica. Una buena estrategia es comenzar con una perspectiva general y entonces hacer foco en el problema o las preocupaciones específicas, juntamente con una explicación del emprendimiento. La sección Métodos desafía al escritor a proveer, tan sucintamente como sea posible, la información necesaria acerca de lo realizado, de manera que pudiera ser potencialmente reproducido por otros. No es necesario incluir en la descripción de los métodos cada etapa emprendida, juntamente con los errores cometidos y las correcciones aplicadas. Esta sección requiere un equilibrio entre insuficiente y demasiada información. Si muchos de los detalles del enfoque metodológico empleado para conducir el estudio son críticamente importantes, debería considerarse la posibilidad de un artículo separado acerca de la metodología del estudio. Los resultados pueden entonces ser redactados en otro artículo, con solamente una referencia a los métodos, que habrán sido previamente descriptos y publicados. Como alternativa, pueden agregarse uno o más apéndices delineando los detalles metodológicos. Cuando las limitaciones en las palabras son motivo de preocupación, un diagrama puede ser de utilidad. La sección Métodos tiene frecuentemente sub-encabezamientos para organizar el flujo de información que deberían ser utilizados generosamente. Un error común es revelar y/o discutir los resultados en la sección métodos. A veces los autores se sienten compelidos a explicar la elección de determinados métodos o a recordar la secuencia de eventos, por ejemplo los hallazgos que condujeron a la siguiente elección de métodos. Sin embargo, esto debería evitarse. Es suficiente explicar que después que fueron obtenidos los resultados de la Etapa A se llevó a cabo la Etapa B, reteniendo los detalles de los resultados de la Etapa A hasta la sección Resultados. Si el estudio requiriese aprobación ética, esto debería ser mencionado identificando la institución que revisó el proyecto y emitió la aprobación. De la misma manera, deberían ser descriptos los pasos destinados a asegurar la confidencialidad para con el paciente. También es importante identificar cualquier producto con derechos de propiedad. Los resultados son la parte sobresaliente del trabajo. Aquí también es importante ser sucinto pero claro y preciso. Los autores son a menudo desafiados por un gran volumen de datos que desean presentar. Las tablas y figuras pueden proveer información que evita repeticiones en el texto. Bastará entonces simplemente con resaltar en palabras los principales datos de interés. Los datos deberían ser presentados en una secuencia lógica, siguiendo el curso temporal de los métodos. La atención al detalle es muy importante en la sección resultados. Una tabla o un gráfico deberían explicarse por sí mismos, lo cual subraya la importancia de una leyenda bien redactada. Queda más allá de los límites de este capítulo discutir los variados errores en la presentación de los datos, particularmente en los gráficos, tales como conectar datos puntuales con una línea continua, errores que a menudo surgen en esta sección. La inclusión de un buen estadígrafo en la preparación de tablas y gráficos contribuye a evitar estos problemas. [ 41 ]
La Discusión proporciona la oportunidad de explicar los hallazgos y de examinar con mayor profundidad las controversias con las que los hallazgos puedan relacionarse. Las Limitaciones deberían ser abordadas anticipándose a los argumentos que los revisores o comentaristas puedan llegar a proponer. Esta sección finaliza típicamente con recomendaciones y planes futuros o sugerencias para subsiguientes investigaciones, en especial si no ha sido requerida una sección Conclusiones en forma separada. Siguen los Agradecimientos. Aquí deberían ser reconocidas todas las personas que puedan haber colaborado en cualquiera o todas las etapas del trabajo científico, pero en un nivel que no alcanza para considerarlas coautoras. De la misma manera, las instituciones y agencias que proporcionaron soporte a la obra deberían ser identificadas y agradecidas. Es también una buena práctica enviar una copia del artículo publicado a aquéllos que han sido incluídos en los Agradecimientos, junto con una carta de cobertura reiterando el agradecimiento. Las Referencias bibliográficas constituyen la última parte del manuscrito. Es muy importante la aceptación y cumplimiento del formato requerido. Cualquier desacuerdo entre los números del texto y las referencias listadas arroja una impresión muy desfavorable sobre todo el manuscrito, de modo que es imperativo un cuidadoso chequeo y re-chequeo. El uso apropiado de las referencias es una habilidad que se perfecciona con la práctica. La cita de una referencia acerca de conocimientos ampliamente aceptados es tan poco agradable como la omisión de referencias a información específica relacionada con cuestiones acerca de la evidencia existente para sostener las proposiciones enunciadas. Un error no poco común es proveer como referencia un libro o artículo que a su vez relata o menciona la referencia original. La única práctica aceptable es suministrar la referencia original. Por supuesto, listar una referencia original significa que el artículo ha sido leído y considerado relevante por el autor del manuscrito. Una referencia es listada una sola vez, y el mismo número de referencia es luego repetido si ésta es citada nuevamente en el manuscrito. La extracción de texto de los trabajos de otros autores sin reconocer la fuente es plagio. Esta es una falta grave, desgraciadamente no infrecuente. Muchos editores tienen a su disposición sistemas electrónicos que buscarán el texto de frases o párrafos previamente publicados. El plagio no es tomado en forma ligera. Habiendo preparado el manuscrito en el formato requerido con la contribución de los coautores, el próximo escalón es solicitar comentarios de colegas imparciales, preferiblemente aquéllos con experiencia en la redacción de artículos publicados. Tal solicitud debería ser preanunciada, para dar al colega elegido la oportunidad de confirmar que desea y está en condiciones de leer el borrador y aportar una crítica constructiva. A menudo, en este punto y habiendo ya invertido un tiempo considerable preparando el manuscrito, el autor se halla impaciente por enviarlo para su publicación. Sin embargo, esta revisión provisoria es indispensable y puede ser ampliamente remunerativa, resultando finalmente en un acortamiento del tiempo hasta la publicación. Dado que lo buscado es una crítica, ésta debería ser aceptada cortésmente, usando el juicio para discernir el desacuerdo en el estilo del desacuerdo en el fondo. Si son recomendados cambios sustanciales, deberían ser atendidos y seguidos por una nueva solicitud de revisión. Estas medidas preliminares conducen al manuscrito más cerca de su aceptación. Una vez que existe un consenso entre coautores y serviciales colegas en que el manuscrito está listo, su envío para publicación debería tener lugar sin demoras. Más y más publicaciones instruyen a los autores para enviar sus trabajos en forma electrónica. Este proceso realmente [ 42 ]
acelera la revisión del manuscrito y permite a los autores seguir el progreso de su envío. Un sistema tal, hecho accesible por la Editorial Elsevier, es utilizado para los artículos enviados a Prevention and Control, publicación oficial de la Federación Mundial del Corazón (World Heart Federation). Todo el proceso de remisión electrónica requiere atención a los detalles y es recompensado por la confirmación del recibo, que es enviada por e-mail al autor corresponsal. Sea que el envío del manuscrito tenga lugar electrónicamente o bien tradicionalmente, por correo postal, puede ser añadida una carta o mensaje para el editor. Esta es una buena práctica, particularmente para señalar los méritos especiales que el artículo pueda tener, sean éstos lo novedoso de la investigación o sus hallazgos significativos. Si hubiera existido una comunicación previa con el editor, debería ser mencionada. En este punto, el destino del artículo está en manos de la oficina editorial. El editor decidirá si el artículo es relevante y si merece la revisión o arbitraje por pares. El rechazo en esta instancia puede ser cuestionable, en particular si no se da ninguna explicación, como no sea el apresurado comentario de que se reciben muchos artículos y solamente unos pocos pasan por el proceso de arbitraje. A veces el editor puede ser persuadido si se señalan cualidades únicas, que serían de gran interés para los lectores y que aún podrían aumentar el prestigio de la revista, un argumento irresistible para muchos editores. Si el manuscrito atraviesa la revisión por pares y los revisores recomiendan el rechazo, es importante estudiar cuidadosamente las críticas. Los revisores tienden a enfocar tres aspectos de los manuscritos: legibilidad, relevancia y metodología. En tanto la carta de rechazo puede sonar como un repique fúnebre para el trabajo enviado, todavía puede ser emprendido un nuevo envío, puntualizando al editor en el mensaje que acompaña, porqué es importante ver el artículo publicado en esa revista en particular y qué pasos se han dado para mejorarlo. Lo peor que puede ocurrir es otro rechazo, en tanto que es posible una reconsideración. Si se entiende que el arbitraje no ha sido imparcial, quizá llevado a cabo por un colega rival, tales preocupaciones deberían ser comunicadas al editor. Solo unos pocos periódicos identifican a el/los revisores con completa transparencia. Aunque pueden haber sido propuestos algunos revisores, no hay garantías de que hayan aceptado la solicitud de revisar el manuscrito, ni aún de que el editor los haya contactado. Solicitar otra revisión no está fuera del caso. Es lo mejor evitar reaccionar ante un rechazo con cargos emocionales de incompetencia y declaraciones de nunca más remitir artículos a esa revista. Después de un rechazo definitivo, la alternativa a un reenvío es la remisión del manuscrito a otra revista, pero solo después de que los comentarios de los revisores hayan sido tomados en consideración y las mejoras necesarias hayan sido realizadas. La perspectiva del revisor siempre debería ser considerada. 3 La experiencia de ser uno mismo un revisor, es muy útil para escribir buenos artículos. Ofrecerse para actuar como revisor es altamente recomendable. Una vez que los comentarios de los revisores hayan sido atendidos, es de esperar que el editor deje la puerta abierta para el reenvío del manuscrito. Esto debería realizarse tan rápido como sea posible. La mayoría de las revistas tienen un límite de tiempo tal que luego de 6 o 12 meses, un artículo reenviado es tratado como un nuevo envío y atraviesa una nueva revisión independiente. Aún un reenvío en tiempo no es necesariamente devuelto a los árbitros originales. El editor tiene la potestad de solicitar a los árbitros originales o a nuevos árbitros, la revisión del manuscrito ya revisado. [ 43 ]
El reenvío debería ser acompañado por una carta. Cada punto debería ser tratado por separado, elegante y claramente. Si existiera un desacuerdo con uno o más de los comentarios realizados por los árbitros, las razones deberían ser explicadas. Por otra parte, las críticas válidas deberían ser aceptadas con reconocimiento y atendidas, señalándose los cambios realizados. Una vez que el artículo es aceptado, el paso final implica la revisión de las pruebas de galera previas a la publicación. Las pruebas de galera están compuestas en su aspecto final. Los encargados de la publicación sólo permiten correcciones menores, en general para salvar errores en el deletreo o la puntuación. El agregado de frases o los cambios mayores resultan engorrosos para el proceso y están fuertemente desaconsejados, cuando no prohibidos. Una respuesta rápida a este punto es también mandatoria porque el artículo se halla en camino a una próxima publicación, con tiempos estrictos, de modo que los retrasos no son tolerados. También en esta instancia, al autor le es típicamente requerido firmar la transferencia de los derechos de autor (copyright) a favor del editor, y decidir si ordena reimpresiones (reprints) adicionales del artículo. La mayoría de los periódicos ofrecen un número limitado de reprints en forma gratuita. Pueden haber costos por el agregado de fotografías en color, aunque esto también varía según los editores. Finalmente el artículo aparece impreso y es tiempo de celebrar. Quizá entonces pueda considerarse el escribir otro artículo. Las preparaciones para el próximo artículo deberían comenzar tempranamente, mientras la investigación está aún en marcha. La introducción y la sección métodos pueden ser redactadas aún antes que los resultados estén disponibles. En tanto la mayor parte de la redacción es realizada por un solo individuo, algunos manuscritos son preparados por varios redactores, cada uno contribuyendo con una sección. Esto requiere de un autor principal que será responsable de asegurar cierta uniformidad de estilo. Indudablemente, la experiencia de haber escrito varios artículos facilita todo el proceso. Como ha sido mencionado anteriormente, la experiencia de ser árbitro resulta una ayuda. Hay también talleres y cursos accesibles para principiantes y para aquéllos que desean mejorar sus capacidades para la redacción de artículos. Es de esperar que el lector haya sido estimulado y alentado por este capítulo a involucrarse en la escritura médica y que sea recompensado por la satisfacción que proviene de ver su trabajo en forma impresa para beneficio de los colegas, en el presente y en el futuro.
Referencias 1. Seglen PO. Why the impact factor of journals should not be used for evaluating research. BMJ 1997; 314: 497-502. 2. Nakayama T, Hirai N, Yamazaki S, Naito M. Adoption of structured abstracts by general medical journals and format for a structured abstract. J Med Libr Assoc. 2005; 93(2): 237–242. 3. Provenzale JM, Stanley RJ. A systematic guide to reviewing a manuscript. Am J Roentgenol. 2005; 185(4): 848-854.
[ 44 ]
Capítulo 4
La revista científica: criterios editoriales para evaluación de artículos médicos
Enrique Fisman
Alexander Tenenbaum
L
a historia de los criterios editoriales para la evaluación científica de las publicaciones médicas se remonta a una reunión que tuvo lugar en Canadá, unas tres décadas atrás. Un pequeño grupo de editores de revistas médicas generales se reunieron de manera informal en Vancouver, Columbia Británica, en 1978, para establecer guías para el formato de los manuscritos enviados a sus revistas. El grupo llegó a ser conocido como el Grupo de Vancouver. Sus requisitos para los manuscritos, incluyendo los formatos de las referencias bibliográficas, desarrollados y adaptados mas tarde por la Biblioteca Nacional de Medicina de los Estados Unidos, fueron publicados por primera vez en 1979.1 El Grupo de Vancouver se amplió y evolucionó hasta convertirse en el Comité Internacional de Editores de Revistas Médicas (International Committee of Medical Journals Editors - ICMJE). Con el transcurso del tiempo el ICMJE ha ampliado gradualmente sus atribuciones y ámbito de incumbencia. El mismo dejó de ser meramente técnico, incluyendo y centrándose en la actualidad en los principios éticos relacionados con la publicación en revistas biomédicas. Aunque las primeras revistas científicas datan de la primera mitad del siglo XVII, el comienzo oficial del proceso de arbitraje se dio inició mas de un siglo después, cuando en 1753 la Royal Society of London tomó la responsabilidad formal de evaluar los textos recibidos para publicación. 2 La necesidad de organizar y seleccionar el material que luego sería publicado, conllevó el surgimiento de los dos actores principales en el proceso de evaluación: el editor científico, representado por el Secretario de la Sociedad encargado de organizar la revista, y los evaluadores, representados por el Consejo de la Sociedad. La difusión masiva de esta práctica se produjo a partir de la segunda mitad siglo XX, después de la II Guerra Mundial, debido al enorme crecimiento del número de investigaciones, a la fragmentación de la ciencia en subdisciplinas y al desarrollo de terminologías específicas. 3 Así surgió el embrión del sistema de evaluación de la producción científica por los miembros de la comunidad profesional específica, identificado como sistema de arbitraje o de revisión por pares. El mismo implica el uso sistemático de árbitros para determinar la aceptación o el rechazo de los manuscritos que aspiran ser publicados. Este sistema no surgió de forma pronta y acabada. Como parte institucional integrante de la ciencia, ha ido evolucionando como respuesta a los problemas concretos con que se enfrentan los científicos en el proceso [ 45 ]
de desarrollo de la investigación y como subproducto de la emergente organización societaria de los científicos. La transformación del manuscrito original, es decir el texto redactado pero sin la competente evaluación de los pares, en una publicación, o sea en un manuscrito legitimado por el resguardo de la valoración crítica de los pares mediante la evaluación institucionalizada y firmada por revisores competentes, se convierte así en una parte inseparable del proceso científico.4,5 Nuestra modesta experiencia personal como editores comienza en el año 2002. Como cardiólogos clínicos, nuestro interés se había centrado en años anteriores en investigar diversos aspectos de la interfaz entre diabetes y enfermedades cardiovasculares. La creciente relevancia del tema nos llevó a pensar que sería importante fundar una revista específicamente dedicada al mismo, y así nació Cardiovascular Diabetology.6 En cuanto a nosotros, nos vimos súbitamente ubicados “del otro lado de la barricada”. De nuestro rol de autores, obvia y naturalmente ansiosos de ver publicados nuestros trabajos (y preferentemente con rapidez y en revistas de buen nivel), pasamos al rol de editores, encargados de decidir que trabajos de nuestros colegas nos veremos obligados a rechazar, y cuales serán publicados y en que condiciones. Describiremos a continuación nuestra experiencia al respecto. La misma comprende la concepción acerca de la esencia de una revista científica y los criterios que hemos adoptado o elaborado para cumplir nuestra tarea de editores.
La revista científica ¿Que es una revista científica? La UNESCO entiende a la revista como una publicación periódica que presenta especialmente artículos científicos, escritos por autores diferentes, e información de actualidad sobre investigación y desarrollo de cualquier área de la ciencia. Tiene un nombre distintivo, se publica a intervalos regulares, por lo general varias veces al año, y cada entrega está numerada o fechada consecutivamente. Su componente básico, el artículo científico, es un escrito en prosa, de regular extensión, publicado como una contribución al progreso de una determinada ciencia o arte.7 Básicamente, la definición de una revista científica en general, y médica en particular, está dada por su función y puede basarse en los dos criterios estipulados por Greene,8 que establecen que las funciones de una revista pueden resumirse como el doble propósito de servir de memoria de la ciencia y constituir, al mismo tiempo, un medio de divulgación de los resultados de la investigación para la comunidad científica y para la sociedad. En ciertos casos, cuando se trata de revistas sumanente prestigiosas, las mismas pueden establecer parámetros para la evaluación de la producción científica de los investigadores y sus instituciones. En otros términos, implementan criterios de calidad para la programación, realización y divulgación de la investigación. Los autores, revisores y editores constituyen el trío imprescindible para el funcionamiento adecuado de una revista científica. El editor es el responsable de mantener la calidad de la revista. Su obligación principal es garantizar que los manuscritos que aspiran a ser publicados sean evaluados de la forma correcta, es decir con total objetividad, sin interferencias y sin ningún tipo de prejuicio a favor o en contra de la aceptación de determinado artículo. El editor no debe escoger a los revisores para obtener resultados preconcebidos. Además de su responsabilidad [ 46 ]
final en la toma de decisión, el editor debe ser una especie de mediador entre los autores y los revisores fomentando así una mayor comunicación e interacción entre los mismos. Actualmente, en el aspecto práctico, una revista científica moderna debe cumplir con una serie de requerimientos profesionales y técnicos para poder ser considerada como tal. 1. Poseer un ISSN (International Standard Serial Number- Número Internacional Normalizado de Publicaciones Seriadas), que es el código internacional de identificación de las publicaciones seriadas (revistas, periódicos, boletines, anuarios, series de monografías, etc.). El ISSN está constituido por los caracteres “ISSN” seguidos de dos grupos de cuatro cifras cada uno separados por un guión. Son asignadas secuencialmente, independientemente del país de origen y del idioma empleado por la revista. El número es otorgado por el International Centre for the Registration of Serial Publications, con sede en París, que actúa bajo los auspicios de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO). 2. Tener un Comité Editorial. El mismo debe estar integrado por personalidades de trayectoria científica reconocida, una especie de herederos de los miembros del Consejo de la Royal Society of London. Es importante que todos los miembros del Comité Editorial sean investigadores activos, pues queda implícito que sólo los mismos están capacitados para evaluar, hacer indicaciones, emitir opiniones y sugerir correcciones sobre el trabajo de sus colegas. La función de este comité es crucial, porque, aún en el caso de revistas altamente especializadas, los editores no necesariamente están siempre en condiciones de poder establecer claramente y sin riesgo de equivocación, la naturaleza del aporte científico de un trabajo dado. Los miembros del comité que actúan como revisores generan, en franca colaboración con los editores, un proceso dinámico de intercambio de ideas, un fructífero diálogo con autores. 3. Tener un editor o grupo de editores. Continuando la comparación hecha en el punto anterior, ellos serían los herederos del Secretario de la Royal Society of London. En consecuencia, se ocupan de los aspectos académicos y usualmente están asociados a Universidades y Centros de Investigación. Los editores no deberían ejercer actividades relacionadas con la administración, producción o distribución de la revista. 4. Tener una entidad editora (“publisher”) de índole académica o comercial, encargada de las cuestiones administrativas y financieras destinadas a procurar los recursos económicos para garantizar la publicación regular de la revista. 5. Poseer un sitio en Internet (URL – Uniform Resource Location) que permita el acceso al texto completo de los artículos publicados, en caso de que la revista opte por la política de acceso abierto a la información o, en caso contrario, al menos a los resúmenes de dichos artículos. 6. Tener dirección postal y electrónica e instalaciones que permitan rápida comunicación telefónica o vía fax entre los editores por una parte y los autores, miembros del Comité Editorial y revisores externos por la otra. 7. La cobertura temática de la revista y sus específicas áreas de interés deben estar claramente mencionadas. 8. Tener tabla de contenido que permita localizar a un autor o tema específicos y leer los resúmenes de todos los artículos. [ 47 ]
9. Dar explícitamente la afiliación institucional de la revista y de sus editores responsables. 10. Estar indexada en bases de datos que contengan un subrogante de la fuente primaria que permita localizarla. Estas bases están esencialmente representadas por las de temática general de la Biblioteca Nacional de Medicina de los Estados Unidos (PubMed y su complementaria Medline) y Scirus, y por las más específicas Orphanet, Clinical Trials, Genetic and Rare Disease Information Centre y numerosas más. 11. Tener la numeración de los fascículos. La misma debe ser correlativa y no debe confundirse con la numeración del volumen. 12. Tener paginación. Los dos últimos puntos son válidos exclusivamente para las revistas que tienen también versiones impresas. Las revistas electrónicas llevan solo número de volumen (usualmente anual) y número de artículo, careciendo de fasciculación y paginación. Finalmente, además de los doce puntos mencionados, la obtención de factor de impacto constituye una importante aspiración de toda revista científica. El proceso suele llevar varios años, y no siempre es coronado por el éxito. El factor de impacto es un índice bibliométrico que empezó a ser considerado como instrumento de evaluación de las publicaciones científicas a partir de la década del 60 por Eugene Garfield,9 director del Institute for Scientific Information (ISI) en esa época. Fue concebido como forma de clasificar y evaluar las revistas incluidas en la base. Sólo las publicaciones indexadas en el ISI son consideradas para el cálculo del factor de impacto que es realizado mediante la división del número de veces en que los artículos de una revista son citados en un año determinado en revistas indexadas por el ISI, por el número de estudios publicados por la revista durante los dos años anteriores.10 El motivo de coger dos años es que es el tiempo promedio a partir del cual se calcula que un trabajo circula plenamente en la comunidad científica y puede ser utilizado y citado.11
El proceso de decisión ¿Cual es el proceso de decisión que lleva a la publicación de un artículo científico? Para efectuar la evaluación del mismo utilizamos un modelo que contiene preguntas específicas que sirven de base para determinar su posible aceptación. Deben considerarse dos aspectos: el contenido y la estructura. En cuanto al contenido, las preguntas del modelo esencialmente se refieren a: a) originalidad de la contribución; b) la importancia del artículo en su área; c) empleo de la metodología adecuada; d) validez de los métodos estadísticos utilizados. En cuanto a la estructura, debe examinarse: e) la precisión idiomática; f) el respeto a la forma de presentación clásica de un artículo médico (introducción, material y método, resultados, discusión); g) la claridad de las tablas y figuras; h) la relevancia y actualización de las referencias bibliográficas. Si se utiliza una metodología inapropiada no se está haciendo ciencia; los resultados carecerán de todo valor. Por otra parte, ¿presentan los datos reportados la calidad suficiente para [ 48 ]
ser interpretados en contextos objetivos? ¿Los resultados justifican las conclusiones obtenidas por los autores? Estas son preguntas que debemos formularnos frente a cada artículo. Como norma practicamos la mencionada evaluación dos veces. La primera, antes de enviar el manuscrito a miembros del Comité Editorial y/o revisores externos (decidiendo en la misma oportunidad a quienes solicitar la evaluación externa del manuscrito, conforme a la respectiva subespecialidad de los revisores), y la segunda, luego de haber recibido la opinión de los mismos. Luego de balancear todos los elementos implicados, se arriba a la decisión que puede ser: a) rechazar el trabajo; b) publicarlo sólo después de revisiones mayores; c) publicarlo después de revisiones menores; d) publicarlo sin revisión. La decisión, una vez tomada, se comunica inmediatamente a los autores, acompañada de los comentarios pertinentes de revisores y editores. Con respecto a este sistema de revisión por pares, debemos hacer algunas salvedades. A pesar de su amplia difusión y aceptación, que evidencian sus grandes ventajas, el sistema sufrió una serie de críticas, motivadas por las distorsiones de su uso. 3 Se ha destacado: a) la propensión positiva o negativa a ciertos temas por parte de los revisores o editores que puede introducir distorsiones adicionales a la publicación, debido a conflictos de intereses y/o enfrentamientos personales, intereses comerciales, etc; b) la evaluación aumenta innecesariamente el tiempo entre la presentación del manuscrito y su publicación; c) es posible que en la decisión intervengan elementos prejuiciados relativos a autores pertenecientes o supuestamente identificados con minorías étnicas, sexuales, ideológicas, religiosas o nacionales. Para hacer frente a estas posibles distorsiones, se han introducido diferentes mecanismos y procedimientos a fin de evitarlas o minimizarlas. Se acostumbra solicitar declaraciones de compromiso de los revisores; enviar cuestionarios con criterios orientadores para el análisis; utilizar un mayor número de árbitros; efectuar análisis cruzados entre las recomendaciones de los mismos a fin de posibilitar el control de unos sobre otros; garantizar a los autores la posibilidad de responder o refutar los comentarios de los revisores por intermedio del editor, quien debe así propiciar un diálogo respetuoso y profesional entre el autor y el evaluador. Además de estos requisitos, consideramos que es importante garantizar el carácter confidencial del proceso. Los grados de confidencialidad del sistema de arbitraje varían en las diversas revistas desde los muy herméticos a los muy abiertos. En este último caso, autores y evaluadores se conocen; en el otro los árbitros son anónimos y también desconocidos los nombres de los autores. En la mayoría de las ocasiones los evaluadores conocen a los evaluados, y es muy poco frecuente que ocurra lo contrario.4, 12 En nuestra revista6 hemos optado por un sistema semicerrado, que suministra a los revisores el privilegio de no revelar su identidad, a menos que ellos mismos opten por hacerla pública. Finalmente, quisiéramos mencionar uno de los problemas clásicos que suelen presentarse en las revistas científicas impresas. Se da el caso de un manuscrito que a pesar de su originalidad y de estar bien redactado, de sus objetivos claros y relevantes, de los métodos adecuados, del análisis de los datos correcto, etc., no pueda ser aceptado para publicación. Ello sucede por haber sido clasificado por alguno de los revisores como de “escasa prioridad”. Este problema se refiere al elevado costo de las páginas publicadas y existe en casi todas las revistas prestigiosas internacionales. Sus consecuencias son frustrantes para los autores, para quienes entonces re[ 49 ]
sulta difícil o incluso imposible publicar trabajos meritorios. Estas dificultades y otras similares irán desapareciendo a medida que los avances tecnológicos induzcan a la mayoría de las revistas a adoptar el modelo electrónico como vehículo principal de publicación.
Referencias 1. The Vancouver style. Lancet 1979; 1(8113): 428-431. 2. Frederiksson BK (ed.). A century of science publishing. IOS Press, Omaha, Nebraska, USA, 2001. 3. Spinak E. Diccionario enciclopédico de bibliometría, cienciometría e informetría. Caracas, Venezuela, UNESCO, 1996. 4. Pessanha C. Editorial criteria for the evaluation of scientific literature. Seminario sobre Evaluación de la Producción Científica. Proyecto SciELO, São Paulo, Brasil, marzo 4-6, 1998. 5. Zuckerman HQ, Merton RK. Patterns of evaluation in science: institutionalization, structure and functions of the referee system. Minerva 1971; 9(1): 66-100. 6. http://www.cardiab.com/ 7. http://portal.unesco.org/ 8. Greene JL. El dilema del editor de una revista biomédica: aceptar o no aceptar. Seminario sobre Evaluación de la Producción Científica. Proyecto SciELO, São Paulo, Brasil, marzo 4-6, 1998. 9. http://www.garfield.library.upenn.edu/ 10. Amin M, Mabe M. Impact factors: use and abuse. Perspectives in Publishing (Elsevier) 2000, 1: 1-6. 11. Benavent RA, Valderrama Zurián JC, González de Dios J, de Granda Orive JI, MiguelDasit A. El factor de Impacto: Un polémico indicador de calidad científica. Rev Esp Econ Salud 2004; 3: 5. 12. Jones AH, McLellan F (eds.). Ethical Issues in Biomedical Publication. The Johns Hopkins University Press; Baltimore, Maryland, USA, 2000.
[ 50 ]
Capítulo 5
¿Qué es y como se elabora una monografía científica?
Daniel José Piñeiro
“Quidquid discis, tibi discos” (Aquello que aprendes, lo aprendes para ti) Gaius o Titus Petronius Arbiter, Satyricon 46.8 (c. 27 d.C. - 66 d.C.) “se puede hacer una tesis digna, aún hallándose en una situación difícil, causada por discriminaciones recientes o remotas. Se puede aprovechar la ocasión de la tesis (.) para recuperar el sentido positivo y progresivo del estudio, no entendido como una cosecha de nociones, sino como una elaboración crítica de una experiencia, como adquisición de una capacidad –buena para la vida futura– para localizar los problemas, para afrontarlos con método, para exponerlos siguiendo ciertas técnicas de comunicación” Humberto Eco. Cómo se hace una tesis. Técnicas y procedimientos de estudio, investigación y escritura. Gedisa, Barcelona, 2001.
L
a elaboración de una monografía científica es una técnica pedagógica dentro del proceso de aprendizaje en el área cognoscitiva, que tiene por objeto estimular el pensamiento crítico. Este trabajo intelectual requiere el empleo de un sistema científicamente organizado (método), de desarrollo progresivo, que permite al alumno profundizar un tema y ejercitar una técnica, que ofrece un resultado concreto (el informe) y que facilita una evaluación objetiva.
Definición Una monografía (mono: uno; grapho: escribir) es un trabajo científico escrito, producto de la investigación bibliográfica, que estudia en forma exhaustiva un tema (problema) claramente delimitado, que lo desarrolla en forma lógica, y cuyo objetivo final es transmitir el resultado de la citada investigación. El informe constituye un documento, resultado de esa investigación exploratoria, seria y amplia, que emplea como fuente la bibliografía y como método la búsqueda y el análisis bibliográfico.
Etapas para la realización de una monografía científica Elección del tema Planificación [ 51 ]
Búsqueda bibliográfica Técnica de la búsqueda Evaluación, análisis, interpretación y síntesis de la bibliografía Nueva búsqueda bibliográfica Redacción del informe 1. Elección del tema Para la elección del tema es aconsejable que éste responda a las preguntas que se efectúan a continuación, con el fin de que quede indicado: ¿El tema es un problema científico? ¿Para qué realizar el trabajo? Porqué elegir ese tema y no otro? ¿Qué se espera obtener? ¿El tema es de interés práctico o teórico para el autor y para la comunidad cardiológica? (Criterio de interés) ¿Se puede acceder a la información para la realización de la monografía? (Criterio de viabilidad). 2. Planificación ¿Cuánto tiempo se empleará aproximadamente para ejecutar cada uno de los pasos de la ejecución de la monografía? ¿De qué bibliografía provisoria se dispone? ¿Cuáles serán los subtemas o epígrafes en que se va a dividir la monografía? Planifique su trabajo con tiempo, sólo esto le permitirá hacer una lectura crítica de la bibliografía y presentar un informe que muestre su capacidad de análisis. Sea flexible en la asignación de los plazos para cumplir las diferentes etapas. Considere la posibilidad de demoras o imprevistos. Se sugiere dividir el tiempo de la siguiente manera: búsqueda bibliográfica 20%, análisis bibliográfico 40%, elaboración del informe 30%, ajustes 10%. 3. Búsqueda bibliográfica Proceso durante el cual se busca una respuesta al problema (tema) en trabajos científicos publicados en relación con el mismo, accesibles al investigador. Se consideran dos tipos de trabajo científicos: Tipo I, de verificación indirecta (libros, manuales, normas, publicaciones periódicas de revisión, revisiones, monografías). Tipo II, artículos originales. 4. Técnica de la búsqueda En caso de revistas científicas: Listar todos lo autores, pero si el número excede los seis (6) escribir los seis seguidos de et al. (sin comillas). Apellido de los autores seguidos por las iniciales de sus nombres sin necesidad de poner puntos. Los autores separados por coma, y punto después del último autor. Nombre del trabajo científico y punto. Revista abreviada de acuerdo al Index Médico Inter[ 52 ]
nacional, y seguido el año, punto y coma, volumen, dos puntos, y número de página inicial y final separados por un guión. Ejemplo: Esper RJ, Nordaby RA, Vilarino JO, Paragano A, Cacharron JL, Machado RA. Endothelial dysfunction: a comprehensive appraisal. Cardiovasc Diabetol. 2006; 5:4-23. En caso de libro, manual, norma o monografía: Listar todos los autores, pero si el número excede los seis (6) escribir los seis seguidos de “et al.” (sin comillas). Apellido del o los autores seguidos por las iniciales de sus nombres sin poner puntos. Los autores separados por coma, y punto después del último autor. Título del capítulo del libro y punto. La preposición inglésa “In” y dos puntos, nombre del editor/es seguido por las iniciales del/los nombres, entre paréntesis (Ed o Eds, según corresponda), punto. Título del libro y punto. Ciudad de publicación y coma, editorial y coma, año de edición y coma, número de edición si corresponde (ej: 5ta Ed) y dos puntos, página inicial y final del capítulo separados por guiones. Ejemplo: Esper RJ, Vilariño JO. La disfunción endotelial. In: Esper RJ (Ed). Aterotrombosis en el tercer milenio. Barcelona, Prous Science 2004: 49-83 Se accede a la información en forma directa o indirecta, mediante la solicitud de copias, separatas u otros métodos electrónicos (modem). Se clasifica provisionalmente el material bibliográfico consignado el tema, subtema al que corresponda de acuerdo a la organización de la monografía proyectada en la planificación. Consulte con un bibliotecario, quien es un profesional especialmente dedicado al manejo de la información bibliográfica. Considere que la información generalmente está en una base de datos. Recuerde que la cita que no se encuentra en una biblioteca puede encontrarse en otra. Su bibliotecario puede indicarle en que biblioteca encontrar cada revista. Durante la búsqueda, no distraiga su atención con artículos que pueden ser de su interés pero que no se relacionan con el tema de la monografía. Tenga presente que los artículos originales tienen un valor científico mayor que los trabajos de verificación indirecta. Dado que son escasas las publicaciones nacionales que están citadas en el Index Médico o en las bases de datos comunes, consulte la bibliografía nacional, en particular la Revista Argentina de Cardiología (Rev Argent Cardiol). 5. Evaluación, análisis, interpretación y síntesis de la bibliografía Se lee el material de corrido y luego, en forma detenida, analizando y subrayando las ideas principales y las secundarias, para lo que se aconseja usar colores distintos. Se deben dividir los artículos con que se cuenta según la importancia que tienen para la redacción de cada capítulo de la monografía. Se evalúan los aspectos formales y metodológicos del trabajo. Se registra la información pertinente a la monografía en una ficha, mediante un resumen. Se ordena en forma definitiva el material bibliográfico, consignando tema y subtema al que corresponda, de acuerdo a la organización de la monografía proyectada en la planificación. [ 53 ]
Se analizan, evalúan e interpretan las coincidencias y discordancias del material analizado, formulan opiniones propias, nuevas hipótesis y desarrollos futuros posibles y deseables. Esta etapa de la realización de la monografía es la más trascendente y creativa. Quizás usted perciba que sus conocimientos sobre metodología de la investigación no son suficientes para encarar con éxito la tarea, probablemente sea el momento adecuado para estudiar alguno de los textos, para consultar a los tutores de la monografía o para realizar algunos de los cursos dedicados a esta disciplina. 6. Nueva búsqueda bibliográfica La realización de una segunda búsqueda bibliográfica, luego de haber analizado toda la información obtenida al comienzo del trabajo, permite un conocimiento más profundo y una actualización del tema elegido, teniendo en cuenta que para este momento ha pasado la mayor parte del tiempo de la elaboración de la monografía. 7. Redacción del informe Se redacta el informe como un documento científico, teniendo en cuenta el contenido y la forma (Presentación, ortografía, semántica, y sintaxis). Las partes del informe son: Portada Introducción Material y métodos Resultados (en uno o más capítulos) Discusión Conclusiones Bibliografía Tablas, figuras Agradecimiento Cada una de las partes comienza en hoja aparte. Las páginas se numeran en forma correlativa en el ángulo superior o inferior derecho. El trabajo se presenta redactado con espacio simple, aunque puede hacerse a doble espacio o 1½ espacios, según el deseo del redactor, con letras número 10-12, en papel blanco, tamaño carta; 219 x 279 mm, u 8 1/2”x11”, con márgenes de por lo menos 30 mm en los márgenes superior e izquierdo, y 20 mm en el inferior y derecho, empleando una sola cara del papel. La portada consta de un encabezamiento con Título, autor/es, títulos científicos de los autores, centro/s en donde se realizó la monografía o donde se desempeña/n el/los autores, la universidad que avala el curso, dirección postal, incluidos teléfonos y e-mail (si lo tuviere), año de realización. La introducción consiste en el planteo del tema elegido, los fundamentos para su elección, objetivos, interés y viabilidad del mismo, consideraciones sobre trabajos anteriores y plan de la monografía. En el material y método se consigna la técnica de la búsqueda y el análisis bibliográfico. [ 54 ]
En particular, se describe la delimitación del campo y el periodo investigado, los métodos de registro, el acceso a la información, el análisis, evaluación, interpretación y síntesis de la bibliografía y los problemas y limitaciones en la búsqueda y el análisis. En resultados se describen los datos obtenidos en la búsqueda bibliográfica, desde la reseña histórica hasta los artículos más actualizados. En la discusión se analizan, evalúan e interpretan las coincidencias y discrepancias encontradas en el material investigado. Se formulan opiniones propias, nuevas hipótesis y desarrollos futuros posibles y deseables. En las conclusiones se expone, en forma sintética, la respuesta actual más completa y las perspectivas a los problemas planteados en la introducción. La bibliografía se presenta numerando las citas en forma correlativa, siguiendo el orden en que son mencionadas por primera vez en el texto. Las citas se identifican en el texto, tablas y pies con números arábigos entre paréntesis, o bien letras de superíndice más pequeñas al finalizar la oración, después de un punto. Cuando son dos o más las citas se separan por comas. Si son números correlativos se indican el primero y el último separados por un guión. Las citas se expresan siguiendo los criterios expuestos en el ítem 4. Las tablas y figuras se presentan insertadas en el texto, con título y notas al pie. Las tablas se identifican en el texto con números romanos precedidos por la palabra tabla, y las figuras con números arábigos precedidos por la expresión Fig. entre paréntesis, al finalizar la oración, después del punto. Las tablas y figuras se numeran en forma independiente y correlativa, siguiendo el orden en que son mencionados por primera vez en el texto. Cuando se emplea una abreviatura en una tabla o figura, ésta debe explicitarse con el término o expresión completos en la nota al pie, salvo que se trate de abreviaturas aceptadas universalmente como una unidad de medida común del Sistema Internacional de Unidades. Al final de la monografía se puede agregar una parte de agradecimientos (si correspondiere) por la colaboración institucional, ayuda técnica, colaboración intelectual o apoyo financiero o material si hubiera existido. Emplee un lenguaje claro, sencillo, conciso, exacto y preciso. Utilice, en general, la tercera persona singular o plural del presente del indicativo. Cuando emplee por primera vez una abreviatura, ésta debe ir precedida del término o expresión completos, salvo que se trate de una unidad de medida común. Exprese las unidades de medida de acuerdo al Sistema Internacional de Unidades (SI). (en francés: http://www.bipm.fr/fr/si/; en español: http://edison.upc. edu/units/SIcas.html; en inglés: http://physics.nist.gov/cuu/Units/) “Una vez concluida la redacción de la monografía, entréguela a un lego para ver si la entiende. Si la entiende, está bien redactada. Entonces, vuelva a escribirla empleando la mitad de las palabras”. Recuerde que la presentación de la monografía es la culminación de una ardua tarea y debe ser digna del esfuerzo que usted realizó durante el proceso del elaboración de la misma.
[ 55 ]
Referencias 1. ¿Qué es una monografía? http://www.sagg.org.ar/docs/monografia.doc. (consulta: 23 de junio de 2007) 2. Aramburu EJ. Guía para la confección de la monografía. http://www.geocities.com/enriquearamburu/ETE/guia.html (consulta: 23 de junio de 2007) 3. Cassany D. La cocina de la escritura, Barcelona, Anagrama, 1995. 4. Cichanowski E. Pautas para la monografía. http://www.mailxmail.com/curso/vida/pautasmonografia. (consulta: 23 de junio de 2007) 5. Cómo realizar una monografía. http://www.exactas.unlpam.edu.ar/academica/carreras/ enfermeria/documentacion/comorealizarunaMONOGRAF%CDAII.PDF. (consulta: 23 de junio de 2007) 6. Diccionario de la Lengua Española de la Real Academia Española 22.ª Edición. http:// www.rae.es (consulta: 23 de junio de 2007) 7. Eco U. Cómo se hace una tesis. Técnicas y procedimientos de estudio, investigación y escritura, Barcelona, Gedisa, 2001. 8. Entrez PubMed. http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed. (consulta: 23 de junio de 2007). 9. Harvey G. Cómo se citan las fuentes. Madrid, Nuer, 2001. 10. http://en.wikipedia.org/wiki/Monograph. (consulta: 23 de junio de 2007) 11. International Committee of Medical Journal Editors Uniform Requirements for Manuscripts Submitted to Biomedical Journals: Sample References. http://www.nlm.nih.gov/ bsd/uniform_requirements.html. (consulta: 23 de junio de 2007). 12. International Committee of Medical Journal Editors. Uniform Requirements for Manuscripts Submitted to Biomedical Journals: Writing and Editing for Biomedical Publication (Updated February 2006). http://www.icmje.org/. (consulta: 23 de junio de 2007) 13. La Monografía. http://www.bibliotecasvirtuales.com/biblioteca/Articulos/monografia. asp .(consulta: 23 de junio de 2007) 14. Le Système international d’unités (SI). http://www.bipm.fr/fr/si/. (consulta: 23 de junio de 2007) 15. Nubiola J El taller de la filosofía. Una introducción a la escritura filosófica. Pamplona, Eunsa, 1999. 16. Piñeiro D. ¿Qué es y cómo se elabora una monografía científica? SAC Informa. Diciembre 1994 - Enero 1995:18-20. 17. Requisitos de Uniformidad para Manuscritos Presentados a Revistas Biomédicas. (Estilo Vancouver). http://www.um.es/eglobal/normas/vancouver.pdf (consulta: 23 de junio de 2007). 18. Roldán AF. Cómo hacer una monografía. http://www.fiet.com.ar/articulo/monografia_ roldan.doc (consulta: 23 de junio de 2007) 19. Sistema internacional de unidades. Versión en castellano para España. http://edison.upc. edu/units/SIcas.html. (consulta: 23 de junio de 2007) 20. The NIST Reference on Contstants, Units, and Uncertainty. http://physics.nist.gov/cuu/ Units/. (consulta: 23 de junio de 2007) [ 56 ]
21. Torregrosa M. Cómo se hace una tesis doctoral. http://www.unav.es/gep/Metodologia/ TesisDoctoral.html. (consulta: 23 de junio de 2007) 22. Torregrosa M. Metodología de la investigación. http://www.unav.es/gep/Metodologia/ PaginaPrincipal.html. (consulta: 23 de junio de 2007) 23. Uniform requirements for manuscripts submitted to biomedical journals. International Committee of Medical Journal Editors. N Engl J Med. 1997 Jan 23;336(4):309-15. 24. Vanni MJ. ¿Qué es una monografía? http://www.monografias.com/trabajos7/mono/mono.shtml (consulta: 23 de junio de 2007).
[ 57 ]
Capítulo 6
¿Qué es un trabajo de Tesis de Doctorado?
Roberto Ernesto Pedro Sica
Introducción Escribir un capítulo en el que pretendo decir qué es un trabajo de tesis de doctorado, cómo se lo enfoca y cómo se lo lleva adelante no es una tarea sencilla para alguien que está familiarizado con solo una muy pequeña parte del conocimiento, como es mi caso. Es ello una limitante de importancia, puesto que una tesis de doctorado puede versar sobre cualquier aspecto del saber. Las diversas formas del conocimiento hacen que existan particularidades para cada una de ellas que condicionan, al menos parcialmente, la modalidad que adoptará el trabajo. Sin duda, una tesis que versara sobre un momento dado de la historia argentina, por ejemplo el estudio de las razones que hicieron que San Martín regresase al Río de la Plata, diferirá en su elaboración de otra que trate, digamos, el efecto del RNA de interferencia sobre el RNA mensajero que induce la elaboración de la proteína huntingtina. La primera será una labor de investigación retrospectiva que se basará en el análisis de los documentos que puedan existir en relación a aquel episodio, en tanto que la segunda se constituirá en un estudio prospectivo que empleará una técnica establecida y que necesitará del análisis matemático-estadístico para la valoración de sus resultados. Igual podría decirse de otros temas, como, por ejemplo, las causas ambientales que llevaron a la aparición de la música barroca o cuál será la variación de la órbita de la tierra dentro de diez mil años, predicción que, tal vez, pueda hacerse sabiendo del comportamiento de ese fenómeno hasta donde hoy se lo conoce; para resolver lo dicho con respecto a la música barroca será necesario estudiar las costumbres, hábitos y cultura en general de la población europea, en particular la italiana, del siglo XVII sin olvidar la extravagancia de otras muestras artísticas que pudieron influir también y cuyas primeras manifestaciones aparecieron en Bizancio. Para lo segundo, será imprescindible la confección de un cálculo matemático complejo lo suficientemente convincente y abarcativo de todas las variables geofísicas, enmarcadas dentro del sistema planetario en el que se inserta la tierra y en el que también se ponderen eventuales fenómenos “accidentales”, tal como el impacto de un gran meteorito sobre su superficie. De todas maneras, y aceptando las limitaciones que acabo de comentar, trataré de escribir las siguientes páginas de forma que puedan ser aplicables a la elaboración de diferentes tipos de tesis de doctorado, aunque, indudablemente, los párrafos que siguen estarán teñidos de mi impresión personal que, necesariamente, está condicionada por mi formación en el área restringida del conocimiento que poseo. [ 58 ]
Luego de entender cuál es la debilidad de lo que diré a continuación, el lector estará en libertad para decidir continuar o no con la lectura de este capítulo. Si no lo hiciere, estaría justificado. Ahora bien, si está decidido a seguir adelante iniciemos, pues, la labor.
Definición de Tesis de Doctorado Una tesis de doctorado es un trabajo artístico, humanístico o científico que introduce conocimiento nuevo o modifica sustancialmente el existente en un área determinada de la Cultura, entendiendo por Cultura al conjunto del saber, cualquiera sea su índole. Puede argumentarse que la definición dada arriba es aplicable a todo trabajo que sume una novedad. Es cierto, cualquier investigación que parta de una hipótesis y la demuestre cierta es una tesis. Sin embargo, en el ámbito universitario se considera tal al escrito que, de manera pormenorizada y, habitualmente, extensa, conceptualiza un nuevo elemento del saber. La aceptación de esto último permite que su autor exponga en un único manuscrito una idea que fue, o es, la directriz de su pensamiento y que pudo, o puede, a lo largo del tiempo que llevó, o lleva, su investigación haber producido un número de trabajos que, si bien se relacionan entre si a partir de la idea central, mantienen su independencia en tanto que analizan distintos aspectos del mismo problema.
¿Cuál es la razón o cuáles las razones que hacen que un graduado decida elaborar un proyecto de tesis de doctorado? La decisión de llevar adelante un proyecto de tesis de doctorado aparece en cualquier graduado cuando convergen una serie de razones y circunstancias que naturalmente llevan a adoptar esa actitud. Las razones son de índole variada, la que posiblemente tenga mayor valor es la convicción del futuro doctorando de haber adquirido conocimiento profundo en relación a un aspecto determinado del saber y la suficiente madurez intelectual que le permite suponer que está en condiciones de incrementar ese conocimiento dentro del área de interés mediante el desarrollo de una idea, diferente a todas las anteriores. Esa idea puede, si su desarrollo resulta exitoso, tener dos efectos, uno de ellos es simplemente agregar nuevas nociones a las ya establecidas y la segunda modificar las concepciones existentes, reorientando la investigación. Ambas actitudes son totalmente aceptables y, según mi parecer, simétricas en cuanto a su importancia. La primera incrementa el saber en un aspecto determinado, en tanto que la segunda cambia el concepto existente hasta entonces; en los dos casos se produce una modificación de la realidad objetiva que pasa a ser parte del patrimonio cultural de la especie. La adquisición de una idea novedosa en un campo determinado no es casual habitualmente, aunque sí es cierto que una circunstancia fortuita puede hacerla evidente en un momento [ 59 ]
dado; sin embargo quien advierte la novedad debe poseer un caudal suficiente de conocimientos que le posibiliten verla como tal. Esto es así puesto que no es posible reconocer como diferente e inédito a un fenómeno determinado si no se conoce todo lo previamente hecho en relación a él y si no se concluye que el nuevo concepto resulta el corolario actual de ese conocimiento. La nueva idea puede aparecer como fruto de la meditación y ser la consecuencia lógica del razonamiento impuesto al fenómeno en estudio, es esta una actitud deductiva que fluye armoniosamente en la mente del investigador y lo conduce a la obtención de una nueva verdad que puede o no estar en acuerdo con lo sabido previamente. Otra posibilidad es que el azar enfrente al investigador con una conducta insospechada del fenómeno en estudio. En estas circunstancias, a igual que en la anterior, quien descubre esa actitud del fenómeno necesariamente debe saber todo lo concerniente a él, puesto que de otra manera no podría reconocer lo inadecuado de aquella conducta. Esa observación induce al investigador hacia la obtención de una respuesta lógica a aquello que no lo parece y puede, sí, transformarse en la clave que le permita obtener una noción diferente. Es esta una actitud inductiva que obliga al observador a modificar todas o parte de sus concepciones previas en relación al fenómeno en cuestión en aras de hallar la explicación que corresponde a la modificación inesperada de la conducta de ese fenómeno, conducta que le esta señalando una realidad previamente no sospechada pero, indudablemente, existente. La segunda razón para llevar adelante un proyecto de tesis de doctorado es, habitualmente, la necesidad de crecimiento académico. En la obtención de posiciones, dentro del ámbito universitario, el título de Doctor adquiere trascendencia puesto que es el de mayor jerarquía que otorga la Universidad. Cuando se concibe a la Universidad como a la Institución que alberga el conocimiento y que es fuente de conocimiento, la adjudicación del título de Doctor de la Universidad señala que ella reconoce en esa persona a alguien que posee la mayor información en una parcela dada de ese conocimiento y que ha sido capaz de ampliarlo o modificarlo. En última instancia reconoce en el Doctor a un exponente mayor de la Cultura, en tanto se entienda por Cultura el atesoramiento del saber. Por ello la Universidad supone que quien es Doctor está en las mejores condiciones para transmitir conocimiento a las generaciones que le siguen y cumplir, de esa manera, con una de las condiciones básicas de la especie y que es la transferencia generacional del saber. Por esas razones es que quien completa el Doctorado posee más posibilidades para acceder a cargos docentes jerarquizados y a posiciones de conducción académica.
¿Qué es una tesis de Doctorado? Una tesis de doctorado es la labor que significa la demostración de un hecho no conocido hasta entonces, e implica la concepción previa de una hipótesis. Por ello resultan inseparables los conceptos de hipótesis y tesis en la concreción de esta última. [ 60 ]
La primera es una elucubración teórica acerca de la factibilidad de la producción de un fenómeno dado que deberá surgir como consecuencia de una acción determinada y que está en línea con todo el conocimiento previo de ese fenómeno. En última instancia este tipo de razonamiento responde a la lógica aristotélica y debe estar guiado por los mismos principios que rigen la elaboración de un silogismo; es, por tanto, un acto esencialmente deductivo. Su valor es mayor, puesto que condicionará todo el trabajo ulterior. De allí que la hipótesis debe ser cuidadosamente pensada, discutida y contrastada con el conocimiento existente hasta entonces en la porción del saber que se posee en el área de la investigación que se quiere ampliar o modificar. La tesis es el intento de demostración de la hipótesis. Ello implica una labor extensa que, en ocasiones, ocupa lapsos prolongados. Es esencial que la metodología elegida para llevar adelante el trabajo se adecue estrictamente al concepto de la hipótesis, tanto en lo referente al diseño experimental como en lo que respecta al tipo de tratamiento matemático que será dado a los resultados. La introducción de desviaciones en uno u otro aspecto puede conducir a errores insalvables capaces de torcer la investigación, llevando a conclusiones no verdaderas.
¿Cómo se construye un proyecto de tesis de doctorado? El proyecto requiere varios capítulos, aunque la totalidad del escrito no debe ser extremadamente extensa. El capítulo inicial es introductorio; en él el doctorando deberá exponer sintéticamente el conocimiento existente hasta ese momento acerca del fenómeno que pretende estudiar; también podrá dar los lineamientos generales de su pensamiento personal en relación con aquel fenómeno. Documentará este aparte con la bibliografía que considere como la más representativa en cuestión. El segundo capítulo es la enunciación de la hipótesis. Es este, tal vez, el aparte más esencial del proyecto. La hipótesis debe ser cuidadosamente meditada y ajustada a los postulados señalados antes. El tercer capítulo es la descripción del material y del o de los métodos que empleará durante el desarrollo de su trabajo. Finalmente, construirá la lista de las referencias bibliográficas que haya citado en el texto.
¿Cuánto debe ser el tiempo de graduado para que quien esté interesado presente el proyecto de tesis? El tema del proyecto de tesis de doctorado no aparece de manera casual, sino que es el resultado de la maduración de una concepción particular e individual que le permite a alguien explicar un fenómeno dado. Logrado este propósito, quien interpreta podrá suponer que el [ 61 ]
conocimiento de ese fenómeno es incompleto o no resulta del todo claro, o que la concepción corriente que de él se tiene es errada. En cualquiera de estas tres situaciones es aceptable y lícito que pretenda ya sea incrementar su conocimiento, ponerlo mas en claro o re-orientar su concepción; si esto es así le surgirá una idea nueva que supondrá que llevando adelante una determinada acción el conocimiento del fenómeno adquirirá características distintas a las que tiene en ese momento; esta actitud lo conducirá a la elaboración de una hipótesis de trabajo que se transformará en la base de su futura tesis. Ahora bien, para que ello suceda, el futuro doctorando deberá haber obtenido una larga experiencia en el área que le preocupa, adquisición que, habitualmente, demanda varios años de labor en el tema, años que conducen a que el fenómeno de interés se transforme en una de sus vivencias. Por ello no es posible suponer que un proyecto de tesis de doctorado sea presentado por alguien recientemente graduado. El tiempo medio que transcurre usualmente entre la graduación y la presentación del proyecto de tesis es de unos diez años. Ello implica, también, una edad determinada del doctorando que, idealmente, debería estar entre los 35 y los 45 años, época de la vida en la que la maduración, en todos sus aspectos, se ha completado y en la que la pujanza y persecución de un objetivo dado tienen la mayor fuerza. Sin embargo, pueden existir excepciones a lo comentado en los párrafos precedentes. Puede suceder que quien se transformará en doctorando sea parte de un equipo de investigación al que se haya integrado poco tiempo atrás y en el que cumpla, por ejemplo, el papel de becario, trabajando sobre un tema que ha sido elegido por otros, habitualmente por su Director de Beca o por el Jefe de la estructura en la que se desempeña, y que ese tema se transforme en el su tesis de doctorado. También puede suceder que alguien, con muchos más de 10 años de graduado se vea en la necesidad de doctorarse para poder seguir adelante en su carrera, en este caso es probable que seleccione un tema en el que ya haya trabajado y del que ya tenga resultados para construir su tesis; esta última opción transformará a la tesis en un trabajo retrospectivo y no prospectivo como resultan todas las otras opciones. Ninguna de las dos posibilidades que suponen los dos párrafos anteriores son las mejores, la primera porque la elección del tema puede no tener mayor relación con la vocación del tesista y la segunda porque surge de la necesidad y no de la convicción de que la tesis significa una jerarquización académica que voluntariamente se quiere alcanzar.
Información bibliográfica Quien haya encontrado el tema que le servirá para la confección de su tesis de doctorado, luego de haber sorteado la etapa de elaboración de la hipótesis, no deberá suponer que la información que posee de él es la totalidad de la existente. La actitud mas razonable del futuro doctorando es creer que su conocimiento es parcial y que pudo haber habido otro autor que, en circunstancias iguales a las suyas, haya podido desarrollar ideas similares a las que él ahora tiene. Esta última posibilidad, y la necesidad de conocer todo lo sabido con respecto a la materia [ 62 ]
que tratará, obligarán al investigador a una exhaustiva y completa búsqueda de la bibliografía referida al tema de interés y a su lectura. Esa tarea no solo enriquecerá aun más su conocimiento, sino que también le posibilitará una mejor apreciación y comprensión de lo que pretende hacer. Décadas atrás la labor referida arriba era gigantesca y, en oportunidades, abrumadora, puesto que el futuro doctorando debía visitar un sinnúmero de bibliotecas en las que le fuera posible encontrar las revistas requeridas. Afortunadamente hoy ese trabajo está francamente facilitado por la existencia de muy extensas bases bibliográficas a las que el estudiante puede acceder electrónicamente, mediante el uso de una computadora, desde su domicilio o desde el laboratorio, hospital o cualquier otro tipo de institución en la que trabaje. Esta modalidad de adquisición de información permite obtener, al menos, el resumen del trabajo que se busca; en ocasiones es posible lograr la versión completa de él gratuitamente cuando la revista en el que se ha publicado lo permite, en otras el requerimiento es el pago de la copia, un valor que habitualmente es bastante oneroso. Después de finalizada la investigación bibliográfica es conveniente que el estudiante seleccione las citas que conciertan el mayor interés para su propósito y reconozca aquellas otras de bajo o nulo valor. Habitualmente esta tarea necesita del asesoramiento de alguien con mayor experiencia; la intervención, en este sentido, de quien dirigirá su investigación puede ser de importante ayuda, puesto que contribuirá a darle un sentido lógico secuencial a su lectura y simultáneamente, ahorrará tiempo y dinero. Para mejor recordar es aconsejable que el estudiante elabore un sistema de fichas en las que volcará el contenido de cada uno de los trabajos consultados, de manera resumida, y el valor que le adjudica en relación a su propósito; esto último puede hacerlo empleando tarjetas de colores diferentes, según la importancia del escrito examinado, o dándoles un número que identifique su importancia. Un esquema de ficha posible es el que se sugiere a continuación. Calificación del trabajo (color de tarjeta o valoración numérica) Título del trabajo: Autores: Revista, año de publicación, volumen, número de página inicial-número de página final: Resumen (en el que se destaquen el método empleado y los hallazgos básicos de mayor importancia): Posee relevancia, también, la búsqueda de revisiones que hubieran sido escritas en conexión con el tema. De igual forma tiene valor la consulta de libros relacionados. En ambos casos su lectura puede dar una concepción mas holística del problema y ayudar al estudiante a conceptualizar mas adecuadamente sus ideas. También para esto es conveniente que elabore fichas; en el caso de las revisiones puede servirle la desarrollada arriba agregando solo la palabra “revisión” entre paréntesis luego de “Título del trabajo”. En el caso de que se tratare de un libro el tipo de ficha deberá cambiar adoptando un modelo que puede ser así: [ 63 ]
Titulo del libro: Título del capítulo de interés: Autor(es) del capítulo: Editor(es) del libro: Año de edición: Ciudad(es) en la(s) que fue editado: Editorial: Número de página inicial-número de página final: Resumen (en el que consten los conceptos de mayor valor en relación al tema de interés):
Idiomas En muchos casos la literatura relacionada con el tema en cuestión está escrita en un idioma que no es el materno del estudiante. Hoy, el idioma de las Ciencias es el Inglés, así como lo fue el Latín, centurias atrás, para prácticamente todo el conocimiento. Mas aún, el Inglés es el idioma de intercambio epistolar entre quienes desarrollan una misma actividad y hablan lenguas diferentes, y lo mismo sucede en todas las reuniones internacionales de cualquier índole en las que las presentaciones orales o escritas, a igual que su discusión, se hacen en esa lengua. Por ello es imprescindible que el doctorando tenga un adecuado manejo del Inglés de forma que le permita acceder a toda la literatura escrita en ese idioma. Si bien lo ideal sería que lo hablase y leyese fluidamente, para la finalidad de su trabajo de tesis es, habitualmente, suficiente poseer capacidad para su lectura. No resultaría así si el estudiante decidiera visitar laboratorios extranjeros, ubicados en cualquier país en el que su idioma materno no se hable, puesto que lo usual es que la comunicación entre los integrantes de esos laboratorios y sus visitantes se haga en Inglés. Es cierto que existen trabajos de valor escritos en otros idiomas; entre ellos el Castellano, el Alemán, el Japonés, el Portugués y el Francés. Sin embargo, todos ellos, casi sin excepción, poseen un resumen en Inglés que le permitirá al doctorando entender su importancia. Si ese valor fuese mayúsculo para la mejor concreción de la labor en la que está empeñado, no le quedará otro camino que pedir su traducción a alguien que sepa hacerlo.
Otras fuentes de información Si bien es cierto que lo dicho en el apartado dedicado a la bibliografía tiene el mayor peso en cuanto a la adquisición de información, ello no excluye otras fuentes que puedan servir al mismo objetivo. Ellas son varias. Es útil que el doctorando concurra a reuniones científicas, o relacionadas con la índole de su labor, en las que se discuta el tema de su interés u otros que pudieran estar conectados con él. En esos encuentros el estudiante podrá escuchar las opiniones de otros investigadores [ 64 ]
con, tal vez, mas experiencia que la de él; podrá hacer preguntas a esos investigadores, cuyas respuestas pueden volver mas claras sus ideas; tendrá, en oportunidades, ocasión de observar prácticas de laboratorio, clínicas, semiológicas u otras cuyo aprendizaje puede serle de ayuda, y tendrá la posibilidad, hablando con otros, de conocer las dificultades e inconvenientes que pueda tener la puesta en marcha y desarrollo de un método o de una técnica dada. En relación a lo dicho al final del párrafo anterior es, sin duda, de la mayor utilidad que el doctorando concurra a otros lugares en los que se trabaje en conexión con su tema de interés. Estadías cortas, de entre uno y tres meses, en esos otros centros seguramente ampliarán la vivencia que tenga de su proyecto y, posiblemente, lo instruirán acerca de los detalles prácticos del manejo del método, o de los métodos, que él mismo debe, o deberá, emplear. Es, también, valioso que acepte dar conferencias, participar en ateneos o llevar a delante seminarios en los que hable del tema que lo ocupa. Ello contribuirá a que mantenga actualizada su bibliografía. Puede suceder, también, que al preparar una disertación o participar en una discusión aparezcan nuevas ideas hasta entonces no previstas.
Importancia de la redacción La redacción del trabajo de tesis de doctorado debe ser hecha en el mejor idioma posible. Para el caso nuestro, el Castellano que se emplee debe ser absolutamente correcto. El doctorando cuidará que los tiempos de verbo sean los adecuados al párrafo que está escribiendo. También debe ser precisa la puntuación. Es conveniente utilizar párrafos cortos. Es importante el uso de sinónimos que eviten la repetición de sustantivos y verbos, ello hace que la lectura sea más amena. No debe ser redundante en sus dichos y no debe insistir en una noción determinada más allá de lo necesario. Puede emplear abreviaturas. Cuando lo haga por primera vez, y ellas no sean de uso cotidiano, es menester que las preceda por las palabras completas que esa sigla supone; en esta primera introducción la abreviatura irá entre paréntesis, por ejemplo Organización Mundial de la Salud (OMS), luego, en lo que sigue del texto, podrá usarla sin enmarcarla por paréntesis. En mi criterio resulta práctico que el doctorando exhiba en una página, que esté situada al comienzo del escrito principal, todas las abreviaturas que empleará en el texto junto a su significado. Por supuesto que esto no es necesario para aquellas de uso universal como, por ejemplo, las relacionadas con el sistema métrico decimal. Es conveniente insistir en la redacción correcta del manuscrito, puesto que cuando no es así se hace incomprensible, laboriosa, tediosa y frustrante su lectura. Si bien la tesis de doctorado, en el caso de las Ciencias, es un trabajo científico, su desarrollo es algo mas suelto, por decirlo de alguna manera, que el que corresponde a un escrito enviado a una revista. Es conveniente que la construcción de la tesis de doctorado tenga algún parecido con una novela, de forma que quien la redacte pueda hacer que el lector [ 65 ]
transcurra por ella siguiendo los pasos y el razonamiento que conducen a la conclusión de manera distendida, hacer que el escrito evolucione de un concepto al otro naturalmente, que no encuentre razonamientos forzados, que no resulte imprescindible volver atrás con frecuencia para poder entender el párrafo bajo análisis, que fácilmente pueda acceder a la comprensión de una abreviatura; en síntesis, que su lectura resulte agradable, fluida y placentera. Es experiencia corriente hoy para muchos de quienes juzgan los trabajos de tesis de doctorado que, lamentablemente, existe una buena proporción de tesistas que emplean un pobre Español, a pesar de que nuestro idioma es el segundo en riqueza de vocablos después del Alemán. Creo que esto no es anecdótico, sino un defecto grave, sobretodo si se tiene en cuenta que la falta de recursos idiomáticos condiciona la falta o mezquindad de ideas. La razón para que esto ocurra está en el bajo apetito, que tiene gran parte de los jóvenes de hoy dedicados a las Ciencias, para la lectura de literatura no técnica. Este defecto nace en la escuela primaria, no es atendido adecuadamente en la secundaria, y pierde toda posibilidad de solución en la Universidad o, al menos, en las facultades ligadas a la enseñanza técnico-científica. Probablemente lo que sucede es que la imagen esté reemplazando a la palabra, acontecimiento útil cuando se trata de aprender hechos concretos, pero un obstáculo para cuando tratan de relacionarse fenómenos entre si, para lo que es indispensable emplear palabras, emplear la capacidad de abstracción y crear ideas. Otro aspecto que merece ser citado es la abundancia de anglicismos en los textos de las tesis de doctorado científico-técnicas. Ello es consecuencia del uso de palabras inglésas en el lenguaje común de la Ciencia; esto explica su empleo, pero no lo justifica ya que para cada uno de los vocablos ingléses que se utilicen existe una traducción acorde en Castellano. Lo dicho arriba hace aconsejable que quien decida embarcarse en un trabajo de tesis de doctorado posea un lenguaje lo suficientemente rico que le permita expresar sus conceptos con precisión y claridad. Para ello deberá tener una formación cultural más extendida que la que provee el mero asunto técnico-científico en el que trabaja.
Estructura de la Tesis de Doctorado Luego de haberme referido, en los párrafos anteriores, a los lineamientos generales que debe respetar un trabajo de tesis de doctorado, quiero, ahora, dedicar el resto de este escrito a la descripción de los pasos que debe seguir un proyecto de este tipo. a) Nacimiento de la idea. Observación. Quien decida emprender un proyecto de tesis de doctorado deberá ser alguien con alta capacidad de observación, también de síntesis, y poseer buena imaginación cuya única restricción sea la argumentación lógica. Sin duda, reparar en el trabajo propio y en el ajeno y valorar los hechos en relación a un fenómeno dado es el primer paso que dará, aun inconscientemente, quien luego se transformará en tesista. [ 66 ]
Esa observación deberá ser seguida por la síntesis del conocimiento del tema que llevará, a quien sea el interesado, a concluir en que estado se encuentra el saber relacionado con ese fenómeno o acontecimiento en ese momento. Llegado aquí, surgirá la pregunta que inquirirá qué sucedería con el fenómeno o acontecimiento visto si tal o cual circunstancia se modificara. Es esta pregunta el embrión de la futura tesis. b) Elección del Director Logrado esto, el futuro tesista buscará a la persona que, con la mayor autoridad posible, pueda orientar su investigación. Seleccionará a su Director. Esta persona, naturalmente, debe ser un idóneo en el tema pero, además de ello, debe tener vocación por la enseñanza, amplitud de pensamiento, ser receptor de ideas novedosas, apreciar su posibilidad de verosimilitud y alentar decididamente al investigador cuando ello suceda o convencerlo de su error cuando ello ocurra. Fuera de las características anteriores, quien dirija una tesis debe establecer con el doctorando una relación de familiaridad que permita a este último acercarse a él cada vez que necesite de su consejo y ayuda. El Director debe estar dispuesto a leer críticamente el manuscrito todas las veces que fuere necesario hasta llegar a su redacción final. Debe, igualmente, analizar gráficos, tablas y figuras sometiéndolas, igualmente, a la crítica hasta que resulten convincentes. Finalmente, debe cuidar que la bibliografía citada sea la correcta, que no se hayan soslayado trabajos que, eventualmente, pudieran contradecir las conclusiones de la tesis, sino que hayan sido discutidos y refutados convenientemente. Debe asegurarse que toda cita que esté en el texto figure en la lista bibliográfica y que en ésta no haya citas que no hubiesen sido incluidas en el texto. c) Formulación de la hipótesis Discutida y aceptada, entre el tesista y el Director, la nueva idea, llega el tiempo de formular la hipótesis. En párrafos anteriores he tratado de conceptualizar el término. Para decirlo de otra manera, básicamente es entender que es posible introducir una idea diferente que incremente o modifique el conocimiento de un fenómeno dado, de un hecho acaecido o de una construcción intelectual cualquiera. Es claro, entonces, que la hipótesis es la consecuencia de la meditación. Volviendo a Aristóteles, tres razonamientos son posibles; el analógico, que va de lo particular a lo particular; el inductivo, que va de lo particular a lo general y el deductivo, que va de lo general a lo particular. De los tres, el habitualmente empleado en Ciencia es el deductivo; es usual que a partir de todo el saber que se posee acerca de un fenómeno dado sea posible obtener una información novedosa, particular, más cercanamente relacionada con el ser y el comportamiento de aquel fenómeno. [ 67 ]
Sin embargo, el método inductivo es, también, aplicable a la Ciencia. No lo es usualmente en el trabajo cotidiano, aunque existen algunos ejemplos que muestran que ello es factible; Mendeleiev, al elaborar la tabla periódica de los elementos dejó espacios en blanco sugiriendo que allí encontrarían lugar otros no conocidos entonces, es hoy realidad que la tabla se ha completado llenando las expectativas de aquel físico que supuso, o intuyó, la existencia de todos los elementos que componen la Naturaleza. En realidad, si por un momento se atiende a como han surgido las leyes que gobiernan los fenómenos naturales, necesariamente se arriba a la conclusión de que se lo ha hecho de manera inductiva, analizando fenómenos particulares que posibilitaron la universalización del concepto, es decir que permitieron la generalización de ese conocimiento; véase, por ejemplo, la noción de gravedad, aplicable a la manzana que cayó sobre la cabeza de Newton y, también, al desplazamiento de sistemas estelares dentro de una galaxia. Es, en definitiva, el sueño de matemáticos y físicos adquirir, en algún momento, y a partir de los conocimientos parciales obtenidos, una ley general de la Naturaleza que permita explicar todos y cada uno de los fenómenos que en Ella se dan; quizás resulte posible algún día; realizable o no, la idea es muy atractiva. Habitualmente la hipótesis es el corolario de una deducción que emplea, como base del razonamiento, al silogismo. Aceptando que es este el mecanismo de pensamiento que conduce a una determinada conclusión, que es la hipótesis, resulta absolutamente necesario que las premisas sean verdaderas, para evitar construir una falacia. El estudiante enunciará su hipótesis de forma que ella sea comprensible por otros idóneos en el tema y tendrá que dar las razones que lo llevaron a la elaboración de la propuesta. d) Presentación de los objetivos Sin duda que el objetivo mayor del trabajo de tesis de doctorado es la demostración de la hipótesis. Sin embargo, pueden, en el camino, fijarse otros objetivos menores en relación a la magnitud del primero. Esos otros objetivos, que constituyen pasos necesarios en la consecución del de mayor valor, pueden ser nombrados en este aparte del proyecto y, llegada la ocasión, descriptos con la extensión necesaria en el trabajo final. La enumeración de los objetivos menores o secundarios en el proyecto primero no invalida la posibilidad de que el tesista encuentre otros datos novedosos, capaces de aparecer en el decurso de su labor, y que con ellos haga igual que con los que hubiere previsto inicialmente. e) Materiales y Métodos Es este un capítulo de la tesis de doctorado, tanto en el proyecto inaugural como en el trabajo último, que requiere la mayor atención del estudiante y de su Director. El material debe ser cuidadosamente seleccionado. En los trabajos en los que se utilicen seres vivos, cualquiera sea la especie, el investigador deberá individualizar pormenorizadamente las características que identifican al animal o al humano que empleará en sus experimentos, deberá describir los controles que utilizará y propondrá el número de sujetos que [ 68 ]
integrará cada una de las muestras en las que se dividirá el material. En relación a este último aspecto verá que el total de individuos que forme cada muestra sea tal que permita efectuar un cálculo estadístico cuyos resultados sean convincentes. Tanto en el empleo de animales de laboratorio como de humanos, el investigador deberá cuidar que el trato dado a ellos se ajuste a los postulados éticos vigentes, incluyendo el eventual sacrificio de los animales de laboratorio, si ello fuese pertinente a los fines de la investigación. Por ello resultará imprescindible que cada proyecto posea el aval del Comité de Ética de la Institución en la que la labor será llevada a cabo. En el caso en el que se convocaren humanos para la investigación, cualquiera fuere el procedimiento al que se les sometiere, el investigador deberá obtener del interesado o de su responsable mas cercano, cuando el directamente involucrado no estuviere en condiciones de juzgar su participación, el consentimiento expreso, firmado, en el que el sujeto de la experiencia, o su responsable, acepta ser parte del estudio. Para ello el investigador les informará detalladamente el propósito de la experiencia, las eventuales incomodidades a las que puede enfrentarse y los efectos indeseables que el estudio podría acarrearle. También dejará taxativamente dicho que estará dispuesto a interrumpir la investigación y liberar al participante si éste lo solicitare; de igual manera, se comprometerá a no dar a publicidad la identificación de las personas que accedieran al estudio. Resulta respetuoso y recomendable que, cuando se tratare de humanos y una vez finalizada la investigación, el responsable de ella informe a cada uno de los participantes, de manera individual, los resultados y conclusiones obtenidos en el estudio, empleando un léxico que resulte comprensible para el interlocutor. En lo que se refiere a los métodos, tendrán que ser enunciados en el proyecto inicial y exhaustivamente descriptos en el trabajo final; para cada uno de ellos se establecerá su finalidad. De esta forma, quien lea y juzgue el manuscrito de la tesis, podrá hacerse una idea cabal de los objetivos que ha perseguido el investigador al usar tal o cual procedimiento técnico. f) Tratamiento de los resultados Este aspecto es clave en el desarrollo del trabajo. Resulta conveniente que el estudiante conforme una base de datos con sus resultados; idealmente la disposición que se les de a ellos debería permitir el cálculo en cualquier momento del desarrollo y, naturalmente, al concluir la labor. Existen hoy, comercialmente, muy diferentes esquemas de base de datos, para distintos propósitos, que posibilitan el cálculo y la graficación de los resultados obtenidos; el tesista debe seleccionar aquella que mejor se acomode a sus requerimientos. También es posible que el estudiante diseñe una base que abarque todas sus necesidades; para ello sus conocimientos de programación y computación deben ser los adecuados. Ordenados de la mejor manera que cupiere a los objetivos del estudio, el tesista elegirá el tipo de tratamiento matemático-estadístico que les dará. Es por ello que su versación en Estadística debe ser alta. Ello le posibilitará seleccionar el cálculo que mejor muestre lo que ha obtenido. [ 69 ]
El tipo de tratamiento que se le dará a los resultados puede ser esbozado en la presentación del proyecto inaugural y debe ser ampliamente justificado en el escrito final. No necesariamente la sugerencia hecha inicialmente debe coincidir exactamente con el tipo de cálculo que, en definitiva, se usará; es aceptable que el devenir de la investigación modifique la concepción previa y sea otro el cálculo necesario que mejor se ajuste a los resultados. Distinta es la actitud cuando el investigador trabaja de manera ciega, sin conocer si está o no modificando las circunstancias con su intervención y cuál es el resultado que eso provoca. Sucede esto en trabajos en los que se ensaya, por ejemplo, el efecto de un fármaco sobre una patología determinada, partiendo de la hipótesis que supone que la composición molecular de la droga en ensayo es capaz de interferir alguno de los pasos metabólicos que llevan a la instalación de determinada dolencia. En estas circunstancias, el investigador se reunirá con sus resultados recién al finalizar la totalidad de la experiencia. Es más, en este tipo de diseño experimental es conveniente que otra persona, ajena a la investigación, sea quien haga el tratamiento de lo observado. g) Resultados Es este el eje y el capítulo mas importante del trabajo. Lo es porque los resultados son tal como se muestran, no pueden modificarse a voluntad, son independientes de las ideas, razonamientos, interpretaciones que de ellos se haga y sensaciones que ellos provoquen en quien los ha logrado. Los resultados son hechos permanentes, son parte de la realidad y parte de la verdad. Las discusiones y conclusiones que induzcan pueden o no ser ciertas; sin embargo, nada de ello los cambia. Es la experiencia de todos que una observación dada puede ser vista de una manera en un momento determinado y de otra en alguna oportunidad siguiente. En Neurología, una rama de la Medicina Clínica, un ejemplo es el de la enfermedad denominada Miastenia Gravis, en ella la reducción de la amplitud del potencial de acción muscular evocado por el estímulo eléctrico, repetido a alta frecuencia, del nervio dirigido a un músculo determinado, fue tomado como argumento para sostener el origen pre-sináptico de la dolencia, es decir de ubicación en la terminal axónica de la fibra nerviosa que alcanza a las células musculares, concepto que se mantuvo hasta los años ’60 y que sostenía que aquella caída de amplitud era debida a disminución o alteración molecular de la acetilcolina, que es el intermediario sináptico en la transmisión neuromuscular, y que se aloja en el nervio; en esa década se demostró cabalmente que la falla en la transmisión neuromuscular era de origen post-sináptico, localizado en la célula muscular y no en la terminal nerviosa, entendiendo, entonces, que el comportamiento referido del potencial muscular era la consecuencia de la disminución de receptores a la acetilcolina en el músculo; a pesar de estos vaivenes en la interpretación, la conducta del potencial muscular frente al estímulo eléctrico repetido a frecuencia elevada permaneció inmutable. Por ello los resultados deben exhibirse prolija y detalladamente, de manera objetiva y clara, aceptando que si bien han logrado su existencia gracias al investigador, unas vez aparecidos se independizan de él para pasar a formar parte del conocimiento, parte de la Cultura. [ 70 ]
No es aceptable que, al describir los resultados, el autor sugiera interpretaciones de ellos, que deberá guardar para la discusión. Tampoco es aceptable que condicione al lector diciendo que tal o cual fenómeno muestra una determinada tendencia sin que ello esté basado en valores estadísticos que lo sustenten. Cuando estas cosas suceden, el lector avezado comprende que el autor, tal vez apasionado, está tratando de ver en sus resultados lo que desea ver y, por tanto, ha perdido la objetividad. Es útil recordar, aunque suene superfluo, que quien busca la verdad tiene la obligación de aceptar los hechos tales como son, a pesar de que muchas veces ello contradiga sus expectativas iniciales. La manera mas razonable de exhibir los resultados es empleando tablas, gráficos y figuras, poniendo en ellas todos los datos necesarios como para que el lector esté en condiciones de repetir el cálculo si así lo quisiere. Otra ventaja de la mostración de tablas y gráficos es que cuando los números son dados en el texto el lector los olvida rápidamente y su búsqueda, cuando la lectura ha progresado más allá, se hace laboriosa; mucho mas sencillo es recurrir a las tablas nuevamente. De todas formas, el autor debe cuidar que el número de tablas, gráficos y figuras que presente no abrumen al lector. Verá como combinar datos, para que varios de ellos ingresen en la misma tabla o gráfico. Nunca el autor repetirá en el texto valores que ya estén graficados o en tablas, enviará al lector a ellos cuando resultare necesario. Las figuras, cuando existan, serán ejemplos representativos del fenómeno en estudio. En líneas generales, unas pocas figuras bastan para que quien lee se forme una idea adecuada del comportamiento del fenómeno en investigación. El autor reparará en que cada figura tenga un número y un título, que cada gráfico también lo posea y que igual ocurra con las tablas. En el caso de los gráficos y las figuras es usual que exista una leyenda explicativa al pie. Si en cualquiera de los tres tipos de demostración existieran abreviaturas no aclaradas previamente en el texto, ellas lo serán al pie de la mostración. h) Discusión En este aparte el autor dará su interpretación del comportamiento del fenómeno que ha sido el objeto de su estudio. Hará esto en primer lugar; luego cotejará esa interpretación con otras que pudieran existir en la literatura, destacando la originalidad de la suya. En el análisis de la literatura deberá incluir tanto las ideas que fortifiquen su postura como aquellas otras que puedan debilitarla o que, definitivamente, contradigan su posición; buscará como refutar a estas últimas, dando razones convincentes para que pueda ser aceptado. Finalizado este segmento de la discusión, el autor destacará su posición intelectual frente al hecho analizado y lo hará tratando de enmarcar esa posición dentro del conocimiento corriente que del fenómeno se tuviere en ese momento. En ningún caso volverá a repetir lo que dijo en la introducción al hablar de la literatura relacionada. Si fuera necesario citar parte de ella, enviará al lector a la página correspondiente. Encontrar algo diferente y explicarlo es uno de los atributos privativos de nuestra especie. Es de destacar que un nuevo conocimiento se universaliza inmediatamente, hace mayor nues[ 71 ]
tro saber y se transforma en Cultura. De esto debe tener conciencia el autor y si su convicción es que su interpretación puede no ser lo suficientemente sólida, debe dejar espacio como para que ingresen visiones diferentes de sus resultados. Dado que la discusión tiene cierta proporción de subjetividad, es del todo aconsejable que el tesista la someta al análisis crítico de su Director antes de introducirla definitivamente en el texto. La crítica del Director deberá ser férrea, tratando de poner en claro las eventuales debilidades y contradicciones que pudieran tener los dichos del tesista. No es de mala práctica pedir a otro investigador, fuera del Director, que lea el escrito y obtener de él su impresión. Todo ello hará que el autor redacte nuevamente la discusión; la nueva versión deberá seguir los pasos de la precedente y, así, hasta que tanto el autor como el Director estén convencidos de haber obtenido un relato en el que los argumentos hayan logrado la suficiente solidez que les permita ser aceptados por la comunidad universitaria en cuyo ámbito será presentado. Es, de todas formas, inteligente suponer que, con el avance de las ideas, la interpretación dada a los resultados por el autor puede ser modificada por otros en el futuro; de allí que la propuesta que se haga deba ser presentada como una verdad relativa y, tal vez, provisoria. i) Conclusiones Este aparte es, habitualmente, de corta extensión. Consiste en unos pocos párrafos en los que se hace claro y preciso el nuevo hallazgo y su eventual valor en el desarrollo de las ideas relacionadas con el tema en estudio. El autor tendrá presente que aunque lo encontrado sea del mayor aprecio, nunca es la respuesta final al problema en el que esa observación se inserta, solo un paso más en la dilucidación de su conocimiento. j) Resumen Esta pieza del escrito es de importancia y apela a la capacidad de síntesis del autor. En el resumen deberá decir, en pocas líneas, lo que resulta conceptual de todo lo dicho. La estructura del resumen deberá ser idéntica a la del manuscrito principal. Su objetivo es dar al lector la idea central de la investigación hecha, como fue concebida, que herramientas se usaron para explorarla, cuáles fueron los resultados de mayor valía y a qué conclusiones ellos condujeron. No necesariamente este aparte debe ir al final del texto mayor, puede precederlo. Yo creo que es mejor esto último, puesto que quien lo lee sabrá, anticipadamente, que es lo que le aguarda en el resto del manuscrito. k) Bibliografía Es absolutamente imprescindible que toda la bibliografía citada integre la lista bibliográfica. [ 72 ]
Esa lista puede confeccionarse por abecedario, tomando el apellido del primer autor del trabajo o capítulo de libro o libro. También puede hacérsela por orden de aparición en el texto. Es preferible esta última modalidad, ya que hace más suelta la lectura. Es conveniente que, en el texto principal, la cita figure como el número que tiene en la lista bibliográfica. Ello es preferible a la inserción dentro del manuscrito mayor, entre paréntesis, del nombre de los autores, año, etc; esta forma de individualización bibliográfica entorpece la lectura, actúa como un distractor y la vuelve laboriosa. La forma de citación seguirá las normas internacionales para las publicaciones periódicas. El modelo de ficha sugerido arriba se ajusta a ello. No deben incluirse en la lista citas que no hayan sido referidas en el texto principal. l) Apéndices Hay autores que crean apéndices para mostrar hechos que, usualmente, se conectan con la idea central de manera tangencial. En general no agregan demasiado al pensamiento guía del trabajo y lo que puedan aportar puede ser incluido en el escrito mayor. En mi concepto, la mayor parte de las veces ellos son innecesarios. Más aun, yo creo que desvalorizan el trabajo. Resultan un esfuerzo adicional para el lector y pueden desviar la línea de pensamiento que sigue el escrito principal. Creo que no es recomendable su introducción en un trabajo de tesis de doctorado. m) Índice Es conveniente introducir un índice en el que se detalle la ubicación de cada uno de los apartes o capítulos de los que consta el escrito. Es aconsejable que sea lo mas analítico posible, de forma que en cada capítulo figuren los distintos puntos que lo integran. Es también conveniente que se lo exhiba en el comienzo del manuscrito; su lectura, a igual que lo que sucede con el resumen, podrá dar al lector una apreciación general de las pretensiones del autor.
Colofón He tratado de dar las ideas y herramientas generales de lo que, creo, debe ser un trabajo de tesis de doctorado. Es cierto que mi experiencia está limitada a los escritos médicos y biológicos y que ello constituye una restricción de ideas de la que, lamentablemente, no puedo escapar. Sin embargo, quizás, lo dicho a lo largo de este capítulo pueda ser de utilidad, al menos parcial, para cualquier estudiante dispuesto a emprender la denodada labor que implica llevar adelante un proyecto de tesis de doctorado. Tal vez, quien lea estas páginas pueda adoptar algunos de los conceptos dados en beneficio de su tarea. Si me enterase de ello estaría muy complacido.
[ 73 ]
Lecturas sugeridas 1. Alonso M. Ciencia del lenguaje y arte del estilo. 1953. Editorial Aguilar. 3° Edición. Madrid. 2. Eco U. Cómo se hace una tesis. 2006. Editorial Gedisa. 8° Edición. Barcelona. 3. Fishbein M. Medical writing. 1957. Editorial McGraw-Hill Company. Nueva York. 4. Lasso de la Vega J. Cómo se hace una tesis doctoral. 1958. Editorial Mayfe. 2° Edición. Madrid. 5. Lejarraga H. Cómo confeccionar un proyecto de tesis. 2006. Curso Virtual. Facultad de Medicina Virtual. Facultad de Medicina. UBA. 6. Moroney MJ. Facts from figures. 1960. Editorial Penguin Books. 3° Edición. Londres. 7. Wikinski JA, Usubiaga JE, Hernández HH. El trabajo científico. 1977. Editorial Diafrag. Buenos Aires
[ 74 ]
Capítulo 7
La comunicación oral de la investigación científica. Una herramienta para transmitir conocimiento.
Ricardo J. Esper
Antonio Paragano
E
n los ambientes científicos, los conocimientos se divulgan para buscar la verdad, y no para imponer la verdad del investigador. Por lo tanto, deben presentarse de manera que no estén influenciados por la subjetividad o emotividad del presentador ni con recursos que puedan tergiversar la percepción del auditorio. De esta forma, el oyente dispondrá de condiciones adecuadas para analizar los conceptos de la manera más ecuánime posible, interpretará mejor los resultados y podrá llegar a una discusión objetiva y más provechosa al momento de las conclusiones. Por otra parte, con la globalización tecnológica, los conocimientos universalmente aceptados por la comunidad científica suelen perder vigencia rápidamente, porque se actualizan en forma vertiginosa e ininterrumpida. Además, la difusión de la creciente cantidad de información implica un tiempo por demás excesivo para su exposición, contingencia que obliga a los oradores a emplear tiempos muy cortos y sin intervalos para su comunicación. Esta forma de presentación acotada y sintética puede no captar la atención constante de los oyentes o no despertar interés, y hasta fastidiar por lo rutinaria o monótona. Es por ello que los expositores recurren a un sinnúmero de técnicas para proporcionar una comunicación atractiva, placentera y que cautive a la audiencia. Sin embargo, un poema, leído por dos poetas, puede llegar a enternecer en forma diferente. La misma partitura musical interpretada por dos directores de orquesta puede emocionar de distinta manera. Hasta un canto gregoriano, entonado con mayor o menor pasión, puede exaltar o deprimir a la audiencia. Los científicos tienen personalidades disímiles, algunos son extremadamente serios y circunspectos y otros espontáneamente demostrativos. Unos se expresan en voz baja y sin gesticular, otros modulan constantemente el volumen de su voz y se mueven en el estrado con amplias excursiones de sus brazos y manos. Todas estas consideraciones tienen por objeto hacer saber al lector que, a diferencia de la presentación escrita, no hay un estilo definido y universal para la comunicación oral de un logro científico. Entonces, ¿cómo alcanzar el adecuado equilibrio entre la rigurosidad científica y la presentación amena y agradable? En otras palabras, ¿cómo lograr el punto medio entre la austera divulgación del conocimiento, como se acostumbraba en los claustros universitarios a comienzos de la edad moderna, y la magia de los espectáculos musicales de Broadway? [ 75 ]
La efectividad de una presentación oral depende de la habilidad del orador para comunicarse con la audiencia. Cada aspecto de la presentación debe orientarse a captar la atención del espectador y facilitar la comprensión de la información expuesta. Este capítulo se enfocará en el proceso que conlleva la presentación de los resultados de un trabajo o informe científico, y en la forma de comunicarse eficazmente con la audiencia. Son pautas o consejos para evitar caer en excesos o actitudes inadecuadas, intentado que las presentaciones tengan cierta atmósfera de homogeneidad, facilitando el entendimiento y forjando el ambiente para la discusión provechosa.
La comunicación oral de la investigación científica Los pasos a seguir para la presentación oral de los resultados se pueden dividir, en una forma práctica, en cuatro fases: 1) la elaboración del resumen, 2) la confección del material gráfico, 3) la presentación formal, y 4) la discusión de los resultados obtenidos. 1. La elaboración del Resumen El material a presentar debe ajustarse exactamente al trabajo o informe científico original, pero como el tiempo de exposición suele ser escaso, es conveniente elaborar un resumen. Una regla práctica muy difundida es recordar que el resumen a presentar tiene que contener todo lo que dice el trabajo, y el título debe expresar todo lo que dice el resumen. Tenga en cuenta que la lectura de una página tamaño carta (21,59 cm x 27.94 cm, u 8” x 11”) con letras de tipo 12 y a doble espacio, requiere entre 3 y 4 minutos para su lectura, según la velocidad del lector. Decía Gracián que “lo bueno, si breve, dos veces bueno”. Una vez escrito el resumen a presentar hágalo leer por alguien que no tenga relación con el mismo, ni con su temática o especialidad. Si el lector lo entiende es porque es claro y está bien escrito. Entonces, vuelva a escribirlo con la mitad de las palabras. Se inicia con el título, que se aconseja sea atrayente e interesante. Asumir que si concita la atención muchos escogerán esa exposición intrigados por la curiosidad que le despertó el título. Enumerar a los coautores, agregando a las personas que verdaderamente participaron en su concepción, e indicar el servicio, departamento, hospital o centro de referencia donde se realizó el trabajo científico. Comience con una breve reseña que justifique la hipótesis de trabajo, luego enuncie los objetivos de la investigación, la metodología utilizada, los resultados y las conclusiones. Considerando las limitaciones en el espacio y/o el tiempo para su presentación, debe ser capaz de transmitir la relevancia del problema y la razón del estudio en pocas palabras o líneas. Exponga con precisión la hipótesis que pretende probar y describa claramente sus objetivos. Un acápite importante es el correspondiente a material y métodos. Debe contener información acerca del diseño, las características de la población estudiada, las variables en estudio, aspectos del proceso de recolección de datos y seguimiento, la estimación del tamaño de la muestra y la descripción de la estadística empleada. Probablemente, parte de esa información no es prioritaria, y es lógico concentrarse en presentar sólo los datos relevantes [ 76 ]
y vinculados con el objetivo de la investigación. Exponga fielmente la información que responde a la hipótesis y a los objetivos planteados o que será utilizada en las conclusiones, y debe hacerlo aún cuando obrara en contra de la tesis inicial o no se obtuvieran valores con significación estadística. Finalmente, la conclusión debe ser concisa, reflexiva y respaldada por los resultados del estudio. Comentar el o los elementos más notables y sugerir recomendaciones. No añada conclusiones que no se ajustan a los resultados, tampoco extenderlos a otras situaciones que no son estrictamente las del estudio. Atañe al presentador establecer los puntos cruciales correctos, ya que las personas no retendrán más de unos pocos datos significativos, comuníquelos eficazmente y logrará que los oyentes consigan recordarlos. No pretenda que la audiencia decida qué es lo importante, asegúrese que ellos consideraran relevantes los mismos conceptos que usted. Una forma de lograrlo es comenzar comentando las conclusiones de la última diapositiva, y enfatizar los puntos esenciales para facilitar la presentación. Cada palabra hablada, y cada palabra escrita en las diapositivas debe ser importante y relacionada con los objetivos. 2. Medios visuales y material gráfico Un viejo dicho expresa que “una imagen puede más que mil palabras”, y es una verdad indiscutible. Para que la presentación se desarrolle de manera didáctica y prominente es absolutamente válido recurrir a los recursos técnicos disponibles, como la proyección de diapositivas, videos, películas u otro tipo de material, siempre y cuando se amolden a normas de prudencia. En diversas encuestas se observó que una conferencia sin proyecciones habitualmente capta la atención del 20% al 30% del auditorio, y asciende hasta un 75% cuando se acompaña de material gráfico o visual. Asimismo, el proyectar imágenes borrosas, con inadecuada combinación de colores, desorganizadas e inclusive excesivas, conducen al fracaso de la exposición y hasta cuestionan la profesionalidad del presentador. Rutinariamente las presentaciones actuales se almacenan en un CD o en una memoria removible con terminal USB (llamados habitualmente pen-drive, memory-drive, thumbdrive, flash-drive, etc.) y simplifican el traslado del material al sitio de exposición. Lo ideal, cuando es posible, es copiar los datos en el disco duro, lo cual agiliza considerablemente la presentación. En muchas convenciones se pide que los archivos de clips sean enviados electrónicamente antes de la reunión, en este caso asegúrese llevar una copia de respaldo, con un formato de medios de comunicación que la computadora aceptará (CD, disquete, USB flash drive, etc.). El manejo de los medios visuales puede realzar la calidad de una presentación, aunque la efectividad de cualquier presentación no depende exclusivamente de la calidad del material visual. La proyección de imágenes, cifras, frases o procedimientos fija los conceptos con mayor claridad y refuerza e ilustra la información transmitida por el orador. La conferencia debe mantener el foco en la comunicación de los objetivos y no desviarse especialmente hacia los efectos tecnológicos. La habilidad del presentador para comunicarse con la audiencia puede conducir a presentaciones muy efectivas, a veces sin disponer de medios visuales. Lo contrario no es verdadero, no importa cuán sofisticados son estos recursos, si un presentador hace un pobre trabajo al comunicarse con la audien[ 77 ]
cia, la presentación se opacará. El empleo de la tecnología puede ser un contratiempo en la exhibición, y suele ocurrir cuando el expositor no está completamente familiarizado con su funcionamiento. Ni el individuo más experimentado es capaz de improvisar una presentación en horas. Prepare personalmente el material y con la debida antelación, estime el número de diapositivas que puede necesitar y distribuya la información que quiere proporcionar en un número razonable de ellas. Una buena regla es dedicar un mínimo de tiempo para cada diapositiva, no mayor de un minuto, aunque esto puede ser variable. Piense en el tamaño de la sala y la audiencia posible, si no tiene un fondo establecido para sus diapositivas busque uno que sea agradable y que no interfiera con la lectura del mensaje. No confíe en la apariencia de la presentación en la pantalla de su computadora, probablemente cuando la proyecte su aspecto cambiará, y es aconsejable experimentar antes de exponerla. Utilice un tipo de letra claro y de tamaño adecuado para facilitar su lectura, aproveche todos los espacios que le proporciona la diapositiva, pero no abuse de la información que coloca en ellas. Incorpore el material gráfico que estime conveniente (fotos, gráficos, tablas, etc.), pero recuerde que no son adornos, únicamente son útiles cuando componen una imagen interesante. Las tablas deben tener un título claro, ponga especial cuidado en las cifras, sumas, porcentajes, etc. Los gráficos deben mostrar una tendencia definida, seleccione el más adecuado para la expresión de los resultados (barras, columnas, etc.). Utilice pocas palabras por línea y pocas líneas por diapositivas, aquellas con demasiada información y, por consiguiente, letra pequeña y frases apretadas, no son legibles y atentan contra la atención del oyente. Las proyecciones (diapositivas) La diapositiva o proyección es siempre un apoyo del expositor, y se las suele clasificar como de reafirmación, ampliación y complementación. Cuando el expositor describe la imagen que se proyecta, está reafirmando lo que se observa. Por el contrario, si oralmente amplía lo que se proyecta es porque está profundizando lo que expresa la imagen. Y si agrega información que la imagen no muestra o no permite deducir, está complementando la imagen. Pueden existir variantes, como la forma negativa de la reafirmación, cuando se contrasta con la imagen lo que se expone, tal el caso de aconsejar no fumar y mostrar a un individuo fumando. También se suele diferenciar las diapositivas según el contenido consista en textos o gráficos, y para la elaboración de cada una de ellas existen ciertas reglas o consejos que han persistido en el tiempo y que es conveniente tener en cuenta. Diapositivas de texto No más de 7 palabras por renglón y no más de 7 renglones por proyección. Eluda las proyecciones llenas de números y frases que el espectador no alcanza a ver por el tamaño y por carecer de tiempo para leer toda la imagen. • Prefiera no transmitir más de una idea por proyección. • El texto se debe poder leer desde la parte final del auditorio. • No más de una diapositiva por minuto, para dar tiempo a la lectura del texto. Esta regla ha perdido un poco su vigencia, y se puede admitir un número mayor, especial[ 78 ]
mente de imágenes sin lectura. Pero evite dar demasiada información, el espectador no podrá captarla. • Tamaño y tipo de las letras. No demasiado pequeñas que no se puedan leer desde una distancia considerable, según las dimensiones del local y de la pantalla de proyección, ni demasiado grandes que haga incómoda o hasta molesta su lectura. En cuanto al tipo de letras, las computadoras ofrecen una infinidad de ellos, y se aconseja utilizar los de lectura fácil y clara, aunque en algunos casos y para destacar conceptos se recomienda emplear tipos diferentes al del texto principal. • Prefiera las proyecciones horizontales a las verticales. Estas últimas por lo general dejan parte de las mismas fuera de la pantalla. • Considere los contrastes. El contraste entre el color de las letras y el fondo de la diapositiva es un elemento de suma importancia, porque facilita o dificulta la lectura. Existe una escala de contrastes de colores que optimizan este hecho, y que de mayor a menor son los siguientes: Letras negras sobre fondo blanco Letras blancas sobre fondo azul. Letras negras sobre fondo amarillo. Letras blancas sobre fondo negro. Letras rojas sobre fondo blanco. Letras verdes sobre fondo blanco. Letras blancas sobre fondo rojo. Letras amarillas sobre fondo azul obscuro, etc. El presentador seleccionará el contraste que permita la mayor legibilidad según su parecer. No es aconsejable un fondo con texturas complejas u policrómicas, ya que atenta contra la concentración en lo esencial y puede resultar tedioso. Hoy día, con los recursos de los programas de computación, estas reglas han perdido parte de su vigencia, especialmente con la superposición de leyendas, las imágenes animadas, la sumatoria de imágenes, rótulos, etc., a medida que la exposición con diapositivas avanza. Es aconsejable emplearlos, pero siempre con la premisa de no generar una exposición donde es más importante la imagen que el mensaje. Diapositivas de gráficas Los gráficos cobran singular importancia en la presentación de los resultados y existen múltiples opciones y combinaciones posibles de los mismos. Los clásicos son los de barras, de torta, de línea, etc. Cada uno se utiliza según lo que se quiera expresar, pero es aconsejable no manejar más de 7 barras o 7 divisiones de la torta, y deben rotularse en unidades o porcentajes muy claros y contrastantes. Es aconsejable que en las gráficas figuren los valores de las coordenadas y/o de las barras o partes de la torta, para evitar al expositor tener que especificarlos. El tiempo de atención del auditorio en una gráfica raramente sobrepasa los 30 segundos, a partir de los cuales la curva de atención comienza a decrecer. Por lo general la atención en una gráfica de mala calidad, complicada o de difícil comprensión no pasa de unos pocos segundos. En 30 segundos el [ 79 ]
expositor solo podrá decir entre 50 y 70 palabras. Luego, es aconsejable programar la exposición oral sobre esa gráfica en esa cantidad de palabras y de tiempo. Lo habitual es combinar en las proyecciones texto y gráficas. En la actualidad, los investigadores cuentan con el apoyo de los profesionales de diseño y las posibilidades de los programas de computación, asociación muy efectiva para lograr presentaciones de calidad. No dejar de consultarlos, ellos son creativos y saben como transmitir un concepto. Póster (Cartel) El póster, otro medio de apoyo visual, surgió como una necesidad para permitir una mayor cantidad de presentaciones en las sesiones científicas. Habitualmente no son tan valoradas por el autor como una presentación oral. Sin embargo, el mayor tiempo de exposición y la posibilidad de discutir los resultados con los espectadores pueden provocar un gran interés y resultar de mayor divulgación. La discusión más personal que puede generarse entre los autores, los revisores y los lectores del póster presentes en el lugar, suele ser muy provechosa y enriquecedora. El póster introduce una variedad de ilustraciones que permite presentar el trabajo con claridad. Debe combinar la parte escrita y gráfica con un diseño agradable y legible, y su tamaño debe facilitar la lectura desde una distancia prudencial. La información volcada debe contener los mismos puntos que la presentación con diapositivas: título, autores, objetivo, etc. Evite incorporar demasiados datos, dispóngalos en orden y destaque visualmente los elementos clave. Imprevistos Pero suponga el presentador que se ha cortado la luz, no dispone de micrófono ni de medio de proyección. O que los inconvenientes suceden en forma menos trágica, como un proyector de diapositivas dañado, se interrumpe solamente el micrófono o, lo que es más común, falla la computadora o la inserción de la memoria. ¿Deberá usted declinar la presentación? Puede hacerlo, pero quizás no tenga otra oportunidad hasta varios meses después, tiempo en que probablemente otro investigador presentará un estudio muy semejante al suyo y le quitará primacía. Asimismo, puede mal interpretarse y verse como un desprecio al auditorio que ha asistido a oírlo. Mejor improvise una presentación parcial, empleando sus mejores condiciones pedagógicas e histriónicas. Ayúdese con un pizarrón y tiza, y hasta con alguna humorada para elevar el estado de ánimo de los presentes. Al usar el pizarrón hay datos claves que se pueden escribir en él, nombres científicos, una fórmula o un resultado numérico importante. Esto contribuye a mantener la atención, ayuda a la comprensión y ofrece un tiempo extra para analizar lo que se expresó en palabras. Siempre se debe contar con recursos para salir del mal trance, y el mejor instrumento es la experiencia del presentador. Entienda que todo material sirve de apoyo, y que lo relevante es el discurso y su trasfondo. No hay muchas oportunidades para presentar su experiencia y demostrar sus habilidades científicas y comunicativas, ¡no las desperdicie!
[ 80 ]
3. La presentación oral Elaborar una presentación para una reunión local, nacional o interdisciplinaria no es momento para apresurarse, una exposición efectiva requiere de ensayo. La espontaneidad es un número infinito de posibilidades entrenadas. Practicar le otorga al expositor la oportunidad de medir cuánto tiempo tomará la exposición, planear las pausas en el momento oportuno y familiarizarse con las diapositivas, tratar de memorizar y recitar la conferencia no es la forma de presentar. Ensayar le permitirá modificar la presentación al instante, según las necesidades o ante una pregunta de la audiencia. Si se admiten preguntas durante la presentación, podrá fácilmente saltar adelante o atrás por las diapositivas, demostrando conocer la información contenida en ellas y reforzando la evidencia para las respuestas. El ensayo debe incluir probar el equipo que va a usar y crear un plan de apoyo, por si deja de operar. Practique la presentación en voz alta, expresándose diferente cada vez. Puede ser de ayuda hacerlo frente a los coautores o, mejor aún, en un ateneo de su servicio. Sus colegas pueden proveer información honesta acerca del contenido, colores y/o cualquier defecto en los gráficos. Aún con las mejores intenciones, pocas presentaciones están realmente acabadas. Tómese el tiempo necesario para encontrar la imagen que destaque su exposición, y reemplace a la imagen que no lo hará. Agregue contenido actualizado y haga la presentación interactiva. Intente tener acabado el borrador bastante tiempo antes de la fecha tope, y use el tiempo extra para mejorarlo. Depender de notas para trabajar o emplear largas pausas para componer pensamientos desvía la atención y afecta la calidad de la presentación. No es recomendable la lectura de notas, o debe hacerse con moderación, los buenos conferencistas rara vez las necesitan. Gastar tiempo leyéndolas puede convencer a la audiencia que el presentador no está preparado. Es posible que un presentador hable lentamente, otros hablan y se mueven muy rápido por las diapositivas. Por regla general, cada diapositiva merece al menos 10 segundos, y ninguna debería superar 1 o 2 minutos. Si toma más tiempo para cubrirla, probablemente es mejor rehacer el contenido en dos diapositivas. Disponga de una vestimenta adecuada al lugar y el foro de presentación, no se acicale o atavíe excesivamente. Puede ocurrir que un atuendo inadecuado o insólito conduzca a la desatención o, lo que es peor, al sentimiento de menoscabo, y que entonces el auditorio no se concentre en la meta más importante que es el aspecto científico. Lo aconsejable es utilizar una indumentaria que no desentone con el medio en que se encuentra, pero nunca estará mal con el clásico saco y corbata. En ese momento, usted es el centro de las miradas, aparezca lo más natural y relajado posible. Recuerde, nadie sabe más del tema que usted. Si puede escoger, elija la parte izquierda del auditorio, la explicación del material audiovisual será más lógica, es la forma en que se lee nuestro idioma. Comunicar la presentación con pasión y confianza le añadirá credibilidad al mensaje, y la audiencia reconocerá esas emociones. Al mostrar imágenes, oriente a la audiencia hacia el punto relevante, proporcióneles el tiempo suficiente para asimilar la información y permitir conjeturar las conclusiones. Muchos oradores se apresuran a través de las diapositivas, hacen declaraciones que aluden a conclusiones en las imágenes, pero no explican o señalan claramente esas conclusiones. Una técnica que ayuda al auditorio a comprender mejor las diferencias es mostrar un ejemplo [ 81 ]
“normal”, seguido de uno que no lo es. Exprese claramente las diferencias entre los dos, es un error dejar a la audiencia que establezca la conexión entre ellos. Considere cómo va a señalar los puntos importantes en una diapositiva, las herramientas disponibles como el puntero de láser o el cursor del ratón, pueden ser efectivas si se emplean adecuadamente. Es frecuente que el presentador no dirija el haz de luz sobre el elemento que desea señalar, sino que lo mueva displicentemente en forma circular, oval o totalmente asincrónica tratando de englobar múltiples áreas o, lo que es peor, no señalando ninguna en especial. Esto no resulta útil, sino más bien distrae y hasta puede llegar a ser desagradable. El contenido de las diapositivas es explicativo y dirigido a la audiencia y no al orador, que no debe leerlas. Es conveniente afrontar en dirección a los presentes y no a la proyección. Además no corresponde disculparse dentro de la presentación, si una diapositiva será difícil de comprender no debería ser presentada. A veces las preguntas pueden ser más importantes que la presentación real, piense y adelántese a las preguntas que podrían manifestarle. Al replicar mire a todos los oyentes, ya que todos pueden tener la misma duda. Evite elogiar algunas consultas y no otras, además, trate todas las cuestiones e interrogadores con el mismo respeto. Contestar las dudas que le plantea el auditorio no debe ser un problema si ha sabido transmitir las ideas esenciales, las preguntas suelen ir dirigidas a aclarar y ampliar alguno de los puntos clave de su charla. Si no sabe la respuesta no intente responder con evasivas o invenciones, mejor transmitir al interlocutor el interés por tratar de darle contestación en un futuro o, simplemente, admitir su desconocimiento al respecto. Suministrar toda la información, positiva o negativa, para que los demás puedan juzgar con ecuanimidad el valor de su trabajo, no exponga información sesgada tratando de orientar el juicio de los presentes. El aprendizaje es un proceso dinámico que requiere de la participación activa de los presentes. Desde tiempos inmemoriales la clase profesoral ha sido una técnica de instrucción ampliamente respetada. Sin embargo, en nuestros días una conferencia para transmitir información o como método de enseñanza puede considerarse igualmente igualmente primordial. La presentación oral debe orientarse para incluir la participación de los oyentes, despertar su curiosidad, motivarlos a aprender y pensar, en resumen, lograr más que lo que puede cualquier libro o publicación. El clima de la conferencia es importante, los factores que perturban la voluntad de atención de la audiencia deterioran la comprensión. Un ambiente seguro y relajado facilita el entendimiento. El orador, intencionalmente o involuntariamente, puede modificar el clima emocional y debe comprometerse para lograr un contexto con estas características. La interacción informal con la audiencia, con el humor apropiado, ayuda a establecer un clima que conduce al aprendizaje. Muchos autores recurren a alguna anécdota o hecho inusual para llamar la atención, inclusive, alguna cita o una gracia que causa hilaridad entre los presentes. Esto “despierta” a un auditorio un tanto estático y motiva su interés. Manejar prudentemente una cantidad correcta de humor puede contribuir al mutuo entendimiento con la audiencia. Está bien salirse ocasionalmente de la “letra”, no es un recurso desdeñable, pero con la precaución de no ser ofensivo ni chabacano, ni hacer que la presentación se recuerde por el imprevisto y no por la esencia científica. Es aconsejable llevar las imágenes de la conferencia en la computadora personal, en un CD o memoria electrónica, pero siempre con un duplicado. Examinar antes de la presen[ 82 ]
tación las imágenes a proyectar para evitar inconvenientes, recordar que los programas de computación se renuevan muy frecuentemente, por ello consultar si los programas de la computadora a utilizar son compatibles con el formato que el presentador dispone. Por sobre todas las cosas, respetar los tiempos. Todos los investigadores están convencidos que sus hallazgos son de máxima importancia y que van a cambiar los destinos de Occidente. Pero a todos se les da la misma cantidad de tiempo para su presentación, por lo general de 10 minutos o, a lo sumo, 15 minutos. Superado este límite se reduce el tiempo de los siguientes expositores, o el de las preguntas y respuestas. Es necesario que se entrene lo suficiente como para asegurar de terminar en tiempo. Más de una vez, los encargados de cronometrar la exposición, por lo general el presidente o secretario de mesa, truncan la comunicación en el tiempo justo y el presentador se ve perjudicado por no haber expuesto las conclusiones o el comentario más importante. Es necesario recalcar que el principiante debería ensayar la presentación varias veces en presencia de sus colegas para habituarse al medio, a las formas y al tiempo. Ellos le aconsejaran sobre todo aquello que pueda mejorar y optimizar, inclusive hacerle preguntas que podrían surgir luego desde el auditorio y prepararse para ello. Solo después de mucho tiempo y amplia experiencia podrá exponer sin temores ni mayores errores. Los mensajes publicitarios tratan de captar la atención en pocos segundos, y es un ejemplo importante que debemos tener en cuenta porque aunque dispongamos de un plazo mayor para presentar nuestro trabajo, tenemos un mínimo de tiempo para atraer la atención. De no hacerlo, por mucho que hablemos no conseguiremos ser eficaces en nuestro objetivo. Para cumplir con esta recomendación debemos comenzar la presentación de manera original y atractiva, utilizando los recursos de la narración oral (vista, voz, cuerpo, manos y pies). Nuestra presencia ante la audiencia tendrá un impacto en su reacción para lo que sigue, el orador debe estar cómodo y controlado, o al menos transmitir esa impresión. La cabeza debe estar en alto con la barbilla arriba, actitud que da la impresión de tener el mando. Los brazos cruzados en el pecho se ven como un signo de defensa. Si uno esta sentado, enderezarse en la silla manteniendo la columna recta, los pies en el suelo y las manos extendidas sobre la mesa. Los gestos son un refuerzo visual para las ideas y las palabras enunciadas, diríjase a la audiencia con movimientos que cautiven la atención. Es más cómodo atender a un conferencista dinámico que escuchar a alguien que está detrás de un podio con los brazos cruzados. Use gestos amplios y envolventes, nunca emplee ademanes rápidos y espasmódicos. Los gestos más efectivos son extensiones naturales de uno mismo y deben ser variados, la repetición puede ser molesta. Algunos modales, como apuntar con el dedo o el puño cerrado, son amenazadores. Evite poner las manos en los bolsillos, use las palmas de la mano abiertas hacia el público, incline la cabeza y sonría para enfatizar aquello que expone. No permanezca durante un período prolongado detrás del podio, separa al orador de la audiencia y se percibe como lejano. Alcance a los presentes físicamente, aumentará la atención e interés, y alentará a las preguntas y respuestas. Los oradores efectivos hacen contacto visual con el público y advierten sus reacciones, aburrimiento, entusiasmo, etc. Para hacer el contacto visual correcto debe “barrer” con la mirada a la audiencia, observe a cada persona unos segundos. Es importante hacerlo, deja percibir si están atentos o qué nos indica su lenguaje corporal, se mueven irritados, toman notas o están dormidos. [ 83 ]
Hablar claramente requiere de trabajo y práctica, esto es particularmente cierto si el orador está hablando en un idioma diferente del materno. Una manera segura de perder la atención del público es hablar con voz suave y monótona, duro trabajo es atender a alguien que habla de ésta manera, muchos de los asistentes no harán el esfuerzo. Para comprometer al auditorio, debe hablar con un tono natural, seguro e interactivo. Este estilo involucra a las variaciones en la inflexión de la voz y la velocidad con que se habla, incorporando ocasionalmente pausas. El ritmo debe ser lento, facilitándole al público la oportunidad de oír y asimilar lo que se dice, hablar demasiado rápido puede fatigar. El orador balbuceante impresiona nervioso, si mira hacia abajo puede percibirse como un intento de mantenerse alejado de la situación. Evite las reiteraciones “muletillas”, molestan y desvían la atención hacia eso que se repite sistemáticamente. Uno puede desconocer sus gestos faciales, como entrecerrar los ojos, fruncir el ceño, o poner caras extrañas que desorientan a la audiencia. Puede ser muy instructivo mirarse en un espejo, o video grabado, y observar nuestros modos al hablar. No es fácil sonreír y hablar al mismo tiempo, pero es importante sonreír durante la presentación, si es congruente con el mensaje hablado. Nunca obtendremos una segunda oportunidad para cambiar la primera impresión. 4. La discusión de los resultados obtenidos Probablemente es el momento más difícil, sobre todo para los autores noveles. Es el tiempo donde se capta el interés que ha promovido la exposición, de responder las dudas y los comentarios que surgen, discutir aspectos controvertidos y proporcionar información adicional. Recuerde que se encuentra en un ámbito científico, entre colegas, y que el objetivo es debatir. Agradezca los comentarios, los interrogantes y las dudas porque son apreciables, algunos pueden ayudarle a enriquecer la investigación actual u otras futuras. De esta experiencia realmente se puede aprender, esté tranquilo e intente no estar a la defensiva. Si no sabe la respuesta a una pregunta, diga que no la sabe y no conjeture acerca de datos adicionales a menos que usted esté absolutamente seguro. Atienda todas las preguntas, responda gentil y pausadamente, no discuta e intente no disentir a menos que el punto señalado por el interrogador sea extremadamente importante. Sea breve, y si el tiempo lo permite agradezca a la mesa, al moderador y al público en general por su atención, e invítelos a continuar con la discusión posteriormente. En una reunión científica, donde se exponen muchos trabajos en forma ininterrumpida y a veces simultánea en varios salones, el expositor puede considerarse satisfecho en demasía si la audiencia, al final del día, recuerda el objetivo y las conclusiones del trabajo presentado.
Técnicas pedagógicas Existen algunas técnicas pedagógicas que pueden ser útiles de conocer cuando se prepara una clase u otro tipo de exposición, ya que orientan en como concitar y mantener la atención del auditorio. [ 84 ]
Clínica del rumor Consiste en hacer salir del aula a 7 de los espectadores presentes y proyectar al resto del auditorio una diapositiva intrascendente, que puede ser de un paisaje, una escena familiar o cualquier otro asunto. A continuación, se hace pasar al primero de los espectadores que quedó afuera y se pide a alguno de los presentes que le relate lo que ha visto en la proyección. Luego, se hace pasar al segundo espectador de afuera y se pide al primer espectador que vino de afuera que relate al segundo lo que le contaron que han visto en la proyección. Y así sucesivamente hasta llegar al 7º espectador. El auditorio notará que el primer espectador relata al segundo lo que él interpretó de lo escuchado de quien presenció la diapositiva, y el segundo le dirá su impresión al tercero y así hasta llegar al séptimo. Como cada uno de los espectadores cuenta su impresión subjetiva, la realidad se va transformando, pudiendo llegar a tergiversarse la verdadera imagen de manera tal que despierta la hilaridad de la concurrencia. Al final, se proyecta la diapositiva original y se muestra a los 7 espectadores que estuvieron afuera que se asombrarán de lo diferente a lo imaginado por ellos. De no contarse con una proyección, se puede suplantar la imagen con el relato de algún hecho rutinario o acaecido a alguno de los presentes, y continuar de igual manera. Durante la ejecución de esta técnica, cada uno de los presentes interpreta a su manera lo visto o escuchado, y al relatarlo es habitual que lo module con su punto de vista personal o su interpretación subjetiva. Si bien esta técnica tiene como objeto principal convencer a la audiencia de la importancia de recurrir a las fuentes de la información para no recibirla deformada por la subjetividad del intermediario, es enormemente útil para que el presentador la tenga en cuenta al momento de su exposición. Debe intentar utilizar las palabras adecuadas y los ejemplos ajustados para que impidan, o al menos no faciliten, interpretaciones subjetivas demasiado diferentes de lo que el presentador quiere transmitir, y posibilitar que el mensaje llegue en su justa realidad. Otra aplicación práctica, es convencer al iniciado de la importancia de recurrir a los trabajos originales para basar sus hipótesis, y no a las revisiones de los temas que, si bien economizan tiempo y esfuerzo, suelen transmitir el punto de vista subjetivo del autor de la revisión, y pueden influenciar fuertemente el análisis de las conclusiones. Atención de la audiencia Consiste en recitar a la audiencia 20 palabras habituales de la conversación diaria. Después, se les pide que escriban todas las palabras recordadas sin importar la secuencia. Luego, el presentador preguntará a la audiencia cuantos de los presentes recordaron cada palabra en la secuencia original, y tomará nota de ello para graficar esas respuestas en un diagrama de barras o de líneas con la cantidad de personas que recuerdan cada palabra en las ordenadas. Observará que la gran mayoría evoca con mayor facilidad las primeras y las últimas palabras, y recuerda mucho menos las del medio. Esto hace que la curva de evocación de las palabras tenga una concavidad superior que expresa que la atención de la audiencia fue más importante al inicio y al final. Estos resultados se observan con frecuencia en las audiencias del mundo Occidental. Contrariamente, en el mundo Oriental, lo habitual es que el nivel de atención se mantenga uniforme en todo el tiempo, con una resultante que es bastante horizontal. [ 85 ]
Esta técnica fue inicialmente utilizada para conocer el nivel de atención de la audiencia durante una exposición, y es útil que el orador la tenga presente para intentar mantener un nivel uniforme de atención de la audiencia. Puede alternar con cierta periodicidad frases o proyecciones que impacten positivamente a la audiencia, concitando una atención pareja durante la exposición. O por lo menos, utilizar los elementos de mayor importancia en forma escalonada o periódica para despertar interés. También es importante que el orador exprese la hipótesis del trabajo y los objetivos al principio, cuando la audiencia está más interesada, y que sea claro y determinante en las conclusiones al final de la presentación.
Epílogo La intención este artículo fue acercar algunas recomendaciones a los que se enfrentan por primera vez a un auditorio para difundir información científica. Es posible que estas consideraciones parezcan intrascendentes, sin embargo, pocas veces se tienen en cuenta y el resultado de una exposición se ve innecesariamente disminuido. Hablar en público es un arte, algunas personas parecen haber nacido con las habilidades y el deseo para hacerlo. Sin embargo, la mayor parte de nosotros necesitamos aprender este arte, trabajando continuamente para mejorar. Vale la pena el esfuerzo, comunicaremos mejor el conocimiento y provocaremos un cambio en las actitudes y/o la práctica cotidiana de los oyentes. Este es el resultado que uno desea cuando se involucra con la investigación y la educación médica. No olvide que la constancia genera talento.
Material de consulta sugerido 1. Albert T. Winning the publications game. Oxford & New York, Radcliffe Medical Press, 1997. 2. Arribalzaga EB, Borracci RA, Giuliano RJ, Jacovella PF. El artículo científico. Buenos Aires, Editorial Magister Eos, 2005. 3. Biancuzzo M. Developing a poster about a clinical innovation. Part I: Creating the poster. Clinical Nurse Specialist 1994; 8:153-155. 4. Biancuzzo, M. Developing a poster about a clinical innovation. Part II: Creating the poster. Clinical Nurse Specialist 1994; 8: 203-207. 5. Bradley H. It’s show time!. Home Office Computing 1999; 17: 102. 6. Bragshaw E. Slide projection. PC User 1992; 196: 61. 7. Brinko KT. The Practice of Giving Feedback to Improve Teaching: What Is Effective? J Higher Education 1993; 64:574-593. 8. Cirigliano G, Villaverde J. Dinámica de grupos y educación. Buenos Aires, Ed. Humanitas, 1985. 9. Collins J. Education Techniques for Lifelong Learning. Giving a PowerPoint Presentation: The Art of Communicating Effectively. RadioGraphics. 2004; 24:1185-1192. 10. Collins J, Mullan BF, Holbert JM. Evaluation of Speakers at a National Radiology Con[ 86 ]
tinuing Medical Education Course. Med Educ Online [serial online] 2002; 7: 17. Available from http://www.med-ed-online.org. 11. Council of Biology Editors. Council of Biology Editors Style Manual. Arlington, VA, Council of Biology Editors, Inc, 4th Edition, 1978. 12. Cruz Verduit L, Arencibia JR, Pérez Fernández E. Aspectos metodológicos básicos para la preparación y el empleo de las diapositivas. http://www.bvs.sld.cu/revistas/aci/ vol10_4_02/aci030402.htm. 13. Dalal MD, Daver BM. Computer generated slides: a need to curb our enthusiasm. Br J Plast Sur 1996; 49: 568-571. 14. Estrada CA, Patel Sangnya R, Talente G, Kraemer S. The 10-Minute Oral Presentation: What Should I Focus on? Am J Med Sci. 2005; 329(6): 306-309. 15. Farrow R. ABC of learning and teaching in medicine: Creating teaching materials. Br Med J 2003; 326: 921-923. 16. Garity J. Creating a professional presentation. J Intraven Nurs 1999; 22: 81-86. 17. Garson A, Gutgesell HP, Pinsky WW, McNamara DG. The 10-minute talk: Organization, slides, writing, and delivery. Am Heart J 1986; 111: 193-203. 18. Greenhalgh T. Cómo leer un trabajo científico. Guía basica de la medicina basada en la evidencia. Buenos Aires, Volpe/Fox S.A., 2005. 19. Haber RJ, Lingard LA. Learning oral presentation skills: a rhetorical analysis with pedagogical and professional implications. J Gen Intern Med 2001; 16: 308-314. 20. Hewson M, Little M. Giving feedback in medical education. Verification of recommended techniques. J Gen Intern Med. 1998; 13: 111-116. 21. Hoffman M, Mittelman M. Presentations at professional meetings: notes, suggestions and tips for speakers. Eur J Intern Med 2004; 15: 358-363. 22. Jadoul M. Ten ways to ruin or market your oral presentation. Nephrol Dial Transplant 2001; 16: 2119-2123. 23. Kroenke K. The 10-minute talk. Am J Med 1987; 83: 329. 24. Leddy C. How to effectively present your product. Multichannel News 2001; 22: 44. 25. Maddow CL, Shah MN, Olsen J, Cook S, Howes DS. Efficient communication: assessment-oriented oral case presentation. Acad Emerg Med. 2003; 10: 842-847. 26. Manterola C, Pineda V, Vial M, Grande L. ¿Cómo presentar los resultados de una investigación científica? I. La comunicación oral. Cir Esp. 2007; 81(1): 12-7. 27. Mecklenburger JA. Emerging technologies for education, beyond the computer revolution. Peabody J Edu 1986; 64: 183-187. 28. Moore Weaver L, Augspurger P, O’Brien King M, Proffitt Ch. Insights on the poster preparation and presentation process. Applied Nursing Res 2001; 14: 100-104. 29. Niamtu J. The power of power point. Plast Reconstr Surg 2001; 108: 466-484. 30. Noguerol Rodiguez B, Gonzalez López S, Sicilia Felechosa A. Uso de la diapositivas en presentaciones científicas III: confección de diapositivas mediante el ordenador. Periodoncia 1995; 5: 153. 31. Ruhl KL, Suritsky S. The pause procedure and/or an outline: Effect on immediate free recall and lecture notes taken by college students with learning disabilities. Learning Disability Quarterly 1995; 18: 2-11. [ 87 ]
32. Sherbino J, Bandiera G. Improving communication skills: Feedback from faculty and residents. Acad Emerg Med 2006; 13: 467-470. 33. The eclectic slide. Goverment Computer News 2001; 20: 12. 34. Van Overbeek J. The presentation of scientific papers. Science, new series 1941; 93: 184185. 35. Wikinski JA, Usubiaga JE, Hernandez HH. El trabajo científico. Buenos Aires, Editorial Diagraf, 2da Ed, 1977. 36. Thompson WM, Mitchell RL, Halvorsen RA, Foster WL, Roberts L. Scientific presentation, what to do and what not to do. Invest Radiol. 1987; 22: 244-245. 37. Zorrilla AM. Hablar, escribir, traducir en español. Buenos Aires, Editorial Dunken, 2003.
[ 88 ]
III. Desarrollos modernos en las ciencias médicas
Capítulo 8
Metanálisis
Luis Alcocer
Introducción Por muchos siglos, el conocimiento médico se ha basado primordialmente en la observación cuidadosa de los síntomas y signos de la enfermedad. El médico clínico educado, ha practicado desde siempre una semiología esmerada de los signos recogidos con sus sentidos, la vista (inspección), el tacto (palpación), el oído (auscultación y percusión), el olfato y aún el gusto, más recientemente ampliados por los exámenes de laboratorio y gabinete, que en última instancia amplifican estos sentidos. El interrogatorio sistemático de los síntomas ha permitido al médico vivir las características propias de la enfermedad manifiesta de su paciente. Usando ambos métodos, (el interrogatorio y la exploración física simple y armada), ha elaborado la historia clínica, que le permite sentar una hipótesis razonable sobre el estado de salud de su paciente, y que sobre todo sirve de base para la toma de decisiones, que se centran en recomendar o ejecutar medidas para preservar el estado de salud, si este se considera satisfactorio, o a restaurarlo lo mejor posible si se juzga alterado. Este es el proceso médico primordial que es empleado hasta la fecha en la mayoría de las acciones médicas. El análisis de la propia experiencia, basada en la senso-percepción, inició el intento por conocer la naturaleza propia de la enfermedad, y se aplicó en sus orígenes al análisis de los resultados de los intentos terapéuticos. La medicina se aprendía directamente de otro médico experimentado y dispuesto a trasmitir su experiencia personal a sus alumnos. El registro de las experiencias era personal del Médico y las primeras publicaciones médicas se refieren a descripción de casos, en forma especialmente de síntomas, signos y síndromes, que se relacionaban con enfermedades específicas: Esa fue la gran época de los epónimos, pues al descubrir alguna asociación el investigador era premiado bautizando con su nombre su descubrimiento. Los investigadores describían las manifestaciones que resultaban propias de entidades patológicas, que se comprobaban de preferencia con autopsias y que eran de mayor valor si resultaban de series de enfermos observados retrospectivamente. Si clasificamos a la investigación médica, desde un punto de vista de jerarquías crecientes en términos de validez, el primer grupo más bajo en la escala es, precisamente, el de los estudios descriptivos, y de ellos los retrospectivos de casos o series de enfermos. Todavía es posible encontrar en las revistas más modestas estudios retrospectivos de series de pacientes, [ 91 ]
ahora reforzados los sentidos del médico con estudios más o menos elaborados de laboratorio y gabinete. Algunas revistas tan prestigiosas como el New England Journal of Medicine, aún reportan casos completos, muy bien estudiados y se les considera de un alto valor didáctico. Este método del análisis del caso es empleado como un método muy actual, por ejemplo en las grandes escuelas de negocios. Los estudios de series se completan con estadística descriptiva. Se refieren fundamentalmente a enfermedades, síndromes o síntomas-signos y en ocasiones a resultados sobre determinado procedimiento, especialmente quirúrgico. Su validez es simplemente descriptiva y, en ocasiones, se intenta justificar su publicación al limitarlos a un grupo de interés particular, como por ejemplo: “Caractéristicas de la enfermedad X en grupo de ciudadanos del país Y, en edades de n a p años”. Los caminos de la intuición, la fe, la magia y aún la percepción extrasensorial, han sido utilizados por siglos por la medicina para reconocer, interpretar el sentido e intentar curar la enfermedad. El método científico es el pensamiento que permite al hombre tener una certeza razonable de lo que sus sentidos recogen (Senso) y su mente elabora (Percepción). Es lo más cercano posible a la verdad y es actualmente el único aceptable para tomar decisiones sobre el estado de salud-enfermedad de las personas y para preservar, promover o restaurar su estado de salud, entendido este como tiempo de calidad de vida. El método científico nace formalmente desde el siglo XVII con el pensamiento de Galileo y es un proceso destinado a explicar fenómenos, establecer relaciones entre los hechos y enunciar leyes que expliquen los fenómenos físicos del mundo y permitan obtener, con estos conocimientos, aplicaciones útiles al hombre. El siguiente nivel de la investigación médica emplea el método científico en un más alto nivel, y nace cuando se comparan las características de un grupo francamente enfermo con otro grupo de personas de características similares, pero sin evidencias de enfermedad. Estos estudios son llamados “Caso-Control” y permiten emplear la estadística no solo descriptiva sino también inferencial, esto es que permiten inferir relaciones. Es consustancial a la investigación científica el someterse siempre a una “prueba de la verdad”, que consiste en evidenciar que cada hecho descubierto pueda ser comprobado, mediante otros experimentos, por cualquier persona y en cualquier lugar, y en que sus hipótesis son revisadas y cambiadas si no se cumplen. Esto es ya posible en los estudios casocontrol, que son todavía vigentes, se emplean para construir hipótesis causa-efecto, aunque no permiten demostrarlas y son especialmente útiles para el estudio de condiciones muy raras, en las que es imposible conseguir muestras grandes en número de sujetos enfermos. El siguiente nivel de estudios se llama estudios de cohorte. Consiste en seleccionar un grupo de personas y seguir en el tiempo la evolución de su estado de salud. En general se compara la incidencia del evento que se decidió estudiar, entre personas expuestas y no-expuestas a diversos factores. Los estudios de cohorte se han utilizado de manera clásica para determinar la ocurrencia de un evento específico en un grupo de individuos inicialmente libres del evento o enfermedad en estudio. Permiten estudiar los factores de riesgo para una enfermedad determinada y son la base de la epidemiología moderna. Quizá el más significativo de ellos es el estudio Framingham, con más de 50 años de seguimiento. [ 92 ]
Hasta este nivel el método que se emplea es la observación, sin interferir en el proceso, por lo que podríamos decir que estos grupos de estudios están destinados a conocer la historia natural del proceso salud-enfermedad y su principal producto es la caracterización de las enfermedades y la posibilidad de conocer y evaluar el riesgo. La experimentación es un procedimiento mediante el cual se trata de comprobar una hipótesis, mediante la manipulación de una o más variables, manteniendo fijas las otras conocidas, lo que permite estudiar las relaciones y el peso que estas variables tienen para el desarrollo del fenómeno en estudio. La experimentación es fundamental para poder ofrecer explicaciones causales. La experimentación en humanos es desafortunadamente esencial para conocer en especial los efectos benéficos e indeseables de los agentes terapéuticos. Es por ello que las normas éticas son fundamentales cuando se experimenta con humanos y deben ser muy estrictas y muy vigiladas en estos estudios. Este tipo de investigación se emplea para valorar la eficacia de diferentes terapias, de actividades preventivas o para la evaluación de actividades de planificación y programación sanitarias. Como en los estudios de cohorte, los individuos son identificados en base a su exposición, pero a diferencia de estos, en los estudios experimentales es el investigador el que decide la exposición. Los estudios experimentales son de varios tipos: Ensayo clínico: Es el estudio experimental más frecuente. Los sujetos de estudio son en la mayoría de los casos pacientes y se planean para evaluar uno o más tratamientos para una enfermedad o proceso. Deben ser comparativos, entre dos o más grupos en los que la intervención debe ser distribuida aleatoriamente. (Principio activo en estudio contra placebo o principio activo en estudio contra tratamiento estándar, o principio activo en estudio contra otro principio activo conocido). La validez de estos estudios radica fundamentalmente en que el proceso aleatorio haga los grupos comparables en las variables más relevantes en relación al problema a estudiar, con el objeto de poder atribuir las diferencias en los resultados a la acción de la intervención practicada. Este tipo de estudios se emplean desde la investigación pre-registro de los medicamentos (fases I-III), hasta las fases post-registro. Tienen posibilidades de diseño muy variado y la muestra estudiada puede ser pequeña, 20-100 probandos o hasta los grandes estudios que incluyen a miles de pacientes, tan en boga actualmente y que son bautizados frecuentemente con un acrónimo ingenioso. Ensayos de campo: Tratan con sujetos que aún no han adquirido la enfermedad o con aquéllos que estén en riesgo de adquirirla, y estudian factores preventivos de enfermedades como pueden ser la administración de vacunas o el seguimiento de dietas. Ensayos comunitarios: Incluyen intervenciones sobre bases poblacionales amplias. Este tipo de diseños suelen ser cuasi experimentales (existe manipulación pero no aleatorización), en los que una o varias comunidades recibirán la intervención, mientras que otras servirán como control. Los estudios experimentales, si tienen un diseño cuidadoso con un tamaño muestral suficiente, un proceso de aleatorización adecuado, una intervención y un seguimiento perfectamente controlados pueden proporcionar evidencias muy fuertes que nos permitan emitir juicios sobre la existencia de relaciones causales entre variables. [ 93 ]
Frecuentemente, los estudios clínicos pequeños no alcanzan potencia estadística para sacar conclusiones, en especial cuando se intenta, por ejemplo, analizar el efecto que tiene una intervención sobre desenlaces muy importantes, como mortalidad o complicaciones graves, infartos de miocardio, accidentes vasculares cerebrales, etc. Para contestar esta pregunta se requieren estudios muy grandes y seguimientos por tiempos prolongados, en general más de 4 años, por lo que estos ensayos son muy caros y toman mucho tiempo para obtener conclusiones sólidas. Una alternativa para solucionar estos problemas pueden ser los metanálisis.
Generalidades sobre los metanalisis En la literatura de los últimos años, nos encontramos frecuentemente con este tipo de análisis conjunto de estudios de investigación y nos será muy útil tener nociones sobre como se genera e interpreta un metanálisis. El metanálisis es una evaluación y síntesis sistemática, organizada y estructurada, de un problema de interés, con base en los resultados de varios estudios independientes realizados sobre este problema. Es un “estudio de estudios” o “epidemiología de sus resultados”.1 El primer metanálisis (no con ese nombre) fue realizado probablemente en 1904 por Karl Pearson, quien intentó superar el problema del reducido poder estadístico de los estudios realizados con muestras pequeñas. Se le ocurrió que si se acumulan los resultados de un grupo de estudios similares, se puede alcanzar un tamaño mayor de valores y el manejo estadístico puede mejorar. El término metanálisis fue introducido por Gene V. Glass, 2 un psicólogo de la educación, en el año 1976. Se trata de una técnica matemático-estadística que permite, con una certeza razonable, analizar en conjunto los resultados de estudios clínicos independientes, con hipótesis y enfoques analíticos similares que resulten combinables, practicados en muestras relativamente pequeñas, que analizados independientemente muestran resultados no conclusivos sobre el mismo problema. Relaciona sistemáticamente y cuantifica gran diversidad de resultados y ofrece conclusiones cuantitativas y cualitativas sobre el aspecto estudiado. La idea es que no se pueden mezclar peras con manzanas, a menos que ambas se consideren como frutas: debido a que en estudios diferentes las diversas variables dependientes se miden en diferentes escalas, en el metanálisis la variable dependiente se transforma en una medida del tamaño del efecto, transformándola en una medida estándar equivalente a una diferencia entre las medias o frecuentemente a la relación de desventajas (relación de momios o en inglés “Odds ratio”). El prefijo meta implica el concepto de junto o paralelo y también puede entenderse como algo que acontece más tarde que o, simultáneamente, con algo que es más comprensivo que su precursor. Algunos sinónimos utilizados incluyen: Revisión cuantitativa, síntesis. De hecho los metanálisis se entienden en la Medicina Basada en Evidencias como un tipo de Revisión cuantitativa, pues se distinguen dos tipos de revisiones: 1. Revisiones narrativas: Revisan un tema en forma más o menos exhaustiva, generalmente por un experto en el contenido. En general, el autor presenta el tema en un formato narrativo sin declarar explícitamente los métodos utilizados para obtener y seleccionar la información presentada. Su debilidad radica en que no existen normas sobre cómo conseguir [ 94 ]
los datos primarios o cómo integrarlos; por lo tanto, no existe un estándar para evaluar la calidad de la revisión. 2. Revisiones sistemáticas): Son aquellas que resumen y analizan la evidencia respecto de una pregunta específica en forma estructurada, explícita y sistemática. Típicamente, se explicita el método utilizado para encontrar, seleccionar, analizar y sintetizar la evidencia presentada. Existen dos tipos de revisiones sistemáticas: a) Cualitativas: Cuando se presenta la evidencia en forma descriptiva, sin análisis estadístico. b) Cuantitativas o Metanálisis: Cuando mediante el uso de técnicas estadísticas, se combinan cuantitativamente los resultados en un sólo estimador puntual. Los metanálisis se requieren por la misma razón por la que se necesitan los grandes estudios, aleatorizados y controlados, y mientras estos se realizan pueden sustituirlos. Los estudios pequeños y medianos tienen mayor oportunidad de sufrir un sesgo estadístico, fundamentalmente por una menor oportunidad de que el reparto entre los grupos sea realmente por azar, y frecuentemente no tienen el poder estadístico, por el tamaño de la muestra, para distinguir diferencias no tan obvias. El metanálisis, a diferencia de los grandes estudios controlados, no está sujeto a reglas tan estrictas, por lo que siempre sus conclusiones deben ser tomadas como interinas, mientras se tiene la información proveniente de un gran estudio. Su ventaja más importante es que para brindar información, no requiere del periodo de tiempo tan largo como un buen gran estudio.
El nivel jerárquico de evidencias obtenidas por los metanálisis Existe gran confusión en el nivel jerárquico que ocupan los metanálisis para la obtención de evidencias. En algunas clasificaciones, como la del Centro para la Medicina basada en Evidencias de Oxford, la revisión sistemática de estudios controlados y aleatorizados, con homogeneidad, representa el nivel 1a, mientras que los estudios aleatorizados de casos, con intervalos de confianza estrechos constituyen el nivel 1b. Pongamos en perspectiva la utilidad de los metanálisis: • Un estudio clínico, pequeño o mediano, controlado y aleatorizado, sirve para estudiar mecanismos. • Un metanálisis de estudios clínicos, pequeños o medianos, y aleatorizados, sirve para generar hipótesis y planear estudios clínicos mas dirigidos. • Un estudio clínico grande, controlado y aleatorizado, sirve para obtener respuestas amplias y confiables. • Un metanálisis de estudios clínicos grandes, controlados y aleatorizados, sirve para obtener un estimado típico y no sesgado del efecto de un tratamiento o para estudiar las interacciones entre subgrupos. Sin embargo existen evidencias de que la información obtenida por metanálisis aún de estudios grandes y muy bien hechos, es inferior a la evidencia obtenida por un estudio mayor. Por ejemplo el magnesio en el tratamiento del infarto del miocardio, los estrógenos en la prevención [ 95 ]
de la enfermedad cardiovascular en la mujer, los antioxidantes vitamínicos para la prevención cardiovascular, los antibióticos para clamidias en el tratamiento del síndrome isquémico coronario agudo, mostraron en estudios medianos y en metanálisis de ellos, ser útiles. Sin embargo, cuando se practicaron estudios clínicos aleatorizados y controlados en poblaciones muy grandes no se demostró ninguna utilidad con estos procedimientos. Este fenómeno puede explicarse por la metodología del metanálisis desarrollado, pues cuando se basan solamente en datos publicados en forma agregada, solo proporcionan estimaciones del efecto de los tratamientos y de su significación, que no se confirman cuando se analiza toda la evidencia relevante. La mejor metodología es la que reúne, comprueba y analiza datos de pacientes individuales procedentes de todos los ensayos relevantes. Desafortunadamente este método requiere una cantidad de tiempo considerable, así como recursos humanos y financieros muy amplios. Estos estudios se conocen como metanálisis basados en datos de pacientes individuales (DPI). Por esta razón, pensamos que la evidencia obtenida del metanálisis tradicional es provisional y que requiere la prueba final con el estudio controlado, aleatorizado, de preferencia cegado, con un tamaño muestral suficiente para mostrar una diferencia estadísticamente significativa con intervalos de confianza muy estrechos. Estos estudios son lo mejor con lo que cuenta la ciencia para “demostrar” la verdad. (La senso-percepción que es el único camino que tiene la mente para conocer el entorno, puede ser muy engañoso, por lo que el método científico es la única forma conocida de obtener certezas razonables sobre la realidad).
Objetivo y utilidad de los metanálisis A. Evitar el efecto producido por las variaciones del muestreo en una serie de pequeños estudios y, por lo tanto, comprobar la existencia de un efecto en la dirección de interés. Esto es: incrementar el tamaño muestral y el poder estadístico. B. Confirmar hipótesis u otra información generada en estudios preliminares o exploratorios. C. Identificar errores producidos en diversos estudios y que por su magnitud únicamente puedan ser identificados mediante su agrupación. D. Buscar asociaciones adicionales a los objetivos centrales de las investigaciones originales y que por su escasa frecuencia no pudieron ser detectadas en estudios individuales. E. Generar nuevas hipótesis que justifiquen su posterior investigación, en dos aspectos: reconocer cuáles son las variables de mayor relevancia y cuáles las comparaciones más apropiadas y ayudar a decidir entre organizar un gran estudio en un solo sitio o varios pequeños en diferentes lugares.
El proceso del metanálisis Las etapas a seguir, al practicar un metanálisis, son muy parecidas a las que se siguen con otro tipo de investigación, solamente que en este caso la unidad de observación no son pacientes o sujetos, sino estudios3. La siguiente secuencia es una modificación de la recomendada por la Asociación Española de Hipertensión y la Liga Española de Lucha contra la Hipertensión:4 [ 96 ]
1. Se elabora un protocolo, que defina claramente los objetivos y que describa minuciosamente los métodos que se utilizarán durante el estudio, el establecimiento de la pregunta que se desea responder y las razones para ella se deben especificar claramente. 2. Se identifican las fuentes bibliográficas que se someterán a revisión, principalmente consultas en Medline con palabras clave, en ocasiones es necesario contactar a los investigadores originales para obtener permisos y bases de datos. Se debe realizar una búsqueda exhaustiva, objetiva y reproducible de los trabajos originales sobre el tema, que además de bases de datos electrónicas incluya búsquedas detalladas en las revistas relacionadas y búsquedas manuales de la llamada “literatura gris” (referencias bibliográficas, tesis doctorales, comunicaciones a congresos, informes de instituciones públicas o privadas, trabajos no publicados o publicados en revistas no indexadas, etc). La exhaustividad y el rigor de la búsqueda bibliográfica determinará en gran medida la calidad y validez final del metanálisis. 3. Es necesario declarar expresamente, desde antes los criterios de selección de los ensayos clínicos que deben ser incluidos, esto es criterios de inclusión y exclusión clara de estudios. Los investigadores deben establecer cuáles de los trabajos recuperados serán incluidos finalmente en el metanálisis, elaborando una lista de criterios de inclusión y exclusión que deberá ser lo más objetiva posible. Para evitar el denominado sesgo de selección, es importante aplicar dichos criterios rigurosamente a cada estudio, siendo recomendable que esta evaluación sea realizada de forma ciega e independiente por varios evaluadores. Entre los criterios de selección utilizados con mayor frecuencia en el metanálisis están: el tipo de diseño de los trabajos, el tamaño muestral estudiado, la exhaustividad de la información que presentan o la comparabilidad en la definición de los factores de exposición, de las intervenciones y de las respuestas estudiadas. Aunque algunos autores sugieren utilizar la calidad metodológica de los trabajos como un criterio de inclusión, es más aconsejable considerarlo como una variable más a tener en cuenta en la interpretación de los resultados del metanálisis mediante un análisis de sensibilidad, es conveniente emplear la clasificación de la evidencia según las revistas mayores del tema. En cualquier caso, una vez valorada la calidad metodológica de cada trabajo, algunos autores proponen utilizar las puntuaciones asignadas como pesos en el metanálisis, mientras que otros defienden la utilización en su lugar de un análisis de sensibilidad. 4. La selección de investigadores independientes que lean, clasifiquen, codifiquen, cuantifiquen y finalmente evalúen y elijan el grupo de ensayos clínicos que serán incluidos, es una opción para garantizar la equidad de acceso de los estudios. 5. Elaborar una guía de los datos que deben ser recolectados de los ensayos clínicos escogidos para ser procesados en el metanálisis. 6. Combinar los resultados obtenidos y asegurar la calidad de los datos y su procesamiento estadístico adecuado. Los investigadores deberán concretar qué medidas se van a utilizar para medir el efecto de interés, en función del tipo de respuesta a estudiar y el diseño [ 97 ]
de los estudios revisados. Así, por ejemplo, si la respuesta es binaria (enfermedad/no enfermedad, muerte/supervivencia,…) las medidas de efecto utilizadas suelen ser la diferencia de proporciones, el riesgo relativo o la relación de desventajas o momios. Por el contrario, si la respuesta es un parámetro numérico (por ejemplo, la determinación de un parámetro analítico) el efecto suele medirse mediante la diferencia estandarizada de medias en los grupos de interés. Debe tenerse en cuenta que en los estudios experimentales, con grupos aleatorizados, el propio diseño controla la confusión y los efectos pueden medirse con resultados “crudos” como los descritos. Por el contrario, en metanálisis realizados a partir de evidencia observacional, el control del sesgo en el análisis deberá hacerse mediante técnicas de regresión multivariada, siendo los resultados de estos modelos los que deben combinarse en la etapa del metanálisis para obtener una medida global de interés. Finalmente, es también aconsejable que en el momento de planificación de la investigación se fije la diferencia mínima en la variable respuesta que será considerada de relevancia clínica. En la mayoría de los casos, el estimador del efecto combinado se calcula como una media ponderada de los estimadores de cada estudio, donde los pesos se asignan en base a la precisión de cada trabajo, generalmente el inverso de la varianza de la estimación correspondiente. De esta forma, los estudios con mayor variabilidad (por ejemplo, aquellos con un tamaño muestral más reducido), tienen una contribución menor en el estimador global. La heterogeneidad entre estudios puede ser tenida en cuenta en estos cálculos utilizando el llamado modelo de efectos aleatorios, o no ser incluida mediante el uso del modelo de efectos fijos.5 La principal diferencia es que con este último se considera que no existe heterogeneidad entre estudios, mientras que con el modelo de efectos aleatorios se consideran dos posibles fuentes de variabilidad, la variabilidad intra-estudio y la variabilidad entre-estudios, que se incorporan al estimador combinado a través de los pesos correspondientes. No obstante, debe tenerse en cuenta que cuando existe una gran heterogeneidad entre estudios el metaanálisis, aún bajo la suposición de efectos aleatorios, no es apropiado y lo que procede es identificar las fuentes de variabilidad y realizar un análisis por subgrupos. Cuando hay información suficiente son dos los pasos que se siguen: en primer lugar la extracción del estimador específico del estudio y su error estándar y luego la combinación de esos estimados en un estimador o función de resumen. Cuando la información existente es incompleta como para permitir utilizarla con algunos cálculos sencillos, existen métodos estadísticos complejos que permiten hacerlo: ajustes usando estimadores externos de confusión tales como factorización de riesgos relativos y ajuste de coeficientes; ajustes para sesgos de selección y clasificación; tasas y razones de regresión; estimación desde informes que emplean categorías amplias de exposición y estimación de coeficientes desde informes que sólo presentan promedios. El estimador adecuado puede ser una diferencia de proporciones entre dos grupos, una relación de momios, un riesgo relativo, etc. Cada uno de ellos tiene sus ventajas e inconvenientes y por lo tanto su elección debe ser meditada y justificada. También podemos estar evaluando una variable cuantitativa continua, en cuyo caso habitualmente se utilizará como medida del efecto la diferencia de medias entre los grupos, o situaciones más complicadas, que de momento no vamos a considerar, como pueden ser variables de tipo ordinal, o variables similares a las utilizadas en el análisis de supervivencia (observaciones censuradas), etc. [ 98 ]
Aunque existen diferentes propuestas estadísticas para combinar estudios, hay tres fundamentales, que se conocen con el nombre modelo de efectos fijos, modelo de efectos aleatorios y por último el modelo bayesiano. En el modelo de efectos fijos los estudios se combinan considerando que no existe heterogeneidad entre ellos, y que por lo tanto todos ellos constituyen estimaciones de un efecto real, cuya magnitud se desea conocer. Así pues, la inferencia realizada está condicionada a los estudios que se han efectuado. En el modelo de efectos aleatorios la inferencia se basa en suponer que los estudios incluidos en el análisis constituyen una muestra aleatoria del universo de estudios posibles, y sus resultados son más conservadores al tener en cuenta una fuente extra de variación, ya que ahora se incluyen dos posibles fuentes de variación: la existente dentro de los estudios y la variación entre los estudios. La utilización de modelos bayesianos constituye, una alternativa interesante a la estadística inferencial clásica. 7. Análisis de la heterogeneidad de los estudios: la evaluación del grado de heterogeneidad de los estudios puede llevarse a cabo mediante distintas pruebas estadísticas, entre las que destaca la prueba Q propuesta por Der Simonian y Laird.6 No obstante, estos tests presentan una potencia muy baja, dado que además en la mayoría de los casos los metaanálisis incluyen un número relativamente pequeño de estudios, aumentando así la posibilidad de cometer un error de Tipo II. Por todo ello, el análisis de la heterogeneidad suele llevarse a cabo mediante métodos gráficos como el gráfico de L’Abbé o el gráfico de Galbraith que permiten inspeccionar visualmente la falta de homogeneidad entre los estudios recopilados. En caso de que exista heterogeneidad entre los estudios incluidos en la revisión, los investigadores pueden optar simplemente por no realizar el metaanálisis, por obtener una medida agregada del efecto de interés indicando una medida de la variabilidad entre estudios o bien por realizar un análisis por subgrupos homogéneos de ser posible identificar la causa de la heterogeneidad. 8. Análisis de sensibilidad: El análisis de sensibilidad permite estudiar la influencia individual de cada estudio al resultado del metaanálisis y, por lo tanto, determinar si los resultados pueden verse sesgados por estudios con escasa calidad metodológica, trabajos no publicados o que no cumplan estrictamente los criterios de selección, etc. Consiste en replicar el metaanálisis quitando en cada paso uno de los estudios incluidos, para ver si se obtienen o no resultados similares de forma global. 9. Identificación del sesgo de publicación: Como en cualquier otro estudio, en un metanálisis deberá valorarse la existencia de posibles sesgos entre los que el sesgo de publicación es uno de los más importantes. Entre los métodos disponibles para valorar el sesgo de publicación el gráfico en embudo o funnel plot7 es quizá el más utilizado, en el que se representa el tamaño muestral de cada trabajo frente al tamaño del efecto detectado. Este tipo de gráficos, puesto que pueden dar lugar a interpretaciones poco objetivas, suelen complementarse con técnicas estadísticas como la prueba de Begg y Egger.8 [ 99 ]
10. Analizar e interpretar los resultados del metanálisis 11. Llegar a conclusiones y dar recomendaciones. 12. Elaborar el informe final y publicar el metanálisis. En resumen el primer paso es la elaboración de un protocolo correcto de investigación, en el que se inicie describiendo el motivo para practicar el metanálisis, los objetivos que se proponen, la hipótesis que se intenta demostrar, es muy importante precisar el ámbito del cual se seleccionaran los estudios que se agruparán, el alcance para la búsqueda de trabajos y de los métodos que se utilizarán en esa búsqueda, así como los criterios de la inclusión y de la exclusión de los estudios candidatos a ser incluidos. El siguiente paso es elaborar un resumen de los datos obtenidos de los diferentes trabajos en forma estructurada y de esta forma proceder al análisis, la descripción de los resultados y por ultimo su discusión. Todo el proceso debe ser descrito con toda claridad en la publicación, puesto que solo se puede juzgar de la calidad de un metanálisis si se está seguro que se siguió un procedimiento alejado de sesgos. Para que un metanálisis sea aceptado como fuente de información definitiva, debe cumplir con requisitos similares a los de un buen estudio clínico que serían: •
Características cualitativas: 1. Un protocolo prospectivo 2. Definición comparable de los eventos cruciales a incluir 3. Control de calidad de los datos 4. Inclusión de todos los pacientes, de todos los estudios seleccionados, para el análisis final
•
Características cuantitativas: 1. Cuidado de que la muestra total sea suficientemente grande para asegurar resultados reales y confiables 2. Empleo de técnicas cuidadosas de estadística para constatar, que la acumulación de datos es correcta y que los resultados del metanálisis puedan ser confiables.
Representación gráfica de los resultados Además de toda la información básica de cada estudio, se presenta la información reanalizada (estimación puntual del efecto, error estándar) en forma de tabla, lo cual permite visualizar la variación de los resultados. También se presenta en forma gráfica a través de un histograma ponderado de los resultados. En el caso de los metanálisis no es posible el cálculo verdadero del riesgo relativo, por lo que se recurre frecuentemente al cálculo de la relación de momios con su respectivos intervalos de confianza, la gráfica de la relación de momios nos da una impresión visual muy útil y fácil de interpretar. Analicemos la figura 1 que corresponde a un metanálisis de la mortalidad [ 100 ]
observada en 17 estudios de prevención secundaria, después de un infarto del miocardio,9 utilizada para explicar estos conceptos en una magnífica serie que sobre metanálisis ha publicado el British Medical Journal.10 Cada cuadro negro representa la relación de momios de un estudio diferente, su tamaño expresa el peso relativo de cada estudio. Las líneas horizontales corresponden a los intervalos de confianza al 95% de cada estudio (contienen el efecto verdadero del estudio que se repetirá en el 95% de las ocasiones en el que el estudio se efectúe nuevamente) La línea vertical sólida equivale a la relación de momios 1, que es el punto de corte en el cual el efecto del uso del betabloqueador es igual a no usarlo, llamado punto de no-efecto, de tal forma que si los cuadrados que muestran los resultados se sitúan a la izquierda de esta línea, el usar un betabloqueador es mejor que no usarlo y se sitúa del lado contrario, es mejor no usar un betabloqueador que usarlo. Si los intervalos de confianza tocan o cruzan la línea de igualdad (1), la diferencia no tiene validez estadística, (p>0.05) . En este ejemplo ninguno de los estudios muestra diferencia estadísticamente significativa, excepto los estudios G y J, que favorecen el uso del betabloqueador. El rombo blanco indica la combinación de todos las relaciones de momios su ancho muestra los intervalos de confianza de la combinación, esto es: la relación de momios calculada en conjunto para los estudios incluidos en el metanálisis es de 0.28 con intervalos de confianza del 95% que van de 0.71 a 0.87. Otra manera de expresar este resultado es decir que el uso de betabloqueadores después de un infarto del miocardio reduce la mortalidad en un 22% (1 - 0.78 = 0.22 = 22%). La línea punteada que expresa la relación de momios conjunta, cruza la casi totalidad de los intervalos de confianza de cada estudio, excepto la del estudio N, lo que indica que el metanálisis se efectúo con una serie de estudios bastante homogéneos entre si.
Principales problemas de los metanálisis Los dos principales problemas metodológicos de los metanálisis de ensayos clínicos son:11, 12 El “sesgo de publicación” que es una de las principales limitaciones de los metanálisis, consiste en que no todos los ensayos clínicos realmente realizados se publican, de esta forma los trabajos con resultados positivos y significativos estadísticamente, tienen mayor probabilidad de ser publicados que los que no muestran diferencias, o estas son negativas, es decir que no hayan encontrado diferencias entre el grupo de estudio y el de control o que estos resultados resulten inesperados. Por otra parte los “buenos estudios”, además de ser más aceptados, tardan menos en ser publicados y son citados con más frecuencia, lo que aumenta considerablemente la probabilidad de que aparezcan en una búsqueda bibliográfica. Asimismo los ensayos con gran número de pacientes, tienen mayor probabilidad de ser publicados, aunque sean de tipo negativo. De entre los trabajos que se publican, aquellos con resultados estadísticamente significativos tienen una mayor probabilidad de aparecer en las revistas importantes. Por lo que no cabe duda, e incluso se han hecho estudios que lo confirman, que hay un sesgo favorecedor de determinado tipo de publicaciones, un importante sesgo de idiomas, los publicados en inglés son mucho más [ 101 ]
accesibles y citados y además existe una preferencia en el número de citas, lo que conlleva a que la probabilidad de que determinados resultados intervengan o no en un metaanálisis esté sesgada. El otro problema frecuente que limita la validez externa de los metanálisis, es la heterogeneidad entre los ensayos seleccionados para el metanálisis, que se da necesariamente por diferentes características clínicas y socio-demográficas de las poblaciones de cada ensayo, pues suceden en distintas instituciones y regiones del mundo. Los métodos de evaluación clínica aplicados, la dosis, forma farmacéutica o pauta de dosificación del fármaco evaluado, etc., resultan muy heterogéneos pues proceden de diferentes protocolos.
El futuro de los metanálisis Los grandes estudios controlados y aleatorizados para conocer el impacto que las acciones terapéutucas tienen sobre los descenlaces importantes y para fundar nuevas indicaciones de agentes terapéuticos seguirán realizándose en el futuro, aunque quizá en menor escala por su alto costo. Por lo que veremos todavía muchos metanálisis en este campo.
Figura 1: Ejemplo de la representación gráfica de un metanálisis. Modificada de: Yusuf S y col.9
[ 102 ]
Referencias 1. Greendlands S. Quantitative methods in the review of epidemiologic literature. Epidemiol Rev 1987; 9: 1-30. 2. Thacker SB Meta-analysis: A quantitative approach to research integration JAMA 1988; 259: 1685-1688. 3. Guallar E, Banegas JR, Martín-Moreno JM, Del Río A. Metaanálisis: su importancia en la toma de decisiones clínicas en cardiología. Rev Esp Cardiol 1994; 47: 509-517 4. Sociedad Española de Hipertensión y Liga Española de Hipertensión www.seh-lelha.org/ stat1.htm, consultada noviembre 15-2007 5. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and procedures. BMJ 1997; 315: 1533-1537. 6. DerSimonian R, Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986; 7: 177-188. 7. Egger M, Smith GD, Schneider M, Minder C. Bias in meta-analysis detect by a simple, graphical test. BMJ 1997; 315: 629-634. 8. Begg CB, Mazumsdar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 1994; 50: 1088-1101. 9. Yusuf S, Peto R, Lewis J, Collins R, Sleight P. Beta blockade during and after myocardial infarction: an overview of the randomized trials. Prog Cardiovasc Dis 1985; 27:335371 10. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and procedures. BMJ 1997; 315:1533-1537 11. Ruano-Raviña A, Figueiras A, Barros-Dios JM. El metaanálisis a debate. Med Clin (Barc) 2002; 119(11): 435-439. 12. Egger M, Smith GD. Meta-analysis bias in location and selection of studies. BMJ 1998; 316: 61-66.
[ 103 ]
Capítulo 9
¿Que es cardiología basada en la evidencia?
Salim Yusuf
Rafael Díaz
E
n 1836, el editor del American Journal of Medical Sciences, Elisha Bartlett, presentó un estudio declarándolo como “uno de los más importantes trabajos médicos del siglo que marcará el comienzo de una nueva era en la ciencia.” Dicha proclama, que sugería un cambio de paradigma, la determinaba una colección sistemática y presentación numérica de una serie de datos acerca de flebotomías (sangrías) efectuadas por el Dr Pierre Louis.1 Este médico Francés acumuló una vasta cantidad de datos de una gran cantidad de pacientes durante sus años de actividad como clínico y anatomopatólogo en el hospital Parisino de la Charité. Louis fue un clínico meticuloso, lo cual tuvo importantes implicancias en la calidad de su investigación sobre la eficacia de la flebotomía para el tratamiento de la neumonía. Después de establecer en cada paciente el tiempo desde el inicio de los síntomas, analizó la duración de la enfermedad y la frecuencia de muerte según el momento en que se efectuó la primera sangría, obteniendo dos grupos comparables. Louis argumentaba que esto era necesario para equilibrar las diferencias entre ellos, pues “siguiendo esta metodología los errores (que son inevitables) se distribuyen igualmente en los dos grupos de pacientes sometidos a diferente tratamiento y, de esta manera, se compensan mutuamente pudiendo ser desestimados sin afectar sensiblemente la exactitud de los resultados”.2 Louis proseguía: “un agente terapéutico no puede ser empleado con alguna probabilidad de éxito, a menos que su eficacia en casos análogos haya sido previamente documentada y así, sin la ayuda de la estadística, nada que se parezca a la medicina es posible”.3 El concepto prevaleciente de la época era que los enfermos se hallaban contaminados, bien por alguna toxina o contagio, o por un exceso de uno u otro. Esta concepción de la enfermedad contenía en sí la idea de que esos estados mejorarían abriendo una vena para dejar salir el padecimiento al exterior. La investigación de Louis comprobó que la sangría aceleraba la muerte de los pacientes portadores de neumonía, mostrándose como una sorpresa devastadora. Precisamente, a George Washington se le habían extraído 2,4 litros de sangre en las 15 horas previas a su muerte: había estado padeciendo fiebre, dolor de garganta y dificultad respiratoria durante 24 horas.4 Basados en la observación de Louis algunos han sostenido que Washington fue asesinado.5-7 Aunque éste es un ejemplo relativamente reciente, el reclamo de una evaluación comparativa se materializó tempranamente, y a través de la historia hubo repetidos exhortos para cuantificar los problemas médicos o sanitarios y para comparar los resultados en grupos de [ 104 ]
pacientes bajo diferentes conductas terapéuticas y asistir a los médicos en forma individual. En este capítulo discutiremos el significado de la medicina basada en la evidencia y su consecuente toma de decisiones. Desarrollaremos un caso clínico como recurso didáctico en la aplicación de estos conceptos.
¿Qué es la medicina basada en la evidencia? Aunque los fundamentos de la medicina basada en la evidencia fueron establecidos a lo largo de varias centurias, recién en las últimas décadas ha sido concebida como una filosofía explícita, con sus conceptos, definiciones y modelos conexos que la instalan como una doctrina formal. La medicina basada en la evidencia es un recurso que procura hallar la mejor evidencia experimental, objetiva, cuantificable y relevante para resolver un problema en particular.8 Este enfoque le quitó énfasis “a la intuición, la experiencia clínica no sistemática y al fundamento fisiopatológico aislado como bases suficientes para la toma de decisiones clínicas”, acentuando la importancia de “el examen de la evidencia a partir de la investigación clínica”.9 Sin embargo, la evidencia experimental aislada nunca es suficiente para tomar una decisión clínica. El médico siempre debe interpretar a la evidencia en el contexto del paciente individual, y analizar desde una perspectiva costo beneficio la aplicabilidad de esa evidencia en esa situación clínica particular. Además, deben considerase igualmente las preferencias y los valores del paciente. 10 La figura 1 está basada en la primera edición de Evidence-Based Medicine 11 y fue publicada en una editorial del ACP Journal Club y Evidence-Based Medicine en 1966, cuya definición es: “La medicina basada en la evidencia consiste en el empleo juicioso y consciente de la mejor evidencia disponible proveniente de la investigación clínica en el manejo de pacientes individuales”.12 Asimismo, la editorial incluía la advertencia de que la definición evolucionaría a medida que emergieran nuevos tipos de información, y por ello debería depurarse y mejorarse continuamente.
Figura 1. Modelo temprano de los elementos clave para las decisiones clínicas basadas en la evidencia.
[ 105 ]
Los conceptos de medicina basada en la evidencia han evolucionado considerablemente y el modelo inicial ha sido recientemente ampliado, especialmente en lo que se entiende por experiencia clínica y en lo concerniente a la consideración de las circunstancias clínicas. En la sección siguiente utilizamos este nuevo modelo de “decisiones clínicas basadas en la evidencia” para ayudar a resolver un caso clínico frecuente.
Enfoque de la toma de decisiones basada en la evidencia. Panorama clínico Un médico de familia le envía a usted un paciente y requiere su contribución en el tema de la terapéutica antitrombótica. Se trata de un hombre de 80 años con historia de hipertensión arterial, en quien hace 10 meses se constató una fibrilación auricular en un examen de rutina. Al día siguiente de este diagnóstico, el paciente sufrió una hemorragia digestiva que requirió hospitalización, endoscopía y transfusión de sangre urgentes. El paciente no había iniciado terapéutica antitrombótica pero sí había recibido AINES por una osteoartritis. Continuó libre de síntomas gastrointestinales y mediante la ingesta de acetaminofeno ha evitado exitosamente a los AINES. Ocho meses atrás el ecocardiograma evidenció función ventricular izquierda normal, ausencia de alteraciones estructurales y funcionales valvulares y aurícula izquierda severamente dilatada (65 mm). Basado en la duración de la arritmia usted decide que la cardioversión no es una opción válida. El paciente está muy preocupado por la posibilidad de padecer un accidente cerebrovascular (ACV), ya que su esposa, luego de un ACV mayor, quedó completamente dependiente de él durante los 2 años previos a su muerte. El médico referente, quien recientemente tuvo un paciente que sufrió serio sangrado gastrointestinal mientras se hallaba recibiendo warfarina, se encuentra muy preocupado acerca del riesgo de sangrado que presenta su paciente actual, considerando su edad y la historia reciente de hemorragia digestiva. Nuevo modelo para las decisiones clínicas basadas en la eficiencia La Figura 2 muestra la evolución del modelo para las decisiones clínicas basadas en la evidencia, 8 que ha sido redefinido recientemente como “la integración de la mejor evidencia clínica con las habilidades clínicas (expertise) y el juicio u opinión del paciente”.13 Este modelo representa un enfoque deseable de cómo deberían ser construidas las decisiones clínicas. No obstante, reconocemos que actualmente muchas de las decisiones clínicas no son realizadas de este modo. Por ejemplo, hoy en día, las preferencias individuales de los médicos (que no son lo mismo que sus habilidades clínicas), tienen a menudo un gran papel en sus decisiones, llevando a “grandes variaciones en lo concerniente al manejo práctico” de casos similares. De esta manera, confrontados con pacientes críticamente enfermos, distintos médicos pueden instituir diferentes intervenciones.14 Nuestro modelo acepta que las preferencias de los pacientes sean consideradas en primer término anteponiéndose a las preferencias de los médicos, siempre que esto sea factible. En la Figura 2, el “estado y circunstancias clínicas del paciente” reemplaza a la “habilidad clínica” como uno de los elementos clave en la toma decisiones. Las “preferencias del [ 106 ]
paciente” son extendidas hasta incluir las acciones del paciente, y éstas se superponen con “evidencia experimental”, comprometiendo su frecuente precedencia frente a ésta. Integrar los tres aspectos requiere juicio y experiencia clínica, constituyendo un cuarto elemento integrador. Describiremos cada componente, y el rol de la experiencia clínica que los fusiona.
Figura 2. Modelo en evolución para las decisiones clínicas basadas en la evidencia
Estado clínico y circunstancias del paciente El estado clínico y las circunstancias del paciente juegan a menudo un papel dominante en la toma de decisiones clínicas. Los ensayos clínicos nos proporcionan resultados que reflejan al paciente promedio dentro de los grupos de tratamiento del estudio, “pero raramente el paciente de la práctica clínica es el mismo que el paciente promedio del estudio clínico”. Los pacientes individuales tienen características únicas y poseen en un menor o mayor nivel de riesgo de eventos, o de efectos colaterales del tratamiento, que el del paciente promedio del ensayo clínico. Así, las decisiones clínicas óptimas deberían ser ajustadas al estado clínico del paciente. Un paciente que presenta alto riesgo de un futuro evento vascular pero bajo riesgo para cualquier complicación derivada del uso de una determinada droga (por ejemplo, un paciente con colesterol LDL de 300 mg/dl post infarto de miocardio y ninguna contraindicación para terapia con estatinas), o a la inversa, un paciente que se halla en bajo riesgo de eventos y en alto riesgo de complicaciones por el tratamiento (por ejemplo, un hombre de 40 años con fibrilación auricular sin factores de riesgo para ACV que ha experimentado un sangrado gastrointestinal importante), exhiben estados clínicos que pueden dominar el desarrollo del proceso de decisión. Es notable que los círculos correspondientes a estado, circunstancias clínicas y evidencia experimental se superpongan. Frecuentemente la evidencia experimental puede in[ 107 ]
formarnos acerca de la influencia del estado y las circunstancias clínicas. Considerando a nuestro paciente, los datos reunidos de cinco estudios clínicos randomizados (ECRs) que evaluaron la eficacia de la warfarina en pacientes con fibrilación auricular no valvular (FANV), demostraron una tasa media anual de ACV del 4-5% y una tasa de sangrado mayor del 1% en pacientes que no reciben medicación antitrombótica. Los investigadores, que combinaron los cinco ECRs, usaron los datos de los pacientes del grupo control para desarrollar una herramienta para la predicción clínica que permitiera estimar el riesgo anual de ACV. En estos pacientes los factores de riesgo que predijeron ACV en forma independiente fueron la edad, historia de hipertensión arterial, diabetes, y ACV o ataque isquémico transitorio previo. El riesgo anual de ACV para nuestro enfermo resulta estimado en 8%, más alto que el 4.5% del paciente control promedio de los cinco ECRs.15 Análogamente, ha sido desarrollada una herramienta de predicción clínica del riesgo de sangrado mayor (definido como la pérdida del equivalente a dos unidades de sangre en 7 días, o sangrado que amenace la vida) durante el tratamiento con warfarina.16 Los factores de riesgo que lo predicen en forma independiente incluyen edad >65 años, historia de ACV, historia de sangrado gastrointestinal, infarto de miocardio reciente, anemia, insuficiencia renal y diabetes (nótese que varios de los factores que predicen un mayor riesgo de ACV, aumentan asimismo el riesgo de sangrado). El riesgo de sangrado mayor de nuestro paciente, igual a 8%, también difiere de aquél del paciente promedio tratado con warfarina en los cinco ECRs, cuyo riesgo anual de sangrado fue del 1.3%. No tenemos conocimiento de instrumentos clínicos diseñados para predecir sangrado mayor durante la ingesta de aspirina, y los ensayos clínicos sobre fibrilación auricular no tenían una potencia suficiente para estimarlo. No obstante, basados en los resultados del meta-análisis realizado por los investigadores del grupo Antithrombotic Trialists’ Collaboration, esperaríamos que la aspirina aumente el riesgo de sangrado mayor en 1% a 1.3% en promedio.17 Las circunstancias médicas en las cuales se encuentran usted y su paciente (como su posibilidad de administrar y controlar el tratamiento) pueden ser muy diferentes de las de un ECR. Por ejemplo, el paciente puede no tener la posibilidad de controlar el nivel de anticoagulación con la necesaria frecuencia. No obstante, para un paciente con las mismas características clínicas es posible optimizar las circunstancias clínicas para disminuir el riesgo de un evento o de un efecto colateral del tratamiento. Por ejemplo, podemos disminuir el riesgo de sangrado por warfarina mediante un monitoreo más intenso de sus parámetros de coagulación. Luego, una decisión “basada en la evidencia” acerca de la anticoagulación para un paciente con fibrilación auricular, no está solamente determinada por la eficacia demostrada de la terapia antitrombótica y por sus potenciales efectos adversos, sino que oscilará según el estado clínico del paciente y de acuerdo con las circunstancias clínicas individuales.
Preferencias y acciones de los pacientes Los pacientes pueden o no poseer firmes opiniones sobre sus opciones terapéuticas, dependiendo de su estado, valores y experiencias personales, grado de aversión al riesgo, recursos y seguros de salud, familia, voluntad de tomar la medicación, información exacta o [ 108 ]
incorrecta a su disposición, etc.8 Individuos con estados clínicos y circunstancias muy semejantes pueden elegir cursos de acción muy diferentes, a pesar de haber sido confrontados con la misma información acerca de los beneficios y riesgos de una intervención. Para nuestro paciente con FANV la evidencia experimental nos provee información sobre las diferentes preferencias de los pacientes y sus médicos respecto de la terapia antitrombótica en la fibrilación auricular, al evaluar los riesgos de ACV y sangrado.18 En este caso, los participantes (médicos y pacientes) revisaron material que describía en detalle las consecuencias en el corto y largo plazo de un ACV mayor y menor y de un sangrado mayor. A los participantes se les informó que la probabilidad de ACV mayor y menor era la misma. Los participantes fueron entonces interrogados mediante un cuestionario técnico (trade-off technique*) que determinaba el número mínimo de ACVs que sería necesario poder prevenir para que cada participante juzgara que la terapia antitrombótica estaba justificada (valor determinado para la warfarina y la aspirina), considerando el riesgo asociado de sangrado, costos e incomodidades. La misma técnica fue empleada para determinar el número máximo de sangrados que el participante consideraría aceptable con la terapéutica antitrombótica (determinado para warfarina y aspirina dados los beneficios en términos de reducción de los ACV con esta terapia). Este estudio demostró una variabilidad significativa entre médicos y pacientes en su ponderación de los posibles resultados asociados con la fibrilación auricular y su tratamiento. Los pacientes requerían menos reducción de los ACV y eran más tolerantes con el riesgo de sangrado que los médicos. Por ejemplo, en promedio, los pacientes se hallaban dispuestos a aceptar el riesgo de 17 eventos extra de sangrado mayor en 100 pacientes en un período de 2 años, si la warfarina prevenía 8 ACVs entre esos 100 individuos. Los médicos, no obstante, estaban dispuestos a aceptar solamente 10 eventos de sangrado mayor por el mismo nivel de beneficios. Más aún, los médicos variaban significativamente acerca de qué riesgo de sangrado era aceptable para una determinada reducción en los ACV asociada con un agente antitrombótico. De este modo, distintos médicos darían recomendaciones muy diferentes al mismo paciente con idénticos riesgos de sangrado y ACV. Esto subraya la importancia de guiar las decisiones por medio de los valores y preferencias del paciente. Es el paciente el que está en riesgo de eventos y así, “siempre que lo desee y sea apto para hacerlo”, debería ser él quien pondere los potenciales beneficios versus los riesgos, costos e incomodidades. Existe controversia en cuanto al modo óptimo de obtener e incorporar las preferencias del paciente en la elaboración de las decisiones clínicas. Un método es discutir los beneficios y los riesgos potenciales con el paciente e incorporar la impresión del médico acerca de las preferencias del paciente en la decisión clínica. Cualesquiera que sus preferencias puedan ser, las conductas de los pacientes pueden diferir de sus preferencias y de los consejos del médico.19 Por ejemplo, un paciente puede preferir perder peso, dejar de fumar y tomar sus medicamentos de acuerdo a las prescripciones, pero * trade-off technique: postula que un individuo puede elegir entre un conjunto de alternativas disponibles de forma que maximice su satisfacción. Ello implica que conoce cada una de las alternativas y es capaz de evaluarlas. En el caso de un individuo racional y consistente es posible definir una función de valor (determinística) o una función de utilidad (probabilística) que represente sus preferencias.
[ 109 ]
su conducta contrastar y estar alejada para llegar a alcanzar esos objetivos. Alternativamente, pueden seguir el tratamiento como está prescripto, aún siendo renuentes a la imposición, los efectos adversos y el costo. Desafortunadamente, las estimaciones de los médicos sobre la adherencia de sus pacientes a los tratamientos prescriptos no tienen más exactitud que la de una conjetura. 20 Debemos reconocer que actualmente las preferencias de los pacientes raramente son incorporadas a la práctica clínica. Esto puede estar relacionado con la falta de entrenamiento del médico en este tipo de enfoques, el recelo de transitar por terrenos poco familiares, y también en muchas circunstancias a la falta de información cuantitativa exacta de los posibles peligros o beneficios y sobre herramientas de predicción del riesgo.
Evidencia Experimental Nosotros respaldamos una definición muy amplia de la evidencia experimental, que podría ser: “cualquier observación empírica acerca de la relación aparente entre eventos”. De acuerdo con esta definición, la evidencia experimental incluye desde la observación no sistemática de un solo médico, hasta la revisión sistemática de grandes ECRs. No toda la evidencia se origina por igual, y por lo tanto hay una jerarquía de evidencias que varía según se trate de decisiones diagnósticas, pronósticas o terapéuticas. 21 Toda evidencia es valiosa, y “la mejor evidencia disponible debe ser entonces considerada”. Así, las observaciones no sistemáticas de los colegas no deberían ser desestimadas cuando no existe un nivel de evidencia mayor. Ciertamente, las observaciones aisladas pueden conducir a concepciones muy valiosas, y los clínicos experimentados generalmente tienen respeto por los conceptos de sus colegas más avezados. No obstante, es igualmente importante reconocer que las observaciones no sistematizadas están corrientemente limitadas por el pequeño número de casos observados, la variabilidad de los resultados, la falta de objetividad y las dificultades para integrar otras variables (por ejemplo, al tomar en cuenta la historia natural de la enfermedad, el efecto placebo y el deseo del paciente de complacer al médico). 22 Toda evidencia tiene limitaciones, aunque la mayoría de los avances en medicina son inicialmente traídos a la luz a través de observaciones individuales, estudios fisiológicos, observacionales o ensayos controlados y randomizados designados para evaluar eventos surrogantes. Sin embargo, hubo varios descubrimientos que causaron marcada confusión y, en algunas oportunidades, han llegado a producir daño. Es importante recordar que no han sido pocos los casos de resultados contradictorios entre diferentes estudios, con distintos niveles de jerarquía en la tabla de evidencias. Quizá el ejemplo más importante está en la historia de la terapia antiarrítmica. A pesar de la evidencia alentadora de que la encainida y la flecainida podían prevenir la extrasistolia ventricular, un ECR demostró una mayor tasa de mortalidad con esas drogas que con placebo, resultando en una muerte extra por cada 20 pacientes que recibían esta terapéutica. 23 Se estima que más norteamericanos murieron a causa de esas drogas que en la guerra de Vietnam. 24 En forma ideal, correspondería tener evidencias en todos los niveles de jerarquía, evidencias que deberían ser coherentes con cada uno de estos niveles [ 110 ]
transformándolas en las más convincentes. No obstante, esto raramente ocurre, porque todavía los ECRs exhiben frecuentemente por azar hallazgos contradictorios, especialmente cuando son pequeños. Por lo tanto, es deseable utilizar el mayor nivel de evidencia disponible para la toma de decisiones, como la proveniente de la revisión sistemática de varios ECRs o, simplemente, de un extenso ECR bien diseñado. El ECR es una herramienta muy poderosa porque la randomización es nuestro único medio para reducir el sesgo en las comparaciones de tratamientos, al controlar factores pronósticos conocidos y desconocidos. 25 Es así que, los ECRs tienen la posibilidad de proveer la más “valiosa estimación del efecto” del tratamiento y cuando sus criterios de inclusión son amplios aumentan la generalización de sus hallazgos (validez externa). 26 Retornando a nuestro caso del paciente con FANV, el mayor grado de evidencia procede de una revisión sistemática de todos los ECRs que han evaluado la terapia antitrombótica en pacientes con fibrilación auricular. 27 Este estudio demuestra que la warfarina reduce el riesgo relativo de ACV (isquémico y hemorrágico) en 62%, y la aspirina en 22%. Considerando el riesgo de sangrado asociado con la terapia con warfarina, hay un ECR que demuestra un 50% de disminución del riesgo de sangrado si el paciente está dispuesto a someterse a un proceso de aprendizaje, entrenamiento y auto-monitoreo del tiempo de protrombina. 28
Experiencia clínica La toma de decisiones requiere experiencia clínica para establecer y balancear el estado del paciente, sus condiciones, preferencias, conductas y la mejor evidencia experimental disponible. Antes de considerar cualquier decisión terapéutica se necesita la pericia clínica suficiente para obtener un diagnóstico y un pronóstico correctos. Como se ha visto, los procedimientos para la predicción clínica pueden ser extremadamente útiles para determinar el pronóstico del paciente, pero es muy improbable que puedan eliminar la necesidad de un juicio sólido basado en la experiencia clínica. Como parte de la experiencia clínica, la comunicación con el paciente adquiere gran importancia debido a un creciente deseo de los pacientes de involucrarse en las decisiones relativas a su salud. La experiencia clínica es necesaria para proveer a los pacientes la información que necesitan, conocer sus preferencias e incorporarlas en las decisiones. Actualmente no existe consenso acerca de cómo debe presentarse la información a los pacientes y cómo incorporar sus preferencias. No obstante, sabemos que la información no debe manifestarse en términos relativos (por ejemplo, la warfarina disminuirá su riesgo en de ACV en 62%). 29 Una reciente revisión sistemática de ECRs que comparaban ayudas de decisión (trade-off technique) con los métodos tradicionales de involucrar/informar a los pacientes en la toma de decisiones, demostró que las ayudas de decisión, al contrario que los métodos corrientes, mejoraban los puntajes promedio de comprensión de las opciones y resultados posibles en 20% (95% CI 13 – 25), redujeron los puntajes de conflicto de decisiones (esto es, los pacientes se sintieron más seguros, informados y orientados acerca de los alcances de su decisión), y aumentaron la participación del paciente en la toma de decisiones. 30 [ 111 ]
Cuando es accesible, la ayuda de decisiones potencialmente provee un medio para facilitar la presentación de la información, la incorporación de las preferencias y la participación en el proceso de la toma de decisiones.
Los roles variables de los componentes de las decisiones clínicas basadas en la evidencia Dependiendo de las circunstancias, podría predominar cualquiera de los círculos del nuevo modelo. Esto puede visualizarse variando el tamaño de los círculos para reflejar su contribución efectiva a la decisión clínica. A veces, el estado clínico o la situación del paciente dominan la determinación médica. Por ejemplo, el proceso de toma de decisiones en un paciente que se halla en alto riesgo de eventos y bajo riesgo de complicaciones, puede hallarse dominado por el estado clínico. Un paciente que vive en un área remota puede no tener acceso al monitoreo de la anticoagulación, y esto probablemente dominaría el proceso de toma de decisiones. Las preferencias del paciente pueden ser tan fuertes que actúen como factor determinante en dicho proceso. Tal el caso de algunos pacientes que no querrán recibir productos derivados de la sangre sin importar su situación clínica. La evidencia experimental puede ser el factor principal cuando el beneficio de una intervención es moderado a importante y el riesgo es pequeño, como la terapéutica con bloqueantes beta adrenérgicos en pacientes post-infarto de miocardio, los inhibidores de la enzima convertidora de la angiotensina II en la enfermedad coronaria o la insuficiencia cardíaca, o la reducción del colesterol con estatinas. Finalmente, la experiencia clínica puede predominar, especialmente cuando se trata de recursos técnicos.
Aplicación a nuestro paciente Para nuestro paciente la evidencia sugeriría un 8% de riesgo de ACV anual y 1% de riesgo de sangrado mayor sin terapia antitrombótica. Con warfarina esperaríamos que el riesgo anual de ACV se redujera al 3% y el de sangrado mayor aumentara a 8%. Este último podría ser reducido al 4% si el paciente estuviera dispuesto a controlar él mismo su tiempo de protrombina y cumplir un programa de educación relacionada con ello, como se ha discutido más arriba. 28 Con aspirina esperaríamos que la tasa anual de ACV disminuyera a 6% y el riesgo de sangrado mayor aumentara a 1.3%. Como se ha discutido anteriormente, no hay consenso en cuanto a cómo presentar esta información a nuestro paciente o cómo incorporar sus preferencias. Nosotros hemos elaborado una ayuda de decisiones para pacientes que describe la fibrilación auricular (Tabla 1), un ACV mayor y uno menor (Tabla 2), un sangrado severo (Tabla 3) y un balance de las probabilidades resultantes para ningún tratamiento, tratamiento con aspirina, y tratamiento con warfarina (Figura 3).
[ 112 ]
Tabla 1. Fibrilación auricular: el desorden más común del ritmo cardíaco Riesgo
Las chances de desarrollarla aumentan con la edad y está presente en alrededor del 10% de las personas por encima de los 75 años de edad.
Síntomas
Latidos cardíacos irregulares y habitualmente rápidos, percibidos como un aleteo en el pecho. Algunos pacientes no tienen molestias y no están al tanto de que padecen fibrilación auricular.
(Stroke) Accidente cerebrovascular (“ataque cerebral”) La fibrilación auricular aumenta el riesgo de desarrollar coágulos en el corazón. Estos pueden ser arrastrados por la sangre hasta el cerebro, produciendo un accidente cerebrovascular. Complicaciones Con la fibrilación auricular las chances de desarrollar un “ataque cerebral” aumenta con la edad (mayor de 65 años), alta presión arterial, diabetes, insuficiencia cardíaca, y con el previo antecedente de “mini-ataques” (mini-strokes). El riesgo de desarrollar un accidente cerebrovascular con la fibrilación auricular varía, dependiendo en cuántos de los factores arriba mencionados tiene usted. Tratamiento
Hay medicaciones para “licuar o disolver” la sangre, que ayudan a prevenir los coágulos y por lo tanto el “ataque cerebral” (stroke). La sangre “licuada” aumenta a su vez el riesgo de sangrado.
Tabla 2. Los accidentes cerebrovasculares pueden ser mayores o menores según su severidad. Si usted padece uno a causa de la fibrilación auricular, las posibilidades de que sea mayor o menor, son las mismas. Accidente menor
Accidente mayor
Síntomas físicos
Súbitamente usted no puede mover o “sentir” un brazo y una pierna.
Súbitamente usted no puede mover un brazo y una pierna. No puede tragar.
Síntomas mentales
No puede comprender completamente lo que se le dice y tiene dificultad para expresarse.
Es incapaz de comprender lo que se le dice y de hablar.
Dolor
No siente dolor
No siente dolor Es internado. No se puede vestir por sí mismo. Las enfermeras lo alimentan. No puede caminar.
Recuperación
Riesgo subsiguiente
Es internado. Su debilidad, embotamiento y problema con el habla mejoran, pero todavía siente algo débil o torpe un brazo o pierna. Después de 1 mes de fisioterapia puede Puede realizar casi todas sus actividades mover los dedos de los pies y levantar el como antes del ataque. brazo de la cama. Puede manejarse en forma independiente. Deja el hospital luego de 1 semana. Permanece en este estado por el resto de su vida. Tiene un mayor riesgo de sufrir otros ataques cerebrales.
Su muerte será causada probablemente por otras enfermedades.
Las descripciones de ACV mayor y menor, y de sangrado severo, son ligeras modificaciones de las desarrolladas y chequeadas por Man-Son Hing y colegas. 31 También hemos personalizado el balance de las probabilidades para nuestro paciente, asumiendo que realizaría el monitoreo de su tiempo de protrombina en caso de decidir terapia con warfarina (Figura 4). Tabla 3. Sangrado severo mientras toma warfarina o aspirina: un ejemplo a nivel del estómago.
Físicamente
Usted no se siente bien durante 2 días, entonces tiene un vómito de sangre.
Tratamiento
Es hospitalizado. Suspende la toma de warfarina o aspirina. Un médico lo examina mediante un tubo que pasa por la garganta, para localizar de dónde viene la sangre. Recibe sedación para aliviar las molestias del examen. No necesita operaciones (cirugía). Recibe transfusiones de sangre para reemplazar la que ha perdido.
Recuperación
Permanece en el hospital por una semana. Hacia el final de su estadía en el hospital, ya se siente bien. Necesita tomar pastillas durante 6 meses, para evitar un nuevo sangrado. Luego de todo esto, usted ha vuelto a la normalidad.
Al alcanzar esta decisión clínica basada en la evidencia, nuestra tarea aún no está completa. El paciente necesitará control para asegurar que él está en condiciones de seguir y concretar el tratamiento indicado. Una ventaja de la ayuda de decisiones provista es que el paciente puede llevar a su domicilio la información y no tiene que confiar en su memoria para recordar los hechos discutidos durante la entrevista médica.
Limitaciones del modelo de decisión clínica basado en la evidencia Este modelo no toma en cuenta los importantes roles que la sociedad, los gobiernos y las organizaciones de salud pueden jugar en la toma de decisiones. Nosotros nos hemos limitado deliberadamente a la consideración de las decisiones tomadas por los pacientes y sus proveedores de salud, a fin de permitir un examen enfocado de los temas involucrados en forma inmediata al tomar cualquier decisión. Por ejemplo, la falta de reembolso de la angioplastia transluminal coronaria primaria en el infarto agudo de miocardio puede tener un enorme impacto en los resultados de las políticas de salud, e impondrá una decisión clínica sobre todos los pacientes y los médicos al eliminar esta opción. En estos casos, los médicos deberán intervenir considerando las condiciones clínicas de sus pacientes.
[ 114 ]
Sin medicación anticoagulante Chance de ACV en los próximos 2 años es ……por 100. Chance de sangrado severo en los próximos 2 años es ……por 100.
Aspirina Chance de ACV en los próximos 2 años es ……por 100. Chance de sangrado severo en los próximos 2 años es ……por 100.
Warfarina Chance de ACV en los próximos 2 años es ……por 100. Chance de sangrado severo en los próximos 2 años es ……por 100.
Figura 3.
Conclusiones Los fundamentos de la medicina basada en la evidencia han sido establecidos a lo largo de los siglos pero las filosofías específicas, conceptos, definiciones y modelos han evolucionado esencialmente en las últimas décadas. La medicina basada en la evidencia trata de la solución de problemas clínicos. La toma de decisiones basada en la evidencia depende de la utilización de la experiencia clínica para integrar la información acerca del cuadro clínico y las condiciones de un paciente, con la mejor evidencia experimental disponible, incorporando al mismo tiempo las preferencias y conductas del enfermo.
[ 115 ]
Sin medicación anticoagulante Chance de ACV en los próximos 2 años es …8…por 100. Chance de sangrado severo en los próximos 2 años es …1…por 100.
Aspirina Chance de ACV en los próximos 2 años es …6…por 100. Chance de sangrado severo en los próximos 2 años es ..1,3...por 100.
Warfarina Chance de ACV en los próximos 2 años es …3…por 100. Chance de sangrado severo en los próximos 2 años es …4…por 100.
Figura 4
Referencias 1. Louis PCA. Researches on the effects of blood-letting in some inflammatory diseases, and on the influence of tartarised antimony and vesication in pneumonitis. Am J Med Sci 1836;18:102-11. 2. Louis PCA. Researches on the Effects of Bloodletting in Some Inflammatory Diseases and on the Influence of Tartarised Antimony and Vesication in Pneumonitis. Translated by CG Putnam. Boston: Hilliard, Gray, 1836. 3. Louis PCA. Medical statistics. Am J Med Sci 1837; 21: 525-8. 4. Morens DM. Death of a president. N Engl J Med 1999; 341: 1845-9. 5. Lloyd JU. Who killed George Washington? Eclectic Med J1923; 83: 3536, 403-8, 453-6. 6. Marx R. A medical profile of George Washington. Am Heritage 1955; 6: 43-7, 106-7. 7. Pirrucello F. How the doctors killed George Washington. Chicago Tribune Magazine, 20 February 1977. 8. Haynes RB, Devereaux PJ, Guyatt GH. Clinical expertise in the era of evidence-based medicine and patient choice. ACPJournal Club 2002; 136: A11-A13. 9. Evidence-based medicine working group. Evidence-based medicine, a new approach to teaching the practice of medicine. JAMA 1992; 268: 2420-5. [ 116 ]
10. Haynes RB, Sackett DL, Gray JMA, Cook DC, Guyatt GH. Transferring evidence from research into practice: 1. The role of clinical care research evidence in clinical decisions. ACPJournal Club 1996; 125: A-14. Evidence-Based Medicine1996; 1: 196. 11. Sackett DL, Richardson SR, Rosenberg W, Haynes RB. Evidence-Based Medicine: how to practice and teach EBM. London: Churchill Livingstone, 1997. 12. Sackett DL, Rosenberg WMC, Gray JA, Haynes RB, Richardson WS. Evidence-Based Medicine: What it is and what it isn’t. BMJ 1996; 312: 71-2. 13. Sackett DL, Straus S, Richardson SR, Rosenberg W, Haynes RB. Evidence-Based Medicine: how to practice and teach EBM, 2nd edn. London: Churchill Livingstone, 2000. 14. Cook DJ, Guyatt GH, Jaeschke R. Determinants in Canadian health care workers of the decision to withdraw life support from the critically ill. JAMA 1995; 273: 703-8. 15. Atrial Fibrillation Investigators. Risk factors for stroke and efficacy of antithrombotic therapy in atrial fibrillation. Arch Intern Med 1994; 154: 1449-57. 16. Beyth RJ, Quinn LM, Landefeld S. Prospective evaluation of an index for predicting the risk of major bleeding in outpatients treated with warfarin. Am J Med 1998; 105: 91-9. 17. Antithrombotic Trialists’ Collaboration. Collaborative metaanalysis of randomised trials of antiplatelet therapy for prevention of death, myocardial infarction, and stroke in high risk patients. BMJ 2002; 324: 71-86. 18. Devereaux PJ, Anderson DR, Gardner MJ et al. Differences between perspectives of physicians and patients on anticoagulation in patients with atrial fibrillation: observational study. BMJ 2001; 323: 1218-22. 19. Haynes RB. Improving patient adherence: State of the art, with a special focus on medication taking for cardiovascular disorders. In: Burke LE, Okene IS (eds). Patient Compliance in Healthcare and Research. American Heart Association Monograph Series. Armonk, NY: Futura Publishing Co, 2001. 20. Stephenson BJ, Rowe BH, Macharia WM, Leon G, Haynes RB. Is this patient taking their medication? JAMA 1993; 269: 2779-81. 21. Guyatt G, Haynes B, Jaeschke R et al. Introduction: the philosophy of evidence-based medicine. In: Guyatt G, Rennie DR (eds). Users’ guides to the medical literature. AMA Press, 2002. 22. Nisbett R, Ross L. Human Inference. Englewood Cliffs, NJ:Prentice-Hall, 1980. 23. Echt DS, Liebson PR, Mitchell LB. Mortality and morbidity in patients receiving encainide, flecainide, or placebo: The Cardiac Arrhythmia Suppression Trial. N Engl J Med 1991; 324: 781-8. 24. Moore TJ. Excess mortality estimates. Deadly medicine: why tens of thousands of heart patients died in America’s worst drug disaster. New York: Simon & Schuster, 1995. 25. Kunz R, Oxman AD. The unpredictability paradox: review of empirical comparisons of randomised and non-randomised clinical trials. BMJ 1998; 317: 1185-90. 26. Chalmers I. Unbiased, relevant, and reliable assessments in health care. BMJ 1998; 317: 1167-8. 27. Hart RG, Benavente O, McBride R, Pearce LA. Antithrombotic therapy to prevent stroke in patients with atrial fibrillation: a meta-analysis. Ann Intern Med 1999; 131: 492-501. 28. Beyth RJ, Quinn L, Landefeld CS. A multicomponent intervention to prevent major [ 117 ]
bleeding complications in older patients receiving warfarin. Ann Intern Med 2000; 133: 687-95. 29. Malenka DJ, Baron JA, Johansen S, Wahrenberger JW, Ross JM. The framing effect of relative and absolute risk. J Gen Intern Med 1993; 8: 543-8. 30. O’Connor AM, Rostom A, Fiset V et al. Decision aids for patients facing health treatment or screening decisions: a systematic review. BMJ 1999; 319: 731-4. 31. Man-Son-Hing M, Laupacis A, O’Connor A et al. Warfarin for atrial fibrillation: The patient’s perspective. Arch Intern Med 1996; 156: 1841-8.
[ 118 ]
IV. Análisis del conocimiento y herramientas para su validación
Capítulo 10
Lectura crítica de la literatura científica
Daniel Fernández-Bergés
Antonio Paragano
D
esde el advenimiento de la informática y la llegada de Internet los tiempos han cambiado; hoy día, el médico ve como lejanas las épocas en que debía realizar las búsquedas bibliográficas en los complejos libros del Index Medicus para, finalmente, localizar los trabajos que otros colegas citaban en sus artículos de investigación. En este momento cualquier buscador, cada vez menos específico, nos permite introducir un título o referencia y una ola de información inunda la pantalla de nuestra computadora. Éste es un auténtico cambio cualitativo, una inflexión en la evolución de nuestro acceso a la información y en la modulación de nuestro pensamiento. La experiencia, adquirida con los años de ejercicio en la profesión, continúa siendo importante, pero es imprescindible unir a ella el conocimiento que surge de las investigaciones. La medicina basada en la evidencia1 ha demostrado con claridad cómo la información o el conocimiento que no ha sido verificado puede llegar a incorporarse por décadas en la práctica clínica con resultados opuestos al esperado. Sirven a modo de ejemplo los estudios CAST I y II,2-3 donde se expuso que la administración de drogas antiarrítmicas del grupo I-C, de la clasificación de Vaughan Williams,4 aumenta la mortalidad en los pacientes que han padecido un infarto agudo de miocardio. Esta información, ahora hecha conocimiento, anuló un erróneo concepto terapéutico previo, “la muerte súbita en el paciente coronario sobreviene como consecuencia de las arritmias ventriculares, luego, cualquier fármaco capaz de tratarlas con eficacia evitará millones de muertes”. Por supuesto, no se consideraba que una droga antiarrítmica por sus efectos arritmogénicos podría aumentar la mortalidad de estos pacientes. La introducción del meta-análisis constituyó un notable avance en el conocimiento y, sobre todo, destacó la necesidad de emprender estudios con el poder suficiente para demostrar con robustez una hipótesis de trabajo. La investigación biomédica produce actualmente una gran cantidad de información científica, disponible en grandes bases de datos electrónicas, el punto crucial es poder distinguir si lo que leemos es realmente creíble, es decir, si es aceptable según la idea que poseemos sobre el tema para ser incorporado a nuestra práctica cotidiana con seguridad. Cómo se construye la información resultante de una investigación es el tópico que nos ocupa, pero nadie puede negar que para comprender adecuadamente un trabajo de investigación es necesario tener un conocimiento aproximado en lo referente a metodología y análisis estadístico, de lo contrario, habrá que recurrir a comentarios sobre el estudio en cuestión pa[ 121 ]
ra tener una idea más concreta acerca de su credibilidad. Uno de los objetivos de este capítulo es transmitir al lector la necesidad de leer un trabajo de investigación con cierto orden y rigor, cuestionando y contrastando lo leído con otras publicaciones sobre el mismo tema. También pretende orientar acerca de cómo interpretar rápida, correctamente y con pocas fórmulas, las medidas estadísticas más frecuentes en la bibliografía médica.
El artículo científico Un artículo científico recoge en forma ordenada la información que surge de un trabajo de investigación. Por lo tanto, debemos leerlo críticamente y en cada apartado observar si lo que sostiene o propone tiene una base razonable. 5 Corresponde saber si la publicación que seleccionamos es de calidad y si sus resultados pueden aplicarse a nuestro desarrollo profesional. La medicina basada en la evidencia ha contribuido considerablemente para facilitar esta tarea, aunque, finalmente quien lee es el que decide si lo que examina es creíble. La credibilidad surge del juicio cualitativo, pero este juicio de valor conlleva implícito el conocimiento de la metodología empleada para resolver el problema investigado. Un primer paso para reconocer la calidad del artículo es averiguar si la revista que lo publica está indexada, esta comprobación nos da ciertas garantías, ya que probablemente lo hayan leído previamente al menos dos revisores y un editor jefe, que han tratado que su revista gane prestigio con la publicación que acepta. Es cierto que a veces, a la hora de publicar, no se puede evitar el sesgo de aceptación que tiene un autor conocido, pero no es lo más frecuente. Este punto nos lleva a recomendar que siempre se verifiquen los autores. ¿Conocen el tema que publican o es su primer artículo? ¿Son de una institución con reconocida trayectoria en investigación? Quizá, esto puede parecer discriminatorio, pero debemos saber qué vamos a leer porque en la profesión médica la lectura es constante, y la velocidad con que se desarrolla el conocimiento, y nos llega la información, obliga a este ejercicio cotidianamente pues nuestro tiempo es limitado. Además del título, la publicación debe adjuntar al inicio un resumen que sintetice la investigación y sus conclusiones. Luego comenzará con una introducción al tema, que nos anuncia el estado actual de la situación que se investiga, nos informa acerca de la hipótesis que sustenta el trabajo y cuáles son los objetivos del mismo. Proseguirá con el material que es objeto de la investigación (pacientes generalmente) y los métodos seguidos, donde conoceremos el diseño del trabajo y con qué herramientas ha sido construido. A esta exposición sucederán los resultados obtenidos para culminar con la discusión, donde los autores deben defender, criticar, justificar sus hallazgos, proponer cambios o nuevos estudios y comunicar las limitaciones de su investigación. Frecuentemente surgen otros puntos de valor y que son parte de los requerimientos de las revistas científicas, como la declaración de conflicto de intereses, que también deben ser leídos con atención pues no son banales. El artículo cerrará con los agradecimientos y por último la bibliografía. A continuación, las secciones mencionadas y de las que corrientemente se compone una comunicación científica serán examinadas en sus aspectos más esenciales. [ 122 ]
1. Título y resumen El título debe responder a la hipótesis planteada para el progreso de la investigación, o enumerar el o los resultados importantes, instruyéndonos acerca de las características del ensayo o, qué tipo de artículo vamos a leer. El resumen es una síntesis ordenada que sólo pretende dar un “pantallazo” informativo al lector, pero no es el artículo. Ninguna práctica peor que leer el resumen y sus conclusiones asumiendo, falsamente, que ésta lectura nos ha brindado el conocimiento integral de la investigación. El resumen puede, a lo sumo, informarnos en líneas muy generales sobre el tema que se discutirá y si el mismo es de nuestro interés. El conocimiento vendrá luego de evaluar la información completa, de tal manera podremos conformar una idea más concreta sobre su credibilidad.
2. Introducción La introducción debe ser sucinta, pero relevante, y dejar claramente planteado el estado de la cuestión y los puntos que deben todavía investigarse, porque resultan conflictivos o bien porque han surgido nuevas evidencias en la literatura mundial. A lo largo de todo el trabajo deberemos cotejar las citas bibliográficas, al leerlo verificaremos si la hipótesis que lo sustenta se apoya en otras investigaciones, señaladas en las referencias, y que son el antecedente científico que respalda la teoría de la nueva publicación. Puesto que es muy difícil tener ideas absolutamente originales u observar hechos que nadie ha visto, debemos recordar siempre la frase del genial Nóbel español Ramón y Cajal: “No hay cuestiones agotadas sino hombres agotados en las cuestiones”.
3. Objetivos Cada ensayo debe exponer claramente el objetivo principal, si van a estudiarse otros puntos de interés los mismos serán secundarios, y deben estar especificados antes de realizar la investigación. De la propia hipótesis de trabajo se desprende el objetivo. Es cierto que el resultado del análisis de subgrupos de pacientes puede servir como molde para futuras investigaciones, aunque resulta cuestionable observar la cantidad de estudios que analizan subgrupos de pacientes, que fueron parte de un ensayo clínico con determinado objetivo, donde se demuestra una cuestión que no formó parte del objetivo inicial. El diseño de un estudio depende del punto a estudiar, si se cambia el objetivo, lo más probable es que el diseño ya no sea el adecuado y las conclusiones serán discutibles.
4. Material y métodos Este apartado nos pone en contacto con las características propias del estudio. Debe especificar el lugar geográfico donde se realizó la investigación, la edad y género de los su[ 123 ]
jetos seleccionados, qué criterios de inclusión y de exclusión se siguieron, etc. Nos referimos concretamente al diseño del ensayo, y en este sentido, los trabajos de investigación pueden clasificarse como: estudios observacionales o experimentales. Los estudios observacionales se fundamentan en el seguimiento de uno o más grupos de pacientes, registrando sus características para un análisis posterior. Los experimentales comprenden una actividad o una intervención controlada por el investigador, como puede ser la administración de un fármaco o procedimiento, y el interés recae sobre el efecto que la intervención tiene sobre los sujetos alistados en el estudio. A. Estudios de observación: A1- Descriptivos o casos en serie: el informe describe ciertas características de un grupo (o serie) de pacientes (casos), se detallan algunas observaciones interesantes que presenta un número reducido de ellos, en general por un período corto de tiempo, y suelen conducir a la concepción de una hipótesis que se investigará más adelante. Por definición no incluyen controles, es decir sujetos sin la enfermedad o factor que se indaga, y tampoco admiten intervención. A2- Estudios de caso-control (retrospectivos): los casos se seleccionan de manera individual sobre la base de alguna enfermedad o consecuencia, buscando causas o factores de riesgo que potencialmente puedan explicarla; los controles son sujetos sin la enfermedad. Como indagan hacia atrás en el tiempo se los llama retrospectivos, y como cubren cierto tiempo también son longitudinales. Algunos investigadores, cuando una o varias características en los grupos están desequilibradas usan el sistema de parejas para relacionar casos y controles. El proceso de parear asegura que los dos grupos serán semejantes, por ejemplo en edad y/o sexo, evitando confundir al momento de las conclusiones. Generalmente reportan causas e incidencia de una enfermedad o identifican factores de riesgo. A3- Estudios transversales (prevalencia): permiten conocer las características de un grupo de sujetos en un momento determinado, no en un período de tiempo. Plantean qué sucede en ese momento particular, la selección y la información de los sujetos se obtiene en un corto plazo de tiempo, por eso también se llaman estudios de prevalencia. Los estudios transversales se utilizan para describir una enfermedad o proporcionar información respecto al diagnostico o etapa de la misma, y especialmente para describir la utilidad de un procedimiento nuevo. A4- Estudios de cohortes (prospectivos): una cohorte es un grupo de individuos con algo en común y forman parte del grupo por un período prolongado. Ellos se seleccionan por presentar algún rasgo o factor que se sospecha es la causa para un efecto patológico o enfermedad. Se observan durante cierto tiempo para constatar el efecto de estas características, tanto en sujetos que las presentan (expuestos) como en los que no (no expuestos). Como los eventos que interesan se manifiestan después de iniciado el estudio también se los llama prospectivos. El más prestigioso de éstos es el estudio Framingham, que inició en 1948 para investigar la enfermedad ateroesclerótica e hipertensiva, a la fecha se han publicado numerosos artículos sobre el mismo, permaneciendo aún en observación algunos sujetos originales. Sin embargo, para emprender un estudio de cohorte también se puede emplear información archivada y analizarla en la actualidad, precisamente, partiendo de datos sobre factores de riesgo en el [ 124 ]
pasado se observa su efecto en el presente. En este caso se llaman estudios de cohorte históricos o de cohorte retrospectivos, y únicamente son posibles si los registros de seguimiento se hallan completos. B. Estudios experimentales: En seres humanos se denominan pruebas clínicas, su propósito es extraer conclusiones acerca de un procedimiento o tratamiento particular. B1- Pruebas clínicas controladas: estudios donde un procedimiento o fármaco experimental se compara con otro aceptado. Estos se clasifican en: B1.1- Pruebas con controles paralelos o concurrentes, independientes: incluyen dos grupos, el experimental o sometido al procedimiento que se probará, y el grupo control que recibe el tratamiento estándar o placebo. Los dos grupos deben ser iguales en todos los aspectos, de modo que las diferencias encontradas se puedan adjudicar al procedimiento y no a otros factores. Los grupos deben participar del estudio en el mismo período, concurrentes, y para garantizar que los investigadores o los participantes no vean lo que esperan ver, ninguno conoce el grupo al que fue asignado, doble ciego. A su vez estos estudios pueden ser: • Aleatorios o randomizados: los sujetos que participarán en los grupos son distribuidos al azar, esta metodología proporciona la evidencia más fuerte de asociación, asegurando que el resultado se debe a la participación. • No Aleatorios: los pacientes no son asignados al azar, presentan el inconveniente de que nada previene el sesgo en la distribución de los participantes, y por lo tanto son menos confiables. B1.2- Controles secuenciales: incluyen a las pruebas clínicas con autocontroles y los estudios cruzados. Los estudios con autocontroles utilizan al mismo grupo de sujetos para opciones experimentales y de control, los pacientes se evalúan al inicio del estudio y luego son sometidos a un procedimiento o tratamiento, para ser estimados nuevamente en busca de cualquier cambio. Los estudios con controles cruzados emplean dos grupos, uno experimental y otro control. Después de un período de tiempo se suspende el tratamiento, experimental y placebo, se deja transcurrir un tiempo de reposo, en general sin tratamiento alguno, y luego se asigna a cada grupo el tratamiento alterno, o sea, el grupo control pasa a ser experimental y viceversa. B1.3- Pruebas con controles externos: el tercer método para controlar experimentos es el manejo de controles que no pertenecen al ensayo, o externos. Estos comparan el resultado del propio estudio, grupo experimental, con el de otro investigador, grupo control. En ocasiones son sujetos que el mismo observador ha tratado previamente con otro procedimiento, en este caso se llaman controles históricos. B2- Pruebas clínicas no controladas: son estudios que sólo incluyen al grupo experimental, no hay controles. Es más probable que se usen con procedimientos y no con un fármaco, el principal conflicto es que los investigadores suponen que el procedimiento experimental es mejor que cualquier otro, sin haber comprobado su eficacia.6
[ 125 ]
C. Revisiones C1- No Sistemáticas: clásicamente se basa en la selección de un número determinado de artículos sobre una cuestión en particular, tras su examen el autor expone una conclusión más o menos general sumando además su experiencia u opinión personal. Esta modalidad de revisión genera un margen de duda sobre la confiabilidad de lo expresado pues únicamente ofrece el punto de vista, a veces subjetivo, del autor. C2- Sistemática cuantitativa, meta-análisis: es una metodología de análisis cimentada en la combinación de la información obtenida en diferentes ensayos clínicos sobre un tema determinado. El objetivo es proporcionar una estimación cuantitativa de todos los estudios disponibles, y dado que incluye un número mayor de observaciones tiene un poder estadístico superior al de los propios trabajos que contiene. Los principales problemas metodológicos de los meta-análisis resultan como consecuencia de la diversidad de los ensayos clínicos que incluye, ya que las características clínicas, sociales, demográficas, etc., de los sujetos reclutados son diferentes en cada uno de ellos; como también son disímiles los métodos de evaluación aplicados, la forma farmacéutica o dosificación del fármaco evaluado, etc. Asimismo, considerando que no todos los ensayos clínicos han sido publicados, por resultados no esperados o negativos, siempre mantienen la posibilidad de incurrir en un posible sesgo de publicación.7 - 13 Continuando con los aspectos metodológicos, cuando leemos un trabajo de investigación debemos distinguir si se ha procedido en forma correcta al establecer el tamaño de la muestra, si no encontramos esta información nos enfrentamos al menos con dos problemas: el primero es que no sabemos si el número escogido fue el necesario para demostrar las diferencias que se buscaban, y el segundo es si no se ha incluido más gente innecesariamente, con los riesgos que puede conllevar para los pacientes seleccionados, además de la pérdida de tiempo y recursos económicos. También repararemos sobre la estimación del número de pacientes perdidos durante el período de observación, porque es muy difícil lograr un seguimiento completo en un estudio de más de seis meses. La determinación del tamaño muestral es una tarea del epidemiólogo, que mediante un modelo matemático que incluye varios elementos, como variabilidad del parámetro, el error α y β que indican el nivel de confianza, etc., establece el número mínimo imprescindible de individuos a incluir en los grupos que van a estudiarse. No es necesario en todas las investigaciones, pero es ineludible cuando se buscan diferencias predefinidas entre grupos. En general se puede decir que a mayor nivel de precisión y confianza, mayor debe ser la muestra. Se trata en definitiva de entender que si el estudio es pequeño y con un resultado positivo existe la posibilidad de que sea un falso positivo, ya que el hallazgo pudo ser válido únicamente por azar. Investigaciones futuras homologarán su valor, o no, cuando se intenten confirmar sus deducciones con estudios más grandes.14 Si hay muestras sanguíneas, cómo se recolectaron; si las sustancias que se examinaron son estables; cuántas muestras se recogieron y en qué condiciones se produjo el almacenamiento y el traslado (si es que lo hubo). Estos aspectos, con las muestras sanguíneas en particular, han merecido varios artículos en la literatura médica dentro de los cuales el de Jaffe y Vatus15 es particularmente revelador. [ 126 ]
Las características de los sujetos seleccionados para participar de la investigación son un elemento clave, aunque no el único, a la hora de evaluar la importancia de una investigación. Cuando se lee un artículo científico debemos poner atención a los criterios de inclusión y de exclusión, ambos deben estar claramente establecidos porque definen a la población objeto del estudio; y permitirá reconocer si estos pacientes son similares a los que vemos en nuestra práctica clínica. La selección de los mismos, asignación a un grupo definido, la recolección y análisis de los datos obtenidos, etc., son puntos importantes que nos introducen al concepto de sesgo, precisión y validez de un estudio. Dando por cierto que el tema y los objetivos de un estudio son de interés, queda aún determinar si el mismo es preciso y válido. El propósito de toda investigación debe concentrarse en alcanzar la exactitud en la medición de los datos, todo lo que amenace esta premisa debe ser identificado y advertido. Hablamos de los errores en las mediciones, y los hay de dos tipos: aleatorios y sistemáticos. Entendemos por sesgos a los errores sistemáticos que producen una estimación incorrecta de asociación entre la exposición y la enfermedad, o una estimación equivocada del efecto. La precisión de un estudio se corresponde con la reducción del error debido al azar o aleatorio, error que suele ser de mayor magnitud cuando se realizan inferencias a partir de resultados obtenidos en muestras pequeñas de una población. Para restringir esta desviación, el elemento más importante del que disponemos es incrementar el tamaño de la muestra. De esta manera los intervalos de confianza y el error estándar se reducen, logrando aumentar la precisión. La precisión de un estudio nos garantiza que será reproducible, esto es, obtener aproximadamente el mismo resultado cada vez que se repite, cuando es conducido en las mismas condiciones. El error sistemático aparece como consecuencia de faltas cometidas durante el proceso de diagnóstico o de selección de los pacientes. La ausencia de error sistemático define la validez del estudio, que tiene dos componentes: la validez interna, que es la ratificación de las inferencias a los sujetos incluidos en el propio ensayo, y la validez externa, que posibilita la generalización de los resultados a individuos que no formaron parte del mismo, o a la población general. La validez interna es por lo tanto un prerrequisito para que pueda darse la externa. La validez interna, se ve amenazada por distintos tipos de sesgos: A. Sesgos de selección: los grupos del estudio no son comparables debido a cómo fueron seleccionados los pacientes, hace referencia a cualquier error que se deriva del proceso de identificación de la población a estudiar. Estos sesgos pueden ocurrir al seleccionar el grupo control o el espacio muestral donde se realizará el estudio. También por pérdidas durante el seguimiento o por la presencia de una supervivencia selectiva. Los sesgos de selección pueden manifestarse en los estudios de casos y controles, cuando el procedimiento utilizado para identificar la enfermedad (sesgo diagnóstico) varía o se modifica con el status de exposición. Este sesgo se llama “sesgo de detección”. El resultado produce una relación entre exposición y enfermedad que es diferente entre los individuos seleccionados para el estudio, y aquellos que pudiendo haber sido elegidos para participar no fueron incluidos. [ 127 ]
B. Sesgo de información u observación: los grupos de pacientes del estudio no son comparables debido a como se obtuvieron los datos. Incluye cualquier error sistemático en la exactitud de los datos o los resultados. Por lo tanto producen una distorsión en la estimación del efecto, las fuentes de sesgo de información más frecuentes son: instrumento de medición inadecuado, criterios diagnósticos incorrectos, omisiones, o imprecisiones en la búsqueda o clasificación de los datos introducidos por los cuestionarios o los encuestadores. C. Factores de confusión: los autores no han apreciado información sobre un factor que se relaciona a la vez con la exposición y con el efecto estudiado. Dicho error provocará una alteración en la estimación del resultado, debido a una o más variables no consideradas. La prevención y control de los sesgos potenciales debe considerarse durante el diseño del estudio, ya que al momento del análisis no es posible solucionarlos. Por el contrario, los factores de confusión sí pueden controlarse durante el análisis.16 Por último ¿cuáles fueron los puntos finales? o “end-points”. El punto final más duro es la mortalidad de cualquier causa o mortalidad total, es fácil de averiguar durante el seguimiento, a través de un llamado telefónico a familiares o al registro civil. Algunos estudios seleccionan un punto final combinado (dos o más) aumentan así la tasa de eventos esperada, de esta manera necesitan incluir menos pacientes que los requeridos al escoger un único punto final.17 Cuestión que nos obliga a examinar la publicación completa, para ver que efecto tuvo cada uno de los factores que componen el punto final combinado sobre mortalidad global, y éste ejercicio nos permitirá redimensionar las conclusiones.
5. Análisis estadístico El análisis de los datos reunidos durante la investigación culmina con la obtención de un resultado, que es el producto de estimar un parámetro o una diferencia entre grupos o bien una asociación entre variables, y este resultado procura responder a la o las preguntas planteadas en el objetivo. En general, el análisis de los datos experimentales apunta a establecer si las diferencias o las asociaciones observadas entre los distintos conjuntos estudiados reflejan características reales de las poblaciones, o si estos contrastes podrían haberse dado por el azar del muestreo. Esta última posibilidad se conoce como hipótesis nula, y el poder rechazarla le confiere legitimidad automática a la hipótesis alternativa, que es la que suele interesar especialmente al investigador. En este punto, ante una desigualdad (u otro tipo de relación) entre muestras, las técnicas estadísticas posibilitan cuantificar la probabilidad con que una diferencia, igual o más extrema que la advertida, podría ser observada si las muestras provinieran de la misma población, esto es, si la diferencia se debiera solamente a las fluctuaciones del muestreo. Si dicha probabilidad resulta pequeña, digamos menor que el 5%, se dice que la diferencia observada es significativa, con una probabilidad p< 0,05. De modo que el nivel de significación dado por p, mide la probabilidad de equivocarnos al rechazar la hipótesis nula como improbable y aceptar la alternativa como válida. Por lo tanto, p< 0,05 significa que la diferencia observada tiene el 95% de probabilidades de no provenir de muestras del mismo universo, sino que éstas deben representar poblaciones [ 128 ]
diferentes. El valor 95% se conoce como nivel de confianza de la estimación. Cuanto menor es la p, es decir, cuanto menor es la probabilidad de que los resultados observados ocurran como producto del azar, mayor será la tendencia a concluir que la diferencia existe en realidad. Deducimos entonces que existe una diferencia significativa entre los grupos o variables estudiadas, que la posibilidad de equivocarnos es tan sólo de un 5% y que nuestra diferencia en un 95% se debe al factor analizado y no a la mera casualidad. Inversamente, si el valor de p es mayor que el 5%, se considera que no hay suficientes indicios para descartar que la o las desigualdades obtenidas se deben a la intervención del azar, no pudiendo descartar la hipótesis de nulidad o equivalencia entre lo que se comparó.18 Según lo expresado, podremos juzgar si el estudio que estamos leyendo es creíble en cuanto a sus conjeturas, revelando un valor de p suficientemente pequeño que permite aceptar que el efecto que se comunica existe realmente y en la dirección en que se informa. La falta de claridad conceptual es la que hace pensar que la estadística se equivoca y también que puede manipularse, por ello debemos dominar conocimientos básicos de la estadística y de sus limitaciones, para descubrir errores, sesgos o simplemente falta de rigor o calidad en el artículo que estamos examinando. Si leyéramos estudios de los años 60, observaríamos que el análisis bivariado era la metodología estadística más corrientemente empleada, y la simple obtención de una p< 0.05 concluía que el resultado era “estadísticamente significativo”. Generalmente así fundamentados, sugerían que el hallazgo de A en la enfermedad B podría ser de valor para determinar el diagnóstico, el pronóstico o el tratamiento. La significación estadística no quiere decir significación clínica, quien no comprende este concepto puede creer que la significación lograda indica causalidad y que el resultado obtenido en un trabajo nos obliga a aplicar una determinada intervención para lograr mejorar, por ejemplo, el pronóstico de una enfermedad, esto es un error de criterio importante. Los ensayos clínicos metodológicamente más convincentes son relativamente nuevos, en 1948 el Consejo inglés de Investigación Clínica dio a conocer los resultados del primer estudio randomizado para evaluar la eficacia de la estreptomicina; y en 1951 Bradford Hill proporcionó la primera definición sobre la sistemática de un ensayo clínico: “Es un experimento diseñado cuidadosa y éticamente con el objetivo de responder alguna pregunta formulada con precisión”.19 Inmediatamente surgieron los estudios que incluyen el análisis multivariado, regresión, correlación, etc. Estos modelos de análisis nos informan si la o las variables que en el bivariado surgían como estadísticamente significativas (aún aquellas con valores de p de hasta 0.15 y en algunas ocasiones hasta 0.20, por considerarlas de interés clínico trascendente) mantienen su independencia con respecto al objeto principal de la investigación o variable dependiente. Lo que nos anunciará la posibilidad de que pudieran ser tenidas en cuenta como parte o causa de la enfermedad o evento. El ejemplo que sigue nos ilustrará, si en un modelo de regresión se incluye la edad para conocer su posible independencia con la variable objetivo, por ejemplo mortalidad, lo más probable es que la edad tenga un vínculo significativo o causalidad con la muerte. Si en el mismo modelo se introduce “arrugas”, éstas no tendrán probablemente la misma asociación o vínculo, pero si se quita la edad pasarán a tener una significación muy similar, dado que es muy probable que nuestro cuerpo tenga más arrugas a mayor edad.20
[ 129 ]
6. Los diferentes tipos de ensayos clínicos En general, los médicos vivimos pendientes del diagnóstico, pronóstico y tratamiento de las enfermedades que aquejan a nuestros pacientes. Surgen a diario, en cada uno de estos segmentos, diversos interrogantes que frecuentemente hallan respuesta en un número de ensayos que suelen proponer diferentes estrategias de aproximación. ¿Cómo interpretar estos estudios para extraer la información que pueda auxiliarnos en la práctica clínica? Interpretación de los estudios sobre pruebas diagnósticas El notable avance tecnológico de la última mitad del siglo XX ha llevado a que dispongamos de numerosos medios diagnósticos pero, como veremos, los métodos diagnósticos también tienen sus indicaciones precisas y, fundamentalmente, sus limitaciones. Antes de ser introducido en la práctica clínica cada método debe confrontarse, idealmente, con uno de probada eficacia que sirve de referencia o patrón oro, gold standard. 21, 22 En cardiología, por ejemplo, un método que estudie la circulación coronaria debe contrastarse con la coronariografía, su aproximación diagnóstica a esta última lo hará de mayor confiabilidad. Para el caso de comparar dos métodos, el problema más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. La tabla 1 nos ayudará a comprender los términos empleados. Verdadero diagnóstico Resultado de la prueba Enfermo
Sano
Positivo
Verdaderos positivos (vp)
Falsos positivos (fp)
Negativo
Falsos negativos (fn)
Verdaderos negativos (vn)
Tabla 1. Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de una enfermedad. Generalmente, al resultado positivo se lo asocia con la presencia de enfermedad y al negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes los datos obtenidos permiten clasificar a los sujetos, en una tabla de 2x2, en cuatro grupos, como en la Tabla 1. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia que vayamos a utilizar. La conclusión de la prueba puede ser correcta (verdadero positivo y verdadero negativo) o incorrecta (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad:
[ 130 ]
Sensibilidad: es la probabilidad de clasificar correctamente a un individuo enfermo, esto es, la probabilidad de que en la prueba se alcance un resultado positivo en un sujeto enfermo. Por lo tanto, la sensibilidad es la capacidad del test para detectar la enfermedad [S = vp/ (vp+fn)]. Especificidad: es la probabilidad de clasificar correctamente a un individuo sano, o de obtener un resultado negativo en ausencia de enfermedad. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sujetos sanos, [E = vn/(vn+fp)]. Es claro que lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero no siempre es posible. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, o en enfermedades en las que un falso positivo no produzca serios inconvenientes. Por otro lado, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, evitando así los falsos positivos. Los test de alta especificidad son necesarios para descartar el padecimiento de enfermedades graves, o cuando se diagnosticó un mal que se sospecha no aquejar al paciente. 21, 23 Los conceptos de sensibilidad y especificidad permiten, efectivamente, justipreciar el rendimiento de una prueba diagnóstica. Sin embargo, ante la obtención de un resultado positivo o negativo, el médico más bien se plantea: ¿cuál es la probabilidad de que el paciente esté realmente enfermo, o no? Los valores predictivos nos permiten responder esta cuestión: Valor predictivo positivo: es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede evaluarse a partir del número de pacientes con un resultado positivo en la prueba y que finalmente resultaron enfermos, sobre el total de resultados positivos: [VPP = vp/(vp+fp)]. Valor predictivo negativo: es la probabilidad de que un sujeto con un resultado negativo en la prueba se halle realmente sano, se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba: [VPN = vn/(vn+fn)]. 21, 24 Los valores de sensibilidad y especificidad definen la validez de una prueba diagnóstica, independientemente de cuál sea la prevalencia de la enfermedad en la población a la cual se aplica. Pero tienen la desventaja de que no proporcionan información relevante a la hora de tomar una decisión clínica ante un determinado resultado. En cambio, los valores predictivos, a pesar de la enorme utilidad que brindan a la hora de tomar decisiones clínicas y transmitir a los pacientes información sobre su diagnóstico, presentan la limitación de que dependen considerablemente de lo frecuente que sea la enfermedad a diagnosticar. Cuando la prevalencia de una enfermedad es alta, un resultado positivo tiende a confirmar su padecimiento, mientras que si la prevalencia es baja, un resultado positivo no permitirá afirmar su presencia. Entonces, debido a la influencia la prevalencia, los valores predictivos no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, tampoco [ 131 ]
permiten extrapolar los resultados de otros estudios a datos propios. Para ello, es necesario considerar otros índices de estimación clínicamente útiles y que no dependen de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos anteriormente citados, se suele hablar de razón de verosimilitudes, razón de probabilidad, cociente de probabilidades o likelihood ratio. Ellos indican cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad, y se definen como sigue: Razón de verosimilitudes positiva o cociente de probabilidades positivo: es la razón entre la probabilidad de un resultado positivo en los pacientes enfermos y la probabilidad de un resultado positivo entre los sanos. O bien, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1 – especificidad): RVP = sensibilidad/ (1 – especificidad). Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la probabilidad de un resultado negativo en ausencia de la misma. O bien, el cociente entre la fracción de falsos negativos (1 – sensibilidad) y la fracción de verdaderos negativos (especificidad): RVN = (1 – sensibilidad)/especificidad.21, 25 Una RV de 1 significa que la probabilidad de un resultado positivo es exactamente la misma que la de uno negativo, en enfermos o sanos. RV superiores a 1 incrementan la probabilidad de que se encuentre presente el trastorno objetivo y, al contrario, RV inferiores a 1 disminuyen esta probabilidad. La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Permite expresar la información de manera no dicotómica (resultado normal o anormal, positivo o negativo) y, al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Estas consideraciones nos permiten adoptarla como índice de comparación entre diferentes pruebas para un mismo diagnóstico. Finalmente, otra opción estadística útil a la hora de valorar la capacidad diagnóstica de una prueba cuantitativa son las llamadas curvas ROC (Receiver Operating Characteristic). Se calculan a partir de la sensibilidad y especificidad para cada uno de los posibles valores de corte de la prueba. Hasta ahora nos ocupamos del caso de un test con un resultado dicotómico, positivo o negativo, pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico. Estos se pueden clasificar en forma dicotómica según sean superiores o inferiores al elegido como corte. La estrategia de este análisis consiste en representar gráficamente los distintos valores de especificidad y sensibilidad obtenidos, generándose así una gráfica llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, pues es independiente de la prevalencia de la enfermedad en la población de referencia, admitiendo efectuar comparaciones entre diferentes pruebas diagnósticas. En forma muy general, puede aceptarse que la capacidad de predicción para un área bajo la curva de 0,50-0,60 se considera mala; de 0,60-0,70 pobre; de 0,70-0,80 aceptable; de 0,80-0,90 buena a muy buena, y de 0,90-1,00 excelente. 26 [ 132 ]
Cuando leemos un artículo que informa sobre una nueva herramienta diagnóstica debemos conocer estos conceptos y valorar si su introducción en la práctica clínica aporta información relevante o no. Además, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos. Por supuesto, siempre deberemos valorar el costo que introduce en nuestro accionar (costo/beneficio) para saber si es aplicable en nuestro medio. Interpretación de los estudios sobre pronóstico y tratamiento. Ensayos clínicos Los ensayos clínicos han permitido un enorme avance en el conocimiento y han terminado con muchas indicaciones terapéuticas que se tenían por buenas. Los estudios observacionales son muy importantes, porque de ellos surgen conjeturas que luego habrán de comprobarse en otras investigaciones, pero no debemos tomar conductas basados en ellos. Ciertas hipótesis fisiopatológicas o trabajos con un reducido número de casos, y por lo tanto con insuficiente potencia, llevaban a la aplicación de una determinada medicación que luego resultó ser nociva. Podríamos citar el ejemplo de la administración profiláctica de lidocaína, por su efecto antiarrítmico, a los pacientes que padecían un infarto miocárdico agudo, pero luego los ensayos clínicos demostraron que no otorgaba beneficio, sino más bien era perjudicial. 27 Otro ejemplo, relativamente cercano, fue la aceptación de que el suplemento hormonal en la mujer menopáusica disminuiría los eventos cardiovasculares, no obstante, los ensayos con terapia sustitutiva encontraron que podían aumentarlos. Un reciente meta-análisis sobre el tema muestra que si bien no incrementa el riesgo de nuevos eventos cardíacos, tampoco lo reduce, pero sí agranda el riesgo de accidente cerebrovascular, 28 esto condujo a que las recomendaciones internacionales desaconsejaran su aplicación. 29 El número de ensayos clínicos y meta-análisis se ha multiplicado en los últimos años, en muchos de ellos se despliega una metodología estadística que habitualmente expresa los resultados en forma de razón o ratio. Al leerlos descubrimos expresiones como: odds ratio (OR), riesgo relativo (RR) o lo que es igual cuando se trata de estudios de supervivencia, hazard ratio (HR), términos que son poco intuitivos y a veces de difícil comprensión. Seguidamente, intentaremos orientar acerca de cómo interpretar correctamente estas medidas muy empleadas en bibliografía médica. Una forma de estimar el riesgo entre dos grupos es mediante una relación que se suele denominar relación de odds o chance. La OR es la relación entre las odds del grupo experimental sobre las odds del grupo control, y se obtiene dividiendo el número de eventos sobre el número de “no eventos” en cada grupo. En otras estimaciones del riesgo relativo (RR), el numerador contiene el número de eventos y el denominador el número total de pacientes en riesgo (eventos + no eventos). Ambas expresiones se emplean como estimadoras del riesgo relativo, la diferencia fundamental entre la OR y el RR reside en el denominador que se emplea para calcular las tasas de eventos. En la tabla 2 ejemplificaremos la diferencia:
[ 133 ]
Grupo Control
Grupo Experimental
Evento
A
B
Si
a 30
b 10
No
c 70
d 90
Totales
a + c = 100
b + d = 100
Tabla 2 Odds ratio: [b/d]/[a/c] = [10/90]/[30/70] = 0,11/0,43 = 0,26 o 26%. Riesgo relativo: [b/(b+d)]/[a/(a+c)] = [10/100]/[30/100] = 0,10/0,30 = 0,33 o 33%. En este ejemplo, la probabilidad del evento en el grupo experimental se redujo a 0,26 según la OR, y a 0,33 de acuerdo al riesgo relativo. Cuando la tasa de eventos en el grupo control es menor a 30%, la OR y el RR se aproximan o son similares, pero cuando la proporción de eventos es mayor al 30%, como sucede habitualmente en ensayos clínicos, la OR y el RR tienden a distanciarse. Reducción de riesgo relativo (RRR) es la reducción proporcional en la tasa de eventos entre grupo control y el experimental, se calcula como [(a – b)/a] o bien [1 – RR]. Del ejemplo anterior, [(30 – 10)/30] = 20/30 o directamente [1 – 0,33 = 0,67]. De igual manera que la RRR se puede obtener la reducción de la OR (ROR = 1 - OR) en el ejemplo, ROR = (1 – 0,26 = 0,74).18, 30-33 Cómo se interpretan estas medidas, intervalo de confianza (IC) Aunque su fórmula matemática es diferente, el significado de la OR, el RR y el HR es equivalente. Siempre hay un grupo experimental al que se le adjudica el valor de la ratio, lo que equivale a tomar como referencia al otro grupo. En el ejemplo anterior, B es el grupo de interés al que se refiere la estimación, y el grupo que sirve de referencia o de grupo control es A, cuyo valor es 1. La OR o similares deben ser distintos que 1 para aceptar con alguna certeza que existe un efecto. Una OR, un RR o un HR igual a 1 significa que en B se produce el mismo efecto que en A, en tanto, la OR del ejemplo indica que por cada evento en A hay 0,26 en B o sea, hay una reducción del 74%. El RR indica lo mismo, por cada evento en A hay 0,33 en B, reducción del 67%. Como vemos la OR suele magnificar el efecto. Si se tratara de un estudio de supervivencia (por ejemplo, estimación de la sobrevida a través del método de Kaplan-Meier), el HR indicaría que el riesgo de eventos terminales que se podrían esperar en B, durante el tiempo de seguimiento, es 0,33 a 1 comparado con A. Estas estimaciones estadísticas suelen comunicarse seguidas del intervalo de confianza (IC) que expresa, en la población de estudio, la variabilidad del cálculo debida al azar. La mayoría de las investigaciones médicas incluyen muestras de una población, aunque la auténtica realidad de un fenómeno sólo puede alcanzarse analizando la totalidad de esa población. Lo que en un estudio se calcula y ofrece como un resultado puntual, razón o ratio, no tiene por qué corresponderse con el verdadero valor en la población, estimación que siempre será [ 134 ]
desconocida. Su confiabilidad depende de que el resultado se encuentre comprendido entre un rango de valores, o IC, dentro de los que se encuentra la realidad biológica del fenómeno estudiado. De tal manera, si se obtiene una diferencia, esta puede ser aceptada biológicamente y estadísticamente, es decir, el IC de la ratio puede ser considerado significativo en un determinado nivel. Además, tiene que haber una diferencia entre lo que se compara, y dicha diferencia debe tener una determinada dirección compatible con la realidad. Esto se logra únicamente cuando los individuos de la muestra tienen inicialmente la misma probabilidad de ser ingresados para su comparación, premisa que nos señala que sólo tienen valor los estudios aleatorizados. El IC expresa los límites que con una cierta garantía contendrán el verdadero valor del resultado obtenido. Generalmente se calcula con un margen de seguridad del 95%, lo que quiere decir que deja una probabilidad de 0,05 de que el verdadero valor de la ratio no se halle en este intervalo. Si el IC del 95% de una ratio no contiene el 1, el grado de evidencia de que los datos del estudio sean compatibles con la hipótesis nula (igualdad entre lo que se compara) ha de ser menor de 5%, y viceversa. Evidentemente, el IC nos proporciona la misma información que el valor de p, pero además a través de sus propios límites nos da una idea de la intensidad posible del fenómeno estudiado, otro paso para estimar la credibilidad del estudio. En el ejemplo anterior tomamos como referencia un valor de 0,26 para la OR, se corresponde con una p < 0,0003 y con un IC del 95% entre 0,12 y 0,57. Este último nos indica que la reducción real pudo haber oscilado entre el 12% y el 57%, en tanto que el nivel de p nos dice que la reducción del riesgo fue significativa, o en otras palabras, que la probabilidad de un resultado azaroso, igual o más extremo, es menor del 5%. Dicho de otro modo, si se informa que la reducción fue de 26%, el IC 95% de 12% a 57% traduce que existe una probabilidad menor del 5% de que el evento no se reduzca por lo menos un 12%. Si el resultado de p fuera no significativo, el IC contendría la unidad. Por ejemplo, si el IC 95% fuera 0,24 a 1,20, la relación de riesgos oscilaría entre 0,24/1 y 1,2/1, existiendo la probabilidad de que en realidad no haya reducción sino más bien un aumento del evento o riesgo. En el ejemplo, para el RR de 0,33 el IC 95% es de 0,15 a 0,72 y se interpreta de manera similar. ¿Pero si fuera mayor que 1? digamos 1,5. A es el grupo de referencia y se le transfiere el 1, y B el experimental. Entonces, en B hay 0,5 más eventos que en A, es decir que B, en el caso de que fuera un nuevo tratamiento, es menos efectivo que A. Por lo tanto, un valor inferior que 1 indica un efecto menor para el grupo experimental, y viceversa. Aunque lo anterior no es difícil de comprender, estas medidas no dan una idea inmediata de la magnitud absoluta de la diferencia entre los grupos comparados. Existe una fórmula sencilla para resolver este problema, y se denomina diferencia o reducción relativa de riesgo (RRR): cuando una ratio es menor que 1 se utiliza este procedimiento, cuyo resultado es una proporción: RRR = OR - 1 (del ejemplo: 0,26 – 1 = 0,74) o la tasa de eventos en B es 74% menor que en A. Cuando es mayor que 1 se aplicará RRR = 1 -OR (del ejemplo: 1,2 – 1 = 0,2), que traduce una tasa de eventos 20% mayor en B que en A.18 Entonces, para comprender el mensaje de una OR, un RR o un HR, hay que indagar qué proporción absoluta de eventos se producen en el grupo control o de referencia, buscando entre los datos y las tablas que se nos ofrecen en el trabajo de investigación. Igualmente, nos [ 135 ]
ayudara el cálculo de la diferencia relativa de riesgo, que traduce las ratio a porcentajes, medidas que son más fáciles de interpretar. Por último, el número necesario a tratar, number needed to treat (NNT), se ha convertido en un indicador muy apreciado por los médicos, pues tiene la ventaja de darnos una idea rápida de la efectividad de un tratamiento, es más fácil de recordar y además permite comparar los beneficios y efectos adversos de una determinada terapia. Es un indicador específico para cada opción terapéutica, y describe la diferencia que hay entre dicha opción de tratamiento y el control para alcanzar un resultado clínico concreto. Su rango de valor va de 1 a infinito, siendo 1 el NNT ideal, ya que la mejor terapia es aquella donde debo tratar a un solo paciente para que este se beneficie. Por consenso, sólo se expresa en números enteros y cuanto más alto es el NNT menos eficaz es la intervención. Al agrupar un número mayor de pacientes las revisiones sistemáticas o meta-análisis, elaborados con ensayos clínicos aleatorizados, proporcionan resultados de mayor confiabilidad al momento de calcular el NNT. La reducción del riesgo absoluto (RRA), absolute risk reduction (ARR), es la diferencia absoluta entre la tasa de eventos en los grupos evaluados [Tasa de eventos grupo control – Tasa eventos grupo experimental]. En el ejemplo de la tabla 2, [a – b] o [30% – 10%] = 20%, su IC 95%, entre 9% y 31%. El NNT, número de pacientes que se necesitan tratar para evitar un evento, se obtiene aplicando regla de tres simple a partir de la RRA. Si cada 100 pacientes tratados se reducen 20 eventos, ¿cuántos necesitamos para reducir un evento?: [100/20 = 5]. O bien como [1/RRA], 1/0,2 = debemos tratar 5 pacientes para impedir el efecto adverso en uno de ellos. Estas estimaciones reúnen cierto grado de incertidumbre que ha de ser expresada mediante el intervalo de confianza. Para calcular el IC del 95% del NNT se emplea el valor inverso de los extremos del IC del 95% de la RRA, en el ejemplo, IC 95% del NNT= 1/0,09 a 1/0,31 = 3 a 11. Significa que si los estudios se repitiesen, en el 95% de las veces el resultado estaría entre esas cifras, es decir, debemos tratar entre 3 y 11 pacientes para reducir el efecto en 1 de ellos.18, 34, 35 Al mismo tiempo, recordemos que toda intervención puede promover efectos adversos o no deseados, y también se pueden estimar. El incremento del riesgo absoluto (IRA) o absolute risk increase (ARI), es la diferencia absoluta en las tasas de eventos perjudiciales entre los grupos evaluados, revela que el tratamiento experimental causa más daño que beneficio. Su cálculo es semejante al de la reducción del riesgo absoluto. IRA = [Tasa de eventos adversos en el grupo control – Tasa eventos adversos en el grupo experimental]. El número necesario para hacer daño (NND) o number needed to harm (NNH), nos indica a cuántos pacientes hay que tratar para que en uno de ellos se presente un efecto no deseado. O bien, el número de pacientes que si recibiesen el tratamiento experimental tendrían un efecto adverso adicional comparado con el tratamiento control. Se calcula como 1/ IRA, y su rango también va de 1 a infinito, pero al contrario del NNT, cuanto menor es su valor menos segura es la intervención. Si un ensayo muestra un bajo NNT con un alto NND implica que el perfil terapéutico es seguro. También, si el estudio informa o hace referencia a estos indicadores, se puede obtener la relación beneficio/riesgo del tratamiento experimental (NNT/NND). Y si adjunta el costo por período de tiempo necesario para evitar el evento, se puede construir un indicador de costo/efectividad.18 [ 136 ]
7. Discusión y conclusiones En este apartado él o los autores defienden la validez de sus observaciones, apoyados en los resultados de la propia investigación y los publicados en otros informes. Usualmente la discusión incluye una visión general de los hallazgos principales, su integración o relación con la teoría que sustentó el ensayo clínico y de sus limitaciones, ambigüedades e implicancias para futuras vías de investigación. Aceptar como válidas las conclusiones de una investigación depende de una adecuada preparación metodológica que nos permitirá analizar, calificar y reconocer lo publicado en forma objetiva, hasta que nuevas evidencias sean presentadas. Al mismo tiempo, fundamentados en nuestras propias deducciones podremos evaluar si los resultados están de acuerdo con el conocimiento actual, y si nos permiten trasladar sus probables beneficios a la práctica clínica.
8. Referencias bibliográficas Constituyen una parte importante del artículo porque brindan solidez a los hechos expuestos por el autor, además, ofrecen varias opciones de información sobre conceptos, técnicas, metodologías, etc., que sustentan la teoría de la investigación. Las referencias facilitan la posibilidad de ampliar la información sobre el aspecto tratado, por ello es primordial que el ensayo cuente con las referencias adecuadas y actualizadas.
9. El conflicto de intereses Gran parte de la investigación en medicina ha quedado en manos privadas, y sobre todo la investigación farmacológica. Esta realidad nos lleva a tener en cuenta que las empresas esperan rendimientos; y si bien es cierto que cuanto más efectiva sea una droga más aceptación tendrá en la clase médica, no es menos cierto que muchas investigaciones se realizan teniendo en cuenta las necesidades del mercado, y sobre todo de un mercado que pueda enfrentar gastos sanitarios. Esto no es una crítica, es la descripción de un hecho, la investigación puede encararse de diferente manera si el que investiga lo hace para solucionar un problema o para obtener rendimientos económicos. Por ello, es necesario que al publicar se explicite con toda claridad si se tiene algún conflicto de intereses, y si la investigación ha sido financiada total o parcialmente por empresas interesadas en el resultado. El conocerlo no invalida de ninguna manera los logros, simplemente permite a los lectores ampliar el juicio global del estudio en cuestión. 36
Corolario Hasta aquí comentamos qué buscar y cómo interpretar la información contenida en cada sección de un artículo científico, el objetivo fue ofrecer las herramientas para valorar en forma [ 137 ]
crítica la información que se consulta y particularmente ponderar los méritos conceptuales y metodológicos de las investigaciones publicadas. Esperamos que este capítulo sea de utilidad para los que se inician en el apasionante campo de la investigación. Elaborar las propias conclusiones y confrontarlas con los resultados que ofrecen otros investigadores puede ser el primer paso.
Referencias 1. Sacket D, Scout Richardson W, Rosenberg W, Brian Haynes R. Evidence-based Medicine. How to practice & Teach EBM. 1997, Pearson Professional Limited. 2. Echt DS, Liebson PR, Mitchell LB, Peters RW, Obias- Manno D, Barkers AH et al. Mortality and morbidity in patients receiving encainide, flecainide, or placebo. The Cardiac Arrhythmia Suppression Trial. N Engl J Med 1991; 324: 781-788. 3. The Cardiac Supresión Trial II Investigators. Effect of the antiarrhythmic agent moricizine on survival after myocardial infarction. N Engl J Med 1992; 327: 227-233. 4. Vaughan Williams EM. A classification of antiarrhythmic actions reassessed after a decade of new drugs. J Clin Pharmacol 1984; 24: 129-147. 5. Greenhalgh T. How to read a paper. The basics of evidence based medicine. 2nd Edition 2001. BJM Books. 6. Dawson-Saunders E, Trapp R. Basic and Clinical Biostatistics 1990. Ed Appleton & Lange. Cap. 2; 7-21. 7. Greenhalgh T. Assessing the methodological quality of publisher papers. BMJ, 1997; 315: 305-308. 8. LeLorier J, Grégoire G, Benhaddad A, Lapierre J, Derderian F. Discrepances between meta-analyses and subsequent large randomized, controlled trials. N Engl J Med 1997; 337: 536-542. 9. Cappelleri JC, Ioannidis JPA, Schmid CH, et al. Large trials versus meta-analysis of smaller trials. How do their results compare? J Am Med Ass 1996; 276: 1332-1338. 10. Villar J, Carroli G, Belizan JM. Predictive ability of meta-analyses of randomised controlled trials. Lancet 1995; 345: 772-776. 11. Naylor David C. Meta-analysis and the meta-epidemiology of clinical research. Br Med J 1997; 315: 617-619. 12. Egger M, Davey Smith G. Misleading meta-analysis. Br Med J 1995; 310: 752-754. 13. Ioannidis J., Cappelleri J. C., Lau J., et al. Meta-Analyses and Large Randomized, Controlled Trials. N Engl J Med 1998; 338: 59-62. 14. Dawson-Saunders E, Trapp, R. Basic and Clinical Biostatistics 1990. Ed Appleton & Lange. Cap. 7; 136-138. 15. Jaffe AS, Vatus H. Acute coronary syndrome biomarkers. The need for more adequate reporting. Circulation 2004; 110: 104-106. 16. Dawson-Saunders E, Trapp R. Basic and Clinical Biostatistics 1990. Ed Appleton & Lange. Cap. 15; 305-318. 17. Gottlieb S. Dead is dead - artificial definitions are no substitute. Lancet 1997; 349: 662663. [ 138 ]
18. Greenhalgh T. How to read a paper. The basics of evidence based medicine. BMJ Publishing Group. 2001; Cap. 5: 76-93. 19. Hill B. The clinical trial. Med Bull 1951; 7: 278-282. 20. Brotman DJ, Walter E, Lauer MS, O´Brien RG. In search of fewer independent risk factors. Arch Intern Med 2005; 165:138-45. 21. Greenhalgh T. How to read a paper. The basics of evidence based medicine. BMJ Publishing Group. 2001; Cap. 7:105-119. 22. Jaeschke R, Guyatt GH, Sackett DL. Users´guides to the medical literature. III. How to use an article about a diagnostic test. Are the results of the study valid? Evidence-Based Medicine Working Group. J Am Med Ass 1994; 271: 389-391. 23. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 1: sensitivity and specificity. Br Med J 1994; 308: 1552. 24. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 2: predictive values. Br Med J 1994; 309: 102-107. 25. Dujardin B, Van der Ende J, Van Gompel A, et al. Likelihood ratios: a real improvement for clinical decisión making? Eur J Epidemiol 1994; 10: 29-36. 26. Altman D.G., Bland J.M. Statistics Notes: Diagnostic tests 3: receiver operating characteristic plots. Br Med J 1994; 309: 188-193. 27. Antman E, Lau J, Kupelnick B, et al. A comparison of results of meta-analyses of randomized control trials and recommendations of clinical experts. Treatments for myocardial infarction. J Am Med Ass 1992; 268: 240-248. 28. Magliano DJ, Rogers SL, Abramson MJ, Tonkin AM. Hormonal therapy and cardiovascular disease: a systematic review and meta-analysis. BJOG 2006; 113:5-14. 29. Evidence-Based guidelines for cardiovascular disease prevention in women: 2007 Update. Circulation 2007; 115: 1481-1501. 30. A. Fahey T, Griffiths S, Peters TJ. Evidence based purchasing: understanding results of clinical trials and systematic reviews. Br Med J 1995; 311: 1056-1060. 31. Pearce N. What Does the Odds Ratio Estimate in a Case-Control Study? Int J Epidemiol 1993; 22(6):1189-1192. 32. Forrow L, Taylor WC, Arnold RM. Absolutely relative: How research results are summarized can affect treatment decisions. Am J Med 1992; 92: 121-124. 33. Naylor CD, Chen E, Strauss B. Measured enthusiasm: Does the method of reporting trial results alter perceptions of therapeutic effectiveness? Ann Intern Med 1992; 117:916-921. 34. Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the number needed to treat? An empirical study of summary effect measures in meta-analyses. Int J Epidemiol 2002; 31:72-76. 35. Sinclair JC, Cook RJ, Guyatt GH, Pauker SG, Cook DJ. When should an effective treatment be used? Derivation of the threshold number needed to treat and the minimum event rate for treatment. J Clin Epidemiol 2001; 54: 253-262. 36. Doval Hernán C. ¿Es fiable lo que leemos en las revistas médicas? Resultados diferentes según el patrocinio de los ensayos clínicos Rev Arg Cardiol 2007; 75: 498-502.
[ 139 ]
Capítulo 11
Delimitación de un área de investigación Análisis de los conocimientos existentes y elaboración de nuevas cuestiones.
Eduardo B. Arribalzaga
E
l siglo XX demuestra una aceleración de la historia al testimoniar sobre innovaciones científicas y avances tecnológicos con un creciente volumen de información sucedida con inusitada rapidez. Esta celeridad en la aparición de conocimientos es, tal vez, el factor con mayor impacto en el estilo de vida cotidiano al modificar realmente las formas de comunicación e incrementar las áreas de investigación,9 incluso con áreas como la ingeniería genética donde hay que repensar los derechos de la propiedad intelectual de los nuevos descubrimientos. 2, 32, 37 En las últimas dos décadas se obtuvieron beneficios como la creación de nuevos problemas que generaron tanto incomprensión como prevenciones hacia el mundo científico y se buscó necesariamente el consenso basado en la evidencia científica.6, 12 Una fuente de esa divergencia es que los científicos logran integrar un especial conjunto de objetivos, creación de conjeturas en el transcurso de su aprendizaje y guían su visión de los problemas según la naturaleza de su propia disciplina con ignorancia de la relación existente con la comunidad no científica que dificultan ese conocimiento hasta límites insospechados. 30, 33, 41 No se debe olvidar que la ciencia se opone en absoluto a la opinión:7 la opinión traduce necesidades en conocimientos y esto es un claro error conceptual. Al designar los objetos por su utilidad, ella se prohíbe conocerlos. Además, para agregar más confusión, no sólo aumenta el número de artículos editados en revistas científicas sino que aparecen nuevas publicaciones, 50 incluso en formatos no tradicionales como la edición virtual electrónica: en 1970 se habían publicado cuatro millones de artículos (3) y en la actualidad se suman aproximadamente 5.000 nuevos títulos diarios de todo tipo (artículos originales, de revisión, monografías, etc). Por más que la aparición de Internet y los avances en el uso de computadoras personales con una intensa aplicación en las ciencias de la educación y las comunicaciones, permitieron el surgimiento de medios dinámicos muy eficaces para el manejo ordenado de un flujo creciente y constante de documentación científica y tecnológica, un nuevo paradigma de comunicación masiva se ha reconocido y facilita no sólo al nivel científico-tecnológico sino a toda la humanidad, con amplia comunicación de su método, sin exagerar su indisoluble asociación con la industria farmacéutica13, 26, 38, 43, 47, 72, 97,98 e infringir normas éticas elementales.14, 23-25, 46, 75
[ 140 ]
Acerca de la validez del método científico Una aproximación desarrollada por los científicos para percibir e investigar el mundo exterior es conocido como método científico, que no debe entenderse solamente como referencia a un conjunto de procedimientos definidos rígidamente y asegurado por el hallazgo de respuestas correctas; la ciencia no es una sencilla máquina de resolución de problemas. En vez de eso, engloba cualquier aproximación para ayudar a descubrir la Verdad acerca de la naturaleza.17 El trabajo del científico consiste en proponer teorías y en contrastarlas.81 A veces, el amplio campo de actividades llamadas científicas, refleja un conjunto de principios que emergieron relativamente tarde en el desarrollo de la civilización. Se cambió de una creencia en designios divinos o sobrenaturales con milagros incluidos a un sistema de preceptos que contenían la idea justificada y hallada en un mundo determinista-positivista, susceptible de un análisis racional. Otra innovación fue la abjuración del pensamiento filosófico y fijar en su reemplazo preguntas bien definidas y con resultados posibles de medir, coincidentes con un coherente mundo conceptuado acerca de la naturaleza (pequeños ladrillos en un gran edificio de conocimientos, que encajan unos con otros). También la ciencia descubrió en forma desordenada un pensamiento discursivo con dificultades para separar repentinamente 2 clases de nociones: las observaciones y las conclusiones. La primera debe ser verificable pero más tarde siempre es tema de reemplazo (o revisión) ante nuevas evidencias y principios. En la práctica, los conceptos esenciales tienen (o no) probada fiabilidad por el simple paso del tiempo: las bases del edificio científico son cotidianamente consolidadas por la importancia de hallazgos posteriores. Al principio, sólo se comenzó con descubrimientos individuales, sin relación entre ellos hasta que, al incorporarse como un cambio social, acumuló secuencialmente y sin interrupciones nuevas nociones en un intercalado entretejido en el cuerpo global del conocimiento. Estos conceptos son de categoría jerarquizada: busca la comprensión de los fenómenos no solamente a un nivel particular de organización como así también en términos de propiedades e interacciones de sus componentes. Como ejemplo de este principio de explicación o reducción de sucesos a un primer nivel de interacción de sus componentes (el reduccionismo), se comprende la neurobiología al dominar su complejo desarrollo como una simple interacción bioquímica de sus componentes. Se entiende mejor un fenómeno y se tiene más confianza en su interpretación si refuerza nuestro razonamiento acerca de sus características a diferentes niveles comparado con otros conocimientos, formas de pensamiento que deberían incorporarse en el grado universitario, 22, 83, 99 con la asociación de la investigación a la práctica asistencial cotidiana.18, 52 Diferenciar entre la investigación básica, cuyo objetivo es comprender la naturaleza de la investigación aplicada (que pretende su utilización controlada), no siempre es clara y es fuente permanente de tensión entre científicos y médicos asistenciales por los riesgos generados54, 82 así como con los organismos estatales de financiamiento de las investigaciones.55 Los conocimientos empíricos (basados en la experiencia) desarrollaron una destacada y abundante tecnología, pero sin una racional y coherente idea científica. Actualmente la tecnología es dependiente de la ciencia y sus diferencias son muy precisas (Tabla 1)
[ 141 ]
Tabla 1: Diferencias entre Ciencia y Tecnología Ciencia
Tecnología
Orientada al conocimiento
Orientada a las necesidades
Parte de la búsqueda del conocimiento
Parte de la utilidad
Soluciona interrogantes
Soluciona problemas prácticos
Inquisidora
Constructiva
Nuevo conocimiento como producto del análisis
Nuevo objeto tecnológico como producto de la síntesis
Es imprescindible conocer la promoción pública de nuevas investigaciones así como sus posibles aplicaciones y consecuencias con especial énfasis en que su aplicación tecnológica no está exenta de riesgos. Muchas técnicas de avanzada, como por ejemplo la ingeniera genética, han generado muy fácilmente ansiedad y temores, aunque remotos como son los hipotéticos riesgos que comprometerían la dignidad humana. 57, 60 Para los científicos es muy difícil corregir estos conceptos equivocados, porque siendo investigadores no pueden, con buena intención conciente, definir enunciados absolutos de seguridad (58) sin ser vistos como defensores de sus propios intereses (becas, subsidios, premios, prestigio (59, 63) y resultar contrarios con el compromiso de bienestar de la sociedad. El método científico, con desarrollo constante debido a Francis Bacon desde el siglo XVII, no es estático y comprende desde la descripción pasiva (la historia natural) con los mecanismos subyacentes en un proceso, hasta la revolucionaria introducción del experimento al manipular condiciones de un fenómeno y observar los efectos resultantes, intencional ejercicio intelectual promovido por el genio de Galileo. Cuando la experimentación varió el énfasis de la lógica inductiva a la deductiva (derivando las consecuencias de un principio teórico), se afirmó indudablemente la descripción hipotético-deductiva. En pasos sucesivos, las observaciones cargan con la imaginativa creación de una hipótesis explicativa. La lógica es destinada a deducir las consecuencias así como una mezcla de lógica e imaginación es aplicada para diseñar experimentos y obtener resultados y consecuencias esperadas. El investigador o bien usa métodos conocidos o desarrolla nuevos para llevar a cabo sus experimentos. A veces, las brillantes ideas dependen más de un salto imaginativo que de la intuición. Por eso, modelo e interpretación son virtualmente sinónimos de hipótesis pero con menor énfasis en la naturaleza tentativa del concepto. Teoría y más a menudo ley, son usadas para expresar algo desde el punto de la significación (la importancia). Recordar también acerca de la naturaleza provisoria de las conclusiones que muchas veces pueden no distinguirse de las hipótesis y que las dejan claramente descartadas ante nuevas y probadas evidencias. La moderna ciencia es dominada por esta concepción hipotético-deductiva, donde la etapa descriptiva sigue siendo muy importante: el análisis equivocado de datos o su insuficiente recolección determinan errores que pueden originar riesgos y/o peligros para la sociedad. Las diferencias entre la técnica y la tecnología (Tabla 2), productos finales de la investigación científica, definen el perfil de las investigaciones a desarrollar en el futuro.
[ 142 ]
Técnica
Tecnología
Objetivo compartido: actuar en la realidad satisfaciendo los intereses de los sujetos. Ambas poseen un carácter socialmente estructurado
Es Procesal con técnicas en
Es Procedimental e instrumental
determinado marco sociocultural
Es constitutiva del hombre
Es contingente. Surge con la ciencia
Es unidisciplinaria. Ej. Fabricación artesanal
El multidisciplinaria integrada en procesos
industriales vinculada al conocimiento
científico
Intereses colectivos
Intereses individuales
Tabla 2: Diferencias entre Técnica y Tecnología Al idear nuevos instrumentos y procedimientos nuestro análisis se incrementó sensiblemente y aseguró al científico un conocimiento de sus límites y la elección de aquello que era apropiado para su propósito. La ciencia no sólo tiene límites sino grandes poderes que pueden destinarse a resolver preguntas objetivamente enunciadas del mundo exterior y es limitada su capacidad en solucionar cuestiones que involucran valores morales o estéticos. El reclamo de soluciones científicas para los problemas sociales a veces son tentadores pero se acercan a posiciones políticas equivocadas más que lograr resultados exitosos esperados. El científico, en determinadas oportunidades, no aprecia las diferencias entre la ciencia y los problemas que incluyen valores, y con humildad debe aprender a no generar expectativas públicas frustrantes a mediano y/o largo plazo. Por consiguiente, hay que comprender las diferencias entre las ciencias naturales y las sociales para evitar y/o reducir las odiosas comparaciones: no puede la ciencia responder a controversias sociales, pero puede ayudar a reconocer que dichos problemas involucran no solo valores sino también otros factores (biológicos, toxicológicos, etc) que le permiten a la ciencia ejercer una crítica enérgica y útil. Uno de las desventajas del avance científico en determinadas áreas donde es exitosa es que muchos intelectuales desviaron la atención en advertir la temprana preocupación si la principal existencia es de los principios o por el contrario de los valores e intereses conflictivos contra los cuales se ha de enfrentar. Más allá de mellar muchas creencias de tradiciones religiosas, se ha originado un nuevo conflicto: la debilidad del consenso moral. La inevitable y comprensible reacción ha sido fuente de un antiguo antagonismo con la ciencia. La búsqueda de un fuerte consenso en valores y una gran cohesión social, beneficiará más desde la claridad de las relaciones entre la ciencia y los valores que desde cada una de las partes intervinientes. Se asume que la ciencia está aquí para quedarse, pero a la sociedad en general este crecimiento inédito de la ciencia y la tecnología la hace temer entrar en una era sombría. [ 143 ]
Fuera del limitado espectro del método científico, otra limitación es la imperfección en muchos casos en la búsqueda del apropiado acercamiento y se da muchas veces por casualidad con el método adecuado. Cuando se prueba la experimentación a una cuestión aparentemente sencilla en un campo de estudio bien definido,61, 62 el sendero es a menudo tortuoso, con muchas falsas opciones. En el edificio de la ciencia, muchos ladrillos pueden reemplazarse por otros antes que el defecto pueda ser revelado, demostrando así que los más importantes avances en la ciencia son rápidamente aceptados, 69 las incertidumbres en algunas áreas pueden originar extensas controversias: 67 ocasionalmente se sugiere la existencia de fraude científico, 84 cuando es imposible de verificar.85 Muchas veces la pasión puesta en la investigación en perseguir una línea de trabajo origina tensiones y pérdida de la objetividad: el científico quiere probar que no está equivocado y ve “más allá” de los verdaderos resultados obtenidos. 86, 88 La responsabilidad de aceptar su correspondencia con la realidad,90 hace que las reacciones iniciales a la nueva propuesta sean influídas tanto por modas, prestigio de los investigadores, relaciones públicas-comerciales, rivalidades de grupos de investigación y la fuerza de las necesidades de aceptación de las novísimas ideas. Por eso, es tan difícil la adhesión a nuevas líneas de investigación o de sus resultados. 87, 91
Características generales de la investigación científica Se debe desarrollar la investigación bajo ciertas condiciones para describir hasta comparar e inferir la mejor decisión a seguir desde los resultados obtenidos. En los experimentos donde se tratan de probar diferencias entre variables, es necesario tener un grupo control para saber si los cambios presentados se deben al experimento en sí. En biología hay oposición no solamente por la complejidad de los sistemas analizados sino también por las variaciones acostumbradas por la evolución: dentro de las especies frecuentemente no hay 2 miembros idénticos. Estas fuentes de variaciones originan resultados conflictivos y son “culpables” de sorpresas. En tanto que los avances científicos siguen una aparente vía con nuevos hallazgos y técnicas que responden a nuevas cuestiones a solucionar, en muchos fructíferos descubrimientos se puede señalar que a menudo existió un encuentro accidental con algo inesperado llamado suerte o azar. Sólo quien esté preparado para “advertir” esta casualidad, sabrá sacar provecho de estas situaciones. Recordar que Fleming, cuando “descubrió” la penicilina, estaba rodeado de investigadores tan famosos o más que él y solo quien fuera posterior Premio Nobel se “dió cuenta” de la revelación. Como diría Pasteur “en el campo de la investigación la posibilidad favorece solo a mentes preparadas”. Es muy común prepararse intelectualmente reteniendo el acceso a adecuados bloques de información actualizada que permitan la interesante asociación de ideas y resolver el paso del pensamiento abstracto al concreto o viceversa sin obstáculos (15). Hay que “tener olfato” para saber distinguir lo importante de lo trivial y pasajero en la información bibliográfica analizada (4), de similar entidad a un buen diseño de protocolo de experimentación, prerrequisito para reconocer resultados inesperados. Por otro lado, asumir que la evidencia objetiva puede eventualmente ser la culpable de la representación fidedigna de la realidad, en muchas ocasiones confronta con las hipótesis propuestas. Esta es una de las intransigencias de la ciencia: el criterio de la evidencia objetiva como base de cualquier investigación. Como decía Marañón “una bella hipótesis puede ser [ 144 ]
destruída por una fea realidad”. Por eso, los investigadores son particularmente impacientes cuando se presentan en la prensa no científica evidencias o grotescos argumentos creando falsas expectativas a la sociedad. 5
Modos de almacenamiento y acceso a la información: publicaciones y bases de datos Difusión de los conocimientos Al admitir que un “byte”35, 36 permite almacenar una información determinada con características similares al alfabeto, y que por lo tanto una publicación científica escrita en “bytes” en un medio electrónico es similar a una palabra, número o parte de un gráfico, se redefine entonces que un artículo científico escrito en “bytes” es semejante a la transmisión de información mediante papel: escribir un artículo científico y que los lectores lo lean mediante un sistema de computación es de igual significación que leer una tradicional revista científica. Internet es una de las más conocidas redes electrónicas de sistema abierto, que cuenta con aproximadamente algo más de 1000 millones de usuarios en todo el mundo3 y es una red de redes electrónicas. Su uso, facilitado por su relativo bajo costo, facilidad de acceso, rapidez en la comunicación, tiene distintas herramientas informáticas para ofrecer (TELnet, Gopher servers, FTP, World Wide Web servers). La mayoría de los centros académicos pueden penetrar en el ciberespacio, y esto transformó a la computadora u organizador personal (la popular PC) en una formidable herramienta multimedia que puede ser manejada razonablemente para muchos emprendimientos de investigación. El gran número de recursos técnicos, científicos y biomédicos existentes al “internarse” en esta red es de particular interés para el mundo de la medicina. Muchos centros médicos, grupos de investigación y hasta organizaciones gubernamentales (como el National Institutes of Health) o no gubernamentales (Organización Mundial de la Salud, UNESCO, etc) ofrecen sus servicios y facilitan la comunicación de sus informaciones. Una de las redes enlaza directamente a 450 instituciones de enseñanza superior y centros de investigación en los Estados Unidos y se llama sistema BITNET.3 A su vez sirve de sostén al sistema BITNITS de la National Library of Medicine, de Washington, principal biblioteca de medicina en el mundo y responsable del Index Medicus y su versión en CD-ROM, el Medline. Otra de las redes es el MEDIS que la Asociación Médica Americana usa para difundir el texto completo de los artículos publicados en sus diversas revistas científicas como el JAMA, Archives of Internal Medicine, Archives of Dermatology, entre otras. Al existir diversas maneras de transmisión de la información científica,103 algunas como los CD-ROM (discos compactos con memoria solamente para lectura. En inglés, Compact Disks Read-Only Memory), que se leen con las computadoras, o el correo electrónico (Email), medio de divulgación electrónica, tal vez el más popular a nivel nacional e internacional que permite enviar un mensaje, una carta, una fotografía, una hoja de cálculos, una base de datos o un documento escrito mediante el sistema telefónico conectado con una computadora o cientos de ellas según sea su destino, se amplía la difusión de conocimientos (nuevos, o ya vistos pero sin publicación previa) al expandir e interconectar a los investigadores, sin importar en que lugar del planeta Tierra se encuentren. [ 145 ]
Una herramienta a considerar es la telaraña o www (“world wide web”) o simplemente “web”, interfase de la red de computadoras interconectadas que tiene un complejo y atractivo formato (las páginas web) donde se intercalan figuras con texto y que posee un localizador uniforme de recursos, transmitido mediante un protocolo de transferencia de hipertexto (el famoso “http”); se escribe por medio de un lenguaje especial (“html, hypertext markeup language”). Los programas que usan la “web” están disponibles en muchos sistemas operativos de sistemas de computación: simplemente al teclear (y marcar) o resaltar un texto en la pantalla de computación, el usuario puede navegar (o “surfear”) en la red de Internet en busca de información. De esta manera, crear con buena calidad una página “web” no es tan dificultoso como lento de hacer, pero se deben seguir diversas guías que caracterizan la autoría de la telaraña (“web”). Existen criterios de autoría protegidos por leyes (3), similares a todos los conocidos en la actualidad (especialmente en libros, revistas, videos, películas, etc), con reconocimiento expreso de la propiedad intelectual y un importante interés comercial no bien advertido en los países en desarrollo. En determinadas especialidades médicas como la radiología, el uso intenso de imágenes puede ser beneficioso para la educación de especialistas, al existir en diferentes lugares del mundo “depósitos” de información radiológica que estén siempre disponibles al alcance de los usuarios de esta red de redes como es Internet. Una de las desventajas, por más que se encuentre la información en las páginas “web”, es que esto no asegura su búsqueda y que tenga una aplicación práctica de consulta. No existe un acceso universal a Internet por ahora, aunque se predice que en los próximos años todo el mundo lo tendrá facilitado.3 También otra dificultad es comunicar resultados preliminares de estudios de investigación que puedan originar técnicas o terapéuticas dañinas para los pacientes. Por eso se deben considerar los artículos que hayan sido aprobados por sistemas de revisión de revistas o comités de ética. Ciertas revistas como el New England Journal of Medicine plantean la necesidad de seguir la regla de Ingelfinger51 que establece no publicar aquello que no ha sido sometido a revisión por pares o si ya fue publicado con anterioridad. Se considera a la presentación de un artículo en correo electrónico como una publicación científica formal, aunque sólo sea un resumen o “abstract”. La revisión por pares (“peer review system”) es fundamental para mantener la calidad de la información provista por las revistas científicas, aunque estas sean electrónicas o sólo usen el correo electrónico como medio de difusión.3 Se advierte que si se utiliza la red Internet para solamente artículos preliminares, en muy poco tiempo las revistas científicas convencionales podrían publicar muy poco, por haber sido la información ya publicada mediante otra forma. Otra forma de divulgación de un artículo científico mediante Internet es su disponibilidad en un simple formato que almacena un documento. A esto se llama Portable Data Format (PDF) que necesita un programa especial para su lectura (muchas veces se descarga gratis de Internet, el programa Acrobat Adobe Reader, en varias versiones). También el artículo científico escrito para una revista electrónica, parece ser una vía actual en amplio proceso de expansión, como una nueva manera de comunicación propuesta que es la presentación en PowerPoint de archivos que semejan artículos de una revista3 en virtud de ser una estructura capaz de capturar información tecnológica (IT en inglés) con su procesamiento, almacenamiento, filtrado y distribución. Así se reconocen condiciones para que el manejo del conocimiento entre pares (científicos, especialistas médicos, etc.) sea [ 146 ]
completo en una flamante forma. Una desventaja es no poder evaluar cómo son presentados los manuscritos al sistema de revisión por pares: hay que actuar con la misma metodología porque actualmente es el tiempo de la evidencia basada en la comunicación científica, pasible también de una estricta evaluación para no trasmitir conocimientos de escasa o nula importancia. Así se han visto diferencias entre la revista tradicional y aquella hecha en PowerPoint, 3 donde además hay un proceso de post-revisión por pares en el cual se evalúa la calidad al final de la presentación de PowerPoint. La más novedosa idea, aún sin ejecución, fue presentada en Recife, Brasil, durante un Workshop de Editores científicos en septiembre de 2004. En una Mesa Redonda denominada “Experiencias positivas/innovadoras de algunas revistas científicas brasileñas”, se propuso la unión de un conjunto de Editores científicos que cree un sitio WEB, y en él se colocarían electrónicamente los nuevos artículos que estarían protegidos por un certificado digital.100 Los editores estarían constantemente tomando conocimiento de las informaciones que se almacenan y aquellas que fueran de calidad e interés para las revistas tradicionales serían seleccionadas electrónicamente para una mayor difusión vía impresión en papel. Por otro lado, la publicación en papel se ve paulatinamente limitada debido al progresivo aumento del costo de su materia prima (el papel), además de tornar complejo el continuo almacenamiento de publicaciones impresas porque el espacio es limitado y de alto valor económico. Internet ofrece, entonces, soluciones a estos problemas al cambiar drásticamente la forma como los científicos comunican el resultado de sus investigaciones. Revisión Editorial Todas las posibles formas de futuras publicaciones tienen como característica común dar una mayor agilidad al proceso de publicación del conocimiento científico. Se pretende así ayudar principalmente a los nuevos graduados en el proceso de elaboración de manuscritos de conocimientos con creciente valor cualitativo y de interés,100 y atender la elaboración de nuevas cuestiones, basados estos en problemas de la práctica asistencial. Por lo tanto, es absolutamente necesario conocer las actividades de los cuerpos editoriales para, de esta forma, saber si se cuenta con interlocutores válidos ante la evaluación de un manuscrito original:3 no se puede exigir evaluación imparcial y perfecta donde no haya un cuerpo u órgano editorial sin interpretar acabadamente sus funciones y responsabilidades,92, 106 que use pautas internacionales de edición y asimismo sea reconocido por entidades editoriales como el Comité Internacional, Consejo de Editores Científicos, Asociación Mundial de Editores, Asociación Europea de Editores, etc, entes que cumplen funciones de investigación y docencia en esta particular área de la publicación científica. Precisamente en 1988, el Comité Internacional de Editores de Revistas Médicas agregó normas para presentar por escrito los aspectos estadísticos de la investigación89 o intensificar en aspectos gramaticales del manuscrito para facilitar su claridad y precisión. 34 Recordar que una buena redacción es como una pecera: si el vidrio está opaco impedirá ver a los peces pero si es transparente y claro se apreciará en toda su magnitud la belleza de su contenido. 3 Lo mismo ocurre con un original bien redactado. Este procedimiento de revisión por pares de todo manuscrito original10, 107 no es un capricho de los editores sino que constituye la piedra fundamental de la idea de publicar úni[ 147 ]
camente aquello con valor y poseedor de una metodología científica eficaz, luego de una evaluación exhaustiva de su contenido y forma. De este modo, se evitarán hipótesis confusas o no probadas, triviales o hasta peligrosas.26, 102, 104 Se solicitará el consentimiento informado de los pacientes involucrados en el escrito,19 distinguir si se publica para un evento científico o una revista biomédica,3 o si es la divulgación de conocimientos a la comunidad no científica20, 78 o un original método de enseñanza a estudiantes y jóvenes graduados. Para ello es ventajoso comprender si efectivamente el autor es quien realizó la investigación, 3 si se realizó una previa y profunda evaluación de la literatura pertinente, 3 con adecuada selección de revistas consultadas73 y recuperación de citas atinentes95 que permiten la formulación de preguntas apropiadas a la idea de investigación, sin dejar de lado ni las evidencias31, 53, 96 ni todas aquellas explicaciones científicas necesarias. 3, 29 Recordar que la ausencia de evidencia no es evidencia de ausencia de importancia de los resultados obtenidos,1 Se detectará y excluirá toda conducta catalogada como incorrecta desde el punto de vista ético76, 101 como formal 28 ni publicar probadamente resultados intrascendentes o muy preliminares.40 Por estas razones, que no son todas las involucradas en un artículo científico que es el corolario final de toda investigación científica (experimental u observacional), cada autor/investigador debe estar dispuesto a ampliar sus lecturas de trabajos y/o áreas de investigación,44, 45, 66 para asegurar la calidad del material escogido y ser la base para la elaboración de un marco teórico3 y definir así qué clase de artículo científico es el mejor para enumerar sus resultados. Asimismo, tendrá en consideración su forma de presentación, 56, 65 el detalle de complejos diseños de investigación70 o si la revista a enviar el manuscrito original es la más apropiada para sus observaciones;3 igualmente si es preferible su difusión por vía electrónica36, 51 o la tradicional en papel. La decisión final de aceptación o rechazo del manuscrito, luego de su revisión editorial, no es más que la búsqueda de la excelencia en las publicaciones39 para no proponer insignificante o irrelevante información, con errores graves en su intentada originalidad o sin destacar la precedencia de otros autores en la idea investigada, uso excesivo de auto-citas bibliográficas (como si uno fuera el único que estudió ese tema) o con defectos de forma. Por eso, antes de la entrega del manuscrito a la editorial correspondiente para su evaluación, averiguar con “un par de ojos nuevos y frescos”, como si se lo leyera por primera vez, si está a prueba “de balas”3 desde todos los aspectos posibles a considerar en una revisión para que no sea rechazado.80 No olvidar que la salud pública debe ser preservada y por lo tanto, sólo investigaciones cuyos resultados fueron evaluados por árbitros y/o especialistas certificados mediante el proceso de revisión editorial, como también el prestigio y la reputación de los autores y la revista implicada, exigen un cuidado especial en el manejo del manuscrito, excluyéndolo si la información contenida es dada a conocer por otra vía no evaluada científicamente:42 recordar el caso de Robert Gallo que primero se preocupó en dar a publicidad por periódicos no científicos el “supuesto descubrimiento del virus del SIDA-HIV” y luego se probó que todo era falso.78 La responsabilidad de la publicación de investigaciones inexistentes no debe recaer exclusivamente en los editores que las permiten16 sino también en los lectores que están siempre comprometidos con el contenido al admitir aquellos notoriamente engañosos, confusos al entregarse en formato electrónico49 o provenir del mundo en desarrollo68, 105 donde se aduce que los sistemas de revisión no existen o son muy inverosímiles.79, 105 En más de la mitad de [ 148 ]
los casos no hubo respuestas por parte de los autores ante reclamos y/o preguntas de los lectores,48 con lo cual invalidaban y distorsionaban peligrosamente el nuevo conocimiento clínico presentado. Los autores creen poseer grandes ideas y saber escribir maravillosos artículos,71 pero no conocen en realidad cómo se hace el trabajo; por esta simple razón es que los editores esperan de los investigadores/autores que comprendan y acepten las decisiones editoriales y que dicho procedimiento debe permanecer en el anonimato con una demanda de bastante tiempo de revisión;77 el resultado final es la mejoría del trabajo expuesto inicialmente. Si los equívocos de los autores son responsabilidad del cuerpo editorial por no ser evidente lo que se pide al evaluar y reaccionar como si se exigiera algo utópico o irreal,93 es innegable que los trabajos no se reformarán y el complejo tramado de edición de una revista3 se transformará en un intrincado galimatías de muy difícil resolución. Se comprometerá a mejorar la calidad como si fueran informes sucintos que delimiten el problema y sus posibles soluciones probadas.94 También deberán recordar los autores que los consensos han sido ampliamente usados desde hace mucho tiempo como forma de ayuda para la distribución de recursos o en la toma de decisiones: se disminuirán los sesgos durante la investigación y se evitaran decisiones unilaterales del investigador, supuestamente más famoso, para interpretar equívocamente la realidad de los resultados logrados. Métodos de consenso universalmente aceptados son el Delphi y la técnica del Grupo Nominal;6 en estos métodos existe una combinación, casi perfecta, de la síntesis de evidencia científica y la interacción intelectual y experimentada de los expertos. Las Recomendaciones y Guías que se obtienen para la Práctica Clínica, fin último de la mayoría de las investigaciones, se basan en la lectura crítica de literatura científica previa, y por lo tanto, es necesario conocer toda la información relacionada con un tema específico de investigación, con selección y resumen en función de su aportada calidad. Con el fin de analizar la calidad de la información en cuanto a las Guías de práctica clínica, una iniciativa europea (AGREE) produjo un listado de criterios útiles para su lectura crítica (www.agreecollaboration.org).6
Reflexión final No hay fin del progreso científico-tecnológico ni final de la difusión de las revistas científicas porque involucraría la falta de investigaciones; por eso empezar ahora mismo una investigación, ya sea para escribir la Tesis nunca realizada, una revisión actualizada de un tema que interesa especialmente y de utilidad práctica asistencial o un caso clínico observado que demandó un tiempo mayor de preocupación intelectual. El tiempo es hoy y ya están presentes las formas imaginables del artículo científico del siglo XXI a disposición de todos, según el tipo de investigación a desarrollar y las consecuencias de ésta (Mapa Conceptual 1):
[ 149 ]
Mapa Conceptual 1:
investigación científica
recurso que identifica Causas de enfermedad
Dilemas Éticos
a través de
analizado con
Investigación Básica
Principios y Reglas
Inventigación Clínica que implican
para velar por Interés del paciente
Decisiones y resolver Problemas actuales
Los avances científicos dependen tanto de poner “las manos en la masa” (la práctica de la observación, clínica o experimental) como de tener ideas y nuevos conceptos (formar la teoría) para recíprocamente disponer tanto de la inteligencia como de la habilidad de manipular herramientas o instrumentos que permitan el progreso de la evolución humana, con orgullo y sin prejuicios de ningún tipo.64 Así como se enseñó a ser investigador profesional, 21, 29 también se debe aprender a ser autor. Parafraseando a Marañón, investigadores/autores, a las cosas!!!!
Referencias 1. 2. 3. 4.
Altman DG, Bland M. Absence of evidence is not evidence of absence. BMJ 1995;311:485. Andrews LB. Genes and patent policy: rethinking intellectual properties rights. Nature 2002;3:803-7. Arribalzaga EB, Borracci RA, Giuliano RJ y Jacovella PF. El artículo científico. Del papiro al formato electrónico. Editorial Magíster Eos, Buenos Aires, 2005. Arribalzaga EB y Mihura ME. Cirugía basada en la evidencia: moda, mito o metodología moderna? Rev Argent Cirug, 2001;81(1-2):18-29. [ 150 ]
5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31.
Arribalzaga EB. Dilemas de investigación científica. Anal Fac Medicina Univ May San Marcos 1997;58(2):149-152. Asua J. Conferencias de consenso basadas en la evidencia. Gac Med Bilbao 2006;103:3-6. Bachelard G. La formación del espíritu científico. Editorial Argos, Buenos Aires, 1999, 22ª. Edición. Bachrach SM. Scientific journals of the future. American Academy of Arts and Sciences, 2005. Barcat JA. Original e interesante. Rev Méd Rosario, 1992;60(1):42-43. Baue AE. Peer and/or peerless review. Arch Surg, 1985;120:885-6. Beecher HK. Ethics and clinical research. N Engl J Med 1966;274(24):1354-1360. Berkwits M. From practice to research: the case for criticism in an age of evidence. Soc Sci Med 1998;47(10):1539-1545. Bhandari M, Busse J et al. Association between industry funding and statistically significant proindustry findings in medical and surgical randomized trials. CMAJ 2004;170(4):477-80. Bhutta ZA. Ethics in international health research: a perspective from the developing world. Bull WHO 2002;80(2):114-120. Borracci R, Arribalzaga EB y Chiappetta Porras LT. El pensamiento abstracto en el nivel universitario. Rev Argent Cirug, 1997;72:123-30. Brice J, Bligh J. Author misconduct: not just the editor’s responsibility.Med Educ 2005;39(1):83-9. Bunge M. La investigación científica. Siglo XXI Editores, Barcelona, 2000. Caminiti C, Scoditti U, Diodati F and Passalacqua R. How to promote, improbé and test adherence to scientific evidence in clinical practice? BMC Health Services Research 2005;5:62 Disponible en http://www.biomedcentral.com/1472-6963/5/62. Clever LH. Obtain informed consent before publishing information about patients. JAMA, 1997;278(8):628-9. Cooper C. Writing for the popular press: to inform and entertain.Hosp Medicine, 2001;62(6):364-5. Cruess SR, Cruess RL. Professionalism must be taught. BMJ, 1997;315:1674-7. D’Negri CE, De Vito EL. Introducción al razonamiento aproximado; lógica difusa. Rev Arg Med Resp, 2006;4:126-136. Davis BD. The scientist’s world. Microbiol Mol Biol. Rev, 2000;64(1):1-12. Decullier E, Lheritier V, Chapuis F. Fate of biomedical research protocols and publication bias in France: retrospective cohort study. BMJ 2005;331:19-25. del Pino J. EEUU probó en Africa un fármaco antiSida sin develar sus riesgos. El País 10/01/2005. Dietrich H. Nueva guía para la investigación científica. Editorial 21, Buenos Aires, 1999. di Trocchio F. Las mentiras de la ciencia. Alianza Editorial, Madrid, 1998. Downes S. How to publish a scientific paper. Australian National University, 2005. Duran P. ¿Qué investigamos cuando investigamos? Arch Argent Pediatr 2006;104(4):292-294. Durand SE, Mombrú A (Compiladores). Encrucijadas del pensamiento. Análisis críticos del quehacer científico. Gran Aldea Editores, Buenos Aires, 2003. Editorial. The need and means for evidence-based medicine in developing countries. ACP Journal 2000; July/August: A-11. [ 151 ]
32. Elliot GC. A brief guide to understanding patentability and the meaning of patents. Acad Med 2002;77(12Pt2):1309-14. 33. Evett IW, Jackson G, Lambert JA. More on the hierarchy of propositions: exploring the distinction between explanations and propositions. Sci Justice, 2000;40(1):3-10. 34. Eyssautier de la Mora M. Metodología de la investigación. Desarrollo de la inteligencia. International Thomson Editores, México, 2002. 35. Flanagin A, Glass RM, Lundberg GD. Electronic journals and duplicate publication. Is a byte a word? JAMA,1992;267(17):2374. 36. Fontoura Costa L. Bioinformatics: perspectives for the future. Get Mol Res, 2004;3(4):564-574. 37. Frisse ME, Tova JN. The commerce of ideas: copyright in the digital era. Acad Med, 1996;71(1):4553. 38. García Marcos F. Investigación con seres humanos. Rev Fund Fac Med 1998;VII(27): 6-11. 39. Goldwyn R. Manuscript acceptance: excellence not favoritism. Plast Reconstr Surg, 2004;114 Suppl:22-23. 40. Goldwyn R. Preliminaryresults: facts or excuses? Plas Reconstr Surg, 2004;114 Suppl:32-33. 41. Gonzalez de Dios J. De la medicina basada en la evidencia a la evidencia basada en la medicina. Anal Esp Pediatria 2001;55(5):429-439. 42. 42. Hamad S. Ingelfinger over-ruled. Lancet 2000;356:s16. 43. Harvard Business Review. La gestión en la incertidumbre. Ediciones Deusto SA, Bilbao, 1999. 44. Haynes RB, McKibbon K A et al. Deciding which journals to read regularly. An Intern Med, 1986;105(2):309-12. 45. Haynes RB, McKibbon KA et al. Expanding the number of journals you read regularly. An Intern Med, 1986;105(3):474-8. 46. Heler M. Ética y ciencia: la responsabilidad del martillo. Editorial Biblos, Buenos Aires, 1996. 47. Hofmann B. The technological invention of disease. J Med Ethics:Medical Humanities 2001;27:1019. 2002;287(21):2843-2847. 48. Huth EJ. Is the medical world ready for electronic journals? Online J Curr Clin Trials, 1992 Jul 1;Doc No 7. Ingelfinger FJ. Purpose of the general medical journal. N Engl J Med, 1972;287(20)1043-4. 49. International Committee of Medical Journals Editors. Statements on electronic publication and on peer reviewed journals. Ann Intern Med, 1992;116(12):1030. Isaacs D, Fitzgerald D. Seven alternatives to evidence based medicine. BMJ, 1999:319:1618. 50. Jenkins D. Investigations: how to get from guidelines to protocols. BMJ 1991; 303:323-4. 51. Kates RW, Kasperson JX. Comparative risk análisis of technological hazards. Proc Nat Acad Sci USA 1983;80:7027-7038. 52. Kaufman JL. Protection of research sujects (Correspondence). N Engl J Med 2003;349(2): 188192. 53. Kauffmann R, Reyes H, Goic A. Various suggestions for the presentation of manuscripts in biomedical journals. Rev Med Chil 1991;119(8):933-7. 54. Kelch RP. Maintaining the public trust in clinical research. N Engl J Med 2002;346(4):285-287. 55. King DB, Dickinson JA, Boulton MR, Toumpas C. EBM Notebook: Clinical Skills Textbooks Fail Evidence-based Examination.EMB (Ed Esp) 2005;4:241-242. 56. Knietowicz Z. Medical journals are corrupted by dependence on drug companies. BMJ 2005;330:1169. [ 152 ]
57. Lede R, Abriata G, Copertari P. La medicina basada en las evidencias. Un movimiento cultural a favor de una mejor asistencia médica. Obstet y Ginec Lat Amer 1998;56 (5-6):305-311. 58. Lee JS, Urschel DM, Urschel JD. Is general thoracic surgical practice evidence based? Antorcha Surg 2000;70:429-31. 59. Lee KP, Schotland M, Bacchetti P, Bero LA. Association of journal quality indicators with methodological quality of clinical research articles. JAMA 2002;287(21):2805-2808. 60. Lemmens T. Confronting the conflict of interest crisis in medical research. Monash Bioeth Rev 2004;23(4):19-40. 61. Lock S. Pride and prejudice. BMJ 1989;298:1197. 62. Logan PM. Preparing and presenting a scientific paper. CARJ 2001;52(6):361-5. 63. Loke YK, Derry S. Does anybody read “evidence-based” article? BMC Med Research Methodol 2003;3:14-20. 64. Los padres de la oveja “Dolly” crean gallinas con genes humanos. El País, 14/01/2007. Disponible en: http://www.elpais.com.aertículo/sociedad/padres/oveja/Dolly. 65. Lown B, Bukachi F, Xavier R. Health information in the developing world. Lancet, 1998;352:3438. 66. Manterola C, Pineda V, Vial M, Losada H and MINCIR Group. What is the methodologic quality of human therapy studies in ISI publications? Ann Surg 2006;244(5):827-832. 67. McSherry DMG. Intelligent dialogue based on statistical models of clinical decisión-making. Statist Medicine, 1986;5:497-502. 68. Mee C. 10 lessons on writing for publication. J Infusion Nurs 2003;26(2):110-113. 69. Moses H, Martín JB. Academic relationships with industry. JAMA 2001;285(7):933-935. 70. National Library of Medicine. Journal selection for INDEX MEDICUS/MEDLINE, fact sheet sent by Elsevier Science inc, July 1991. 71. Norelle Lickiss J. Late lessons from Auschwitz- is there anything more to learn for the 21st century?. J Med Ethics 2001;27-137. 72. Nuffield Council on Bioethics. Etica de la investigación relativa a la atención sanitaria en los países en desarrollo. Stephemn Austin & sons Ltd, London 2002. 73. Office of Research Integrity (ORI). Managing allegations of scientific misconduct: a guidance document for editors. January 2000, http://ori.dhhs.gov 74. Organ CH jr. What an editor wants or expects from authors. BJS 2000;87:1123-1124. 75. 78. Papponetti M. Los siete pecados capitales de la prensa. http://intramed.net.actualidad/art1. asp. 76. Pellegrini Filho A, Goldbaum M, Silvi J. Production of scientific articles on health in six LatinAmerica countries, 1973-1992.Rev Panam Salud Publica 1997;2(2):121-132. 77. 80. Pierson DJ. The top 10 reasons why manuscripts are not accepted for publication. Respir Care 2004;49(10):1246-52. 78. Popper KR. La lógica de la investigación científica. Ed. Tecnos SRL, Buenos Aires, 1985. 79. Poynard T, Munteanu M et al. Truth survival in clinical research: an evidence-based réquiem?. Ann Inter.n Med 2002;136:888-895. 80. Raths LE. Cómo enseñar a pensar. Teoría y aplicación. Editorial Paidos, Buenos Aires, 1999. 81. Relman AS. The Ingelfinger rule. N Engl J Med 1981;305(14):824-826. 82. Rhodes R, Strain JJ: Whistleblowing in academic medicine. J Med Ethics 2004;30:35-39. [ 153 ]
83. Russell B. La perspectiva científica. Editorial Ariel, Barcelona, 1982. 84. Sabino CA. El proceso de investigación. Editorial Humanitas, Buenos Aires, 1989. 85. Saville DJ. Basic statistics and the inconsistency of multiple comparison procedures. CJExperPsychol 2003;57(3):167-175. 86. Salk J. Supervivencia de los que saben más. Emecé Editores SRL, Buenos Aires, 1975. 87. Schachman HK. On scientific freedom and responsibility. Biophysical Chemistry 2003;100:615625. 88. Schulkin J. Decision sciences and evidence-based medicine-two intellectual movements to support clinical decisión making. Acad Med 2000;75(8):816-818. 89. Shashok K. Los autores y las buenas prácticas de publicación: quien decide los criterios? Rev Panam Salud Publica 2004;15(1):4-8. 90. Shumak SL, Redelmeier DA. How to react when your colleagues haven’t read a thing. CMAJ 2000;163(12):1570-1572. 91. Smith R. Quality improvement reports: a new kind of article. BMJ 2000;321:1428. 92. Sood A, Erwin PJ, Ebbert JO. Using advanced search tools on PubMed for citation retrieval. Mayo Clin Proc 2004;79(10):1295-9. 93. 96. Soto M, Rada G. Formulación de preguntas en Medicina basada en evidencia. Rev Méd Chile 2003;131:1202-1207. 94. Spar D. The business of stem cells. N Engl J Med 2004;351(3):211-213. 95. Swets JA, Dawes RM, Monahan J. Better decisions through science. Scientific American 2000;october:70-75. 96. 99. Teixeira Brandt C. Editoracao cientifica: as duas faces-analógica e digital. Acta Cir Bras 2004;19(6):587-589. 97. 100. Thorsteinsdottir H, Quach U, Daar AS, Singer P. Conclusions: promoting biotechnology innovation in developing countries. Nature Biotech 2004;(22S):DC48-DC52. 98. Tomas y Garrido GM. Sabiduría ética e informacián científica. Persona y Bioética 2003;(19):3946. 99. Veloso de Franca G. Los riesgos de la medicina basada en evidencias. Conferencia, I Congreso Internacional y Segundas Jornadas de gestión de riesgos en atención de salud, Santiago de Chile, 11-12/abril/2003. 100. Vos R, Willems D, Houtepen R. Coordinating the norms and values of medical research, medical practice and patient worlds-the ethics of evidence based medicine in orphaned fields of medicine. J Med Ethics 2004;30:166-170. 101. Wainerman C, Sautu R (compiladoras). La trastienda de la investigación. Lumiere, Buenos Aires, 2001, 3ra. Edición ampliada. 102. Weisinger JR, Bellorin-Font E. Access to medical information in Latin America. Lancet 2000;356:s15. 103. Whitcomb ME, Walter DL. Research training in six selected internal medicine fellowship programs. Ann Intern Med, 2000:133:800-807. 104. Young SN. Peer review of manuscripts:theory and practice. J Psychiatry Neurosci 2003;28(5):327330.
[ 154 ]
Capítulo 12
Comité de Ética e Investigación Clínica
Luis María Ziehr
Rubén F. Iannantuono
José Luis Cacharrón
H
oy como nunca en la historia de la terapéutica se cuenta con fármacos considerados seguros y eficaces. Este desarrollo en la terapéutica moderna se ha conseguido gracias a las investigaciones clínicas. En sus comienzos, las investigaciones clínicas utilizaron el método ensayo y error sin que se tomase debidamente en cuenta los derechos de las personas expuestas a riesgo. Así, con esta metodología, se obtuvieron grandes avances junto a errores importantes (teratogenia por talidomida) y violaciones a los derechos de las personas (estudio de sífilis en Tuskegee, investigación con radiaciones en mujeres embarazadas pobres en Tennesse e investigación con anticonceptivos en mujeres mejicanas en San Antonio, entre otros). Actualmente, las investigaciones clínicas se realizan siguiendo el método científico y normas de buena práctica clínica, para asegurar la calidad científica y el respeto de los derechos de las personas. Los avances de la ciencia y la tecnología biomédicas y su aplicación en la práctica de la medicina están provocando cierto grado de inquietud pública, al enfrentar a la sociedad con nuevos dilemas éticos. Esta expresa su preocupación respecto a posibles abusos originados en la investigación científica y en la tecnología biomédica. Ello resulta comprensible en vista de la metodología de la investigación experimental biomédica. Pero, en los últimos años, muchas personas, tanto en los países desarrollados como en desarrollo, han comenzado a ver no sólo los riesgos sino también los aspectos beneficiosos de la investigación en seres humanos; de hecho, hay beneficiarios potenciales que procuran ahora activamente participar en ese tipo de investigación, en especial las relacionadas con ensayos de nuevas terapias.
Investigación clínica versus terapéutica Mientras que la investigación clínica es una actividad diseñada a partir de una hipótesis experimental previa, con el objeto de obtener resultados que permitan una inferencia científica extrapolable a toda la población a partir de la aceptación o rechazo de la hipótesis, la terapéutica es la aplicación a una persona de una determinada técnica o medicamento con el único fin de prevenir, mitigar o curar una dolencia en esa persona dentro de una cierta expectativa de éxito, sin pretender generalizar el resultado obtenido a la población. [ 155 ]
En la investigación y desarrollo de medicamentos existen etapas a cumplir perfectamente establecidas, que parten de la Farmacología preclínica y se continúan con las de la Farmacología Clínica, en donde el ensayo clínico es la herramienta para medir la eficacia y seguridad de los medicamentos. Mientras que en la Farmacología preclínica los estudios se realizan en animales de experimentación, en la clínica es el ser humano el sujeto experimental; así podemos definir al ensayo clínico como un experimento que se realiza con seres humanos y que persigue objetivos correctamente definidos, que deben ser alcanzados siguiendo una metodología científica válida dentro de un marco ético aceptable. De la misma manera que en la práctica asistencial habitual, en la investigación clínica experimental, es deber del médico proteger la vida, la salud, la intimidad y la dignidad del ser humano.
¿Qué significa ser paciente y ser voluntario? Toda persona que hace una consulta médica como paciente habitualmente obtiene un diagnóstico y un tratamiento pero, si se la invita a participar a un ensayo clínico, pasa a ser paciente voluntario si da su consentimiento. Así, una persona no tiene obligatoriamente que ingresar a una investigación clínica para recibir un tratamiento adecuado para su enfermedad. El Comité de Etica en Investigación Clínica (CEI) es un organismo que tiene como misión evaluar la ética de los ensayos clínicos tomando en consideración tanto aspectos metodológicos como los que tienen que ver con la autonomía de las personas. Es decir, salvaguardar los derechos de las personas y en especial, de las consideradas vulnerables. Para ello, un CEI debe evaluar primero la calidad científica y justificación ética de un protocolo para luego abocarse a la evaluación y aplicabilidad del consentimiento informado, que tiene relación directa con la autonomía de las personas.
Responsabilidades de un CEI
Las responsabilidades más relevantes son las siguientes: • Proteger los intereses de los participantes de la investigación y asegurar que los resultados sean previsiblemente útiles para los grupos a los que pertenezcan los voluntarios según género, edad, enfermedad o alguna otra particularidad. • Evaluar la investigación propuesta antes de su inicio y durante todo su desarrollo hasta su finalización mediante revisiones continuas con una frecuencia predeterminada. • Aprobar, desaprobar o aconsejar modificaciones a todo ensayo clínico puesto a su consideración. • Salvaguardar la confidencialidad de todos los documentos y comunicaciones que reciba de todos los participantes en ensayos clínicos (pacientes, voluntarios sanos, investigadores, solicitantes). [ 156 ]
• •
•
• •
•
Considerar la competencia de los investigadores y revisar los contratos entre el patrocinador y el investigador y/o institución. Requerir, cuando corresponda, que se proporcione información adicional en tiempo y forma a las personas voluntarias participantes en un ensayo clínico que pudiera dar mayor relevancia a la protección de los derechos, seguridad y/o bienestar de las personas. Actuar en el completo interés de los voluntarios (sanos o enfermos) de la investigación y de las comunidades involucradas dentro del contexto regulatorio vigente en la Argentina y de las normativas internacionales en la materia. Evaluar la pertinencia del pago a los voluntarios por participar en una investigación y establecer (de corresponder) tanto la cantidad como el método. Asegurar que tanto la cantidad como el método de pago no vulnere la autonomía que todo voluntario debe tener al momento de tomar la decisión de participar o de continuar participando en un ensayo clínico. Asegurar que toda información referente a pagos y reintegros a los voluntarios participantes en un ensayo clínico (método, cantidad, prorrateo, etc.) esté correcta y claramente estipulada en las hojas de información para el voluntario, y en el consentimiento informado escrito de tal forma que el voluntario pueda comprenderla fácilmente.
Funciones y Composición de un CEI Un CEI debe realizar una exhaustiva evaluación técnica de los protocolos que se someten a su consideración, previa a sus sesiones programadas, de modo tal que los integrantes del CEI tengan elementos de juicio que los ayuden a fundamentar sus decisiones en un ámbito de total autonomía en el que pueden a voluntad, aceptar total o parcialmente, o directamente rechazar el protocolo considerado. Un CEI debe estar preparado para recibir consultas de voluntarios (pacientes o sanos) y de sus familiares, para asesorarlos en relación a sus derechos y deberes como participantes antes, durante y luego de la participación en un ensayo clínico. Esta actividad debe quedar debidamente registrada. Un CEI debe estar compuesto por miembros con capacidad y experiencia para revisar y evaluar los aspectos científicos, médicos, jurídicos y éticos de los estudios que se le proponen, libres de sesgo e influencias que pudieran afectar su independencia. Un CEI debe ser multidisciplinario y multisectorial en su composición, los miembros de diferente sexo, credo y al menos uno de ellos, que se desempeñe en un área no científica como representante de la comunidad. Un CEI, por ejemplo, puede estar constituido de la siguiente manera: a) Miembros evaluadores participantes de las reuniones ordinarias y extraordinarias con derecho a voto y con el perfil general descrito anteriormente; b) Cuerpo técnico para la evaluación metodológica previa de los protocolos de investigación y para el análisis de eventos adversos, informes de avance/finales, desviaciones/ violaciones a los protocolos entre otras actividades a su cargo. Debe estar integrado [ 157 ]
por profesionales con experiencia en metodología de la investigación científica, entrenamiento en normas/regulaciones/lineamientos a los que adhiere el CEI relacionados con la investigación clínica y estudios en áreas relacionadas con la salud de no menos de 5 años; c) Area administrativa para la distribución de la documentación entrante y para el procesamiento de los documentos generados por el CEI y para el archivo adecuado de todos los documentos entrantes y copia de los salientes. d) Un asesor para voluntarios participantes en ensayos clínicos encargado de asesorarlos en relación a sus derechos y deberes como participantes o futuros participantes en una investigación clínica. El responsable de la asesoría a pacientes debe ser un miembro del cuerpo técnico. e) El CEI debe realizar sus tareas en sesiones programadas contando con por lo menos 5 miembros que colectivamente tengan la capacidad y experiencia para revisar y evaluar los aspectos científicos, médicos y la ética de los estudios que se les proponen. Los miembros podrán ser hombres o mujeres y al menos: • Dos de ellos deberán tener amplia experiencia en las áreas de investigación y metodología en ensayos clínicos; • Un miembro deberá tener conocimientos de leyes; • Un miembro deberá ser representante de la comunidad. • La actividad de un CEI no debe circunscribirse a la evaluación y seguimiento de protocolos de investigación clínica. • Dentro de sus funciones está la de generar ámbitos de discusión y análisis de las distintas problemáticas relacionadas con la investigación clínica como, por ejemplo, conflictos metodológicos (placebo, submedicación y equivalencias) y conflictos pragmáticos (población vulnerable, situaciones de emergencia/urgencia, entre otros).
Conflictos éticos Múltiples son los conflictos que se presentan en la investigación clínica. Desde un punto de vista metodológico podemos resaltar el uso del placebo, la submedicación, la equiponderación y el proceso de randomización. Y, dentro de los que podemos denominar pragmáticos, la investigación clínica en pediatría y la toma de consentimiento informado en situaciones de urgencia/emergencia pueden ser buenos ejemplos.
Placebos La conveniencia metodológica para el uso de placebo (medicamento sin principio activo) y su justificación ética debe analizarse caso por caso y puede tener diferentes enfoques: Visión metodológica: el placebo es necesario por cuestiones científicas. [ 158 ]
Visión “ética”: los derechos y bienestar de los pacientes están por encima de la necesidad de uso de placebo por cuestiones científicas (visión compartida por la última versión de la Declaración de Helsinki). En una aclaratoria posterior a la declaración del año 2000, la Asociación Médica Mundial permite el uso de placebos en dos situaciones: si no hay riesgos mayores o daños irreversibles para los probandos, y si hay motivos científicos sólidos para el uso de placebos, lo cual constituye una flexibilización que recupera nuevamente el uso de placebos con argumentos contingentes.
Submedicación El uso de un medicamento de referencia subdosificado en los grupos control para evitar el uso de placebo podría aportar ventajas metodológicas pero, como contrapartida, podría someter a los voluntarios a todos los efectos negativos de una dosificación insuficiente de un principio activo (como por ejemplo, tolerancia, taquifilaxia entre otras). Por ello, también esta estrategia de investigación ha sido expresamente cuestionada por Helsinki al exigir que los grupos controles reciban los mejores métodos probados existentes.
Equiponderación Sólo en circunstancias clínicas con terapias alternativas aparentemente equivalentes o donde hay incertidumbres sobre el valor de una sobre otra, se da la situación de equiponderación, que justifica o requiere un estudio para decidir la mejor opción médica. La equiponderación clínica y toda otra equiponderación sólo tienen sentido como requerimiento normativo en ensayos clínicos bajo la suposición que los investigadores tienen una obligación terapéutica con los probandos, pero esa obligación terapéutica para investigadores...constituye una falacia terapéutica acerca de la ética de estudios clínicos. El objetivo de la equiponderación no está en reforzar la metodología científica, sino en la protección a los pacientes de ser expuestos como probandos a terapias insuficientes y riesgos innecesarios.
¿Es ética la randomización? El imperativo de equidad implica que todos los sujetos de investigación deben tener igualdad en la probabilidad de riesgos y beneficios independientemente de clase social, género, raza o cualquier otro atributo. En este sentido, la randomización puede considerarse ética porque sólo considera el azar.
[ 159 ]
¿Es ético hacer investigación clínica en pediatría? ¿Es ético no hacerla? Un porcentaje importante de medicamentos utilizados en pediatría no tiene sustento metodológico. Luego, es poco probable que se conozca el verdadero perfil de eficacia y seguridad de esos medicamentos utilizados con información obtenida de adultos. Por tal motivo, la tendencia actual es estimular la investigación clínica en pediatría para alcanzar en el mediano plazo una terapéutica farmacológica pediátrica basada en evidencia científica tal cual se realiza con los adultos.
¿Existe una única forma de consentimiento informado? Según las Guías de Buenas Prácticas Clínicas (GCP) es un proceso mediante el cual un sujeto confirma voluntariamente su deseo de participar en un estudio en particular, después de haber sido informado sobre todos los aspectos relevantes del mismo para que tome libremente la decisión de participar. El consentimiento informado se documenta por medio de una forma escrita que debe ser firmada y fechada. El imperativo del principio de autonomía es el derecho de dar el consentimiento válido antes de participar en una investigación respetando la: Veracidad: Información suficiente en cantidad y adecuada en calidad. Libertad: Ausencia de coacción externa o interna. Oportunidad: Tiempo suficiente del sujeto para decidir reflexivamente. Interactividad: Derecho al asesoramiento antes de la decisión final Formalidad: Consentimiento por escrito. Normalmente, la mayor parte de las investigaciones clínicas se realizan con pacientes ambulatorios o, de estar internados, cuentan con tiempo suficiente para la administración de un consentimiento informado estandarizado según GCP. Pero, ¿se puede realizar en situaciones de emergencia/urgencia? Claramente NO. Un consentimiento abreviado puede ser un adicional al consentimiento informado convencional de uso práctico en una situación de urgencia / emergencia, ya que permitiría respetar el principio de autonomía de mejor manera. Un consentimiento abreviado debería contener en no más de tres carillas (a lo sumo 4) con tamaño de letra no menor a 11 la siguiente información: 1. Título: 2. Datos generales: Número de protocolo: [ 160 ]
Patrocinante: Investigador Principal: Dirección Centro: Teléfono: 3. Introducción:
Objetivo. Informando que se trata de un Protocolo de investigación (explicando que es investigación: “droga/indicación/edad etc. que no ha sido aprobada aún”) Duración.
4. Tratamientos alternativos: Deben figurar todos los tratamientos alternativos, considerando que en emergencia en general no existen muchos tratamientos alternativos. 5. Voluntariedad 6. Riesgos: Todos los eventos adversos serios. Cláusula por daños (recordar que legalmente la Cláusula de no renuncia, está implícita aunque no esté colocada). 7. Beneficios: sólo debe constar que el paciente puede no tener beneficios. 8. Procedimientos: Este ítem debe contener sólo los procedimientos relacionados a la etapa aguda. Se debe explicar de ser necesario, la aleatorización, uso de placebo, procedimientos invasivos, etc. 9. Gratuidad 10. Firmas
La implementación del consentimiento abreviado va de la mano del reconsentimiento que debe siempre realizarse tan pronto como sea posible, ya sea cuando el paciente lo solicite y/o cuando el médico investigador lo considere oportuno.
Conclusiones El ensayo clínico controlado, entendiéndose como un experimento que se realiza en seres humanos siguiendo metodología científica válida y éticamente justificado, es una de las herramientas que garantiza y salvaguarda los derechos de los pacientes o voluntarios sanos enrolados. Es, también, el instrumento por el cual el paciente ingresa a un proceso terapéutico de elevada seguridad y respeto por los derechos de los pacientes, ya que recibe instrucciones por [ 161 ]
escrito sobre, por ejemplo, la forma en que debe administrarse la medicación, los medicamentos prohibidos, los procedimientos relacionados al protocolo junto a otro conjunto de pautas conductuales (por ejemplo, cláusula de no embarazo). Esto significa que el paciente conoce sus obligaciones (por ejemplo, cumplir con las pautas del tratamiento y con las visitas de seguimiento establecidas en el protocolo) y sus derechos que siempre puede hacer valer si considera que se han vulnerado. También el cumplimiento estricto de los procesos establecidos en un protocolo de investigación aprobado por un CEI por parte de los investigadores y su equipo y por las autoridades regulatorias (de corresponder) sumado al estricto apego de las normas internacionales: Good Clinical Practice (GCP), The International Conference on Harmonisation of Technical Requirements for Registration of Pharmaceuticals for Human Use (ICH), Food and Drug Administration (FDA), Agencia Europea de Medicamentos (EMEA) y locales: Administración Nacional de Medicamentos, Alimentos y Tecnología Médica (ANMAT), todas regulatorias de la investigación clínica en seres humanos, aseguran el respeto de sus derechos. Todo ello con el objetivo de propender al desarrollo de medicamentos o procedimientos terapéuticos no medicamentosos eficaces y seguros para prevenir, tratar o diagnosticar las enfermedades de los seres humanos entendidos como personas y mejorar sus condiciones de vida como bien supremo a salvaguardar.
Referencias 1. Beecher HK. Ethics and Clinical Research. N Engl J Med 1966; 274: 1354-60. 2. Calvo JM. Hiroshima en el Oeste. Bogotá, Colombia. Diario “Ocho columnas”, 25 de febrero de 1994: 4. 3. Caplan AC. Twenty year after: The legacy of the Tuskegge Syphilis study. When evil introduces hasting center report 1992; 22: 6-15. 4. Clayton EW, Steinberg KK, Khoury MJ et al. Informed consent for genetic research on stored tissue samples. JAMA; 274: 1786-1792. 5. Bauchner H, Sharfstein J. Failure to report ethical approval in child health research: review of published papers. Br Med J 2001; 323 : 318–319. 6. França O, Añón F, García C, Gravert R, Núñez J, Wodowooz O, Queirolo E. Etica en la investigación clínica. Una propuesta para prestarle debida atención. Rev Med Uruguay 1998; 14: 192-201. 7. Medical Research Council (MRC). MRC guidelines for good clinical practice. In MRC Clinical Trials Series . London: External Communications, 1998. 8. Food Drug Administration (FDA). International conference on harmonization, good clinical practice: consolidated guidelines. Federal Register 1997; 62: 25692–25709. 9. International Conference on Harmonisation of Technical Requirements of Pharmaceuticals for Human Use (ICH). Topic M4 Organisation of Common Technical Document for the International ethical regulations on placebo-use in clinical trials: a comparative analysis. Bioethics ISSN 0269-9702 (print); 1467-8519 (online) 2008; 22: pp 64–74 10. Josefson D. US researchers guilty of breaking safety rules. Br Med J 2001; 323: 69. [ 162 ]
11. International Conference on Harmonisation of Technical Requirements of Pharmaceuticals for Human Use (ICH). Topic M4 Organisation of Common Technical Document for the Registration of Pharmaceuticals for Human Use CPMP/ICH/ 2887/99. London: European Agency for the Evaluation of Medicinal Products, 2000. 12. Lázaro P, Pozo F, Rico JR. Dirección General de Ordenación de la Investigación y Formación. Ministerio de Sanidad y Consumo. Una estrategia de investigación en el sistema nacional de la salud (II): Investigación en servicios de salud Madrid. Med Clin (Barc) 1995; 104: 67-76
[ 163 ]
V. El médico como docente y comunicador público
capítulo 13
Investigación en Educación Médica
Alberto Alvés de Lima
Introducción La investigación en educación médica comenzó hace más de 30 años. Desde aquellos inicios ha ido creciendo hasta expandirse alrededor del mundo con intensidad creciente. Existen marcadas diferencias en los indicadores de avances científicos entre la investigación en educación médica y medicina.1 En medicina, los indicadores de avances científicos pueden medirse a través de puntos finales duros como la mortalidad, el infarto agudo de miocardio o un accidente cerebro vascular. En educación médica este tipo de puntos finales duros no existen por algunas razones: 1. Paradójicamente, diferencias evidentes en las estrategias educativas pueden no reflejarse en los puntos finales establecidos, por ejemplo desempeño profesional y carrera de medicina. Simplemente porque los participantes, estudiantes de medicina, están con una fuerte motivación, no están ciegos a las distintas intervenciones y compensan cualquier defecto que pueda presentarse durante la currícula. 2. Un programa o una currícula no funciona como una droga o un fármaco. La droga se aplica en dosis establecidas en horarios definidos y tiene al menos una cinética predecible. La currícula de una carrera no es posible dosificarla, tiene múltiples componentes o porciones que son administrados por diferentes docentes con diferentes niveles de calidad. 3. El tiempo entre la aplicación de la estrategia educativa y los resultados puede ser tan largo, que los efectos del programa podrían verse discutidos. La investigación en educación médica ha contribuido y contribuye enormemente a comprender los intrincados procesos de aprendizaje con el fin de mejorar sus resultados. En los últimos años, tanto la comunidad educativa como las autoridades universitarias están considerando a la evidencia en educación médica como una herramienta esencial en la toma de decisiones.1 Luego, el propósito de este capítulo es reflexionar sobre temas generales de investigación en educación médica. Analizaremos el significado del tópico de investigación, el valor de generar una adecuada pregunta de investigación y una hipótesis como pasos esenciales [ 167 ]
para el inicio de cualquier protocolo. Definiremos términos como variables operacionales y el concepto de validez y reproducibilidad de los resultados en investigación en educación médica.
Seleccionando un tema o un tópico de investigación El tema o tópico de investigación es un área de interés definida que es distinta de otras. 2 Si bien al inicio pueden ser de ayuda los temas amplios, será necesario ir seleccionando un tópico mas específico para poder avanzar en las diferentes etapas del proceso de investigación. Ej: a. educación medica, b. evaluación de competencias clínicas, c. herramientas para evaluar habilidades psicomotoras, d. Evaluación de Examen Clínico Reducido (EECR). 3 Existen 3 principios rectores para hacer la selección del tópico: Primero y principal es el grado de interés que el investigador tiene sobre el tópico. Esto no es menor, el proceso de investigación es largo, duro, lleno de sinsabores y en la mayoría de los casos los resultados suelen ser distintos a los esperados. Si uno genuinamente no siente una gran motivación para seguir ese tema lo mejor es descartarlo y pensar uno nuevo. El segundo principio es el concepto de factibilidad. Lo ideal es no pensar en cosas que por falta de recursos o participantes no podrán ser llevadas adelante. Pensar en algo que puede llevarse adelante es darle sentido al trabajo, estimulo fundamental para arribar a buen puerto. El tercero, considere siempre la posibilidad que el tema sea publicable en una revista científica.
Ejemplos de tópicos en educación médica A continuación se presenta una lista algunos tópicos de investigación que han sido investigados por residentes o estudiantes en nuestra institución Obviamente son sugerencias generales • Impacto educativo y herramienta de evaluación4 • Promedio de carrera y rendimiento en exámenes de selección para una residencia de cardiología5 • Validez y reproducibilidad de una herramienta de evaluación de la competencia clínica3 • Estilo de aprendizaje de un grupo de residentes de cardiología y tipo de exámenes6 • Calidad de una residencia y su relación con el mercado laboral7
Defina la pregunta de Investigación Una vez que tenemos delineado el tópico de investigación es esencial revisar a fondo la bibliografía en relación a ese tópico. El objetivo es ir definiendo la pregunta de investigación. [ 168 ]
La pregunta de investigación es o son los interrogantes que le queremos formular al tópico de investigación. Ej. Tópico de investigación: “Impacto educativo y herramientas de evaluación” Ej. Pregunta de Investigación: “¿Cuál es el impacto educativo del examen de opción múltiple con respecto al EECR (Evaluación de Examen Clínico reducido)?” Cuanto más clara sea esta pregunta, más específica será la búsqueda de la información.
Búsqueda de información en educación medica El objetivo de revisar la bibliografía es ayudar a definir la pregunta de investigación y llevar adelante un protocolo con un diseño eficiente. Existen fuentes primarias y secundarias de información. Las primarias son reportes escritos por las personas que llevaron adelante la investigación y las secundarias son reportes escritos por personas distintas a las que llevaron adelante la investigación. Con el fin de mejorar la confiabilidad de la información siempre es recomendable revisar fuentes primarias. Las fuentes incluyen libros, capítulos de libros, revistas científicas, documentos y comunicaciones presentadas en conferencias profesionales.
Educational Resources Information Center (ERIC). El problema del tiempo entre la finalización de los estudios y su publicación habitualmente es extenso. Para resolver al menos parcialmente este problema la oficina norteamericana de educación estableció en 1965 el centro de información de recursos educativos o ERIC. http://www.eric.ed.gov/ . Fue establecida para proveer mecanismos para que nueva información educativa, en particular de proyectos gubernamentales pueda estar disponible en forma rápida y a bajo costo. Además ERIC es responsable en la generación de tres bases de referencia: 1. CIJE (Current Index to Journals in Education): se trata de una base que indexa artículos que aparecen en revistas científicas 2. RIE (Resources in Education): se trata de una base que indexa documentos educativos de ERIC 3. Thesaurus of ERIC Descriptors: contiene un listado de descriptores que se utilizan para indexar los artículos de CIJE y los documentos de RIE. Todo aquel que desee localizar información sobre un tópico en CIJE o en RIE debe usar siempre un descriptor que aparece en el thesaurus.
Otros sitios que indexan artículos de revistas científicas de educación son el Education Index (www.educationindex.com) y el Psychological Abstracts www.apa.org/psycinfo/ products/psycabs.html . Medline (www.pubmed.gov) en también un sitio en donde se indexan gran cantidad de artículos vinculados a la educación médica.8 [ 169 ]
Formulado la hipótesis de Investigación Los estudios de investigación son semejantes a una ecuación aritmética, una clara racionalidad o propósito (por qué y para qué van a definir una buena pregunta de investigación, qué es lo que se quiere investigar). Esto nos guiará hacia un adecuado ¿Cómo? Es decir los materiales y métodos que necesitamos para llevar adelante la investigación. Posteriormente vendrán los resultados, es decir las respuestas a esas preguntas de investigación formuladas. Para finalizar aparecerá la discusión. Esta sección se trata de una reflexión sobre los resultados obtenidos. Es frecuente observar que existe confusión entre objetivos y propósitos. Como dije anteriormente los objetivos se refieren a QUÉ se va a investigar y el propósito al por qué y para qué se llevará adelante la investigación. Los objetivos de un estudio frecuentemente toman la forma de pregunta. Las preguntas expresan cómo las variables a investigar podrían relacionarse. La hipótesis es la respuesta anticipada a nuestra pregunta de investigación. Es una predicción sobre el resultado en términos de las variables a investigar.9 Una hipótesis típica en educación podría ser: “Los residentes de cardiología instruidos a través del método A obtienen calificación más alta en exámenes de apreciación critica de trabajos científicos con respecto a los instruidos con el método B. En este caso las variables son los métodos de capacitación A o B y el rendimiento en exámenes de apreciación crítica. Es una predicción que el método A se va a asociar a mejores resultados que el método B. Es muy importante definir con claridad las variables y evitar ambigüedades. El ejemplo anterior es interesante, imaginemos que el método A es un nuevo sistema de instrucción y el método B es el “tradicional”. Es muy frecuente en educación que se defina con gran minuciosidad el nuevo método de instrucción pero el tradicional se deja librado a la imaginación del lector asumiendo que éste lo conoce en detalle.
Tipo y diseños de investigación en educación médica En investigación en educación médica, los objetivos más frecuentemente buscados son dos: 1. Determinar causas y factores de un determinado problema 2. Evaluar los resultados de una estrategia determinada Cada uno de estos objetivos puede llevarse a cabo aplicando diseños de investigación apropiados.10 Por lo general se clasifican de acuerdo con: • El tipo de datos a recabar: pueden dividirse en investigaciones cualitativas y cuantitativas. Las de tipo cualitativas se utilizan para dar respuesta a preguntas que pueden ser contestadas sólo a través de descripciones, en cambio las investigaciones de tipo cuantitativas se utilizan para dar respuesta a preguntas que pueden contestarse a través de la recolección y análisis de datos numéricos. [ 170 ]
•
•
Si se aplica o no una intervención: si se aplica una intervención: ej: utilización de un simulador para RCP, el diseño es experimental. En este tipo de diseño la inclusión de los participantes puede realizarse por un proceso de randomización individual (experimental) o a grupos ya establecidos (Quasi-experimental). Si no se aplica una intervención y sólo se observan las características que la población ha adquirido naturalmente, el diseño es Observacional. Los diseños observacionales pueden además dividirse en descriptivos, si sólo se reportan los datos observados obtenidos de la población estudiada, o analíticos, si se comparan datos entre sub-poblaciones (expo-facto) Ej.: capacidad de resolución de problemas de residentes de cardiología con o sin experiencia de clínica médica previa. De acuerdo a cómo se van a recolectar los datos: Cuando los datos se refieren a eventos pasados el diseño es retrospectivo. Cuando los datos se van a recolectar hacia delante en el tiempo desde el inicio del estudio, el diseño es prospectivo.
Instrumentos para medir variables operacionales La definición operacional de una variable, es una definición que da significado a la variable a través de la descripción de cómo la variable es medida. La definición de una variable operacional, “razonamiento clínico” es por ejemplo el puntaje que una persona recibe en un examen de opción múltiple diseñado para este fin. Hay variables operacionales más sencillas de definir que otras. La variable edad es muy simple ya que típicamente se expresa en forma numérica. La mayoría de las definiciones operacionales en las investigaciones en educación médica están expresadas en forma de puntajes. Teniendo en cuenta que las herramientas de evaluación se utilizan para definir variables operacionales es primordial saber si esas herramientas son adecuadas. Una herramienta de evaluación adecuada debe ser primariamente válida y reproducible.11
Validez Los resultados de una evaluación son válidos cuando son apropiados, pertinentes y adecuados a lo que estoy midiendo. Mide lo que quiero medir. Ej: si quiero medir habilidades de comunicación, la herramienta (Guía de Observación) mide comunicación y no examen físico, y si quisiera medir glucemia, el método (glucometer) mide glucemia y no natremia.11 Es importante tener en cuenta algunos puntos • La validez se refiere a lo apropiado y adecuado de los resultados de una herramienta de evaluación para un grupo determinado de individuos y no a la herramienta en sí misma. Que un test sea altamente válido para un grupo de estudiantes de medicina de quinto año no significa que lo sea para residentes de cardiología. • La validez es un concepto continuo y no dicotómico. • La validez es siempre específica para uso particular. Ninguna herramienta es válida [ 171 ]
•
para todos los propósitos. Una herramienta de evaluación como el examen de opción múltiple de cardiología puede ser altamente válido para indicar habilidades de conocimiento, moderado para indicar habilidades de razonamiento y bajo para predecir éxito en la práctica del día a día. La validez es un concepto único, es decir no hay distintos tipo de validez, si distintos modos de considerarla
Distintos modos de considerar validez Existen cuatro modos para considerar la validez de una herramienta de evaluación: de contenido, de constructo, de criterio y de consecuencia. Las consideraciones de contenido expresan, frente a un buen desempeño en el examen que el estudiante conoce satisfactoriamente los ítems o contenidos que debían ser evaluados. Las consideraciones de constructo expresan que un buen desempeño puede ser interpretado como una medida adecuada de una característica o cualidad que quería ser evaluada (razonamiento). Las consideraciones de criterio expresan, frente a un buen desempeño en el examen futuros buenos desempeños en exámenes estandarizados. Las consideraciones de consecuencia indican que produce los efectos deseados (aprendizaje) o reduce efectos no deseados (Deserción escolar) En resumen, una herramienta de evaluación es altamente válida cuando a través de un buen resultado podemos interpretar que el estudiante sabe todo lo que consideramos que debe saber, que ha entendido el tema, que está por encima de un patrón predefinido y que producirá los efectos.
Reproducibilidad La reproducibilidad se refiere a la consistencia de la medición. Supongamos que tuviésemos un examen perfectamente reproducible. Si se lo administramos a un grupo de personas y luego pudiésemos borrar de sus memorias el examen y se lo tomáramos nuevamente, deberían obtener exactamente el mismo resultado. No podemos esperar exámenes con consistencia perfecta ya que muchos factores pueden influenciar los resultados.12 Tenemos que tener en cuenta los siguientes puntos • La reproducibilidad se refiere a los resultados con el examen y no al examen en si mismo. Un examen tiene distinta reproducibilidad dependiendo del grupo evaluado, del contexto etc. • La reproducibilidad siempre se refiere a algo en particular. Puede estar vinculada a los resultados del examen, a los resultados inter-evaluadores o mismo intra-evaluadores. • La reproducibilidad es necesaria pero no una condición suficiente de validez. Un examen que arroja datos totalmente inconsistentes no podrá brindarnos información válida. Exámenes altamente consistentes podrían estar midiendo cosas equivo[ 172 ]
cadas. Ej: supongamos que tengo un glucometer y una muestra de sangre. Si pongo la muestra en el glucometer en varias oportunidades y siempre me indica valores de glucemia de 100 mg/dl significa que el resultado de la medición es válido (siempre mide glucemia) y reproducible (los valores son similares). En cambio si indica valores distintos el resultado sigue siendo válido (mide siempre glucemia) pero no es reproducible (da valores distintos). La reproducibilidad es necesaria pero no es una condición suficiente de validez. Existen diferentes formas de evaluarla: test-retest, Split-half, coeficiente alfa, teoría de la generalización. Test-retest: se administra en mismo examen en dos oportunidades al mismo grupo en momentos distintos. Split-half: se administra en examen en una oportunidad y posteriormente se hace una correlación entre los resultados de la primera mitad con la segunda. Coeficiente alfa: se administra en examen en una oportunidad y se aplica la fórmula de Kuder-Richarson. Teoría de la generalización: a través del análisis de componentes de varianza, utiliza todos los datos disponibles para cuantificar todas las fuentes de error en la misma experiencia.
Conclusiones La investigación en educación médica es comparable en general con la investigación biomédica. Muchos investigadores tratan de aplicar las metodologías de investigación de biomedicina y el resultado es que el proyecto no puede llevarse adelante o bien deben adaptar la pregunta de investigación a la metodología y no la metodología a la pregunta de investigación. Otro problema importante es que la investigación en educación médica es considerada por muchos como algo sencillo y que cualquier persona medianamente inteligente la puede llevar adelante inclusive sin un adecuado periodo de entrenamiento. Si bien es cierto que está al alcance de todos, es imprescindible entrenarse en este sentido. Los investigadores que llevan adelante los proyectos son en general extremadamente teóricos y sus resultados difíciles de aplicar en la práctica del día a día. Es necesario integrar habilidades de investigación pero no perder la conexión con la docencia y la práctica médica en terreno. Para concluir, no es la metodología la que define la rigidez científica de la investigación sino la fortaleza de la pregunta de investigación, el valor de definiciones operacionales, la elección de la metodología para la búsqueda de los objetivos propuestos y del cuidado y la prolijidad como se lleva a cabo el proceso.13
[ 173 ]
Referencias 1. Norman G. Research in medical education: three decades of progress. BMJ 2002;324:156062. 2. Crowl. Selecting a research topic In Fundamentals of Educational Research. 2nd edition Mc Graw Hill 1996;. 3. Alves de Lima A, Barrero C, Barratt S, et al. Validity, reliability, feasibility and satisfaction of the Mini-Clinical Evaluation Exercise (Mini-CEX) for Cardiology Residency Training 2007. 4. Alves de Lima A, Thierer J, Paulin J, et al. A qualitative study of the impact on learning of the mini clinical evaluation exercise in postgraduate training. Medical Teacher 2005;27:46-52. 5. Alves de Lima A, Botto F, Azzari F. Examenes de selección para postulantes a residencias en cardiología. Variables que se asocian con los resultados. Revista Argentina de Cardiologia 2001;69:327-331. 6. Alves de Lima A, Baratta S, Falconi S, et all. Lerning Strategies used by cardiology residents: Assessment of their learning styles and their correlations. Education for health 2006;19:289-297. 7. Alves de Lima A. Evaluación de calidad de una residencia en cardiología: comparación de las opiniones de los egresados y sus actuales jefes en el mercado laboral. Revista del CONAREC 2005;21:152-156. 8. Erbert J, Erwin P. Searching the medical literature using PubMed: A tutorial. Foundation for medical Education and research 2003;78:87-91. 9. Crowl. Formulating research hypothesis In Fundamentals of Educational Researh. 2nd edition. The McGraw Hill companies 1996; 10. Henquin R. Clasificacion de los estudios de inbvestigacion. En Introducción a Epidemiología y Estadística. 1ª edicion. ELALEPH.COM 2006. 11. Linn R, Gronlund N. Validity, In Measurements and Assessment in Teaching. Merrill Pprentice Hall 2000; ISBN: 0-13-878356-X. 12. Linn R, Gronlund N. Reliability and other desired characteristics, In Measurements and Assessment in Teaching. Merrill Pprentice Hall 2000; ISBN: 0-13-878356-X. 13. Schuwirth L. Challenges for educationalists. BMJ 2006;333:544-46.
[ 174 ]
Capítulo 14
Cómo hablar con los medios. El supermercado de la salud
Nora Bär
I
maginemos por un instante a Buenos Aires en 1810. Una aldea de unos 40.000 habitantes con calles de barro en las que, según escribió un viajero francés, “en las horas de la siesta no se veían más que médicos y perros”. Con ocho alumnos en los cursos del Protomedicato, el cuidado de la salud recaía en otros tantos egresados, siete cirujanos, trece boticarios y algún que otro dentista u oftalmólogo. En materia de remedios, se los utilizaba “enérgicos” (otra forma de decir que muchos de ellos eran mortales en dosis elevadas), lo que de algún modo favorecía las malas artes de curanderos y falsos médicos, que se lanzaban a “ejercer la profesión más ardua e interesante de la vida del hombre”, según las crónicas de la época. Por esos tiempos, el Ministro Godoy envió una memoria sobre el poder desinfectante de los ácidos minerales y, entre ellos, el “nitro-muriático-oxigenado”, recomendando que se adoptaran las fumigaciones y se “mandaran practicar en todos los Lazaretos fijos o provisionales, en todos los Hospitales militares y civiles, en todos los Cuarteles, presidios, cárceles y demás parajes, que por contener mucho número de individuos enfermos o sanos adulteran la atmósfera que respiran y no basta la ventilación del aire libre para destruir los gérmenes funestos que se anidan en su camas, muebles y paredes”. La medicina colonial inspira una sonrisa, pero entre el mercurio y la amalgama pulverizada surge un detalle de insospechada modernidad: en la misiva enviada por Godoy ya se hacía hincapié en la conveniencia de divulgar los conocimientos médicos. “Considero –escribía– que conviene al mejor servicio del Rey y del Estado que se vulgaricen todo lo posible estos conocimientos; que se facilite a todos los jefes que vigilan o tienen a su cargo la salud pública, la instrucción que importa posean en ese importante objeto...” Dos siglos más tarde, la comunicación de noticias médicas y científicas es una realidad de crecimiento explosivo en los medios de comunicación globales. Prácticamente no existe emisora de radio, canal de televisión, diario o revista de interés general que no incluya en su oferta informativa una selección de temas médicos o un especialista que comente las últimas novedades. Basta con teclear un vocablo médico en Internet para que la pantalla nos devuelva miles de sitios electrónicos. [ 175 ]
Claro que, con 54.000 publicaciones científicas, especialistas ávidos por figurar en letras de molde o aparecer en una pantalla de TV, y un público dispuesto a aceptar sin chistar las novedades más disparatadas, divulgar conocimientos científicos no es tarea sencilla. Para elegir el “menú” del día, el periodista especializado deberá bucear en decenas de informaciones armado de un conocimiento apropiado de los temas que frecuenta y criterio adecuado para valorar los nuevos conocimientos. El “supermercado de la salud” es un terreno pantanoso y sus ofertas deslumbran como luces de neón. Una anécdota vale más que mil palabras. Después del éxito de la “píldora de la virilidad”, mientras todavía se imprimían páginas y páginas sobre el Viagra, más de diez compañías norteamericanas comenzaron a ofrecer fármacos para mejorar lo que, en un alarde de mercantilismo, denominaron “prestaciones sexuales”. Empresas dedicadas a la herboristería y farmacias alternativas ofrecieron pócimas, pomadas, píldoras y tés destinados a optimizar el rendimiento de los varones en el terreno amoroso. En los Estados Unidos, Hypnovisión, una empresa de Nueva York, por ejemplo, produjo un audiocassette subliminal que proclamaba: “Mi sexo es perfecto porque Viagra funciona bien”. Bodyonics, de Hicksville, envió cartas a 10.000 médicos anunciando Longevity, una línea de hierbas preparada para la generación que pisa los cincuenta años. Y los laboratorios HerbaSway anunciaron la píldora Stamina, con hierbas provenientes de la China. Los cables de las agencias noticiosas traían a nuestro escritorio todas estas novedades y también las promesas de la medicina tradicional, que se ufanaba de haber encontrado un abanico de remedios para otorgar vitalidad al orgullo masculino, como los extractos de ciertas plantas o comidas, como la sopa de pene de tigre, el polvo de cuerno de rinoceronte o las pociones de animales tan extraños como la civeta, un cuadrúpedo parecido a la mangosta. El ejemplo tal vez suene un tanto exagerado, pero los hay incluso peores. Y si discriminar entre promesas, a cual más seductora, no parece una prueba suficientemente ardua, en nuestra particular carrera de obstáculos para alcanzar la tan ansiada primicia se nos interponen desde los inventores autodidactos hasta los médicos “heterodoxos” que desarrollan tratamientos propios (y, por supuesto, no sometidos a la aprobación de sus pares) para curar algunos de los males más persistentes. En una sala de redacción, atender el teléfono resulta una experiencia que puede poner a prueba la capacidad de asombro. Nuestro ocasional interlocutor suele apresurarse a explicar que posee un método revolucionario que hace recuperar el cabello a los calvos, restablece la secreción de insulina o elimina las secuelas del accidente cerebrovascular. Los medios de comunicación ejercen una atracción magnética para mercaderes de sueños dudosos. Los hay de muchos tipos, pero todos tienen algo en común: suenan absolutamente convincentes. Por eso, hay momentos en que a uno le encantaría tener a mano una bola de cristal o poseer poderes anticipatorios. Sobre todo cuando algún experimento científico parece inusualmente promisorio. Y en especial cuando lo que promete es una “pavada” como erradicar el cáncer o curar el sida. Ahí surge un dilema difícil de resolver: consiste en prever qué probabilidades tiene ese cheque en blanco de convertirse en realidad. Y en qué plazo: ¿mañana, el año que viene, dentro de medio siglo...? Estas decisiones son las que tenemos que tomar varias veces por día los periodistas que [ 176 ]
trabajamos en temas de salud. Por ejemplo, hace un par de años, un equipo de la Universidad de Harvard anunció que había encontrado una proteína que protegía a ciertos monos del sida. Bastaba una extrapolación un poquito más optimista de lo razonable para empezar a pensar que la misma cadena de aminoácidos podría proteger a los seres humanos. Un poco más y casi, casi estábamos a un paso del remedio contra la pandemia. Lamentablemente, la historia reciente demuestra que, en medicina y en investigación, nada es tan sencillo. En agosto de 1995, Madeleine Nash se preguntaba en la revista Time si habíamos encontrado el “nirvana” de la pérdida de peso: el doctor Jeffrey Friedman, de la Universidad Rockefeller, había inyectado diariamente durante dos semanas una hormona en ratones obesos y éstos súbitamente habían comenzado a comer menos y a quemar más grasas. En un alarde que sólo pudo comprobarse en el mundo “ratonil”, éstos no sólo habían perdido un 30% de su peso, sino que al mismo tiempo habían registrado descensos en sus índices de colesterol y glucemia. La leptina –una palabra que dio la vuelta al mundo– se transformó en el imaginario colectivo en la hormona “milagrosa” que terminaría definitivamente con la tortura de la obesidad. Sin embargo, casi una década más tarde y a pesar de los esfuerzos, todavía no se encontró la manera de remedar esos “milagros” a escala humana. Antes del 3 de mayo de 1998, pocos habían escuchado los vocablos angiostatina y endostatina más allá de un estrecho círculo de investigadores en oncología. Pero bastó un artículo en la primera plana de The New York Times para que se encendieran las ilusiones de todos: estaba dedicado a las investigaciones en ratones de Judah Folkman y Timothy O´Reilly sobre cómo impedir la formación de nuevos vasos sanguíneos (antiangiogénesis) en un tumor. Cuando le preguntaron a Folkman si lo consideraba una buena noticia, contestó: “Si usted es ratón, sí”. Es en ocasiones como éstas cuando la información responsable adquiere todo su valor. Por eso, los comités de ética de diferentes asociaciones periodísticas aconsejan: 1. Ser vigilantes en la selección de fuentes, sopesando y descubriendo todo conflicto de interés, sea este financiero, personal o profesional 2. Investigar e informar sobre lazos entre nuestras fuentes y empresas o laboratorios cuando se promueve una nueva idea o terapia. 3. Investigar e informar sobre posibles lazos entre investigadores y compañías privadas, instituciones, grupos de pacientes y sus sponsors. 4. Reconocer que la mayoría de las historias que cubrimos implican un grado de complejidad que una fuente única no puede proveernos. 5. Entender el proceso de la investigación clínica para informar adecuadamente sobre los avances (por ejemplo, reconociendo las diferencias entre pruebas de Fase I, II, o III). Ser cauto en la información de estudios preliminares, in vitro o en animales. 6. Preservar la independencia periodística. 7. Ser especialmente cuidadosos en el uso de estadísticas o en la información de conocimiento que pueda influir en el estado de ánimo de los pacientes. 8. No explotar los costados dramáticos y sensacionalistas de historias que involucren a individuos enfermos. [ 177 ]
9. Utilizar adecuadamente el lenguaje. 10. Cuantificar el riesgo. Un 50% de aumento en el riesgo relativo puede no ser mucho si los números absolutos son pequeños. 11. Informar sobre los riesgos y beneficios de los tratamientos. 12. Distinguir entre “asociación” y “causa”. 13. Definir y comunicar las dudas e incertidumbres de los científicos, tanto lo que los médicos saben como lo que ignoran. 14. Buscar expertos independientes para evaluar la calidad de la evidencia o confirmar resultados. 15. Considerar que el principal criterio cuando se elige una noticia para publicar es el interés público. 16. Ser escéptico, sobre todo acerca de promesas enfáticas. 17. Dejar de lado términos como “cura mágica” y otros igualmente sensacionalistas. Pero es necesario subrayar que si a los periodistas se nos acusa de teñir de sensacionalismo el trabajo de los científicos en pos de un titular llamativo, según más de doscientos investigadores, funcionarios y representantes de medios europeos consultados para elaborar las “Guías sobre la comunicación de la ciencia y la salud” --producidas por el Centro de Investigaciones Sociales de Gran Bretaña y la Escuela de Investigaciones en Comunicación de Ámsterdam--, muchas de las distorsiones y malentendidos que exhiben actualmente las notas periodísticas surgen de una cierta incapacidad de los científicos para comunicar sus hallazgos. El resultado, según las conclusiones del Programa Messenger, dentro del cual se desarrollaron las guías, es que el público se forma una imagen distorsionada del proceso científico, padece ansiedades innecesarias y alienta falsas esperanzas. Algunas de sus recomendaciones para los científicos: • ¡Lea los diarios, mire la televisión! Es importante que esté al tanto de cómo su tema de investigación es reflejado en los medios. ¿Cuáles son las áreas de controversia? ¿Cómo se perciben los riesgos? • Conozca a los periodistas y estilos locales. La forma en que se cubren las noticias científicas varía de país en país de acuerdo con cuestiones morales, comerciales y regulatorias. • Aclare si sus hallazgos son preliminares. Aunque hay una natural tendencia a destacar la importancia del propio trabajo, esto no sirve a los intereses del público ni de los científicos. • Destaque en qué forma sus hallazgos difieren de los obtenidos por otros. Esto ayudará a los lectores a ponerlos en contexto y a entender que otros investigadores pueden tener diferentes visiones sobre el mismo tema. • Sea especialmente claro en la comunicación de los riesgos. Para un científico, el riesgo es simplemente la probabilidad estadística de que ocurra algo. Esta no es, sin embargo, la forma en que lo entienden las personas no entrenadas. Conviene aclarar cuál es el riesgo absoluto, de modo que se entienda el riesgo relativo, realizar [ 178 ]
comparaciones y poner en contexto los grandes números. Por ejemplo: ¿es grande, moderado o pequeño un riesgo de uno en un millón? • Si sus investigaciones tienen implicancias para la calidad de vida de su comunidad, sea particularmente cuidadoso al describirlas. Este puede ser el caso cuando trabaja en problemas alimentarios, seguridad, medio ambiente y otros temas. Esté preparado para participar en discusiones sociales, éticas, económicas y políticas. Como afirman en sus consideraciones preliminares los autores del Messenger: “Promover la cultura científica es parte de una buena «higiene democrática»”. Y en esto, científicos, periodistas y lectores tenemos responsabilidades compartidas...
[ 179 ]
VI. Elementos de Bioestadística
Rogelio A. Machado
Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección Sección
1 Introducción 2 Conceptos básicos 3 Frecuencia y probabilidad de un suceso 4 Distribuciones de probabilidades 5 Muestreo. El desvío estándar de la media o error estándar 6 Inferencia estadística 7 Comparaciones entre dos medias muestrales. La distribución t 8 Comparaciones entre proporciones 9 Correlación y regresión 10 Análisis de la varianza 11 Regresión múltiple 12 Regresión logística 13 Métodos no paramétricos 14 Pruebas diagnósticas 15 Análisis de la sobrevida 16 Enfermedades en las poblaciones
1. Introducción
La bioestadística es el instrumento que permite manejar y obtener información de la gran cantidad de datos producidos en las diversas áreas de interés de la biología. Esto está de acuerdo con la idea corrientemente aceptada que relaciona la estadística con el manejo de grandes cantidades de números a fin de obtener ciertas conclusiones de interés. Cabe agregar que los números representan siempre observaciones de hechos objetivos, medidos, contados o clasificados de manera de poder ser elaborados y entendidos mediante los métodos estadísticos. Entre estos métodos se cuentan aquéllos que operan sobre conjuntos relativamente limitados de individuos o casos, con la intención de extender las conclusiones a los grupos o poblaciones originales de los cuales proceden las muestras. Otra tarea típica de la bioestadística es la comparación de muestras tomadas de distintas poblaciones, en la búsqueda de posibles diferencias que revistan algún interés, sea teórico o práctico. Todos esos procedimientos son numéricos y esta característica es la que permite el desarrollo de la teoría y los métodos de cálculo de la estadística. La estadística es utilizada tanto por el médico práctico que evalúa un dato de laboratorio y conjetura sobre la posibilidad de tratarse o no de un dato desviado de la normalidad, como por el que debe tratar con poblaciones hospitalarias, tasas de internación, rendimiento de distintos procedimientos y relaciones costo-beneficio, o por el que lleva a cabo tareas de investigación, pura o aplicada. Así, la bioestadística es necesaria en prácticamente todos los campos de la medicina y la biología. Sin embargo, como la estadística está fundamentada en desarrollos matemáticos, la comprensión de sus procedimientos no siempre resulta una tarea sencilla para el médico, que debe sin embargo lograr una mínima familiarización con sus nociones básicas y sus modos de operar, no sólo para su eventual aplicación en trabajos de investigación sino también para la evaluación crítica de toda la información a la que se halla expuesto diariamente. Así, deberían conocerse los conceptos básicos en los que se fundamenta la bioestadística, el significado de sus métodos más corrientes y las posibilidades de su aplicación en la práctica. De esta manera se podrán elegir los métodos de análisis más adecuados a la naturaleza de los datos, obtener la mayor información posible de los mismos y también, estar alerta sobre las situaciones en las que un método puede dar resultados erróneos. Es frecuente que durante el análisis de un trabajo el investigador se enfrente con problemas que implican dificultades no solo en la interpretación de los datos sino también en lo referente a los métodos estadísticos más adecuados para fundamentar las conclusiones. Muchas veces [ 183 ]
hay más de un método para tratar con un mismo problema. En estos casos, frecuentemente será necesario el trabajo en conjunto con el matemático, y aquí los conocimientos de bioestadística del investigador nuevamente serán necesarios para ayudar a orientar el enfoque del análisis hacia los aspectos médicos o biológicos de mayor importancia, sobre los que el matemático podrá no estar demasiado informado. En lo que sigue se procura exponer los aspectos básicos de la bioestadística vistos desde la orilla del médico, aunque se mencionan algunos aspectos más generales y formales a fin de fundamentar algunos de los requisitos y limitaciones de los métodos y de hacer comprensible la lógica subyacente en los mismos, tratando de evitar la impresión de arbitrariedad que suele surgir de la lectura de los textos cuando los diversos métodos son presentados como una colección de recetas. Como se ha dicho, la consulta al especialista en bioestadística será muchas veces necesaria, pero el planteo de las preguntas y los lineamientos de un estudio conciernen directamente al médico, para no mencionar la interpretación biológica de los hechos observados, sobre lo que el estadígrafo tendrá en general menores posibilidades de contribuir. Los temas abarcados en el texto, como el lector podrá suponer, son sólo algunos de los más importantes de la bioestadística y de ninguna manera se trata de una revisión exhaustiva de los mismos, sino más bien de una introducción que haga comprensibles y aprovechables los procedimientos más frecuentemente utilizados en esa disciplina. Las referencias sugieren lecturas complementarias que pueden ayudar a la comprensión de ciertos aspectos que excederían los límites de estos elementos de bioestadística. Los números entre paréntesis, si no se indica párrafo (§), se refieren siempre a ecuaciones u expresiones análogas incluidas en el texto. Asimismo, a lo largo de las distintas secciones se encontrarán ejemplos que procuran ilustrar algunos de los aspectos prácticos de los distintos métodos y complementar los conceptos vertidos en el texto. Por lo tanto su lectura no debería omitirse, si bien algunos detalles numéricos y de cálculo pueden leerse superficialmente, ya que lo fundamental son los conceptos que ilustran, y que refuerzan o completan el tema de fondo. En este respecto, tanto en el texto como en los ejemplos, se han introducido algunas expresiones algebraicas o fórmulas sencillas, por su valor para describir los procedimientos básicos del cálculo estadístico y ayudar a comprender las ideas en que se basan. Consecuentemente, al tratar de los aspectos más complejos de la bioestadística, se ha evitado la reproducción de fórmulas y algoritmos de cálculo extensos que van más allá de los propósitos del texto. Algunos ejemplos se basan en datos publicados, generalmente simplificados para mayor sencillez, y en estos casos se cita la fuente original. En tanto, en su mayoría han sido elaborados mediante simulación numérica con programas de estadística, y si bien se ha procurado que versen sobre conocimientos médicos ampliamente aceptados, su finalidad ha sido ilustrar los procedimientos de la bioestadística y en ningún caso introducir juicios de verdad o proponer conceptos de validez comprobada en el campo de la medicina.
[ 184 ]
2. Conceptos básicos
2.1. Individuos, observaciones y datos. Poblaciones y muestras La bioestadística es una disciplina que comparte áreas de interés con las matemáticas y la biología. Sus métodos no difieren de los de la estadística general, sino más bien, se adaptan a las necesidades particulares de las ciencias biológicas incluyendo la medicina. Puede esbozarse una definición de sus objetivos señalando que se ocupa del manejo de los datos numéricos provenientes de observaciones obtenidas de los diversos objetos de estudio de la biología. Estos suelen ser conjuntos de individuos o de distintos materiales biológicos que son estudiados con la finalidad de obtener información acerca de los conjuntos mayores o poblaciones de los cuales provienen. Es decir, la bioestadística procura obtener información sobre las características de grandes conjuntos de objetos, como pueden ser los pesos o las glucemias en distintas comunidades, a través de los valores medidos en grupos representativos de tales comunidades o poblaciones. Esas mediciones no solo permitirán inferir las características de los conjuntos mayores (que en general no es posible estudiar exhaustivamente en cada uno de sus individuos), sino también comparar conjuntos entre sí en lo que respecta a las características estudiadas. Nótese que las observaciones implican mediciones o recuentos y producen números o datos. Estos suelen presentarse como extensas colecciones de números cuyo examen directo suele ser dificultoso, cuando no agotador e improductivo. En tanto, su elaboración mediante los distintos métodos de la estadística produce resultados más fácilmente interpretables, como promedios, desviaciones y probabilidades. Puede decirse que los grandes conjuntos numéricos son traducidos a conceptos más comprensibles, intuitivos y concisos. Un listado con la presión arterial sistólica de 150 pacientes puede resultar muy poco informativo si se limita a la simple lectura de una columna de 150 números. La estadística ofrece métodos para hacer concisa y manejable la información contenida en tales conjuntos de datos, y en el ejemplo, se podría calcular el promedio de las cifras de presión arterial y tomar nota del valor más bajo y el más alto del listado: el informe sería entonces algo así como “la presión sistólica promedio del grupo fue 121mm Hg, con un rango de 82 a 183.” De la comparación estadística entre dos grupos como el mencionado pueden surgir conclusiones como “los individuos del grupo B tienen una presión arterial sistólica promedio mayor que los del grupo A.” El estudio de la correlación entre frecuencia cardíaca y volumen sistólico en un grupo de individuos puede sugerir que ”en general, cuanto mayor sea la frecuencia cardíaca, menor será el volumen [ 185 ]
sistólico, y viceversa.” Estas conclusiones pueden ser muy difíciles de percibir por la mera inspección de las tablas con las mediciones originales. Más aún, en el caso de dos grupos con diferentes promedios de presión arterial y en el de la correlación entre frecuencia cardíaca y volumen sistólico, es importante conocer el nivel de seguridad o confianza que se puede tener de que los resultados observados traduzcan relaciones realmente existentes en las poblaciones de las que provienen los datos y no se hayan originado en fluctuaciones debidas al azar, y estos son problemas típicos que la estadística ayuda a contestar. A continuación se exponen algunos de los conceptos básicos utilizados en bioestadística. El término individuo se suele emplear para referirse a seres humanos, animales y también a los diversos objetos de interés de la biología en cuanto constituyan unidades productoras de datos. Estos son números provenientes de observaciones realizadas en los individuos y se refieren a propiedades de tales individuos, como pueden ser el pulso, la presión arterial o las glucemias. En general, los datos se obtienen midiendo, contando, comparando o clasificando el material observado, proceso que converge en la producción de números. Los números constituyen el material apto para ser analizado mediante los distintos métodos de la estadística. Pero la estadística no maneja números aislados sino conjuntos de números, de los que extrae la información útil. Como ha mencionado, uno de los objetivos fundamentales de la estadística es llegar a conocer las características de conjuntos más o menos extensos de individuos a partir de muestras formadas por algunos de ellos. Este es el punto de partida de los procedimientos de inferencia estadística, que se verán en §6.1 y siguientes. En estadística, cualquier conjunto de datos extraído de un entorno mayor es una muestra del conjunto mayor, llamado a su vez población ó universo. Con más propiedad, se entiende por población o universo la totalidad de los resultados experimentales posibles. En tanto, el término resultados experimentales designa, no sólo conjuntos de mediciones, como por ejemplo, de la presión arterial o de la glucemia, sino también los datos provenientes de cualquier colección de individuos o especímenes biológicos donde se puedan realizar observaciones. De esta forma, la cantidad de crisis anginosas o el grado de disnea referidos por los pacientes, son datos biológicos pasibles de ser medidos, contados, estimados en su intensidad o clasificados, esto es, transformados en números. Por otra parte, es fundamental que la extensión del universo del que provienen los resultados experimentales esté claramente definida, como por ejemplo, hombres de 50 a 75 años residentes en tal área geográfica. Al definir un universo como la totalidad de los resultados posibles, se establece la exigencia de que todos sus integrantes estén enunciados y definidos. Sin embargo, el acceso a todos los elementos de un universo es casi siempre difícil de conseguir en la práctica, y puede llegar a ser imposible cuando se definen condiciones que implican cierto grado de incertidumbre, como pueden ser “coronarios” o “hipertensos.” Muchas veces los universos son entidades con aspectos dinámicos que hacen imposible “congelarlos” para proceder a su medición, como los pacientes de una determinada enfermedad, que se renuevan constantemente en la población. Por estos motivos, habrá que ser siempre cuidadoso al hacer extensivos los resultados obtenidos de las muestras, a todo el universo. Nótese que cada individuo de una muestra puede proporcionar uno ó más datos (por ejemplo, una ó más tomas de la presión arterial). Cada dato es un elemento de la muestra, y [ 186 ]
el número de datos es una característica muy importante de la misma, que define el tamaño muestral. De modo que, en cuanto a su obtención, una muestra proviene de un grupo de individuos y está constituida por un conjunto de datos proporcionados por dichos individuos. Cada dato es un elemento del conjunto muestral. Se dijo que las muestras están formadas por datos numéricos, y esto es así aún en los casos especiales en que es estudiada una cualidad, como sano ó enfermo, alto ó bajo, leve, moderado o severo: para el trabajo estadístico tales cualidades son representadas por números o codificadas (por ejemplo, sano = 1, enfermo = 2). Cada número es así un elemento de la muestra, representando a un individuo. En última instancia, si bien el concepto de individuo es útil, en forma más rigurosa es preferible considerar una muestra como un conjunto de datos numéricos. Como se ha mencionado, un mismo individuo puede proporcionar más de un dato ó elemento muestral. Por ejemplo, puede haber más de una cifra de presión arterial por paciente. Esto motiva ciertos cuidados en los procedimientos estadísticos para que no haya individuos “sobre” ó “infra” representados en el estudio, y para dar cuenta de la correlación que podrá existir entre datos provenientes de un mismo sujeto. Una breve referencia a los métodos para la obtención de muestras se encontrará en §5.1. 2.2. Variables muestrales Los números que integran las muestras, procedentes de observaciones y mediciones, varían según los casos dentro de límites que pueden ser más ó menos amplios. Las clases o categorías de objetos sobre las que se realizan las mediciones se conocen como variables: son variables la presión arterial y la frecuencia cardíaca, así como el sexo, la condición de fumador y la capacidad funcional. Las tres últimas deben ser codificadas según ya fuera mencionado, adjudicándose distintos números a los diferentes casos posibles. Estas variables se conocen como cualitativas. En tanto, las originadas en mediciones o en recuentos, como la presión arterial y la frecuencia cardíaca, se denominan variables cuantitativas. Dentro de las variables cualitativas son muy abundantes las que se refieren a características que pueden exhibir solamente dos estados. Estas variables, como el sexo, la sobrevida o cualquier otra variable que pueda ser definida por un par de estados (como género femenino o masculino, prueba positiva o negativa, tabaquismo presente o ausente), se llaman binarias o dicotómicas. Las variables cuantitativas suelen dividirse en discretas y continuas. En las primeras, que suelen provenir de recuentos, los valores están claramente separados sin posibilidades intermedias, como la frecuencia del pulso o el número de glóbulos rojos por milímetro cúbico de sangre. En cambio, las variables continuas pueden asumir una gama ininterrumpida de valores y suelen resultar de mediciones, como la presión arterial, el peso y la glucemia. Sin embargo, en la práctica, la distinción entre variables discretas y continuas no siempre es clara, dado que toda variable continua es redondeada al ser medida (por ejemplo, la presión arterial suele redondearse a centímetros de mercurio, y aún si se expresara en milímetros de mercurio se estaría efectuando un redondeo). Afortunadamente, las consecuencias no suelen ser importantes en la práctica, ya que la mayoría de los métodos estadísticos diseñados para variables continuas pueden aplicarse sin pérdidas de exactitud a variables discretas, con tal de que exista una subdivisión suficientemente fina de la escala, como puede ser el caso del [ 187 ]
pulso arterial en latidos por minuto o los glóbulos rojos por milímetro cúbico de sangre (que en rigor son variables discretas). 2.3. Organizando y resumiendo los datos: Tablas y distribuciones de frecuencias. Estadística descriptiva Los datos obtenidos de cualquier investigación y destinados al análisis, son en general un conjunto de números del cual no es sencillo obtener conclusiones útiles por inspección directa, esto es, sin haberlos organizado y resumido. Una buena manera de iniciar un análisis estadístico es disponer los datos en una tabla y a continuación tratar de representarlos como figuras o gráficos. De esta manera la información contenida en los datos se puede “compactar” o resumir de modo de hacerla interpretable y asignarle sentido en el contexto biológico en el que fue obtenida y en relación con las posibles hipótesis de trabajo. Estas tareas forman parte de la llamada estadística descriptiva. Las tablas son arreglos o presentaciones de los datos que organizan la información y son un buen punto de partida para proseguir con el análisis numérico. Ciertas tablas permiten presentar los datos sin ningún tipo de elaboración estadística, como no sea su ordenamiento de acuerdo a su fuente de origen y a las variables consideradas. Estas tablas están formadas por un conjunto de filas (horizontales) y columnas (verticales) que se cortan determinando celdas en las que se disponen los datos originales sin ningún tipo de elaboración previa. Es la forma de presentación corriente de las hojas de cálculo y de las planillas de análisis de los diversos programas estadísticos. Existe una construcción de uso muy frecuente en la que a cada tipo de variable (presión arterial, glucemia) se le asigna una columna y a cada fuente de datos (individuo, preparado de laboratorio, etc.) una fila. Si por ejemplo se mide la glucemia en varios individuos, los valores hallados se colocan en las celdas correspondientes a la columna Glucemia, en la intersección con las filas correspondientes a cada individuo estudiado. Este arreglo de los datos es particularmente útil para trabajar con hojas de cálculo y programas de análisis estadístico, que operan sobre la matriz de datos introducida en la tabla, realizando gran variedad de cálculos en forma eficiente y rápida. La construcción de tablas y la elaboración estadística de los datos está en la actualidad notablemente facilitada por los programas de computación y no tiene mayor sentido considerar el trabajo artesanal con papel y lápiz a menos que se trate de grupos reducidos de datos o con el objeto de analizar y comprender mejor ciertas técnicas. De esta manera, la estructura de las tablas arriba citadas está disponible en hojas de cálculo del tipo Excel, debiendo solamente asignarse la identidad de filas y columnas y llenar las celdas con los datos correspondientes. A su vez, la matriz de datos resultante es accesible a numerosos programas estadísticos, incluyendo los recursos propios con que cuentan las hojas de cálculo. Otro tipo de tablas ya presentan un primer paso en el resumen de los datos, que consiste en agrupar los valores de una variable en niveles o categorías consignando el número de veces que la misma se presenta en cada nivel. En el caso de variables cualitativas con los datos agrupados en pocas categorías, el conteo de casos cayendo dentro de cada categoría y eventualmente, la proporción o porcentaje del total de casos dentro de cada una es en principio suficiente, como puede observarse en la Tabla 2.1, donde un conjunto de 646 pacientes con estenosis valvular aórtica son clasificados según el origen de la enfermedad (Passik y col, 1987). [ 188 ]
Tabla 2.1. Pacientes portadores de estenosis valvular aórtica clasificados según la etiología de la enfermedad (Passik y col, 1987). Tipo de alteración valvular
Frecuencia (Nº de pacientes)
Porcentaje ( % )
Válvula bicúspide congénita
246
38
Calcificación degenerativa (senil)
213
33
Postinflamatoria (fiebre reumática)
155
24
Otras causas Totales
32
5
646
100
En cambio, para variables continuas, los datos deben agruparse en intervalos como se observa en la Tabla 2.2, donde la presión arterial sistólica de 150 individuos se agrupó en intervalos de 10 mm Hg, comenzando por el que va de 80 a 89 mm Hg. Cualquier valor de presión dentro del intervalo se cuenta como un dato en el mismo, sin importar su valor exacto. Esto implica un resumen de los datos, ya que a todos los que caen en un intervalo de clase se les adjudica un mismo valor (en general el valor central del intervalo). Hay un efecto de redondeo de los datos que origina pérdida de información y es el costo de haberlos resumido, aunque con intervalos no demasiado grandes dicha pérdida suele ser pequeña. La variable queda así condensada y una tabla que tendría 150 filas se convierte en una de 10, como puede observarse en la Tabla 2.2. Se ve claramente como los datos se agrupan hacia el centro de la distribución y así se tiene una imagen rápida de la misma.
Tabla 2.2. Tabla de distribución de frecuencias. Presión arterial sistólica en 150 individuos extraídos de una población con media de 120 mm Hg y desvío estándar de 15 mm Hg.
Presión Arterial
Frecuencia por intervalo (Nº de pacientes)
Frecuencia relativa (%)
Frecuencia acumulativa (Nº de pacientes)
Frecuencia acumulativa (%)
80 - 89
2
1.3
2
1.3
90 - 99
11
7.3
13
8.7
100 - 109
20
13.3
33
22.0
110 - 119
40
26.7
73
48.7
120 - 129
33
22.0
106
70.7
130 - 139
29
19.3
135
90.0
140 - 149
12
8.0
147
98.0
150 - 159
1
0.7
148
98.7
160 - 169
1
0.7
149
99.3
170 - 179
1
0.7
150
100.0
TOTALES
150
100
[ 189 ]
Una tabla como ésta se conoce como tabla de distribución de frecuencias. Los intervalos se eligen en forma arbitraria y en general iguales. La frecuencia relativa con que aparece la variable en cada intervalo respecto del número total de casos, puede ser añadida a la tabla como una nueva columna y expresada como porcentajes. El concepto de distribución de frecuencias es fundamental porque da una idea de la distribución de probabilidades para la variable en cuestión, ya que la frecuencia con que se presentan los distintos valores de una variable está en relación con sus probabilidades (estos conceptos se completan en las Secciones 3 y 4). Una instancia más en este tipo de tablas incluye la llamada frecuencia acumulativa, que consiste en la suma de las frecuencias en cada fila desde el extremo inferior de la distribución (primera fila de la tabla) hasta cada uno de los niveles en que ésta ha sido dividida (Tabla 2.2, columnas 4ª y 5ª ). Con el objeto de realizar cálculos estadísticos y contándose con programas de computación elementales, que no tienen dificultades para manejar grandes cantidades de datos, la tabla sin resumir mencionada en primer término es la de elección, ya que las tablas de distribución de frecuencias sacrifican una parte de la información contenida en los datos al resumirlos en una cierta cantidad de niveles sin tomar en cuenta sus valores exactos. Otras tablas, muy frecuentes en la presentación final de los resultados, ahorran la exposición de toda la distribución de frecuencias de las variables y la reemplazan por sus indicadores de posición y dispersión, como la media y el desvío estándar o el rango, que como se verá más adelante, dan una rápida visión de la magnitud y forma de distribución de la variable. De esta manera la información es “comprimida” sin pérdida de lo esencial y una sola tabla puede albergar múltiples variables distintas, reducidas a sus medias y desvíos estándar. Estas tablas, como el lector habrá notado, son muy utilizadas para la presentación de los resultados en los trabajos de investigación. 2.4. Resumiendo los datos en forma visual: Gráficos Por su parte, los gráficos brindan una apreciación global de la información organizada en las tablas. La impresión visual proporcionada por tales presentaciones informa de un golpe de vista sobre muchas propiedades de las muestras que pueden no ser en absoluto evidentes a través del examen directo de las tablas. Los gráficos son figuras donde se representan convencionalmente los datos numéricos. Algunos de ellos son el histograma, el polígono de frecuencias, el llamado box-and-whisker (cuadro y línea) y los diagramas de dispersión, pero hay muchos otros y pueden ser diseñados de acuerdo a las necesidades que planteen los datos a representar. Frecuentemente se construyen sobre un sistema de dos ejes perpendiculares que se intersecan en el origen de las series de valores representados. El eje horizontal (eje de abscisas o de las x) se suele simbolizar con la letra X y el vertical (eje de ordenadas o de las y) con la Y. En los ejes se hallan representadas las escalas y las variables que permiten identificar y atribuir sus correspondientes valores a los elementos del gráfico. Un principio general establece que debe existir una relación clara y bien definida, en general – aunque no siempre – de proporcionalidad directa, entre las magnitudes reales de los distintos datos y las de las figuras que los representan en los gráficos. El no cumplimiento de este requisito puede llevar a una interpretación distorsionada de los datos. [ 190 ]
Algunos gráficos elementales destinados a representar las distintas clases de objetos en que se subdivide un conjunto y sus proporciones respecto del total del conjunto, como pueden ser las distintas etiologías de una determinada enfermedad, consisten en áreas geométricas, frecuentemente círculos, divididas en sectores proporcionales al número de casos en cada clase. El total de clases corresponde al área total del círculo o 100%. Un ejemplo, correspondiente a la Tabla 2.1, se presenta en la Figura 2.1. Nótese como la impresión producida por el “pastel” y sus porciones, da una idea mucho más rápida y efectiva de la prevalencia de las distintas etiologías de la estenosis aórtica que la sola lectura de la tabla.
Figura 2.1. Etiología de la estenosis valvular aórtica en un grupo de 646 pacientes de ambos sexos (Passik y col, 1987).
En lo que sigue, dentro de otros tipos de gráficos más elaborados, sólo se mencionarán algunos de los más frecuentes. 2.4.1. Histograma y polígono de frecuencias El histograma es un gráfico de barras apropiado para la representación de distribuciones de frecuencia, indicadas en la escala vertical como número de casos o porcentajes, mientras que cada rectángulo o barra representa una de las clases en que se dividen los datos. En la Figura 2.2 aparece el histograma correspondiente a la distribución de la Tabla 2.2. Siendo los intervalos de clase de la misma magnitud, los rectángulos tendrán igual base y por lo tanto sus áreas serán proporcionales a las frecuencias representadas en el eje vertical. Por razones teóricas, lo esencial para la correcta representación de distribuciones de frecuencias, es que las áreas del histograma sean proporcionales a éstas. Si se unen mediante segmentos los puntos medios del techo de cada rectángulo, se obtiene una línea quebrada llamada polígono de frecuencias. Cuando los intervalos de clase aumentan en forma indefinida, el polígono tiende a una curva continua (lo mismo ocurrirá con el [ 191 ]
borde superior del correspondiente histograma, ver Fig. 4.2 ). Estas curvas de frecuencias son importantes en teoría estadística y se relacionan con las curvas de distribución de probabilidades (ver Sección 4). En la Fig. 2.2 se ha superpuesto al histograma la curva normal de distribución de probabilidades (ver §4.7).
Figura 2.2. Histograma de frecuencias correspondiente a los 150 individuos con presión arterial sistólica media de 120 mm Hg y desvío estándar 15 mm Hg de Tabla 2.2. Se ha superpuesto la función de distribución normal teórica correspondiente a los datos.
2.4.2. Gráficos “Box and whisker” Estos gráficos muestran un rectángulo o caja que se extiende desde el cuartil inferior al superior, esto es, abarcando los dos cuartiles centrales con el 50% de los datos (ver §2.5.3). De los lados inferior y superior de la caja salen dos líneas que llegan hasta los niveles de la escala correspondientes a los valores mínimo y máximo de todos los datos, denotando el rango de los mismos. Según otra convención las verticales no serán mayores que 1 y ½ vez la dimensión de la caja, y los datos más extremos se indicarán con asteriscos, como posibles datos ajenos a la distribución (outliers). Suele agregarse una línea horizontal que divide la caja en dos a la altura de la mediana, con lo cual este tipo de gráfico ofrece medidas de posición y de dispersión del conjunto de datos a representar (véase §2.5). En la Figura 2.3 se muestra esta clase de gráfico para los datos de la Tabla 2.2 y para otro grupo de 150 individuos extraídos de una población con un promedio de presión arterial sistólica más alto. La comparación entre ambas distribuciones de datos surge con bastante claridad de la estructura de las gráficas.
[ 192 ]
Figura 2.3. Diagrama de tipo “box and whisker” para dos grupos de individuos con presión arterial sistólica media de 120 y 160 mm Hg respectivamente. Los asteriscos corresponden a datos alejados del centro de la distribución.
2.4.3. Gráficos o diagramas de dispersión (“scatterplots”) Cuando un mismo individuo (o cualquier fuente de datos) origina pares de medidas correspondientes a dos atributos diferentes (por ejemplo peso y talla), cada par de datos puede representarse como un punto en un diagrama de ejes perpendiculares, donde los valores de una de las variables (por ejemplo, la talla) se dan en la escala horizontal y los de la otra (el peso) en la escala vertical (véase Sección 9, Fig. 9.1). 2.4.4. Una precaución útil: verificar las escalas en los distintos ejes En general, aunque no siempre, la proporcionalidad entre los datos representados y las dimensiones de los correspondientes elementos gráficos es un requisito para que la información proporcionada sea íntegramente aprovechable y aún más, para que no se produzcan interpretaciones distorsionadas de los resultados ilustrados por las figuras. Una forma común de afectar la interpretación de una gráfica produciendo un efecto visual que no se corresponde con la totalidad de los datos y pasa fácilmente inadvertida, es causada por la interrupción de las escalas mediante cortes en los ejes, habitualmente el eje vertical o de ordenadas. De esta manera, cambios circunscritos a un pequeño sector de la escala, aparecen desplegados en toda la extensión del gráfico y parecen más grandes de lo que son. En la Figura 2.4 se observan las curvas de sobrevida libre de eventos cardiovasculares de dos grupos, A y B, de 180 individuos cada uno, que presentaron una tasa anual de eventos del 2.2% y 6.6% respectivamente. Los dos gráficos son equivalentes, pero el de la derecha produce la impresión de una diferencia mucho [ 193 ]
más marcada en la evolución de cada grupo, lo que se debe a que la porción del eje de ordenadas entre el 0 y el 75% de la escala ha sido “cortada.” A pesar de todo, este procedimiento puede ser útil para evitar largos intervalos libres de datos, precisamente cuando éstos oscilan dentro de regiones muy pequeñas de la escala.
Figura 2.4. Dos presentaciones de la sobrevida libre de eventos en dos grupos de individuos, A y B. En el gráfico de la derecha, la escala del eje de ordenadas ha sido omitida entre 0 y 75%.
2.5. Un resumen más compacto de los datos: medidas posición y medidas de dispersión Es posible ir un paso más allá en la elaboración de los datos considerando que muchas veces se agrupan o distribuyen alrededor de un valor central más frecuente (aunque no siempre), y que su frecuencia de presentación tiende a disminuir al alejarse del centro, a partir del cual se “dispersan.” Esto proporciona la oportunidad de elaborar estimadores de la posición central y estimadores de la dispersión de una variable, con lo cual un número estima el centro de la distribución de los datos y uno o dos números más describen el modo de dispersarse alrededor del centro. Estos estimadores son números que se obtienen a partir de los datos de las muestras, y suelen denominarse estadísticos. 2.5.1. Medidas de posición. Media, mediana y modo La medida de posición más corriente es la media aritmética o simplemente media o promedio, que es la sumatoria de todos los datos dividida por su número. Expresando cada dato como x o, más formalmente, como xi, donde el subíndice i significa uno cualquiera de los x datos (el dato i-ésimo ) la media se denota como x– y se tiene que: x– = (x1 + x 2 + …+ x i + …+ x n ) / n o, expresando la suma mediante el símbolo ∑ : x– = ∑ x i / n donde n es el número de datos. [ 194 ]
(2.1)
La media tiene importantes funciones en una gran cantidad de técnicas estadísticas y es el estimador de posición central más ampliamente utilizado. Otra medida de posición es la mediana, que se define como el valor del dato que se halla en la mitad de la serie cuando los datos son ordenados en forma ascendente o descendente. Si el número de datos es par, habrá dos observaciones centrales y se acepta como mediana el promedio de éstas. Una ventaja de la mediana sobre la media es no estar influida por los valores extremos de los datos, inconveniente que sí presenta la media. En la serie: 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 8, 70 la mediana es 5, más en el centro y de acuerdo a las magnitudes de la mayoría de los datos, mientras que la media es igual a 7.9, muy a la derecha de la distribución por estar muy influida por el valor extremo 70. A pesar de todo, el papel de la media en la teoría estadística es mucho más importante que el de la mediana, precisamente por tomar en cuenta las magnitudes de todos los datos. El problema de los datos extremos y su influencia excesiva sobre la media aritmética puede requerir tratamiento especial en ciertos casos, pues si bien podrán provenir de la población estudiada, también podrá tratarse de elementos extraños a la misma incluidos por error, de errores en la medición o aún de errores de copia. El modo es el valor del dato que se presenta con mayor frecuencia dentro de un conjunto de observaciones, esto es, el valor de la observación xi que se repite más veces en la tabla de distribución de frecuencias. Pueden presentarse varios modos en un grupo de datos, y aparte de cierto interés descriptivo, es poco usado en estadística como indicador de posición. 2.5.2. Medidas de dispersión. Varianza y desvío estándar Como ya se señalara, la forma en que una serie de datos se dispersa alrededor de sus valores centrales se puede apreciar a través de las tablas y gráficos de distribución de frecuencias. Sin embargo, es deseable obtener estimadores de la dispersión que a partir de la información de los datos resuman en pocos números las propiedades de aquélla. La media aritmética puede usarse como punto central de referencia para medir las desviaciones de los datos individuales de una serie. Con el objeto de evaluar la dispersión de los datos, se puede restar a cada dato la media. Las diferencias así obtenidas tendrán signo positivo o negativo según el respectivo dato sea mayor o menor que la media. Si estas diferencias se suman con el objeto de promediarlas y obtener un estimador de la dispersión de los datos, se verá que la suma es cero, con lo cual el método es inaplicable. La sencilla opción de tomar todas las desviaciones con su valor absoluto, es decir como positivas, sumarlas y dividirlas por el número de los datos, proporciona un promedio conocido como desviación media, que si bien es un estimador de la dispersión, resulta de escasa utilidad dentro del cálculo estadístico, por lo cual no es habitualmente utilizado. En cambio, el recurso de elevar al cuadrado cada diferencia entre dato y media, además de eliminar el problema de los signos (todos los cuadrados son positivos), da origen a esti[ 195 ]
madores de la dispersión muy importantes en la teoría estadística. El primero de ellos es la varianza, que es el promedio de tales desviaciones elevadas al cuadrado:
donde el numerador se conoce como suma de cuadrados alrededor de la media y n es el número de datos. Como en el cálculo de la varianza las diferencias entre los datos y la media han sido elevadas al cuadrado, para volver a las dimensiones originales deberá extraerse la raíz cuadrada de la varianza, que se conoce como desvío estándar:
La varianza y el desvío estándar son estimadores eficaces de la dispersión de los datos alrededor de la media, y de los dos, el desvío estándar tiene las mismas dimensiones que los datos originales y es el que permite obtener una idea más clara e inmediata del grado de dispersión de éstos. Por razones teóricas, cuando se utilizan la varianza y el desvío estándar para estimar sus valores en el universo del que se han extraído los datos, debe emplearse el divisor (n − 1) en lugar de n, restando 1 al total de los datos empleados para calcularlos. En efecto, la varianza y el desvío estándar obtenidos de las muestras presentan siempre valores ligeramente menores que los que tienen en sus respectivos universos, y esta desviación sistemática, conocida como sesgo (bias), se corrige disminuyendo el denominador de (2.2) y (2.3) en una unidad. Se demuestra que la varianza y el desvío estándar muestrales calculados con divisor ( n − 1 ) resultan estimadores “sin sesgo” o “insesgados,” de los valores (muchas veces desconocidos) que tienen en la población. Estos estadísticos muestrales insesgados suelen designarse como s² (varianza muestral) y s (desvío estándar muestral, que es la raíz cuadrada de s²):
[ 196 ]
Ejemplo 2.1 El objeto del ejemplo es mostrar el cálculo de la media y el desvío estándar muestrales a fin de familiarizarse con la forma de manejar los datos en los procedimientos estadísticos. Este tipo de cálculo se realiza actualmente mediante programas de computación que sólo requieren la introducción de los datos originales sin procesar, por lo que el trabajo con calculadoras de escritorio ya es obsoleto, pero seguir el desarrollo del cálculo a través del ejemplo ayuda a comprender la estructura de esos estadísticos muestrales. Considérese un conjunto de 10 individuos para los que el laboratorio dio las cifras de HDL colesterol (en mg/dl) que forman la segunda columna de la tabla. En la última fila se hallan las sumatorias o totales de columna. –
–
Paciente Nº
HDL ( = x )
x–x
( x − x )²
1
81
35
1225
2
37
-9
81
3
35
- 11
121
4
64
18
324
5
46
0
0
6
37
-9
81
7
45
-1
1
8
43
-3
9
9
21
- 25
625
10
51
5
25
TOTALES
460
0
2492
Cálculo de la media muestral: x– = ∑ x / n = 460 / 10 = 46.0 Cálculo de la varianza muestral: s² = ∑ ( x − x– )² / ( n − 1) = 2492 / 9 = 276.9 Cálculo del desvío estándar muestral: s = √ s² = √ 276.9 = 16.6
Nótese como la suma de las desviaciones de los datos con respecto a la media es igual a 0, por lo que no se puede utilizar en las medidas de dispersión. En tanto, los cuadrados de las desviaciones son siempre positivos y no se cancelan, permitiendo el cálculo de la varianza. La varianza, si bien es un indicador útil de la dispersión de los datos, no resulta inmediatamente interpretable por estar las desviaciones elevadas al cuadrado. Esto se subsana en el desvío estándar mediante la extracción de la raíz cuadrada. Su valor tiene las unidades originales y resulta rápida e intuitivamente interpretable: se verá más adelante que en las llamadas distribuciones normales, un 95% de los datos suele encontrarse entre la media y dos desvíos estándar, en este caso entre 46.0 más/menos 2 × 16.6 o sea, entre 79.2 y 12.8 mg/dl. Compruébese que en la tabla sólo hay un dato fuera de estos límites
[ 197 ]
2.5.3. Medidas de dispersión. Rango. Cuartiles y percentiles El rango es la diferencia entre el mayor y el menor de los datos de un conjunto. Por ejemplo, en los datos de presión arterial de la Tabla 2.2, el mayor registro fue de 173 mm Hg (incluido en la última fila) y el menor 82 mm Hg (incluido en la primera fila), de lo cual resulta que el rango es igual a 173 menos 82 o sea 91 mm Hg. Entre sus numerosos puntos débiles, el rango no informa como se distribuyen los datos en su interior y, con algunas excepciones, es muy poco usado corrientemente. Los cuartiles y percentiles son en cambio más informativos. Con los datos ordenados de menor a mayor, el cuartil inferior es el valor por debajo del cual queda la cuarta parte de los datos y el cuartil superior es el valor por encima del cual queda otra cuarta parte de los datos. Entre ambos cuartiles se extiende la distancia o rango intercuartil, que como se comprende encierra la mitad restante de los datos, esto es, los datos no incluidos en los cuartiles extremos. En general, la división del rango total de los datos en intervalos que abarcan determinados porcentajes de los mismos, genera percentiles. Los cuartiles y percentiles son útiles con finalidades descriptivas y en este sentido son muy utilizados.
[ 198 ]
3. Frecuencia y probabilidad de un suceso
3.1. Conceptos generales sobre probabilidad En la vida diaria es un hecho habitual el manejar ideas acerca de las probabilidades que tienen de ocurrir los más variados acontecimientos, y la manera de estimarlas no está estrictamente definida, siendo muchas veces decisiva la experiencia personal. En el campo de las ciencias, en cambio, el concepto de probabilidad está sujeto a consideraciones más rigurosas, aunque afortunadamente existe un modo de entenderla que además de ser suficiente para una gran mayoría de aplicaciones, está de acuerdo con el concepto corriente e intuitivo de la misma: la probabilidad de un suceso está dada por la frecuencia con la que dicho suceso ocurre. Cuando un suceso ocurre muy a menudo, aceptamos que tiene una probabilidad alta de volver a presentarse (a menos que la misma varíe). La frecuencia de ocurrencia del suceso se expresa por el cociente o razón entre el número de veces en que se observa su aparición y el número total de observaciones realizadas. Por ejemplo, un informe del estudio Framingham (Levy D et al, 1990) señala que entre 4684 individuos de ambos sexos con estudios ecocardiográficos adecuados, se hallaron 755 con hipertrofia ventricular izquierda. La razón entre los 755 casos con hipertrofia ventricular izquierda y el total de 4684 individuos examinados es igual a 0.161 y es una estimación de la probabilidad de que un sujeto elegido al azar de la población estudiada, presente esa condición. Una forma habitual de informarla es como porcentaje, multiplicando su valor original por 100, lo que en este caso resulta igual a 16.1%. En general, el procedimiento para estimar la probabilidad de un suceso consiste en tomar muestras al azar de la población y dividir la cantidad de casos que presentan el fenómeno en estudio por el total de individuos examinados. Como se comprenderá, los resultados podrán variar cada vez que se repita el experimento, pero el hecho es que tenderán a oscilar alrededor de un valor central. Por este motivo, se habla de estimaciones de la probabilidad y no de su valor real, que es desconocido en tanto no se tengan los datos de todos los individuos que forman el universo. Sin embargo, es posible aproximarse cada vez más a ese valor ideal, promediando los resultados de varios experimentos repetidos o agrandando la muestra de estudio: un elemento esencial del concepto de probabilidad consiste en que, si se agranda indefinidamente la muestra, la razón entre sucesos y total de casos observados se estabiliza y tiende a un límite: ése límite es la probabilidad del suceso en cuestión. Algo diferente ocurre con los resultados posibles en tiradas de dados: parece obvio que las probabilidades de obtener un as son iguales a 1 en 6, esto es 1/6 = 0.166 o 16.6%, y que lo mis[ 199 ]
mo ocurrirá para cualquiera de las otras cinco caras. En este caso, y siempre que nos conste que el dado es normal, no consideraríamos necesario hacer una prueba experimental para determinar las probabilidades de cada una de las caras. Sin embargo, en la práctica, para obtener una aproximación a 0.166 suficientemente exacta, se debería realizar una gran cantidad de tiradas, pues de hacerlo unas pocas veces, las desviaciones por azar podrían ser importantes y el resultado estar muy lejos del deducido en forma teórica. Este hecho exige que los universos donde se estiman probabilidades permitan muestreos suficientemente grandes (nótese que en el caso de un dado o una moneda, el tamaño del universo no está dado por el número de caras sino por el hecho de que las tiradas posibles son infinitas). Las probabilidades definidas por modelos como los de la tirada de monedas o dados, se conocen como “clásicas” o a priori, en contraste con las derivadas de frecuencias, denominadas “frecuenciales” o a posteriori. A pesar de su apariencia sólida, la probabilidad clásica o a priori no carece de dificultades teóricas y esto, unido a las limitaciones para su aplicación a los problemas surgidos de situaciones reales, que en la gran mayoría de los casos deben abordarse a partir de muestras de universos sólo parcialmente conocidos, hace que el modelo frecuencial o a posteriori sea de uso habitual y corriente. 3.2. La probabilidad de un suceso puede variar entre 0 y 1 Para cualquier experimento, el número de ocurrencias o apariciones de un suceso (n) no puede ser mayor que el número total de casos evaluados (N), ni menor que cero. Como la probabilidad se estima mediante la razón n / N, cuando n = N la probabilidad es 1, y cuando n = 0, la probabilidad es 0. Cuando la probabilidad es 1, el hecho estudiado ocurre en todos los casos y se tiene la certeza de que ocurrirá siempre: es la probabilidad del suceso seguro. Cuando la probabilidad es 0 también se tiene certeza, pero de que no ocurrirá. Un suceso con probabilidad 0 se dice que es un suceso imposible. La probabilidad de un suceso A se denota habitualmente como P(A) o p(A), por lo cual la probabilidad antes mencionada de hallar individuos con hipertrofia ventricular izquierda (HVI) se expresará P(HVI) = 0.161. Es común expresar probabilidades con respecto a un valor de corte, y si quisiéramos redondear datos podríamos decir que P es menor que 0.17 y expresarlo como P(HVI) < 0.17. Si se sobreentiende a qué variable nos estamos refiriendo, se puede ahorrar el paréntesis y escribir P < 0.17. 3.3. Operaciones básicas con probabilidades Es importante tener en cuenta que la probabilidad de que ocurra un determinado acontecimiento (en general denominado suceso), sumada a la probabilidad de que no ocurra, debe valer 1, ya que no hay otra forma en que las cosas puedan suceder. Si la probabilidad de que ocurra un suceso A es igual a 0.30, la probabilidad de que no ocurra deberá ser igual a 1 − 0.30 = 0.70. En símbolos: P(A) + P(no A) = 1. Los sucesos (A) y (no A) se denominan complementarios. Conocida la probabilidad de un suceso (A), la de su complementario será: P(no A) = 1 − P(A). Es posible realizar cálculos con las probabilidades para obtener nuevos conocimientos a partir de sus relaciones lógicas, y si bien las operaciones más sencillas con probabilidades no son excesivamente complicadas, ciertos aspectos concernientes a su suma y multiplicación deben conocerse pues tienen significados importantes, tanto en lo teórico como en lo práctico. En los párrafos siguientes se hace un resumen de los mismos. [ 200 ]
3.3.1. Suma: la probabilidad de A o B En algunas situaciones, la probabilidad de que ocurra un determinado suceso de entre un grupo de dos o más posibles, es igual a la suma de las probabilidades para cada suceso considerado aisladamente. Por ejemplo, obtener con un dado un as o un cuatro en una sola tirada (cualquiera de ambos) es igual a la probabilidad de obtener un as (1/6) más la de obtener un cuatro (también 1/6) esto es, 1/6+1/6 = 2/6 = 1/3 o 0.33. Con esta probabilidad, se puede esperar que en una de cada tres tiradas el dado presente un as o un cuatro. Esta sencilla regla funciona solamente si los sucesos no pueden ocurrir a la vez (no es posible obtener un as y un cuatro con un solo dado en una sola tirada). Considérese en cambio una población en la cual la probabilidad de sufrir sobrepeso u obesidad sea del 64% y la de sufrir algún tipo de dislipemia, del 40%. Si ahora nos preguntamos cuál es la probabilidad de que uno cualquiera de los individuos que la integran presente sobrepeso o dislipemia, la respuesta ya no puede obtenerse sumando las probabilidades individuales del sobrepeso y la dislipemia, y esto es así porque algunos individuos pueden presentar las dos condiciones a la vez. Si esto no se toma en cuenta y se suman directamente la probabilidad de sobrepeso y la de dislipemia, se obtiene 0.64 + 0.40 = 1.04, un valor mayor que 1 y que por lo tanto no puede corresponder a una probabilidad. Esta cifra imposible se origina en el hecho de que algunos individuos presentan sobrepeso y dislipemia al mismo tiempo, y para ellos, sus probabilidades de pertenecer al conjunto suma han sido tomadas dos veces, una como portadores de sobrepeso u obesidad y la otra como dislipémicos. En este caso, la probabilidad correcta está dada por la suma de la probabilidad de tener sobrepeso más la de ser dislipémico, menos la probabilidad de presentar ambas condiciones a la vez (sobrepeso y dislipemia). Esta es la regla para la suma de probabilidades y se puede escribir: P(sobrepeso o dislipemia o ambas) = P(sobrepeso) + P(dislipemia) − P(sobrepeso y dislipemia) En forma general: P(A o B o [A y B]) = P(A) + P (B) − P (A y B)
(3.1)
Por lo tanto, para resolver la suma planteada en el ejemplo, falta conocer la probabilidad que tiene un individuo de presentar sobrepeso y dislipemia a la vez. Si suponemos como ejercicio, que un 32% o 0.32 del total de la población presentará conjuntamente sobrepeso y dislipemia, la probabilidad buscada quedaría estimada según la ecuación anterior, en 0.64 + 0.40 − 0.32 = 0.72 o 72%, que es un valor plausible para una probabilidad y es una estimación de la probabilidad de elegir un individuo al azar y encontrar que presenta sobrepeso, o dislipemia, o ambas condiciones a la vez. Si A y B no pueden ocurrir juntos, P(A y B) = 0 y la fórmula (3.1) queda reducida a: P(A o B o [A y B]) = P(A) + P (B) (3.2) que fuera empleada en el ejemplo de la tirada de dados. [ 201 ]
La regla para la suma de probabilidades se comprende mejor formalizando el tema y mediante el uso de diagramas para representarlas. El conjunto de todos los sucesos posibles en una situación o experimento se llama espacio muestral del experimento. Por ejemplo, en la tirada de un dado el espacio muestral es el conjunto [ 1, 2, 3, 4, 5, 6 ], y en la población considerada en el ejemplo anterior, cada uno de los individuos que la integran. Estos podrán exhibir sobrepeso aislado, dislipemia aislada, sobrepeso y dislipemia, o bien no presentar ninguna de las dos patologías, y cada individuo se considera un punto del espacio muestral. También se acepta que cada individuo o punto tiene las mismas probabilidades que los demás de ser elegido u “ocurrir”, pasando a ser un suceso. Los espacios muestrales se pueden representar por áreas dentro de una línea cerrada que las delimita. Dichas figuras son conocidas como diagramas de Venn y como se verá, son muy útiles para visualizar las relaciones lógicas entre conjuntos en general y entre probabilidades en particular. Estas áreas o figuras se utilizan para representar conjuntos de puntos muestrales de un experimento es decir, resultados posibles del mismo. Los conjuntos de puntos de los espacios muestrales pueden contener subconjuntos formados por algunos de ellos, que a su vez pueden graficarse como otros tantos diagramas de Venn contenidos en el conjunto principal. Así, como se puede ver en la Figura 3.1, el conjunto de la población a la que se refieren los datos del ejemplo, es el espacio muestral, y está representado por el rectángulo exterior, que a su vez contiene el subconjunto de los individuos que presentan sobrepeso u obesidad ( S ) y el de los que son dislipémicos ( D ). Algunos individuos presentan a la vez sobrepeso y dislipemia y forman el conjunto intersección, que se simboliza (S ∩ D). Por último, el conjunto de todos los individuos con sobrepeso, o dislipemia, o sobrepeso y dislipemia, se denomina conjunto unión de S y D, y se simboliza (S U D) (Fig. 3.1). Los puntos que quedan fuera del conjunto unión, son los que completan el espacio muestral y como se deducirá, está integrado por los individuos que no presentan sobrepeso ni dislipemia. Debe entenderse que estos conjuntos representan a la vez las clases de individuos, y sus respectivas probabilidades. La suma de probabilidades, que se expresa como “S, o bien D, o bien ambos” calcula las probabilidades del conjunto unión (S U D). De la inspección de la Fig. 3.1 surge que para hallar la probabilidad de un suceso de ese conjunto, se deberán sumar las probabilidades de S y las de D, pero al hacer esto se tomarán dos veces las probabilidades del suceso intersección (S ∩ D) que resulta de la superposición de S y D (grisado oscuro en la Figura). Por lo tanto hay que proceder a restarlas de la suma S + D, lo que da lugar directamente a la fórmula 3.1.
[ 202 ]
Figura 3.1. El rectángulo claro exterior representa el espacio muestral formado por los individuos de la población general. Los conjuntos D (dislipemia) y S (sobrepeso) presentan un área común (más oscura) de intersección (S ∩ D). En tanto, el conjunto unión (S U D, sigla no incluida en la figura) corresponde a toda el área grisada, y expresa “solamente S + solamente D + (S y D a la vez)”, lo que es igual a P(S) + P(D) − P(S ∩ D).
3.3.2. Multiplicación. Probabilidad de A y B. La probabilidad condicional. Sucesos dependientes e independientes Establecer la probabilidad de la aparición simultánea o conjunta de sucesos diferentes, requiere evaluar la probabilidad de cualquiera de los dos sucesos y multiplicarla por la probabilidad de que una vez que ha ocurrido, ocurra el restante. Dicha probabilidad corresponde a la del conjunto intersección S ∩ D de la Figura 3.1. Volviendo al ejemplo anterior, la probabilidad de que un individuo cualquiera de la población general presente a la vez sobrepeso y dislipemia, está dada por la probabilidad de que presente sobrepeso, multiplicada por la probabilidad de que un individuo con sobrepeso presente dislipemia. Este último tipo de probabilidad requiere un comentario aparte por su importancia no sólo en el cálculo sino también en la lógica de las probabilidades. La probabilidad de un suceso (dislipemia) dada la presencia de otro suceso (sobrepeso) se llama probabilidad condicional y se expresa P(dislipemia | sobrepeso) o en forma más general, P(A | B), que se lee probabilidad de A, dado B. De modo que, la probabilidad de la presencia simultánea en un individuo, de dislipemia y sobrepeso, según se enunció más arriba, se podrá calcular como:
P(sobrepeso y dislipemia) = P(sobrepeso) × P(dislipemia | sobrepeso)
y en forma general: P (A y B) = P (A) × (B | A)
(3.3)
que es la expresión general de la multiplicación de probabilidades y se refiere, como quedó expresado, a dos sucesos ocurriendo simultáneamente. [ 203 ]
Volviendo al ejemplo anterior, para conocer la probabilidad de la presencia simultánea de sobrepeso y dislipemia en cualquier individuo de la población, deberá conocerse la probabilidad condicional de una de esas patologías con respecto a la otra, por ejemplo, la probabilidad condicional de dislipemia en un individuo que presenta sobrepeso (“dislipemia, dado sobrepeso”). Si aceptamos para proseguir el ejemplo, que esta probabilidad condicional sea igual al 50% o 0.50, se tendrá, reemplazando P(A) por P(sobrepeso) = 0.64 y P(B | A) por P(dislipemia | sobrepeso) = 0.50, que la probabilidad de elegir un individuo al azar en la población general y que éste padezca simultáneamente sobrepeso y dislipemia, resulta igual a 0.64 × 0.50 = 0.32 o 32%. Alrededor de un tercio de los individuos presentará las dos condiciones a la vez. Cabe agregar que el mismo resultado debería esperarse si se empleara la probabilidad de ser dislipémico y se multiplicara por la probabilidad condicional de presentar sobrepeso siendo dislipémico, P(sobrepeso | dislipemia). Debe notarse que en el ejemplo que se viene considerando, la probabilidad de dislipemia en un sujeto con sobrepeso, P(dislipemia | sobrepeso), no es la misma que para un individuo de la población general en el que no se exija la condición de sobrepeso. En cambio, en el caso hipotético en que la probabilidad condicional P(dislipemia | sobrepeso) fuera la misma que la probabilidad de dislipemia para la población general, habría que aceptar que la presencia de sobrepeso no afecta la probabilidad de dislipemia en la población y podría escribirse P(dislipemia / sobrepeso) = P(dislipemia). En general, cuando la presencia de una variable A no afecta las probabilidades de otra variable B, puede escribirse P (B | A) = P (B)
(3.4)
Se dice entonces que A y B son sucesos independientes y en estas circunstancias, (3.3) queda reducida a: P (A y B) = P (A) × P (B)
(3.5)
que es la fórmula para la multiplicación de probabilidades independientes. Las tiradas de monedas son ejemplos típicos en que los resultados en distintas tiradas o con distintas monedas tienen probabilidades independientes, ya que no dependen de los resultados obtenidos en tiradas anteriores o con las demás monedas. Así, la probabilidad de obtener dos caras con dos monedas a y b, es igual al producto de la probabilidad de obtener cara con cada moneda, ya que el resultado con la moneda b no dependerá de lo ocurrido con la moneda a, y se podrá escribir P(cara con moneda b) = P(cara con moneda b | cara con moneda a). Como la probabilidad de cara es igual a ½ con cada moneda, la probabilidad de dos caras será igual a ¼. Como se ha visto, la multiplicación de probabilidades calcula la probabilidad de la aparición conjunta de dos sucesos A y B, que es la probabilidad del suceso intersección A ∩ B, respecto de todos los resultados posibles o sea, respecto del espacio muestral completo. Muchas veces se tienen datos acerca de dos sucesos A y B sin conocerse la probabilidad de su aparición conjunta, y es posible conocer la probabilidad condicional del suceso A una vez que se ha pro[ 204 ]
ducido B, así como la probabilidad de B en un espacio muestral más amplio. En tal caso, la probabilidad de la ocurrencia simultánea de A y B en el espacio muestral de referencia, puede calcularse según (3.3). En el ejemplo de la dislipemia y el sobrepeso, para conocer la probabilidad de su ocurrencia conjunta en la población general (espacio muestral) se multiplicó la probabilidad de dislipemia condicional a la presencia de sobrepeso, por la probabilidad de sobrepeso en la población general. A partir de las proposiciones básicas tratadas hasta aquí, el cálculo de probabilidades admite desarrollos más extensos de acuerdo a la complejidad de las situaciones experimentales, y su análisis no se abordará aquí, pudiendo consultarse Turner, 1974. Sin embargo se harán dos menciones, una de orden teórico y otra de orden práctico. La primera se refiere a la necesidad, cuando se calculan probabilidades, de verificar que todos los puntos muestrales o posibles sucesos hayan sido tomados en cuenta. Por ejemplo, la probabilidad de obtener dos caras con dos monedas no es la misma que la de obtener una cara y una cruz. En efecto, las probabilidades para cada posible resultado de las tiradas son: Tirada 1 Tirada 2 Tirada 3 Tirada 4
Moneda A cara cara cruz cruz
Moneda B P (A ∩ B) cara 0.5 × 0.5 = 0.25 cruz 0.5 × 0.5 = 0.25 cara 0.5 × 0.5 = 0.25 cruz 0.5 × 0.5 = 0.25
Las tiradas 2 y 3 proporcionan una cara y una cruz, aunque con las monedas invertidas. De modo que la probabilidad de una cara y una cruz (no importando cuál de las monedas sea cara y cuál cruz) es igual a la suma de las probabilidades de las tiradas 2 y 3, igual a 0.25 + 0.25 = 0.50. Una cara y una cruz ocurrirán en la mitad de las tiradas y hubiera sido un error calcular la probabilidad como P(cara) × P (cruz) = 0.5 × 0.5 = 0.25 porque tal estimación corresponde a la tirada 2 y omite la tirada 3 es decir, no considera el espacio muestral completo. Sin embargo, 0.25 es la probabilidad de dos caras, o de dos cruces, que no tienen más que un modo de ocurrir. La segunda mención se refiere a la dificultad general para asignar las probabilidades correctas a los distintos sucesos reales dada la variabilidad de las muestras y las poblaciones, de los procedimientos de medición y de las condiciones experimentales. Una vez que pequeños errores se hayan introducido en las estimaciones, las diversas operaciones realizadas sobre las mismas tenderán a aumentarlos y por eso, aferrarse al significado numérico exacto de los cálculos con probabilidades puede llevar a conclusiones poco consistentes que deben ser consideradas en forma crítica. 3.4. Probabilidades y Odds Si se divide la probabilidad de ocurra un suceso A, por la probabilidad de que el mismo suceso no ocurra, el resultado puede entenderse como las “chances” del suceso A contra el suceso “no A”. Así, una enfermedad que tiene una probabilidad de estar presente igual al 75% o 0.75, tiene una probabilidad de no estar presente igual al 25% o 0.25 y por lo tanto, sus “chances” son iguales a 0.75 / 0.25 = 3. Esto se puede entender como “chances de 3 a 1” a favor de [ 205 ]
la enfermedad presente, y es lenguaje familiar en el campo de las apuestas. La denominación corrientemente utilizada para esta razón de probabilidades es el término odds, cuya traducción se aproxima al significado de la palabra “chance” en el sentido de probabilidad o tendencia a ocurrir. Resumiendo, para un suceso con probabilidad P, sus odds están dados por odds = P / ( 1 − P)
(3.6)
Sin embargo, si la enfermedad tiene el 25% de probabilidad de estar presente, su odds se invierte y es ahora igual a 0.25 / 0.75 = 0.33. Este resultado ya no es tan directamente intuitivo, pues hay que imaginar las probabilidades originales para darse cuenta que la expresión decimal significa una chance igual a “una de cada tres.” Conociendo los odds de un suceso, la probabilidad original se obtiene de la expresión: P = odds / (odds + 1)
(3.7)
Los odds pueden variar entre 0 (probabilidad de ocurrencia igual cero) hasta valores ilimitadamente grandes cuando la probabilidad del suceso aumenta. Así, un suceso con una probabilidad de 0.95 tiene odds iguales a 0.95/0.05 = 19 y como se ve, no hay límite superior para el valor posible de los odds, cuyo rango posible se extiende entre cero e infinito. En cambio, no existen odds negativos. Como se ve, el lenguaje de los odds es mucho menos intuitivo que el de las probabilidades y se aleja bastante de la experiencia diaria. Una probabilidad de enfermedad del 95% es claramente imaginable mientras que no lo es tanto su expresión en odds, igual a 19 (que debería entenderse como “chances de 19 a 1”). Porqué entonces su importancia en estadística? Porque además de expresar la probabilidad de un suceso en relación a su complemento (1 − P), aparecen en el desarrollo teórico de varios procedimientos y técnicas, típicamente en la regresión logística y en las estimaciones del riesgo relativo en los modelos epidemiológicos de tipo caso-control, métodos que se hallan relacionados entre sí y tienen extensos campos de aplicaciones en medicina (ver Secciones 12 y 16).
[ 206 ]
4. Distribuciones de probabilidades
4.1. Variables aleatorias, distribución de probabilidades y funciones de probabilidad Muchas veces se necesita conocer las probabilidades de los diferentes valores que puede adoptar una variable o suceso en estudio, a fin de poder realizar previsiones respecto de su posible comportamiento en las poblaciones de las que procede. Como se verá, las distintas distribuciones y funciones de probabilidad constituyen modelos teóricos que permiten alcanzar esos objetivos al ajustarse al comportamiento de las observaciones realizadas en las muestras. En estos casos, el concepto de variable hace especial referencia a su carácter aleatorio, esto es, que no permite predecir con certeza cuál de los valores posibles tomará en una determinada situación, y se habla en estos casos de variables aleatorias. De hecho, gran parte de los fenómenos biológicos pueden ser representados por este tipo de variables. Si bien no es posible conocer qué valores adoptará una variable aleatoria, frecuentemente se pueden asignar probabilidades a los distintos valores que puede exhibir. Así, la probabilidad de obtener un seis tirando un dado normal puede estimarse en 1/6 o 0.17, pero este conocimiento no permite saber con certeza cuál será el resultado de una tirada hasta no haberla realizado. Las variables aleatorias se suelen denominar con una letra mayúscula como X o Y, mientras que cualquier valor adoptado en una determinada observación se suele representar por la misma letra en minúscula. Si a la variable “resultado de tirar un dado” se la denomina X, la probabilidad de obtener un seis se expresa como P(X = 6), que es también la probabilidad P(X = x) para x = 6. También puede escribirse p(6) o p(x). Dada una variable aleatoria, las llamadas distribuciones de probabilidades proporcionan las probabilidades asociadas con cada uno de los valores posibles de la variable. Estas distribuciones son teóricas y describen con mayor o menor exactitud el comportamiento de las observaciones realizadas en los diversos campos de la biología. Con un número finito de valores posibles de la variable, tales distribuciones se pueden tabular y representar en forma de histogramas, mostrando dichos valores en el eje horizontal y sus correspondientes probabilidades en el eje vertical (Fig. 4.1).
[ 207 ]
Figura 4.1. Probabilidad de obtener cero, una o dos caras tirando dos monedas.
En general, las variables aleatorias pueden ser discretas o continuas. En el caso de una variable discreta, cada valor de la misma se corresponde con una probabilidad finita. El histograma de la figura 4.1 muestra la distribución de probabilidades examinada en §3.3.2. Las probabilidades de obtener cero, una o dos caras tirando dos monedas a la vez, son 0.25, 0.50 y 0.25 respectivamente. Su suma es igual a 1, lo que implica que no quedan otros resultados posibles. Nótese que las distribuciones de frecuencias descriptas en §2.3, resumen las frecuencias con las que se han presentado los distintos valores de una variable medida durante un experimento, esto es, de una variable muestral. Si bien las frecuencias se relacionan con probabilidades y pueden servir para estimarlas, las distribuciones de frecuencia son objetos empíricos resultado de la recolección de datos. En tanto, las distribuciones de probabilidades resultan de funciones matemáticas que asignan probabilidades a los distintos valores que puede adoptar una variable independiente, sin que sea un requisito la observación de los datos. Así, no ha sido necesario efectuar tiradas de monedas para calcular la distribución de probabilidades de la Figura 4.1, que se obtuvo a partir de una función de probabilidad. Las funciones probabilísticas o funciones de probabilidad asignan probabilidades a cada valor x que pueda adoptar una variable aleatoria X, de modo que las probabilidades resultan una función de los valores de la variable aleatoria y se expresan P(X = x) o más sencillamente, p(x). En el ejemplo de la tirada de dos monedas analizado en §3.3.2 e ilustrado en la Figura 4.1, las probabilidades de obtener 0, 1 o 2 caras son función de estos valores y se expresan como P(X = 0 caras) = 0.25, P(X = 1 cara) = 0.50 y P(X = 2 caras) = 0.25. Las probabilidades son función de cada posible valor de la prueba, 0, 1 y 2 caras, y en este caso se obtienen de la llamada función binomial, que se examinará en §4.4. En relación con esto, obsérvese que las probabilidades de tirar cero, una o dos caras, se han determinado en forma analítica en función de los valores que puede adoptar la variable (número de caras), y no ha sido necesario realizar experimentos de muestreo para conocerlas. [ 208 ]
Análogamente a lo que ocurre con las distribuciones de frecuencias (§2.3), las funciones de probabilidad deben cumplir con el requisito de que la suma de todas las probabilidades sea igual a la probabilidad total, o sea 1. Esto tiene que cumplirse de un punto de vista matemático para que la función represente correctamente las probabilidades de una variable aleatoria. En el histograma de la figura 4.1 se observa que las probabilidades para cero, una y dos caras son 0.25, 0.50 y 0.25 respectivamente, con lo que la suma es igual a 1 (que es además el área del histograma, integrada por rectángulos con base igual a 1 y altura igual a la respectiva probabilidad). En las representaciones gráficas, las funciones de probabilidad pueden corresponder a histogramas (funciones discretas con un número finito de valores posibles para la variable aleatoria) o a áreas delimitadas por líneas curvas que expresan un cambio gradual y continuo de las probabilidades a medida que la variable aleatoria toma sus infinitos valores posibles (funciones continuas, ver más adelante). En la Figura 4.2 se observa el histograma de una variable discreta y la curva que resultaría de proseguir indefinidamente la subdivisión de la variable independiente (ver §4.6). En cualquier caso, el área de estos histogramas o curvas de probabilidades debe valer siempre 1, que es el valor de la probabilidad para todos los valores posibles de la variable aleatoria. Figura 4.2. Histograma de una distribución discreta de probabilidades, y curva de la función continua a la que tiende al proseguir indefinidamente la subdivisión de la variable aleatoria.
La probabilidad de una variable aleatoria de tomar valores comprendidos entre el extremo izquierdo de la curva de probabilidades y un valor xi arbitrario, es cada vez mayor a medida que xi se corre hacia la derecha de la distribución. Esta acumulación de probabilidades puede representarse como una nueva función de x llamada función de distribución acumulativa o simplemente función de distribución (ver §4.6.1). Las distribuciones probabilísticas tienen importancia por su capacidad para describir ajustadamente el comportamiento de distintos tipos de variables obtenidas de mediciones [ 209 ]
en muestras de poblaciones. La información que se obtiene del estudio de las funciones de probabilidad está contenida en su estructura matemática y, en gran parte, se encuentra resumida o condensada en un pequeño grupo de expresiones que las caracterizan, de las cuales las fundamentales son la media, la varianza y el desvío estándar. 4.2. Esperanza matemática (μ) y varianza (σ ² ) de una variable aleatoria En la descripción de muestras o conjuntos de datos en general, se definieron medidas de posición y de dispersión, entre las cuales se cuentan la media y la varianza muestrales (ver §2.5). Estas medidas permiten conocer y resumir las características de las muestras. En el caso de las distribuciones de probabilidades, se tienen expresiones análogas como la esperanza matemática o media y la varianza de la variable aleatoria, que son constantes que caracterizan a cada una de las distintas funciones de probabilidad y se conocen como parámetros de las mismas. Las funciones de probabilidad se utilizan para describir en forma teórica distintos universos o poblaciones. En lo que sigue se expondrán algunos conceptos relativos a la esperanza matemática y la varianza de las funciones de probabilidad. Dada una variable aleatoria X, se denomina esperanza matemática de X a la suma de los productos de cada valor x que toma la variable, multiplicado por su respectiva probabilidad. Tratándose de variables discretas con un número finito de valores posibles, se tiene: E ( X ) = ∑ x i P i
(4.1)
donde ∑ expresa el proceso de sumar los productos de las i observaciones de x por sus respectivas probabilidades. Se ha mencionado antes que la probabilidad P dependerá del valor que tome x, esto es, P es una función de x y puede escribirse P = f( x ), con lo cual (4.1) toma la forma: E ( X ) = ∑ xi × f(xi)
(4.2)
La esperanza matemática corresponde al valor medio de la x para todos sus valores posibles y es la media de la correspondiente distribución de probabilidades. En el caso de variables continuas, que implican infinitos valores posibles para la variable x, el cálculo de la esperanza matemática requiere reemplazar la sumatoria por las integrales de las funciones de probabilidad f( xi ), con lo cual la expresión (4.2) toma la forma E ( X ) = ∫x f(x) d(x)
(4.3)
que tiene el mismo significado y corresponde a la media de la distribución. Se acostumbra representar a la esperanza matemática de X con la letra griega μ, como símbolo de la media del universo representado por la función de probabilidades. A fin de comprender mejor el concepto, véase como se obtiene la esperanza matemática ( E ) en el modelo de las dos monedas del párrafo anterior, siendo la variable aleatoria X, el número de caras. Según la definición (4.1), se debe multiplicar cada uno de los posibles valores del número de caras por su respectiva probabilidad, y sumar los términos: [ 210 ]
E(número de caras) = (0 caras) × P( 0 caras) + (1 cara) × P(1 cara) + (2 caras) × P(2 caras) = 0 × 0.25 + 1 × 0.50 + 2 × 0.25 = 1
Nótese que para cada posible resultado, su probabilidad depende o es función del número de caras de que se trate, y en este caso está determinada por la llamada función binomial, que se examinará con algún detalle más adelante. Así, la probabilidad de 2 caras o cero caras es la misma e igual a 0.25, mientras que la probabilidad de 1 cara corresponde a la suma de la probabilidad de cara en la moneda A más la probabilidad de cara en la moneda B, igual a 0.25 + 0.25 con lo que P(1 cara, cualquier moneda) es igual a 0.50. Nótese también que las probabilidades, que se determinan en función de los valores que puede adoptar la variable aleatoria, se originan en funciones de probabilidad teóricas y no requieren estar avaladas por experimentos. Puede observarse asimismo la correspondencia de la esperanza matemática con la media de un experimento ideal donde, en cuatro tiradas de dos monedas cada una, se dieran las cuatro posibles combinaciones expuestas en §3.3.2: la suma del número de caras en cada tirada sería igual a 2 + 1+ 1+ 0 = 4, lo que dividido por 4 tiradas es igual a 1, resultado idéntico al de la esperanza matemática. La diferencia entre la esperanza matemática y la media muestral reside en que ésta tiene carácter experimental y oscila alrededor de un valor central, siendo muy difícil que aún con un número grande de experiencias (tiradas de monedas) la media muestral tenga exactamente el valor de la media teórica de la población, mientras que la esperanza matemática de la variable aleatoria X es por definición la media de dicha variable, dada por la función de probabilidades correspondiente. La varianza de una variable aleatoria X se define como la esperanza matemática de la diferencia entre las x y μ, elevada al cuadrado: E(x − μ)², y tiene un significado análogo al de la varianza de una muestra, vista en §2.5. Para obtenerla, cada valor del término (xi − μ)² se multiplica por su probabilidad Pi en forma análoga a lo visto para la esperanza de la X. La varianza se simboliza con la letra griega σ elevada al cuadrado ( σ² ) y su expresión es: σ² = E (x − μ) ² = ∑ (xi − μ) ² Pi (4.4) Su raíz cuadrada, σ, es el desvío estándar de la distribución: σ = √ σ²
(4.5)
Como para la esperanza matemática, cuando se trata de variables continuas el proceso de sumatoria requiere el empleo de integrales. Se ha visto (§2.5.2) que la varianza y el desvío estándar muestrales calculados según (2.4) y (2.5), son estimadores insesgados de la varianza y el desvío estándar del universo. 4.3. Cuál es el papel de las funciones de probabilidad en estadística? El hecho de poder caracterizar y medir la posición y la dispersión de los datos experimentales mediante ciertos estadísticos como la media, la varianza y el desvío estándar obtenidos de las muestras (§2.5), lleva a plantear la pregunta acerca del objeto de introducir funciones de probabilidad, que son construcciones matemáticas de índole teórica, para tratar con da[ 211 ]
tos empíricos que están bien descriptos por los estadísticos muestrales ya mencionados. El motivo es que las llamadas funciones probabilísticas demuestran ajustarse notablemente bien al comportamiento de los datos muestrales y por otra parte, a partir de sus propiedades, posibilitan la elaboración teórica de predicciones e inferencias que no podrían obtenerse sin ellas. Por ejemplo, se verá más adelante que en una distribución normal o gaussiana, las observaciones que se hallan comprendidas entre la media y dos desvíos estándar a cada lado de la misma, constituyen casi exactamente el 95% de los casos. Por ende, la probabilidad de encontrar observaciones o casos por fuera de la media ± 2 desvíos estándar, es de sólo el 5%. Estas propiedades son características de la función normal y no se podrían deducir sencillamente del examen directo de las muestras. Conviene por lo demás tener en cuenta que para que las funciones de probabilidad resulten útiles en el estudio de poblaciones, el comportamiento de las muestras debe estar adecuadamente descrito por aquéllas funciones teóricas. En otras palabras, deben emplearse las funciones de probabilidad que mejor se ajusten a la distribución de los elementos muestrales en cuestión. Cuál de las distintas posibles funciones probabilísticas es la adecuada para cada clase de muestra depende en gran parte del tipo de datos y de sus fuentes de origen: puede tratarse de variables discretas o continuas, muestras grandes o pequeñas, sucesos con alta o baja probabilidad de aparición, etc. La experiencia puede ayudar a determinar cuál es el tipo de distribución más adecuado, y a veces, podrá ser necesario realizar distintas pruebas exploratorias como evaluar la normalidad de los datos y eventualmente ensayar su transformación para aproximarlos a la normalidad si este no fuera el caso y el tratamiento estadístico lo hiciera necesario. Algunos de estos aspectos se irán mencionando a lo largo del texto (ver §4.8). En lo que sigue, se examinarán brevemente las principales distribuciones teóricas de probabilidad. 4.4. Distribución Binomial Como en el caso de las monedas visto en el punto anterior, existen variables que tienen sólo dos estados o resultados posibles, y en cada oportunidad presentan uno de los dos (variables dicotómicas o binarias). En el caso de las monedas los resultados posibles son cara y cruz, que en general pueden denominarse A y B, de modo que la aparición del suceso A significa que no se ha producido B. Si se realiza una serie de experiencias con tales variables, como puede ser una serie de tiradas con una moneda, surge la pregunta por la probabilidad de obtener un número determinado de sucesos A (o simplemente, sucesos, como podrían considerarse las caras) en un número n de experiencias o tiradas. En cada experiencia se puede obtener cara o cruz, A o B, con lo que se entiende que el número de posibles caras o sucesos en n pruebas podrá variar entre 0 y n. Ese número de sucesos en n experiencias, se puede denominar r. Resulta intuitiva la idea de que si se tira diez veces una moneda (n = 10) el valor más probable para el número de caras que se obtengan será 5 (r = 5), y esto se debe a que en este caso se tiene por cierto que las probabilidades de cara son iguales a las de “no cara,” independientemente de cuál pudiera ser el comportamiento de una moneda real. En este mismo caso, otros valores de r pueden ser esperados con menor frecuencia a medida que se apartan del valor central 5. La distribución que describe las probabilidades de obtener un número r de sucesos en función de n y de la probabilidad de la variable binaria de que se trate, se [ 212 ]
llama distribución binomial. La variable aleatoria de la distribución es r, que como se ha mencionado, pude tomar valores entre 0 y n. Conviene recordar que la probabilidad de suceso en una variable binaria no es necesariamente igual a 0.5. En realidad, muchos acontecimientos cuya probabilidad podemos estimar de alguna manera, pueden considerarse variables binarias adjudicando dicha probabilidad p a su aparición, y la probabilidad complementaria 1 − p = q, a su falta de aparición. Por ejemplo, si se acepta que la probabilidad de enfermedad coronaria en la población general es del 7%, entonces P(coronariopatía) = 0.07 y P(no coronariopatía) = 1 − 0.07 = 0.93. Así considerada, la presencia de coronariopatía puede ser tratada como una variable binaria y estudiarse mediante la función binomial. En un conjunto de n ensayos o experimentos realizados con una variable binaria cuya probabilidad se puede simbolizar como π, la probabilidad de obtener un número r de sucesos se puede calcular en dos etapas: 1. De acuerdo con la regla para la multiplicación de probabilidades independientes (fórmula 3.5), generalizada a varios factores, la probabilidad de obtener r sucesos y (n − r) “no sucesos”, con probabilidades π y (1 − π) respectivamente, es igual a: π × π × …. × π × (1 − π) × (1 − π) × … × (1 − π) r veces (n − r) veces o sea al producto de π por los r sucesos y ( 1 − π ) por los (n − r) “no sucesos”, lo que se expresa en forma abreviada: π r × (1 − π) n − r
(4.6)
Esta es la probabilidad de obtener r sucesos y (n − r) “no sucesos” en n experiencias. Pero como se indica a continuación, hay varias formas o “disposiciones” en que se pueden alternar sucesos y “no sucesos.” 2. La probabilidad anterior se refiere a cualquiera de las posibles disposiciones de sucesos y “no sucesos” en n experiencias, pero hay siempre varias posibles. Por ejemplo, tirando una moneda 4 veces y expresando cara = C y cruz = c, tenemos que una cara se puede disponer o presentar en 4 formas: (C, c, c, c), (c, C, c, c), (c, c, C, c) y (c, c, c, C), siendo r = 1 en cada uno de los cuatro casos y teniendo cada caso, como resulta evidente, la misma probabilidad. La probabilidad calculada por la fórmula 4.6 es válida para cualquiera de estas cuatro disposiciones, que son independientes y, por lo tanto, para hallar la probabilidad de obtener 1 cara sin importar en qué posición aparece ubicada, hay que sumar las cuatro probabilidades independientes o, como son las cuatro iguales, multiplicar por cuatro. Otro ejemplo: dos caras en 4 tiradas se pueden presentar de 6 maneras: (C, C, c, c), (C, c, C, c), (C, c, c, C), (c, C,C, c), (c, C, c, C) y (c, c, C, C), y la probabilidad total de obtener dos caras (r = 2) en cualquier orden de presentación, se obtendrá sumando las probabilidades individuales de cada disposición o, como son iguales, multiplicando por seis la probabilidad obtenida de la fórmula (4.6). [ 213 ]
Como se ve, para determinar la probabilidad de r sucesos en n pruebas, se necesitará siempre el número de posibles formas de alternarse sucesos y “no sucesos,” y el número de estas disposiciones de r sucesos entre n experiencias puede determinarse como se acaba de hacer, haciendo explícita cada una de las posibles disposiciones de los resultados y contándolas. Sin embargo, su obtención es mucho más sencilla utilizando los llamados coeficientes binomiales, que proporcionan algoritmos de cálculo sobre los cuales no nos extenderemos y que, por otra parte, pueden hallarse tabulados para valores de n tan altos como 100 (ver Documenta Geigy, Tablas Científicas). Estos coeficientes se simbolizan de varias formas, siendo una de ellas nCr, que aplicada a los datos del párrafo anterior se escribe 4C 2 = 6 y se lee “disposiciones de 4 elementos tomados de a 2, igual a 6.” Resumiendo lo ya visto, puede decirse que, la probabilidad de obtener r sucesos en n experiencias, se obtiene multiplicando la probabilidad dada por (4.6), por el correspondiente coeficiente binomial, que da el número posible de distintas presentaciones con la misma n y la misma r. La expresión de la función de probabilidad binomial en función de r queda entonces expresada como: P ( r ) = nCr × π r × ( 1 − π ) n − r
(4.7)
Como ejemplo práctico para afirmar los conceptos anteriores considérese el caso sencillo de calcular la probabilidad de obtener 2 caras (no menos ni más) tirando una moneda 4 veces: hemos visto que 2 caras en cuatro tiradas pueden disponerse de 6 formas diferentes, dadas por 4C 2 = 6, y que la probabilidad de cualquiera de estas seis disposiciones está dada (suponiendo la probabilidad de cara = π = 0.50), por: π r × ( 1 − π ) n − r = 0.50 ² × ( 1 − 0.50 ) 4 − 2 = 0.25 × 0.25 = 0.0625 Por lo tanto, de acuerdo a (4.7), la probabilidad buscada es 6 × 0.0625 = 0.375. Calculando por el mismo procedimiento las probabilidades para cada resultado posible, desde 0 a 4 caras, se tienen todos los datos de la distribución binomial para n = 4 y π = 0.50. Teniendo en cuenta que los coeficientes binomiales son 4 C 0 = 1, 4 C1 = 4, 4 C 2 = 6, 4 C 3 = 4 y 4 C 4 = 1, se puede comprobar fácilmente utilizando 4.7, que las respectivas probabilidades son: P(0 cara) = 0.0625, P(1 cara) = 0.25, P(2 caras) = 0.375, P(3 caras) = 0.25 y P(4 caras) = 0.0625, siendo su suma igual a 1 como corresponde a una función de probabilidades. El correspondiente histograma se muestra en figura 4.3
[ 214 ]
Figura 4.3. Distribución de la probabilidad de obtener r caras tirando n = 4 monedas. Se ha superpuesto la curva de distribución normal.
En la figura 4.3 se observa que la distribución es simétrica, presenta la probabilidad máxima en su esperanza matemática, que es igual a 2 (ver a continuación), y las probabilidades disminuyen hacia ambos extremos. En el terreno relacionado con la obtención de muestras, el cociente entre las r veces que un suceso A ocurre en n experimentos, puede escribirse p = r / n
(4.8)
donde p denota la proporción de sucesos en n ensayos. Este cociente estima la proporción de sucesos en el universo, que se suele representar con la letra π y es la esperanza matemática de p: E ( p ) = π
(4.9)
y también puede interpretarse como la probabilidad del suceso A. Se demuestra que la varianza de p es Var ( p ) = π (1 − π) / n
(4.10)
y su estimación a partir de muestras se obtiene reemplazando π por p: Var (p) = p (1 − p) / n
(4.11)
Estas expresiones encontrarán sus aplicaciones en la Sección 8. 4.4.1. Aproximación de la binomial a la normal A medida que aumenta el número de ensayos o pruebas (n), la función binomial se aproxima rápidamente a la conocida función normal (§4.7), lo que puede corroborarse en la figura [ 215 ]
4.3, donde se ha trazado la curva normal sobre el histograma que representa la distribución binomial para n = 4 y π = 0.5. Con π = 0.5 la distribución es simétrica, y a pesar del exiguo número de ensayos, la correspondencia entre ambas gráficas es ya muy clara. Con algunas decenas de ensayos ya suele ser suficientemente buena como para poder emplearse las propiedades de la función normal en aplicaciones de inferencia estadística. La binomial es simétrica cuando π es igual a 0.5, y se torna asimétrica a medida que π se aproxima a los extremos, 0 o 1. La simetría con π cercano a 0.5 contribuye a que la función se aproxime más rápidamente a la normal al crecer n. 4.5. La Distribución de Poisson Una distribución de probabilidades importante, aplicable a variables dicotómicas o binarias, es la distribución de Poisson. Por razones de espacio sólo se mencionarán sus propiedades y aplicaciones más relevantes. Como todas las distribuciones de probabilidades, se trata de un modelo matemático que expresa el comportamiento de cierto tipo de variables, en este caso el de sucesos que ocurren esporádicamente en un continuo de espacio o tiempo, y con una probabilidad relativamente pequeña. Son ejemplos típicos de variables que siguen esta distribución el número de bacterias, células u otros elementos formes esparcidos por campo de microscopio o volumen de líquido (continuos de espacio) o la incidencia de enfermedades relativamente poco frecuentes en períodos determinados (continuo de tiempo). Aparte de las aplicaciones mencionadas, la distribución de Poisson resulta una buena aproximación a la distribución binomial cuando p es pequeña y n grande, situaciones en las que puede reemplazarla en el cálculo. 4.6. Distribuciones continuas. Generalidades Como ya se anticipara en §4.1, en las funciones de variables continuas las probabilidades se distribuyen a lo largo de un conjunto infinito de posibles valores de la variable independiente, que pueden entenderse como el límite al que tenderían los intervalos de una variable discreta si se subdividieran indefinidamente hasta aproximarse a cero. En la Figura 4.2 se observa un histograma que representa la distribución de probabilidades de una variable discreta, y el resultado que se obtendría de ser posible continuar indefinidamente con la subdivisión de la variable hasta que la base de cada rectángulo tienda a convertirse en un punto. En ese momento, el perfil del histograma tenderá a mostrar un contorno donde la línea quebrada formada por el techo de cada rectángulo será reemplazada por una línea curva (geométricamente, sin discontinuidades). Se obtiene así una distribución continua de probabilidades. Estas distribuciones son generadas por distintas funciones de la variable aleatoria X, siendo la más importante la llamada normal o de Gauss, que se referirá en el siguiente apartado. Como se ha visto, en las distribuciones discretas hay proporcionalidad entre las áreas de los rectángulos de los histogramas y las probabilidades que representan, con un área total que debe ser igual a la unidad y corresponde a la sumatoria de todas las probabilidades de la variable. También se ha dicho que esto es un requisito para cualquier función probabilística. En las distribuciones continuas surge una dificultad para sumar las probabilidades en forma convencional, ya que las bases de los rectángulos tienden a cero convirtiéndose en puntos correspondientes a los infinitos valores que puede tomar la variable aleatoria, y los rectángulos [ 216 ]
se han transformado en infinitas líneas verticales adyacentes, sin un área individual medible, ya que tienen base cero. Entonces, la probabilidad de un determinado valor “puntual” resulta igual a cero, lo que contradice la intuición, que espera una probabilidad para cada posible resultado. Sin embargo, el equivalente de la suma aritmética de infinitos valores de probabilidad cada uno tendiendo a cero, se logra en forma analítica mediante la integración de la función de probabilidad f( x ) sobre el rango de las x. En esta integración, el área total de la función de probabilidad, también conocida como función de densidad de probabilidad y representada por una línea curva, debe hacerse corresponder a 1, que se vio que es un requisito para este tipo de funciones, sean continuas o discretas. De esta forma, la integral de f( x ) corresponde a la sumatoria de las probabilidades puntuales de la variable aleatoria X y también, al área bajo la curva de la función de probabilidad. El área bajo esta curva puede ser entonces dividida por líneas verticales (ordenadas) correspondientes a diversos valores de la variable X con un resultado importante: el área entre dos ordenadas representa la probabilidad de que la variable tome valores comprendidos entre ellas (Fig. 4.4). En otras palabras, aunque la probabilidad en un punto dado de una distribución continua no es calculable, la probabilidad de x puede determinarse para cualquier intervalo entre dos valores de la variable, estén próximos o separados, y está dada por la fracción del área bajo la curva de la función de probabilidad, comprendida entre ambos valores. Así, en la Figura 4.4, el área grisada correspondiente a los valores 1 y 2 de la variable aleatoria es igual al 14% del área bajo la curva, lo que expresa que la probabilidad de que la variable aleatoria X adopte valores comprendidos entre 1 y 2, es igual a 0.14. Esto puede expresarse como P(1 < x < 2 ) = 0.14.
Figura 4.4. Distribución normal. En el eje x los desvíos estándar alrededor de la media. La probabilidad de que la variable x tome valores comprendidos entre dos ordenadas cualesquiera puede determinarse con exactitud mediante el cálculo. Así, para el área grisada, entre x = 1 y x = 2 desvíos estándar, P = 0.14.
[ 217 ]
4.6.1. Funciones de densidad y funciones de distribución Debido a consideraciones teóricas, las funciones de probabilidades, en especial las continuas, se denominan funciones de densidad de probabilidad y las curvas que las representan, curvas de densidad de probabilidad. Como se ha mencionado, las curvas de densidad de probabilidad correspondientes a funciones continuas f( x ) tienen un área, dada por la integral definida entre los extremos de la variable aleatoria X, cuyo valor es igual a 1. La integral de f( x ) se representa como F( x ) y sus valores en cualquier punto xi corresponden al área de la curva de densidad f( x ) entre su cola izquierda y xi. La función F( x ) se denomina función de distribución de probabilidades de x y es siempre creciente de izquierda a derecha (Fig. 4.5). De acuerdo a lo expresado, el valor de F(x) en xi representa la probabilidad de obtener x menor o igual que xi o sea, F( xi) = P( x ≤ xi ). De la misma manera, la probabilidad de que la variable aleatoria presente valores comprendidos en un intervalo xi – xj está dada por la variación de la integral F( x ) entre xi y xj, que corresponde al área de la función de densidad f( x ) entre los mismos valores (Fig. 4.5). Así, dada una función continua de densidad de probabilidades, existe en general la posibilidad de calcular las probabilidades para cualquier intervalo de la variable, lo que se lleva a cabo mediante procedimientos de integración que permiten obtener la correspondiente función de distribución F(x). La estructura de la función de densidad define la forma y otras características de la distribución. La teoría y práctica de esos procedimientos exceden los objetivos del texto y no se tratarán aquí (véase Wackerly DD et. al, 2002). La distribución más importante de la estadística es una distribución continua llamada normal o de Gauss, cuyas propiedades fundamentales se examinarán a continuación.
Figura 4.5. Curvas de densidad f(x) y de distribución F(x) de probabilidades, correspondientes a la función normal. La probabilidad de obtener x entre 1 y 2 desvíos estándar a un lado de la media, está dada por el área de f(x) en ese intervalo y también por el crecimiento de la integral F(x) entre los mismos puntos.
[ 218 ]
4.7. La distribución normal o de Gauss La función de distribución de probabilidades normal o de Gauss, muchas de cuyas características han sido mencionadas en el párrafo anterior, ocupa un lugar central en la teoría estadística y tiene la propiedad de describir adecuadamente el comportamiento de una gran cantidad de variables del mundo físico como las que manejan las ciencias biológicas. La forma de la distribución señala la mayor probabilidad de los valores próximos a la media y su disminución a medida que se alejan del centro de la misma (Fig. 4.4). El término normal no debe entenderse como sano o libre de anomalías, sino simplemente como un nombre. Por lo tanto, la referencia a datos normalmente distribuidos alude a que sus probabilidades se distribuyen siguiendo la función normal o de Gauss. Por cierto, esta distribución de probabilidades es notablemente común en la naturaleza, pero el hecho de que una variable se ajuste a dicha distribución no es de por sí un criterio de normalidad en sentido biológico o médico. Por otra parte, gran parte de los métodos estadísticos se basan o están relacionados con la función normal o de Gauss y sólo funcionan correctamente si los datos a evaluar se distribuyen de acuerdo a dicha función. Otros métodos, si bien requieren la distribución normal de los datos, toleran cierta desviación de la normalidad sin alterar demasiado los resultados y por ello suelen ser denominados robustos. En algunas oportunidades en que los datos se apartan de la distribución normal, puede recurrirse a distintas operaciones matemáticas sobre los mismos a fin de hacer que su distribución de probabilidades se aproxime a la normal (ver §4.8). La función de densidad normal o de Gauss es la siguiente: f ( x ) = (1 / σ √ 2 π) exp [ − ( x – μ)² / 2σ ² ] donde exp [ z ] indica la base e de los logaritmos naturales elevada a la potencia z, esto es ez, siendo z = [ − ( x – μ)² / 2σ ² ], σ = desvío estándar y π = 3.14159… Los valores de f( x ) para las distintas x, así como los de su integral F( x ) o función de distribución, se hallan tabulados extensamente, incluso en los paquetes de cálculo estadístico. Como para otras funciones de probabilidad continuas, la integral de f( x ) entre dos valores de x1 y x2 , corresponde a la probabilidad de la variable aleatoria de adoptar cualquier valor dentro del intervalo, y corresponde geométricamente al área de la curva normal entre las ordenadas que pasan por x1 y x2 (Fig. 4.4). La media (simbolizada μ) corresponde al centro de la distribución y cuando la función normal se utiliza para representar universos, μ representa la media de los mismos. El desvío estándar (representado por σ) se utiliza para medir la dispersión de la variable aleatoria alrededor de la media y, como se verá enseguida, para asignar las probabilidades de que una variable tome valores comprendidos entre determinados límites. Para simplificar estas tareas se suele estandarizar la desviación de las variables experimentales o muestrales con respecto a su media. Dado que los universos no suelen ser conocidos en forma completa, sus medias y desvíos estándar son estimados a través de la media y el desvío estándar muestrales, tal como se ha expuesto en §2.5.
[ 219 ]
4.7.1. Desvío estandarizado Como se comprende, la media y el desvío estándar de una distribución normal tendrán magnitudes de acuerdo con las de la variable de que se trate. Esto hace incómodo comparar las características de variables de diferente magnitud o medidas en diferentes unidades. Así, para una variable X distribuida con media 100 y desvío estándar 20, un valor x = 130 puede resultar poco informativo, y difícil de comparar con el valor y = 130 para una variable Y con media igual a 106 y desvío estándar 15. Un método útil resulta medir la distancia de la variable a la media, y dividirla por el correspondiente desvío estándar. En el primer caso se tendrá (130 − 100) / 20 = 1,5 y en el segundo, (130 − 106) / 15 = 1.6, números que dan la distancia de x e y a sus respectivas medias, expresadas en unidades de desvío estándar. Las distancias han sido de esta forma estandarizadas, y se ve en forma inmediata que en términos de su desvío estándar, la observación y se halla ligeramente más alejada de su media que la observación x. La expresión general de una variable normal estandarizada tiene la forma: z = ( x − μ ) / σ
(4.12)
donde x es el valor particular de la variable aleatoria a normalizar y z recibe el nombre desvío estandarizado o asimismo, variable estandarizada. Esta permite comparar fácilmente la dispersión de distintas variables, aunque sus distribuciones tengan medias y desvíos estándar de distinta magnitud. El desvío estandarizado cambia los valores originales de las variables por aquéllos que expresan su distancia a la media en desvíos estándar. Por tomarse las distancias con respecto a la media o centro de la distribución, se dice que la variable se halla centrada. Los valores de la integral de la función normal se hallan ampliamente tabulados en la forma de desvíos estandarizados a partir de la media, que se considera el centro de la distribución y a la que se asigna el valor cero. Hay varias formas de presentar las tablas de la función normal, siendo frecuente la que da la probabilidad de la variable aleatoria de adoptar un valor entre 0 (el centro) más o menos una determinada desviación z, expresada como se ha visto, en desvíos estándar. Este valor corresponde al área que se extiende z desvíos estándar a cada lado de la media. Así, puede encontrarse que el área de la curva entre − 2 y + 2 desvíos estándar alrededor de la media es igual a 0.9545, lo que expresado en términos de probabilidades significa que en casi exactamente el 95% de los casos, una variable normal tomará valores dentro de 2 desvíos estándar alrededor de la media. Otras veces las tablas presentan la probabilidad de que la variable aleatoria tome valores “por fuera” o más extremos que los tabulados, hecho de interés en inferencia estadística. En la Tabla 4.1 se resumen algunos valores importantes de la variable aleatoria estandarizada, con la respectiva probabilidad de que esos valores sean “excedidos” por azar en la distribución normal. Como la probabilidad en cada caso se refiere a valores en los dos extremos de la curva, se trata de una tabla a dos colas. Allí se observa que la probabilidad de la variable aleatoria de tomar valores por fuera de 2 desvíos estándar alrededor de la media (z = 2) es igual a 0.0455, muy aproximadamente el 5% (nótese que esto concuerda con el resultado dado más arriba para la probabilidad de caer dentro del intervalo, que es el complemento de la probabilidad de caer por fuera del mismo). En este punto es fundamental observar que este 5% se reparte en las 2 [ 220 ]
colas de la distribución, por lo cual la probabilidad de la x de ser mayor que el valor de la media más 2 desvíos estándar será aproximadamente del 2.5%, y la probabilidad de ser menor que la media menos 2 desvíos estándar, el 2.5% restante (véase Fig. 6.2). Estos valores son muy aproximados, siendo el valor de z por fuera del cual queda exactamente el 5% de los casos, igual a 1.96. Este número aparece frecuentemente en el desarrollo de pruebas de significación estadística, aunque para el cálculo aproximado y rápido puede usarse z = 2. En las Figuras 4.4 y 4.5 se ha visto que el área comprendida entre 1 y 2 desvíos estándar a partir de la media es igual al 14% del área total de la curva, y por lo tanto tiene asociada una probabilidad P = 0.14. Existen muchas formas de obtener este resultado a partir de las distintas tablas de la distribución normal. Por ejemplo, se puede consultar el valor de la probabilidad entre la media y 2 desvíos estándar y restarle la probabilidad entre la media y 1 desvío estándar. También se puede buscar la probabilidad de la variable x para valores comprendidos entre dos desvíos estándar alrededor de la media, y restarle la probabilidad para valores comprendidos entre 1 desvío estándar. Estas son 0.95 y 0.68, y su diferencia, igual a 0.27, da la probabilidad de x entre −2 y −1 desvíos estándar y entre +1 y +2 desvíos estándar. Por lo tanto, la probabilidad de x comprendida entre +1 y +2 desvíos estándar será igual a la mitad, o sea 0.135 o 0.14, con diferencias debidas al redondeo. En la práctica esto significa que en una muestra normal, el 14% de las observaciones se hallarán a una distancia de la media comprendida entre 1 y 2 desvíos estándar (y la misma probabilidad existirá para la misma desviación a la izquierda de la media, ya que la distribución es simétrica). Tabla 4.1. Valores de la variable estandarizada z y probabilidad de adoptar valores más extremos en cualquier dirección (dos colas).
z = ( x − μ ) / σ
Probabilidad de mayor desviación, ambas colas
0.000
1.00
1.000
0.317
1.960
0.05
2.000
0.0455
2.576
0.01
3.000
0.0027
4.8. Transformaciones En lo que sigue se hará una sucinta referencia al tema de las transformaciones en estadística, que básicamente constituye un cambio de la escala en la cual se expresan las variables. Su inclusión en este punto se debe a que existen numerosas variables muestrales cuyas distribuciones se alejan de la normal, y que se pueden normalizar mediante algún tipo de transformación, como por ejemplo, tomando los logaritmos de los valores originales. En esta eventualidad se hablará de una transformación logarítmica de los datos. Como se ha mencionado, la importancia de obtener distribuciones normales es hacerlas accesibles a los métodos de análisis que requieren la distribución normal de los datos y pueden originar resultados distorsionados o erróneos si se aplican a muestras cuyas distribuciones se alejan en mayor o menor grado de la normalidad. [ 221 ]
Una modalidad frecuente de alejamiento de la normalidad consiste en la asimetría de la distribución, lo que ocurre cuando las colas no son similares, esto es, cuando una de ellas presenta una mayor proporción de observaciones alejadas de la media, con lo cual aparece más extensa o larga que la otra. Cuando la cola más “alargada” es la izquierda se habla de asimetría negativa, y cuando lo es la cola derecha, de asimetría positiva. Esta última es con mucho la más frecuente en las muestras biológicas en general (Figura 4.6, A). La asimetría derecha suele corregirse mediante la transformación logarítmica de los datos, es decir, tomando su logaritmo, habitualmente el logaritmo natural (con base en el número e = 2.7182), aunque los resultados no se alteran con el cambio de base. Resulta más o menos intuitivo, que como los logaritmos de los números mayores que 1 crecen con menor rapidez que éstos, los incrementos derechos más extremos que experimentan los datos en las distribuciones con asimetría derecha, tenderán a ser contrabalanceados al tomar logaritmos. En la Figura 4.6 se observa la distribución de la masa ventricular izquierda en 205 adultos sanos (datos de Rodríguez y col, 2004), que exhibe ligera asimetría derecha, y su normalización mediante el empleo del logaritmo de la misma. Figura 4.6. A: Distribución de frecuencias de la masa ventricular izquierda en gramos, en 205 individuos normales. Se observa ligera asimetría derecha. B: distribución del logaritmo natural de la masa ventricular. La distribución se ha normalizado. En cada histograma se ha superpuesto la curva normal.
La asimetría derecha también tiende a corregirse tomando la raíz cuadrada de los datos o bien su inversa. La primera de estas transformaciones es algo menos fuerte, y última es más fuerte, que la transformación logarítmica. Cuál de las tres emplear, es una cuestión práctica que debe decidirse para cada caso en particular. Si bien es posible calcular el grado de asimetría a partir de los datos muestrales, un método sencillo y rápido para evaluarla es la inspección visual de los histogramas de frecuencias tal como se muestran en la Figura 4.6. En la misma puede verse que la transformación logarítmica tiende a producir un ligero exceso en la corrección, con una leve asimetría izquierda. Una forma de comprobar que la asimetría ha sido eliminada es evaluar la normalidad de la distribución resultante, y para hacerlo existen numerosos métodos, entre ellos los de Kolmogorov-Smirnov y de Shapiro-Wilk, disponibles en los paquetes estadísticos corrientes y de sencilla implementación en ese entorno. En cuanto [ 222 ]
al ejemplo de Figura 4.6, la transformación logarítmica produjo una distribución normal de los datos, pese a la mínima asimetría izquierda resultante. En tanto, la raíz cuadrada de la masa ventricular, si bien normalizó la distribución, dejó una ligera asimetría derecha residual que no alcanzó a corregir, y el test de Shapiro-Wilk demostró un ajuste a la normal ligeramente mejor para la transformación logarítmica. Como se ha dicho, la normalización de las distribuciones es un requisito para la aplicación de una gran cantidad de técnicas estadísticas, y en estos casos, las transformaciones necesarias se aplican a los datos antes de ser utilizados en la evaluación de las distintas hipótesis de trabajo. Las diversas pruebas de hipótesis, como pueden ser las comparaciones entre medias muestrales (Sección 6 y siguientes), son efectuadas de esta manera con la variable transformada y normalizada. Un problema que surge en estos casos, es el retorno a las unidades originales y así, no es posible obtener los límites de confianza para una diferencia de medias (ver Sección 6) a partir de los valores transformados. Por lo demás, si bien no siempre puede obtenerse la normalización de una distribución dada, la mejoría en el ajuste de los datos a una distribución normal, puede facilitar y hacer más seguro el análisis de éstos. Las distintas técnicas estadísticas que requieren distribuciones normales pueden ser más o menos sensibles al alejamiento de la normalidad de las muestras, y las que lo son en menor grado, es decir las que toleran bien las desviaciones moderadas de la normalidad, son llamadas técnicas robustas. Aparte de la normalización de ciertas distribuciones muestrales, las transformaciones presentan otras muchas propiedades importantes entre las que se cuentan hacer uniformes las varianzas entre diversos grupos, que es requisito de muchos procedimientos estadísticos, y linearizar algunas relaciones entre distintas variables, necesidad que puede surgir en estudios de regresión lineal y se comenta brevemente en la Sección 9. Acerca de la asimetría de las distribuciones en biología, y del manejo práctico de las transformaciones más utilizadas, consultar Bland, 2006.
[ 223 ]
5. Muestreo. El desvío estándar de la media o error estándar
5.1. Muestreo estadístico En §2.1 se definieron los conceptos de muestra y población. Se ha dicho que el objetivo fundamental de la toma de muestras de poblaciones o muestreo, es obtener información acerca de dichas poblaciones. Esto se realiza mediante operaciones de inferencia estadística que se irán examinando en la Sección 6 y siguientes. La ventaja del trabajo con muestras radica en la obtención de información acerca de conjuntos extensos, partiendo de muestras de dimensiones mucho más pequeñas. Si bien es posible pensar que con los recursos de computación disponibles y dejando de lado el volcado de los datos en las planillas de cálculo, el tiempo y el trabajo personal consumidos serán los mismos analizando muestras o poblaciones, existen dos razones muy evidentes a favor del muestreo, que sólo se mencionarán: la primera es el costo, en dinero y en tiempo, de cada observación, que puede limitar en forma drástica el estudio exhaustivo de una población. La segunda, de igual importancia, es que muchas poblaciones, si bien pueden estar bien definidas, sólo pueden ser muestreadas en forma incompleta por no estar todos sus elementos accesibles. Si por ejemplo se quiere estudiar el universo de los individuos con enfermedad coronaria en una determinada región geográfica, muchas veces será imposible que todos los individuos de ese universo sean accesibles al muestreo, pues habrá motivos de diversa índole, entre otros, socioeconómicos, para que esto sea así. Por ejemplo, se debería poder realizar una cinecoronariografía a todos y cada uno de los individuos en los que fuera necesaria para aclarar el diagnóstico. Lo anterior lleva directamente a un punto clave: las muestras deben ser representativas de las poblaciones de las que proceden. Aunque el proceso de muestreo implica de por sí la pérdida de cierta cantidad de información, la mejor forma de asegurar un máximo de representatividad a una muestra es obtenerla por muestreo aleatorio. Este se define como aquél en el que cada muestra posible, tiene la misma probabilidad de ser elegida. La forma práctica de realizarlo consiste en elegir los elementos de la muestra al azar, por ejemplo numerando los individuos de donde se extraerá la muestra y seleccionando los que han de ser incluidos en la misma mediante números aleatorios, lo que equivale a un sorteo en el cual cada sujeto tiene las mismas chances de ser elegido. Existen numerosas formas de generar números aleatorios, como un bolillero, y también se hallan disponibles en tablas y en los paquetes estadísticos de computación. Pese a la randomización, los estadísticos muestrales como la media y la varianza pueden diferir por azar, de la media y la varianza del universo (habitualmente simbolizadas μ y σ² [ 224 ]
respectivamente), y esto se conoce como error de muestreo. El error de muestreo no se puede evitar pero sí acotar, esto es, establecer con un nivel de confianza razonable, entre qué límites puede variar. En los párrafos siguientes se verán algunas cuestiones importantes relativas al error de muestreo. 5.2. Varianza de las muestras y varianza de las medias Uno de los temas importantes en el muestreo estadístico es el estudio de la variabilidad de las muestras y su relación con los parámetros de población, que frecuentemente son estimados a partir de las mismas. En este sentido, es importante distinguir claramente la variabilidad de los individuos dentro las muestras, de la variabilidad de las medias de las muestras dentro de la población. Al considerar una muestra o conjunto de individuos, si bien no es difícil representarse la dispersión de los casos alrededor de la media, el concepto de variabilidad de las medias no resulta tan inmediato. Al respecto, nótese que si se toman varias muestras de la misma población, cada media x– de una muestra puede ser considerada como un “individuo” dentro del conjunto de medias obtenido. Más formalmente, una media de una muestra puede ser considerada una nueva variable, con su media, varianza y desvío estándar (obsérvese que la nueva media será la media de las x– o “media de las medias muestrales”). Por ejemplo, de una población se pueden obtener varias muestras de, digamos, 10 individuos cada una, y hallar las medias del peso corporal. Estas medias se comportarán como una nueva variable, distinta del peso individual y que se podría denominar “peso promedio de 10 individuos.” Esta nueva variable tiene dos propiedades: la primera es bastante evidente y es que su media estima o “apunta” a la media universal de los pesos μ, de la misma manera en que lo hacen cada una de las medias muestrales x– que se usaron para calcularla. La segunda es la más interesante y es que, su dispersión alrededor de la media universal μ, medida por la varianza y el desvío estándar de las x–, es menor que la varianza y el desvío estándar de la variable x original. En el ejemplo, haciendo determinaciones de las medias del peso (x– ) en varios grupos de 10 individuos, se encontrará que el conjunto de medias así formado tiene varianza y desvío estándar menores que la varianza y el desvío estándar de los individuos dentro de las muestras. De esta forma, la varianza y el desvío estándar de una muestra se refieren a los individuos que la integran, y no serán los mismos que la varianza y el desvío estándar de un conjunto de medias tomadas de la misma población: las medias muestrales están más “concentradas” alrededor de la media de la población que los individuos considerados aisladamente. Esto es así porque cada media contendrá individuos de bajo, mediano y alto peso corporal, de modo que su valor estará en general más cerca del promedio universal que los pesos de individuos aislados tomados al azar. De modo que promediar datos concentra los resultados alrededor de la media universal μ, y los promedios exhiben siempre menor variabilidad que los datos aislados. También es intuitivo que cuanto más grande sea una muestra, más acotada estará la variabilidad de su media alrededor de la media universal.* La relación precisa entre la dispersión de las medias y el tamaño de las muestras de donde provienen, es la base de muchos procedimientos estadísticos fundamentales y se mencionará * Este no es el caso de la varianza y el desvío estándar de la variable x estimados a partir de los datos muestrales, cuyos valores oscilan alrededor de los respectivos parámetros de población σ² y σ, sin estar afectados por el tamaño de la muestra.
[ 225 ]
en los párrafos siguientes. De modo que, si en las secciones precedentes se ha hecho referencia a la varianza y el desvío estándar de los individuos en las muestras, en lo que sigue se incorpora el concepto de variabilidad de las medias. 5.3. Esperanza matemática, varianza y desvío estándar de la media muestral La media universal μ está estimada por la media muestral x–, de modo que el valor más aproximado que se puede adjudicar a μ es x– , aunque debido a las variaciones aleatorias del muestreo, raramente una media muestral proporcionará el valor exacto de la media del universo (que por otra parte no suele ser conocido). Con todo, la media muestral x– es un estimador insesgado de la media universal μ, lo cual significa que obteniendo muestras y promediando los valores de sus medias, el resultado tenderá a aproximarse cada vez más a μ, oscilando a su alrededor cada vez más estrechamente, a medida que el número de medias muestrales promediadas aumenta. Esto equivale a decir que la esperanza matemática de la media muestral es la media universal o de población: E (x–) = μ (5.1) Conociendo el grado variabilidad de x– alrededor de μ, una gran cantidad de procedimientos de inferencia estadística se hacen posibles, y se demuestra que la varianza de la media muestral es igual a la varianza poblacional σ² dividida por el número n de elementos que forman la muestra: var (x–) = σ² / n (5.2) Esta relación expresa que cuanto mayor es el tamaño de la muestra ( n ) menor es la varianza de la media muestral. Así, duplicando el número de elementos de la muestra, la varianza de la media se reduce a la mitad. Se hace evidente que al reducirse la varianza de las medias muestrales, éstas tenderán a oscilar cada vez más próximas al centro de la distribución μ. También es evidente que las medias muestrales x–, que resultan de promediar dos o más x, tendrán siempre una varianza menor que la variable original x de la que proceden (Fig. 5.1) El desvío estándar de la media muestral es, por definición, igual a la raíz cuadrada de la varianza y se conoce también como error estándar de la media, designándose como ES (x–) de modo que: Desvío estándar (x–) = ES (x–) = √ (σ² / n) = σ / √ n
(5.3)
El término error estándar tiene la ventaja de evitar confusiones con el desvío estándar de la variable x, y es el desvío estándar de la media de las x o x–. Por ser en esencia un desvío estándar, el error estándar describe la dispersión de las medias muestrales alrededor del centro de la distribución representado por la media universal μ. Resulta evidente que el incremento del número de casos de una muestra, al reducir la varianza de la media muestral x–, reduce también la magnitud del error estándar, de modo que ambos estimadores de la dispersión de x– pueden [ 226 ]
hacerse más pequeños con sólo aumentar el número de casos de la muestra. En las próximas secciones se verá que estos hechos son fundamentales en inferencia estadística, para la detección de diferencias significativas en situaciones donde hay involucradas medias muestrales. Figura 5.1. Dispersión de los individuos y de las medias de muestras de 9 individuos, alrededor de la media de población μ. La campana amplia representa la distribución de los individuos y la campana angosta la distribución de las medias.
El cálculo de la varianza y el desvío estándar de x– requiere conocer n, lo que es inmediato, y conocer σ², lo que muchas veces no es posible al no estar todos los elementos del universo accesibles para la medición y el cálculo. Cuando existe tal imposibilidad, se verá que es posible reemplazar σ² por la varianza muestral s² calculada como en (2.4), con algunas condiciones restrictivas. 5.4. La distribución de la media muestral x– Resulta intuitivo y es además correcto, que si x es una variable normalmente distribuida, sus medias muestrales x–, de las que se han visto más arriba la esperanza, la varianza y el desvío estándar, también seguirán la distribución normal. Pero hay una extensión de lo mencionado, de notable importancia en toda la teoría estadística, que concierne a la distribución de las medias muestrales cualquiera sea la distribución de la variable original x, y que se fundamenta en el llamado teorema central del límite, cuyo enunciado expresa que: cualquier variable aleatoria, con tal que tenga una media μ y una varianza σ², tendrá una media muestral x– cuya distribución se aproxima a la normal cuando n se agranda indefinidamente (“cuando n tiende a infinito”). El hecho notable es que la distribución original de donde provienen las medias no necesita ser normal para que el teorema se cumpla; sólo es necesario que el número de elementos con que se calculan las medias sea arbitrariamente grande. Los siguientes puntos ayudan a entender mejor el tema: 1. Las medias tienden a normalizar su distribución a medida que aumenta el tamaño de las muestras utilizadas para calcularlas. Esta particularidad permite utilizar las aplicacio[ 227 ]
nes de la función normal, ampliamente estudiadas y conocidas, a los resultados obtenidos de muestras que se sabe que difieren, a veces considerablemente, de la normalidad. Esto significa que no es imprescindible evaluar exhaustivamente una distribución si se trabaja con promedios de varias mediciones (o sea, con medias muestrales) y si el número en que se basan tales mediciones es razonablemente grande: tales promedios tendrán distribuciones aceptablemente normales y se podrán analizar con los métodos de la distribución normal. 2. A pesar del requisito “n tendiendo a infinito” la aproximación a la normal funciona en general muy bien aún con valores de n relativamente pequeños. Esto significa que la normalización de la distribución de las medias, que será completa cuando n tienda a infinito, a los fines prácticos ya suele resultar suficientemente buena con tamaños muestrales relativamente pequeños (por otra parte es útil tener en cuenta que pequeñas desviaciones de la normalidad no suelen afectar sensiblemente los resultados de muchos tests estadísticos, que las toleran bien. El tamaño útil de n dependerá en última instancia de la muestra y del destino que se dará a los datos). Otras propiedades importantes de las medias muestrales se comentan a continuación. 5.5. Esperanza matemática y varianza de una diferencia de medias La diferencia entre dos medias muestrales x– 1 y x– 2 aparece frecuentemente al comparar muestras con el objeto de realizar inferencias acerca de las poblaciones que representan. Una diferencia de medias x– 1 – x– 2 , puede considerarse una nueva variable, y en este sentido, conviene conocer cuáles son su esperanza matemática, su varianza y su desvío estándar. La esperanza matemática de una diferencia de medias muestrales x– 1 – x– 2 es el valor al que tiende dicha diferencia al promediarse un número indefinidamente grande de observaciones. Por otra parte, puede demostrarse que la esperanza matemática de una diferencia de medias muestrales x– 1 – x– 2 es igual a la diferencia entre las respectivas medias universales: E (x–1 – x–2) = μ1 – μ2
(5.4)
y que la varianza de dicha diferencia es igual a la suma de las respectivas varianzas muestrales:
var (x–1 – x–2) = (σ1² / n1 ) + (σ2² / n 2)
(5.5)
siendo el desvío estándar igual a la raíz cuadrada de la varianza, que por apreciaciones análogas a las ya vistas en el párrafo anterior, se designa como error estándar de la diferencia: ES (x–1 – x–2) = √ (σ1² / n1) + (σ2² / n 2)
(5.6)
Otro dato importante es que, si las medias x– 1 y x– 2 tienen distribución normal, su diferencia también la tiene. La utilidad de estos resultados se hará más evidente en las secciones siguientes. Análogos resultados se aplican a las diferencias entre proporciones. Siendo p1 la proporción de individuos que presentan una característica determinada en una muestra de tamaño n1 extraída de un universo donde dicha proporción es π1, y p2 la proporción que presenta esa [ 228 ]
misma característica en una muestra de tamaño n2 proveniente de un universo donde la proporción es π2 , se demuestra que: E (p1 – p2) = π1 − π2 y var (p1 – p2) = [π1 (1 – π1) / n1] + [π2 (1 – π2) / n 2]
(5.7) (5.8)
donde se ve que la varianza de la diferencia de proporciones (p1 – p2) es igual a la suma de las varianzas de cada grupo (§4.4). Se ha visto cómo una diferencia entre medias o proporciones muestrales puede manejarse como una nueva variable, con una varianza que es igual a la suma de las varianzas de cada variable. Esto encuentra aplicación en las comparaciones entre muestras de las que se ocupa la inferencia estadística. Cabe agregar que los resultados vistos más arriba para la diferencia entre dos medias o proporciones muestrales, se aplican por igual a la suma, de modo que tanto la suma como la diferencia de medias se distribuyen con una varianza que es la suma de las varianzas originales de las muestras. Se ha subrayado el caso de las diferencias por ser el más empleado en los problemas de inferencia estadística. Un requisito que debe cumplirse para que la varianza estimada sea válida, es que las muestras sean independientes, o sea que no exista correlación entre las muestras (sección 9), pues en este caso la varianza total se reduce y, lo que es importante, existen métodos óptimos para aprovechar esta reducción de la variabilidad de la diferencia de medias cuando se trata de comparaciones y pruebas de hipótesis entre datos correlacionados (sección 7).
[ 229 ]
6. Inferencia estadística
6.1. Generalidades. La inferencia estadística es el conjunto de procedimientos por el cual la información contenida en las muestras se utiliza para hacer estimaciones relativas a los universos de los que proceden. En cierto sentido, la información de las muestras se hace extensiva a los universos. Este proceso de generalización tiene sus fundamentos, procedimientos y limitaciones. Por ejemplo, se demuestra que la media muestral es la mejor aproximación a la media del universo, y que la varianza muestral, provistas ciertas restricciones, es la mejor aproximación a la varianza del universo. Si bien el pasaje desde la información provista por las muestras hacia las estimaciones acerca de los universos implica cierta pérdida de exactitud, el margen de error de las estimaciones realizadas sí puede calcularse exactamente. Por ejemplo, si bien al estimar la media de un universo mediante la media de una muestra, la diferencia exacta entre ambas no se puede llegar a conocer con exactitud, la probabilidad de que la media universal se halle comprendida dentro de determinados límites alrededor de la media muestral puede ser calculada con precisión, y éste es uno de los aspectos más característicos de la inferencia estadística. En general, la inferencia estadística se ocupa de dos tipos de aplicaciones: la estimación de parámetros u otras características de las distribuciones de las variables en los universos de los que proceden las muestras, y la verificación de hipótesis acerca de dichos universos. En ambos casos la información es proporcionada por las muestras y la dirección de la inferencia estadística es de la muestra hacia el universo, posibilitando estimaciones y comparaciones que de otra forma exigirían la medición de todos los individuos del mismo. En lo que sigue se examinarán algunos temas de inferencia estadística con particular referencia a la distribución normal. 6.2. Estimación de parámetros de poblaciones. Estimaciones puntuales, intervalos y límites de confianza Un ejemplo que ilustra la práctica de estimaciones mediante inferencia estadística consiste en obtener información acerca de la media del universo (μ) a partir de una media muestral x– de tamaño n, conociendo el desvío estándar del universo (σ). En principio, la propia media muestral x– es la mejor estimación de μ (es un estimador insesgado), y si bien es improbable que coincidan exactamente, se espera que las probabilidades de x– de hallarse [ 230 ]
cerca de μ sean mayores que las de hallarse lejos. Este tipo de estimación mediante un número que se espera se aproxime al parámetro estimado, se denomina estimación puntual (point estimate). Prosiguiendo, se puede desear tener una idea del grado de exactitud de la estimación puntual llevada a cabo por la media muestral x– . Esto puede lograrse calculando un intervalo alrededor de x– , en el cual exista una probabilidad definida, digamos del 95% o 0.95, de encontrar la media universal μ. El procedimiento tiene en cuenta que tomando muestras de una población normalmente distribuida, el 95% de las medias muestrales x– estará comprendido en el intervalo entre +1.96 y −1.96 errores estándar alrededor de la media de población μ, lo que equivale a decir que una muestra tomada al azar tiene el 95% de probabilidades de contener la media μ en el intervalo dado por x– ± 1.96 errores estándar (nótese que el error estándar es el nombre del desvío estándar de x– , igual a σ / √ n, [§5.3]). Por lo tanto, la diferencia entre x– y μ estará en el 95% de los casos comprendida entre +1.96 y −1.96 errores estándar. En símbolos: − 1.96 (σ / √ n) < ( x– − μ ) < 1.96 (σ / √ n)
(6.1)
con probabilidad igual a 0.95. Si se resta x– de cada término y se reordenan las desigualdades, se obtiene: x– − 1.96 (σ / √ n) < μ < x– + 1.96 (σ / √ n)
(6.2)
lo que expresa que la media del universo se hallará con probabilidad igual a 0.95, en el intervalo comprendido entre la media muestral x– y 1.96 veces el error estándar a cada lado (prácticamente 2 veces el desvío estándar a cada lado de la media muestral). Dicho intervalo se llama intervalo de confianza de la estimación (en este caso, intervalo de confianza del 95%). Sus límites, esto es, x– más/menos 1.96 σ / √ n, son los límites de confianza, en este caso, del 95%. En resumen, no conocemos con exactitud la media universal μ, pero la consideramos muy próxima a la media muestral y su estimación puntual es precisamente el valor de x–, y además tenemos un nivel de confianza del 95% de que se halle dentro de los límites de confianza calculados. La expresión nivel de confianza no debe entenderse como una expresión de credulidad, sino en el sentido de que estamos seguros de que si repetimos la estimación 100 veces, 95 veces estaremos en lo cierto y las restantes 5, equivocados. La última eventualidad es el error de la estimación y expresa la probabilidad de que la media universal µ se halle por fuera de los límites de confianza calculados, eventualidad que debe ser siempre tenida en cuenta al analizar los resultados. Desde ya, el nivel y los correspondientes límites de confianza pueden establecerse en otros valores y así, para P = 0.01 debe reemplazarse el valor 1.96 de la variable estandarizada z empleado más arriba, por z = 2.58 Ejemplo 6.1 Supongamos que se conozca el desvío estándar de la glucemia en una determinada población (esto es bastante difícil sin examinar la población completa, aunque si está muy bien estudiada podría llegar a tenerse una idea suficientemente aproximada, como se acepta en este ejemplo). Supongamos que dicho desvío estándar es de 12 mg/dl. Si calculamos la media [ 231 ]
muestral x– en un grupo de 100 individuos de dicha población y resulta ser de 88 mg/dl, ¿cuál es el intervalo de confianza para la estimación de la media de la población, μ? En primer lugar, se acepta como el valor más probable de la media de la población, el de la media muestral, 88 mg/dl. Esta es la estimación puntual de µ. En cuanto al intervalo de confianza, si aceptamos un nivel del 95% sólo debemos reemplazar los datos en 6.2: 88 − 1.96 × (12 / √ 100) < μ < 88 + 1.96 × (12/ √ 100) 85.6 < μ < 90.4 de lo cual se puede inferir que μ debe estar comprendida entre 85.6 y 90.4 mg/dl, con un nivel de confianza del 95%. 6.3. Hipótesis, evaluación de hipótesis y pruebas de significación estadística. Se ha visto cómo es posible depositar cierto nivel de confianza en que un determinado intervalo obtenido a través de una muestra contenga un parámetro universal como puede ser la media de la población. De acuerdo al ejemplo anterior y en forma muy general, debería esperarse que las medias de otras muestras tomadas de la misma población tendieran a caer dentro del intervalo de confianza establecido para la media de la población, y el hecho de que esto no ocurriera debería alertar sobre la posibilidad de estar muestreando un universo diferente. Este universo diferente podría corresponder, por ejemplo, al universo original modificado por una enfermedad o por un tratamiento, o bien a otro universo independiente sin ninguna relación con el primero. Así, cuando se hallan diferencias entre dos o más muestras, es frecuente querer saber si pueden haberse dado por azar entre muestras que en realidad pertenecen a un mismo universo, o bien, si las muestras pueden estar representando universos diferentes. El chequeo de hipótesis y las llamadas pruebas o tests de significación estadística se basan en estas ideas, que se examinan a continuación. Las hipótesis estadísticas son proposiciones, en general originadas en conocimientos previos sobre la materia, que se refieren a las características de las poblaciones involucradas en el estudio. Estas proposiciones se evalúan mediante el estudio de muestras extraídas de dichas poblaciones. Una hipótesis puede ser, por ejemplo, el colesterol LDL difiere entre individuos con y sin síndrome metabólico o, el conjunto de individuos estudiados, con una glucemia media de 102 mg/dl, pertenece a un universo distinto de otro cuya media es de 90 mg/dl. En el primer caso se postula la existencia de dos universos, uno formado por los individuos con síndrome metabólico y otro por los individuos que no lo padecen. Más exactamente, los universos están formados por las cifras de colesterol LDL en cada una de las dos condiciones. En el segundo caso, la comparación surge entre una media muestral, y la media de un universo teórico. Para evaluar una hipótesis, en general se necesitan muestras representativas de las poblaciones en estudio. Como se verá, el método consiste en comparar las medias u otros valores muestrales, y a partir de ellos realizar las correspondientes inferencias acerca de las características de los respectivos universos. Si bien es muy frecuente estar interesado en las medias, las hipótesis pueden referirse también a otros parámetros de las poblaciones, entre ellos las varianzas. Como queda dicho, lo que se desea frecuentemente es establecer si existe una diferencia entre los parámetros de dos universos: son diferentes las medias universales del colesterol [ 232 ]
LDL en los individuos con y sin síndrome metabólico, como lo sugieren las muestras? Las glucemias del grupo en estudio, podrían provenir de un universo con una determinada media? Las preguntas se refieren a los universos, mientras que los datos de los que se dispone provienen de las muestras. El procedimiento corriente es establecer una hipótesis nula, según la cual no hay diferencias entre las poblaciones comparadas en lo que respecta a los parámetros que interesan: los niveles séricos de colesterol LDL serían los mismos en individuos con y sin síndrome metabólico, y la media de glucemia de la muestra pertenecería a una población con la misma media que la del universo con cuya media se desea comparar (y las diferencias se deberían en cada caso, a las fluctuaciones del muestreo). Estas hipótesis nulas comúnmente contrarían las expectativas sugeridas por el examen de las muestras, pero sin embargo, para afirmar que realmente existe una diferencia entre los parámetros de las poblaciones, las hipótesis nulas deben ser puestas a prueba y deben poder ser rechazadas como altamente improbables. Solo así será lícito aceptar como verdadera la hipótesis alternativa, que es la que suele presentar mayor interés por significar en general conocimientos nuevos acerca de las poblaciones en estudio. Los procedimientos por los cuales se evalúan las hipótesis se denominan pruebas o tests de significación estadística. Tales procedimientos consisten en el cálculo a partir de los datos muestrales, de ciertos valores o estadísticos (§2.5), que como se verá, permiten determinar en qué grado se acercan o se alejan los valores muestrales de aquéllos esperados por hipótesis y, en consecuencia, calcular la probabilidad de que una hipótesis sea verdadera. En el problema del colesterol LDL, si fuera cierta la hipótesis nula que plantea que “los niveles de colesterol LDL son los mismos en individuos con y sin síndrome metabólico,” habría que esperar una diferencia entre las medias muestrales, igual o muy próxima a cero. En este caso, la variable que se examina en busca de información acerca de diferencias entre los universos con y sin síndrome metabólico es la diferencia entre las medias de cada una de las dos muestras: si fuera muy distinta de cero se podría deducir que los respectivos universos deben diferir entre sí en lo que se refiere al colesterol LDL. Para probar la hipótesis con variables normalmente distribuidas, la diferencia hallada entre las medias de las dos muestras se divide por una estimación de su error estándar (§ 5.5) para así poder apreciar la magnitud de su desviación de cero en los términos de una variable estandarizada. En el siguiente apartado se verán algunos detalles del procedimiento. Los estadísticos calculados a partir de las muestras, como las diferencias entre medias, siguen funciones de probabilidad ya tabuladas y permiten estimar la probabilidad (P) de que esas diferencias hayan ocurrido por azar de muestreo. Si esa probabilidad es grande, se acepta que las diferencias encontradas pueden haberse debido simplemente a las fluctuaciones del muestreo y, en el caso del colesterol LDL habría que aceptar la hipótesis nula de medias iguales y no habría motivo para suponer que el colesterol LDL de los individuos con síndrome metabólico constituya un universo diferente al del colesterol LDL de los individuos sin el síndrome. Si por el contrario, la probabilidad de una diferencia igual o mayor a la hallada es muy baja, digamos P < 0.05, debemos aceptar que una diferencia tal, difícilmente pueda provenir del azar al muestrear un mismo universo, y que las diferencias observadas en las muestras representan diferencias reales existentes entre distintos universos. En el ejemplo, habría que aceptar que individuos con y sin síndrome metabólico deben tener niveles diferen[ 233 ]
tes de colesterol LDL. En esta eventualidad, la hipótesis nula sería rechazada y la hipótesis alternativa, de distintos niveles de LDL, sería automáticamente aceptada. El valor de P, que se adopta antes de realizar la prueba de significación, se denomina nivel de significación y el test, en caso de motivar el rechazo de la hipótesis nula, es declarado estadísticamente significativo en el nivel elegido, por ejemplo P = 0.05. El rechazo de la hipótesis nula no significa la certeza absoluta de que el colesterol LDL difiera entre los grupos comparados, ya que si se acepta que una diferencia como la observada se puede obtener por azar el 5% de las veces muestreando un mismo universo o dos universos iguales respecto del colesterol LDL, no hay garantía absoluta de que este no sea nuestro caso, pero es un riesgo que se acepta correr, pues de lo contrario no hay inferencia posible. Queda un nivel de incertidumbre del 5% al rechazar la hipótesis nula, y es un hecho característico de la inferencia estadística que la cuantía de esa incertidumbre pueda ser calculada con exactitud. Las pruebas de significación pueden realizarse en pares de muestras o en grupos de tres o más muestras a la vez. Por ejemplo, pueden compararse las medias de la presión arterial bajo tres o más tratamientos diferentes, originándose comparaciones múltiples. Estas se realizan mediante procedimientos especiales que son extensiones de los métodos utilizados para la comparación de pares de muestras y se esbozarán en la Sección 10. En lo que sigue se examinará con cierto detalle el procedimiento para comparar medias muestrales cuando las variables son continuas y siguen la distribución normal o de Gauss. Esto ayudará a comprender mejor la forma en que se llevan a cabo los procedimientos de la inferencia estadística. Por su parte, los programas computarizados evitarán gran cantidad de cálculo numérico, ya que sólo requieren la entrada de los datos muestrales y la elección entre los procedimientos disponibles. 6.4. Comparaciones entre medias de variables con distribución normal Al comparar dos medias muestrales la hipótesis nula más frecuente suele ser que las medias de los respectivos universos son iguales y que las diferencias observadas entre las medias muestrales se han debido al azar. En general lo que se busca son diferencias entre los universos o poblaciones y como ya se ha dicho, la forma de poder afirmarlas es tener suficientes argumentos como para rechazar la hipótesis nula, es decir, como para poder demostrar que dicha hipótesis tiene muy bajas probabilidades de ser cierta. Denotando las medias de los universos con μ1 y μ2 , si la hipótesis nula es verdadera entonces debe ser μ1 − μ2 = 0, y en este caso la diferencia entre las medias de las muestras x– 1 − x– 2 debería también ser o estar muy próxima a cero. De modo que, cuanto mayor sea la diferencia hallada entre las medias de las muestras, mayor será la evidencia en contra de la hipótesis nula. La clave para evaluar la diferencia encontrada entre las medias muestrales, es tomar en cuenta que esta diferencia es una nueva variable, cuya distribución es normal si lo es la distribución de x– 1 y x– 2 , y cuyo valor esperado por hipótesis nula es cero (ver Fig. 6.1 y Ejemplo 6.2). De esta forma, lo que se evalúa es el grado de alejamiento de la diferencia de medias hallada en las muestras, x– 1 − x– 2 , del valor 0 esperado por hipótesis nula. Formalmente, se compara la diferencia de medias muestrales con la diferencia de medias universales de la hipótesis nula, esto es: (x– 1 − x– 2) − (μ1 − μ2), y como el segundo término es igual a cero, la prueba de la hipótesis se reduce a evaluar si la diferencia de medias hallada en las muestras se aleja significativamente de cero. [ 234 ]
La diferencia x– 1 − x– 2 tiene un desvío estándar, que al tratarse de medias se denomina error estándar y se calcula como se vio en §5.5, ecuación (5.6). Dividiendo la diferencia x– 1 − x– 2 por su error estándar, dicha diferencia queda expresada en unidades de desvío estándar, como una variable estandarizada z: z = (x– 1 − x– 2) / √ ( σ1² / n1 ) + ( σ2² / n 2 )
(6.3)
donde el denominador es idéntico a (5.6) y corresponde al error estándar de una diferencia de medias. La variable z es el estadístico de prueba para la hipótesis nula de medias universales iguales. La probabilidad de encontrar medias muestrales que presenten por azar diferencias iguales o mayores que las encontradas, se obtiene de las tablas de la distribución normal (§4.7.1). Se insiste en que la variable z es nada más que la diferencia entre las medias muestrales experimentales expresada en unidades de desviación estándar para poder encontrar sus probabilidades en las tablas corrientes de la distribución normal. Como puede observarse en la Fig. 6.1, la diferencia entre las medias muestrales x– 1 − x– 2 se comporta como una nueva variable, con su campana de distribución normal centrada alrededor de la media de dichas diferencias de medias (ver el ejemplo 6.2). En la ecuación 6.3, x– 1 y x– 2 se obtienen directamente de las muestras, siendo n1 y n2 el número de casos en cada una de las muestras. Para aplicar 6.3 hará falta una estimación de las varianzas σ1² y σ2² de los universos de los que provienen las muestras, ya que estos parámetros no son conocidos. Provisto que el tamaño de las muestras sea suficientemente grande, digamos no menor de 100 observaciones en cada una, una buena aproximación puede obtenerse reemplazando las varianzas universales desconocidas por sus respectivas estimaciones muestrales s1² y s2², que son las varianzas de las muestras (calculadas según §2.5.2, ecuación [2.4]). En este caso, 6.3 se convierte en: z = (x– 1 − x– 2) / √ (s1² / n1) + (s2² / n 2)
(6.4)
Si se trata de muestras chicas es conveniente emplear distribuciones ligeramente diferentes de la normal estándar (Sección 7). En el siguiente ejemplo se expone el procedimiento de comparación de dos medias muestrales y se agregan algunos detalles adicionales. Ejemplo 6.2. Comparación de dos medias muestrales Se obtiene una muestra de 100 individuos con síndrome metabólico (SM) y una muestra de 100 individuos de una población sin enfermedad nutricional conocida (grupo control, C). Las respectivas medias muestrales del colesterol LDL son x– SM = 145.9 mg/dl y x– C = 134.6 mg/dl. Las varianzas muestrales se obtienen como en (2.4) y para ahorrar trabajo rutinario se dan ya calculadas: s²SM =236, y s² C = 253. Se desea saber si la diferencia hallada entre las dos muestras expresa una diferencia existente entre las respectivas poblaciones, o si puede haberse producido por azar del muestreo 1. Hipótesis: el colesterol LDL está elevado en el grupo con síndrome metabólico respecto de los controles sin el síndrome. [ 235 ]
2. Hipótesis nula (H0): el colesterol LDL no es afectado por la presencia de síndrome metabólico, con lo que las medias son las mismas para los respectivos universos y la diferencia observada entre las medias muestrales se ha dado por azar. La hipótesis nula queda planteada como la igualdad de las medias universales: H0: μ SM = μC por lo que su diferencia debe ser cero: μ SM − μC = 0 Si no resulta posible rechazar esta hipótesis tampoco será lícito aceptar que se ha encontrado una diferencia significativa entre los dos grupos en estudio. 3. Elección del nivel de significación de la prueba. El valor de P a partir del cual se rechazará la hipótesis nula debe elegirse antes realizar la prueba de significación. Habitualmente se elige P = 0.05 o P = 0.01. Se optará por el primero. 4. Prueba de la hipótesis: el estadístico z y la obtención de P. La pregunta que la prueba de significación debe contestar es: ¿Cuál sería la probabilidad de obtener una diferencia igual o incluso mayor que la observada, si la hipótesis nula fuera verdadera, es decir, si no hubiera diferencias entre las medias universales de individuos con y sin síndrome metabólico? Como se ha dicho, la diferencia entre las medias (x– SM − x– C) es una nueva variable, que en el presente par de muestras tiene un valor igual a 145.9 mg/dl − 134.6 mg/dl = 11.3 mg/ dl. Si se repitiera el experimento de la toma de pares de muestras de los grupos en estudio, se observaría que las diferencias entre los pares de medias de cada experimento se distribuyen en una campana normal alrededor de un valor central. Este valor representaría el promedio de las diferencias entre pares de medias en varias repeticiones del experimento. Esta media de las diferencias, si fuera cierta la hipótesis nula, debería oscilar alrededor de cero. El valor obtenido fue 11.3 mg/dl. En la Fig. 6.1 se observa la distribución teórica de las diferencias entre pares de medias para los datos del ejemplo, con centro en el valor muestral 11.3 mg/ dl. Puede observarse que el valor 0 esperado por hipótesis nula queda hacia la cola izquierda de la campana normal trazada en base a los datos muestrales, muy lejos de su centro de 11.3 mg/dl. Será muy difícil seguir aceptando la hipótesis nula, pues la diferencia entre las medias muestrales está muy lejos de cero y así, es demasiado grande como para admitir que podría haberse dado por azar sin que los universos sean diferentes.
[ 236 ]
Figura 6.1. La diferencia entre dos medias muestrales es otra variable, que en el ejemplo 6.2 tiene un valor igual a 11.3 mg/dl. Este valor se compara con la hipótesis nula que propone que la media de población μ para la diferencia de medias vale cero.
La correspondiente prueba de significación consiste en estimar si la distancia entre el valor de la diferencia de medias obtenido en el experimento (x– SM − x– C = 11.3 mg/dl ) y la diferencia de medias esperada por hipótesis nula (μ SM − μC = 0 mg/dl), es suficientemente grande como para rechazar esta última. Siendo la diferencia (x– SM − x– C) una variable normal, hay que dividirla por su error estándar para expresarla en unidades de error estándar como variable estandarizada z y así poder comprobar en tablas de la distribución normal, si se aleja o no significativamente del cero de la hipótesis nula. La variable z es el estadístico de prueba. Su cálculo se obtiene directamente de ( 6.4 ), reemplazando por los valores muestrales: z = (x–1 − x–2) / √ ( s1² / n1 ) + ( s2² / n 2 ) = (145.9 − 134.6) / √ ( 236 / 100 ) + ( 253 / 100 ) = 11.3 / 2.21 = 5.11 donde el numerador es la diferencia de las medias muestrales y el denominador estima el error estándar de la diferencia de medias. Las varianzas muestrales (s²SM = 236 y s² C = 253) se calculan directamente según ( 2.4 ) y el número de casos, n SM y nC , es igual a 100 en ambas muestras. La probabilidad de encontrar valores de z iguales o mayores por azar de muestreo, se obtiene directamente de tablas de la distribución normal. En la tabla 4.1 se puede ver que un desvío mayor de 3 se puede esperar por azar en menos de 3 casos por mil, de modo que el desvío obtenido, que es mucho más grande, implica probabilidades extraordinariamente bajas de haber sido obtenido por azar muestreando universos con medias idénticas. 5. Último paso: aceptación o rechazo de la hipótesis nula. En base a lo anterior corresponde el rechazo de la hipótesis nula por altamente improbable. Esto implica automáticamente aceptar la hipótesis alternativa, o sea, que las medias de los universos μ SM y μC difieren sig[ 237 ]
nificativamente. El nivel de significación de la prueba o valor de P es, como se dijo, mucho menor que 1 en 10000, lo que se expresa como P < 0.0001 y excede holgadamente el nivel P < 0.05 adoptado al comienzo de la prueba. En este ejemplo se vio la forma de realizar comparaciones entre medias muestrales, bajo la hipótesis nula de medias universales iguales, μ1 − μ2 = 0. Una gran cantidad de pruebas con análogos fundamentos pueden emplearse para evaluar otras hipótesis nulas donde la diferencia postulada entre las medias universales sea distinta de cero. En este caso, el numerador de (6.3) y (6.4) deberá expresarse [(x– 1 − x– 2) − (μ1 − μ2)], ya que la diferencia μ1 − μ2 será distinta de cero. Otras inferencias posibles se refieren a la comparación de una media muestral con una media universal conocida o hipotética. En este caso se trata de una sola muestra. Aquí la hipótesis nula es que la diferencia entre la media muestral x– y la media universal con la que se compara, μ0 , es igual a cero, con lo cual el numerador del estadístico de prueba (6.3) y (6.4) queda expresado por x– − μ0. El error estándar de la media se estima a partir de la única muestra disponible y queda expresado por √ (σ² / n) = σ / √ n (5.3). Si σ no es conocido, puede reemplazarse por el desvío estándar de la muestra, s, con lo cual el estadístico z toma la forma: z = (x– − μ 0) / (s / √ n)
(6.5)
Ejemplo 6.3. Comparación de una media muestral con una media universal hipotética En una muestra de 100 individuos se midió una glucemia media x– = 102 mg/dl, siendo el desvío estándar de la muestra s = 16 mg/dl. ¿Puede afirmarse que el universo del que proviene la muestra tiene una media mayor que la de un universo teórico cuya media es μ 0 = 90 mg/dl? Para contestar afirmativamente se debe poder rechazar la hipótesis nula de que ambos universos tienen la misma media, esto es, que x– − μ 0 = 0. La magnitud de la desviación de 0 exhibida por la diferencia entre la media muestral y la media del universo hipotético, se evalúa mediante el cociente de prueba (6.5). Reemplazando por los datos del problema se obtiene: z = (102 − 90) / (16 / √ 100) = 7.5 Este resultado expresa que la diferencia entre la media muestral y la media teórica con la que compara, es igual a 7.5 errores estándar. En tablas de la distribución normal se obtiene para z = 7.5 una probabilidad muy inferior a 0.0001, lo que significa que una diferencia igual o mayor que la observada es altamente improbable de ser obtenida de universos con la misma µ o muestreando un mismo universo. En base a esto corresponde el rechazo de la hipótesis nula y la aceptación de la hipótesis alternativa, o sea, que el universo del cual procede la muestra y el universo con el que se comparó tienen medias que difieren significativamente. El nivel de significación de la prueba se puede expresar como P < 0.0001 (si bien P < 0.05 también es verdadera, P < 0.0001 es más exacta).
[ 238 ]
6.5. Resumen y comentarios sobre evaluación de hipótesis Resumiendo lo anterior, la evaluación de hipótesis estadísticas consta de los siguientes pasos: 1. Enunciado de la hipótesis de trabajo y de la hipótesis nula. Esta deberá poder rechazarse como única forma de aceptar una hipótesis alternativa. 2. Adopción de un nivel P de significación para la prueba. 3. Cálculo de los estadísticos de prueba a partir de los datos muestrales. En el caso de la comparación de medias se trata de desviaciones estandarizadas de los valores muestrales, cuyas probabilidades en el marco de distintas hipótesis son estimadas mediante tablas de las correspondientes distribuciones (en los ejemplos que preceden, se trata de la distribución normal). 4. Comprobación en tablas del nivel de probabilidad P del estadístico utilizado. 5. Aceptación o rechazo de la hipótesis nula. Los siguientes puntos completan conceptos importantes sobre inferencia estadística: 6.5.1. Cómo afecta los resultados el tamaño de las muestras El número relativamente grande de individuos ha tenido un papel importante en el resultado del segundo ejemplo, al reducir el error estándar de la diferencia de medias, que se obtiene dividiendo las varianzas por √ n, en nuestro caso por √ 100 = 10. Si en vez de 100, la comparación se hubiera hecho con muestras de tamaño 10, puede comprobarse fácilmente con los datos consignados más arriba, que el error estándar de la diferencia de medias hubiera sido igual a 6.99. Con este valor, z es igual a 11.3 / 6.99 = 1.61, muy por debajo de 1.96, que es el valor de z para P = 0.05. En esta eventualidad, la hipótesis nula no hubiera podido rechazarse y tampoco sostener la hipótesis alternativa, esto es, que las medias del LDL difieren significativamente entre los dos grupos. De modo que las muestras grandes, al implicar un menor error estándar, facilitarán la detección de diferencias significativas y, a la inversa, las muestras pequeñas dificultarán la detección de diferencias significativas entre las muestras. 6.5.2. Pruebas de significación a una cola y a dos colas En general, si no se expresa lo contrario, se entiende que el nivel de significación en pruebas como las que hemos visto se determina tomando en consideración las desviaciones o apartamientos de la hipótesis nula en cualquiera de las direcciones posibles: en el ejemplo del colesterol LDL se calcula la probabilidad de una diferencia de medias igual o mayor que la observada, sea que el mayor LDL se observe en el síndrome metabólico (como ocurrió) o en los controles. De modo que la diferencia entre las dos medias muestrales se toma en cuenta por su magnitud y no por su signo: la hipótesis nula postula iguales niveles de colesterol LDL en las dos poblaciones de donde proceden las muestras, y al rechazarla queda implícito que cualquiera de las dos muestras podía haber exhibido la mayor de las medias. Admitiendo que las diferencias observadas podrían haber ocurrido por azar del muestreo en cualquier sentido, con x– 1 mayor o bien menor que x– 2 , la probabilidad de tales desviaciones queda repartida en las dos colas de la curva de distribución de probabilidades, como se ve en la Figura 6.2, A. Este tipo de test se denomina “a dos colas,” y a cada cola le corresponde la mitad de las [ 239 ]
probabilidades correspondientes al nivel de significación del test. Cuando P se fija en 0.05, a cada cola corresponde P = 0.025. Por otra parte, si hubiera un motivo para estar seguro que la diferencia entre muestras sólo se puede dar en un sentido, por ejemplo x– 1 > x– 2 pero nunca x– 1 < x– 2 , estaría justificado evaluar la probabilidad de un desvío de la hipótesis nula solamente en el sentido en que éste es posible. Este podría ser el caso de placebo contra droga, donde no sería de esperar la superioridad del placebo y por lo tanto, sólo interesara saber si una diferencia observada a favor de la droga activa puede ser calificada como estadísticamente significativa. En este caso, la probabilidad se calcula de modo que la variable estandarizada z deje todo el valor de P aceptado como nivel de significación para la prueba, en uno de los extremos de la distribución. Para dejar en una sola cola una determinada P, digamos P = 0.05, se necesita una menor desviación de z de la hipótesis nula que cuando la probabilidad se divide en 0.025 para cada cola. En consecuencia, el test a una cola resulta significativo con menor valor absoluto de z que el correspondiente test a dos colas, lo cual puede visualizarse en la Figura 6.2, B. Por ejemplo, en las pruebas a dos colas vistas en los ejemplos anteriores, para un nivel P = 0.05 se requiere z = 1.96, mientras que si la prueba es a una cola, z = 1.65. Esto da mayores chances de encontrar diferencias significativas con el test a una cola. Figura 6.2. A: Prueba de significación a dos colas. B: Prueba de significación a una cola. En ambos casos las desviaciones se dan en variable estandarizada z. P = 0.05. Para alcanzar la misma P se necesita una menor desviación z con el modelo a una cola.
De acuerdo a lo dicho, practicar una prueba a una cola puede ser una oportunidad para producir una diferencia significativa donde el test a dos colas no la detectó. Por este motivo, la decisión de utilizar pruebas a una cola debe ser tomada antes de realizar el cálculo de P, y debe estar muy sólidamente fundada, ya que es posible que rinda un exceso de resultados significativos, por lo cual nunca debería utilizarse ante el fracaso de la prueba a dos colas. Asimismo, la decisión de realizar una prueba a una cola nunca debe ser tomada luego de examinar las muestras y ver cómo se disponen las medias. Por estas razones, el consenso es que, salvo circunstancias muy especiales, siempre debería utilizarse la prueba a dos colas, aún [ 240 ]
cuando parezcan existir buenas razones para que cualquier diferencia sólo pudiera darse en un solo sentido, como en el ejemplo del placebo versus droga. 6.5.3. Formas de expresar el nivel de significación Se ha dicho que en medicina frecuentemente se acepta P = 0.05 como un nivel de significación suficientemente convincente para rechazar una hipótesis nula. Ciertamente que si el nivel de significación de una prueba es mayor aún, digamos P = 0.01 o P = 0.001, la incertidumbre se reduce en forma proporcional y la evidencia producida por el test es más fuerte. A cada valor de z corresponde un valor definido de P, y los programas de cálculo estadístico los proporcionan en forma rutinaria. De modo que puede darse el valor exacto de P, ya que será evidente si tal valor es mayor o menor que el nivel de significación adoptado. Estas cifras exactas pueden dar una mejor idea del desvío que presenta z y del grado de significación alcanzado. La opción de aproximar los valores de P a cifras redondeadas y de cómoda lectura, como 0.05, 0.01 o 0.001, es también válida pero menos exacta, y se lleva a cabo expresando P como “menor que” el valor que más se le aproxime. Así, si P = 0.0008 puede informarse P < 0.001. Es obvio que en este caso también es verdadero que P < 0.05, pero esta expresión no informa la alta significación del resultado. 6.5.4. En una comparación de medias, el rechazo de la hipótesis nula implica que ésta no se halla comprendida en el intervalo de confianza de la diferencia de medias Esto relaciona las pruebas de hipótesis con la determinación de los intervalos de confianza para los parámetros de las poblaciones. Por ejemplo, calculemos el intervalo de confianza para la diferencia de medias entre los individuos con y sin síndrome metabólico, μ SM − μC del Ejemplo 6.2. Dicho intervalo se calcula a partir de las respectivas medias muestrales, según la ecuación empleada en Ejemplo 6.1 para el cálculo de intervalos de confianza: x– − 1.96 σ / √ n < μ < x– + 1.96 σ / √ n Reemplazando x– por la diferencia entre las medias muestrales y σ / √ n por el error estándar de la diferencia, se tiene: 11.3 − (1.96 × 2.21) < 11.3 < 11.3 + (1.96 × 2.21) = 6.97 < 11.3 < 15.63 con un nivel de confianza del 95%. El valor más probable de la diferencia de las medias universales está en la diferencia muestral 11.3, y sólo en el 5% de los casos será menor que 6.97 o mayor que 15.63. Es fácil comprobar que tomando 3 errores estándar a cada lado, el intervalo de confianza se extiende entre 4.67 y 17.93, y la media universal se encontrará fuera de estos límites en menos de 3 de cada mil pruebas (P = 0.0027). En cualquier caso, queda excluido el 0, que es la diferencia que postula la hipótesis nula. En otras palabras, es altamente improbable que la diferencia entre la media de las poblaciones sea cero, como propone la hipótesis nula. Esto equivale a su rechazo, llegándose al mismo resultado que en el Ejemplo 6.2, donde se evalúa la diferencia de medias contra la hipótesis nula de diferencia cero. [ 241 ]
6.5.5. Si se toman en cuenta todos los elementos de los universos, no tiene sentido hablar de diferencias significativas entre las medias Cuando se habla de diferencias significativas entre medias muestrales se está haciendo referencia a diferencias muestrales que expresan diferencias entre sus respectivos universos. Se infiere a través de muestras, la existencia de diferencias entre universos, por lo común inaccesibles en su totalidad o que, por algún motivo, no han sido evaluados íntegramente. Por lo tanto, siempre hay un nivel de confianza y una probabilidad de error asociados con este tipo de apreciaciones fundadas en muestras. Por el contrario, si dos universos han sido medidos en todos sus elementos y se halla que sus medias no son iguales, no tiene sentido preguntarse si existe una diferencia significativa entre las medias pues la diferencia existe y ha sido puesta en evidencia fuera de toda duda al medir ambos universos en la totalidad de sus individuos. El término “significativa” se refiere a la confianza que generan las muestras en que la diferencia no se limita a ellas mismas y puede por lo tanto hacerse extensiva a los universos. Pero si no se trata de muestras, sino de los universos íntegramente medidos en todos sus elementos, cualquier diferencia hallada, pequeña o grande, simplemente existe y no tiene sentido preguntar si es significativa. Sí tendría sentido, en cambio, preguntar si la diferencia tiene importancia médica. Por otra parte, es frecuente asociar el término “significativa” con “importante,” cosa que debería evitarse, ya que diferencias muy pequeñas entre muestras, pueden ser significativas, esto es, denotar diferentes universos de procedencia y con todo, tener muy poca importancia práctica (en lenguaje coloquial el término significativo también tiene la acepción de importante, y en este sentido puede ser utilizado lícitamente, siempre que no ocasione ambigüedades en la interpretación). 6.6. Rechazo erróneo de una hipótesis nula verdadera: Error alfa. Qué ocurre si rechazamos la hipótesis nula y aceptamos una diferencia como estadísticamente significativa en un nivel P = 0.05, y en realidad las muestras estudiadas se hallan dentro del 5% de los casos en que se pueden observar diferencias iguales o aún más extremas, solamente por azar y siendo que no existen diferencias entre las correspondientes poblaciones? Cometemos un error conocido como error alfa. Si se realizan 100 comparaciones entre muestras extraídas del mismo universo, en alrededor del 5% de los casos, esto es unas 5 veces, se encontrarán diferencias significativas a nivel P = 0.05, como sería de esperar si efectivamente se estuvieran analizando universos diferentes. Si bien no tiene mayor sentido realizar un experimento como el mencionado, la probabilidad de encontrar diferencias significativas en realidad inexistentes es mucho más peligrosa cuando el investigador las cree posibles o aún las espera, de acuerdo a sus hipótesis de trabajo. Como se dijo, este es un riesgo inherente al procedimiento y exige siempre cautela en la interpretación de las pruebas estadísticas, así como un juicio crítico cuidadoso al leer los informes. Un hecho de la mayor importancia es que, si se realizan comparaciones múltiples, será inevitable obtener algunos resultados donde diferencias muestrales que aparecen significativas no traduzcan la realidad de los correspondientes universos. El problema de las comparaciones múltiples es de la mayor importancia y existen diversas técnicas para abordarlo, que se comentarán sucintamente en la Sección 10. [ 242 ]
Por otra parte, un recurso contra el error alfa es hacerlo más pequeño reduciendo el nivel de significación de las pruebas, por ejemplo del 5% al 1%, con lo cual el riesgo de caer en el mismo será de una vez en cien. El precio que se paga es aumentar las chances de que las comparaciones no alcancen el nuevo nivel de significación exigido, y se pierdan hallazgos que efectivamente señalen diferencias entre las poblaciones muestreadas. El nivel de error alfa con el que se elige trabajar depende en parte del rigor que se quiere dar a las conclusiones. Asimismo, nunca debe olvidarse que la interpretación de los resultados de las evaluaciones de hipótesis debe estar sujeta al criterio del investigador, quien suele tener conocimientos fundados acerca de la materia en estudio y debe dar el peso correspondiente a los diversos hallazgos. Si un resultado altamente significativo parece contradecir conocimientos previos bien establecidos, debería ser evaluado cuidadosamente, ya que si bien puede señalar un hecho novedoso, podría también deberse a un caso de error de tipo alfa. 6.6.1. Necesidad de la publicación de los resultados “negativos” Una forma fundamental de evitar el daño potencial producido por la aceptación de diferencias inexistentes debido al error alfa, es la publicación de los resultados negativos, es decir, de los resultados donde dichas diferencias hubieron de ser rechazadas. Frecuentemente se buscan diferencias significativas a favor de distintas drogas y procedimientos y el hallazgo de tales diferencias ocasiona su inmediata publicación y difusión. Si hay suficientes datos y estudios que lo corroboren, el hallazgo tendrá el respaldo necesario. Pero en los casos en los que prima el entusiasmo terapéutico es posible que las corroboraciones no se esperen demasiado y los investigadores se involucren en conclusiones que a la larga son enmendadas por nuevos conocimientos, aunque a veces esto tarde en llegar. A esto se suma el hecho de que, en general, los hallazgos de diferencias significativas tienden a recibir prioridad y a ser publicados con mayor frecuencia que los resultados negativos, tanto por los autores como por los editores (publication bias). En este punto, la publicación de resultados donde otros investigadores no hayan encontrado diferencias a favor del nuevo tratamiento, obliga fuertemente a los sostenedores del mismo a reforzar las evidencias a favor, por ejemplo mediante nuevas evaluaciones y ensayos clínicos. Así, conviene no atender a la difundida creencia de que los estudios “que no hallan diferencias” son inservibles. Más aún, la difusión de tales estudios es un control efectivo contra las aceptaciones prematuras de resultados auspiciosos, que si bien pueden deberse a fallas en el diseño de las investigaciones, también pueden originarse en el error de tipo alfa, en especial cuando se realizan múltiples comparaciones sobre muestras divididas en un número grande de subgrupos y evaluando distintos resultados terapéuticos posibles. 6.7. Falla en la detección de una diferencia que realmente existe: Error beta En §6.5.1 se mencionó la posibilidad de que muestras pequeñas no permitan detectar una diferencia existente entre medias de distintos universos, esto es, que el nivel de significación alcanzado no sea suficiente para rechazar la hipótesis nula, aún cuando la hipótesis alternativa fuera cierta. En esta eventualidad, la hipótesis nula no será rechazada y se aceptará que no existen diferencias significativas entre universos que en realidad difieren entre sí. Este tipo de error se conoce como error beta. La posibilidad de incurrir en este tipo de error debe ser especialmente tenida en cuenta cuando habiendo motivos bien fundados para pensar que deben existir [ 243 ]
diferencias, éstas no se han podido poner en evidencia en las muestras analizadas. Desde ya, el ensayo con muestras más grandes suele ser el recurso más útil contra el error beta. El error beta se expresa, como el error alfa, por un valor de P, pero ahora con el significado de probabilidad de no detectar una diferencia que realmente existe, entre las medias de diferentes universos. La definición debe ampliarse a cualesquiera que sean las características o parámetros de población que se estén considerando. En general el error beta es más tolerado que el alfa, aunque las conclusiones a las que lleva son igualmente erróneas. Sin embargo, es más común que el error beta sólo postergue o dilate los hallazgos, siendo más difícil que por su causa se tomen decisiones imprudentes, aunque esta afirmación es muy general y por ejemplo, debido a este tipo de error podrían llegar a pasarse por alto consecuencias indeseables de diversos tratamientos, que sería importante conocer con certeza. Si el error beta es del 10% o sea, P = 0.10, en una de cada diez veces el test de significación fallará en detectar una diferencia significativa, pero la encontrará en las nueve restantes. Estas nueve veces de cada diez representan la potencia de la prueba estadística. Por lo tanto, la potencia de un test es la probabilidad complementaria del error beta: Potencia = 1 − error beta
(6.6)
Por otra parte, el error beta depende del nivel aceptado de error alfa, del desvío estándar de las variables implicadas y del tamaño de las muestras. La probabilidad de error alfa queda fijada al elegir el nivel de significación para una prueba, y cuanto menor sea dicha probabilidad, mayor será la probabilidad de error beta. La relación inversa entre la magnitud de los errores alfa y beta resulta de que si se pretende disminuir la probabilidad de error alfa, deberán exigirse mayores diferencias entre las variables comparadas antes de aceptar su significación estadística y esto, a su vez, hará más probable que diferencias menores, aunque reales, se pasen por alto y se desechen como no significativas (error beta). En cuanto a la influencia del desvío estándar de las variables y el tamaño de las muestras, sus efectos convergen en la determinación del error estándar empleado en las pruebas de hipótesis (ver §6.5.1). El error beta puede calcularse con exactitud conociendo sus determinantes, mencionados en el párrafo anterior, y para algunos modelos de distribución de probabilidades ha sido calculado y tabulado. Su cálculo no será abordado aquí dada su relativa extensión, pudiendo consultarse Armitage, 1994. Sólo se mencionará que, de acuerdo a lo establecido más arriba, el investigador puede reducirlo agrandando las muestras, reduciendo la variabilidad de las mismas y renunciando a niveles de significación muy altos para el error alfa. La primera opción es en general la más factible. En cuanto a la variabilidad de las muestras, en general sólo se puede, en ciertas ocasiones, tratar de reducir el componente relacionado con la precisión de las mediciones, ya que la variabilidad inherente a los datos no es influenciable directamente. Sin embargo, hay un aspecto relacionado que sólo se mencionará aquí, y que se refiere a la posibilidad de controlar el efecto de ciertas variables que no intervienen en el estudio pero que influyen sobre las que interesan. Por ejemplo, al medir la duración del intervalo QT del electrocardiograma, generalmente no interesan los efectos de la frecuencia cardíaca, que son conocidos y que tenderán a acortarlo a medida que ésta aumenta. La “corrección” para la frecuencia cardíaca, que tiende a eliminar su influencia en el QT medido, consiste en el uso de [ 244 ]
determinadas ecuaciones donde la frecuencia cardíaca es tomada en cuenta en cada individuo para generar valores del QT “corregidos” (ver Sección 9). El QT corregido tendrá habitualmente menor varianza que antes de su corrección, con lo que se facilitará la detección de cambios significativos en el mismo debidos, por ejemplo, a la acción de drogas en estudio. La opción de renunciar a niveles altos de significación para el error alfa está más limitada, ya que en general se aceptan sin inconvenientes niveles de P = 0.05 pero, a partir de este valor, existe el consenso de que valores mayores, como P = 0.10, no son suficientemente seguros para rechazar una hipótesis nula con suficiente nivel de confianza. 6.8. Determinación del tamaño de las muestras Hasta aquí se ha visto cómo el aumento del tamaño muestral, al reducir el error estándar de las medias, facilita el hallazgo de diferencias significativas entre las muestras y permite reducir el nivel de error alfa y aumentar la potencia de un ensayo. Determinar el menor tamaño posible que deberán tener las muestras para obtener resultados útiles con los diversos procedimientos de inferencia estadística es una de las tareas más frecuentes, fundamentalmente porque las muestras cuestan tiempo y dinero, sin olvidar aspectos éticos, tan importantes en medicina, como no extender las investigaciones en tiempo y número de pacientes cuando sea posible obtener conclusiones con un menor número de casos, y no dilatar la aplicación de nuevos procedimientos útiles cuando se cuenta con la evidencia suficiente como para garantizar su empleo. El tema del tamaño de las muestras puede adoptar numerosas formas, donde las variables que determinan el número de casos a incluir en los análisis son el desvío estándar de las poblaciones o en su defecto el desvío estándar de las muestras, el error alfa deseado y el nivel de error beta tolerado. De estos elementos, el que puede ofrecer mayor o menor dificultad en su estimación es el desvío estándar (recuérdese que antes de comenzar el estudio puede ser desconocido o de estimación incierta). En cualquier caso, establecidas las condiciones requeridas, el número de casos de las muestras es la variable a despejar. Para observar cómo puede surgir y abordarse una pregunta acerca del número de casos, considérese el Ejemplo 6.2. Antes de comenzar la experiencia, el investigador podría tener suficientes conocimientos y opiniones sobre el tema como para querer asegurarse de que en caso de obtenerse una determinada diferencia entre las medias del colesterol, ésta sea detectada como significativa y no pasada por alto debido a un número demasiado escaso de pacientes en las muestras. Se sabe que incrementar el tamaño de las muestras favorece la detección de las diferencias significativas, pero lo que se desea conocer en este caso es el menor número de individuos que garantiza que una diferencia preestablecida por el investigador, en caso de presentarse, será efectivamente señalada con un nivel de significación también preestablecido (digamos, P = 0.05). Para resolver la cuestión examínese la ecuación (6.3) utilizada para la obtención del estadístico z en la prueba de significación de la diferencia entre dos medias x– 1 y x– 2 , empleada en el ejemplo en cuestión. Para simplificar, considérese el caso de muestras de igual tamaño, n, cuyas varianzas σ1² y σ2² no sean muy diferentes y puedan expresarse en una varianza común σ². Llamando d a la diferencia (x– 1 − x– 2) entre las medias muestrales, la ecuación (6.3) queda reducida a:
[ 245 ]
z = d / √ ( σ² / n ) + ( σ² / n ) de donde se puede despejar y obtener el valor de n reemplazando d, z y σ² por los valores asignados por el investigador. Para despejar n se comienza elevando al cuadrado ambos términos de la ecuación, con lo que se elimina la raíz: z² = d² / ( σ² / n ) + ( σ² / n ) = d² / σ² ( 2/n ) = n d² / 2 σ² de donde resulta: n = 2 z² σ² / d² = 2 ( z σ / d )²
(6.7) (6.8)
Cualquiera de estas expresiones permite calcular n, el número de casos en cada muestra. La diferencia preestablecida es d, y el valor de z es el valor de la variable estandarizada correspondiente al nivel de significación elegido. Por ejemplo, si se desea trabajar con P = 0.05, la tabla de la distribución normal proporciona z = 1.96 para una prueba a dos colas. Queda la estimación de σ², que es la varianza común postulada para las poblaciones muestreadas, y que si las muestras no son demasiado reducidas, puede en principio estimarse a partir de sus varianzas, promediándolas en una varianza común. Ejemplo 6.4 En la situación del Ejemplo 6.2, el investigador desea calcular el tamaño de las muestras que será necesario para detectar como significativa en un nivel P = 0.05, una diferencia entre las muestras de LDL colesterol igual (o mayor) a 10 mg/dl. Se debe tener una estimación de las varianzas de las poblaciones, que como se ha mencionado, puede obtenerse a partir de las varianzas muestrales o bien de estudios anteriores. Aquí se emplearán las varianzas muestrales del ejemplo, s²SM = 236 y s² C = 253. Como dichas varianzas no difieren en exceso, puede emplearse su promedio como expresión de una varianza muestral común s², que a su vez estima la varianza de población σ²: Varianza muestral común s² = ( s²SM + s²C ) / 2 = ( 236 + 253 ) / 2 = 244.5
Diferencia entre medias Valor de z para P = 0.05
d = 10 z = 1.96
Reemplazando en (6.7) y estimando σ² por medio de s², se tiene: n = 2 z² s² / d² = 2 × 1.96² × 244.5 / 10² = 19 pacientes en cada muestra
[ 246 ]
Por lo tanto, se necesitarán 38 pacientes en total para que, si es correcta la estimación de σ² a partir de s², una diferencia de 10 mg/dl sea detectada con un nivel de significación P = 0.05. En este punto es conveniente señalar que muestras de 19 pacientes por grupo deberían considerarse pequeñas, y en este caso convendría abandonar las estimaciones del tamaño muestral basadas en la distribución z y emplear otras más adecuadas para muestras pequeñas (ver Sección 7). De todos modos, recalculando el tamaño muestral con este recaudo, se comprueba que se necesitarían no más de 21 pacientes por grupo, una cifra similar a la encontrada más arriba. Un problema típico en la comparación de muestras es el que consiste en calcular el número mínimo de casos que deberán tener para detectar una diferencia igual o mayor a un valor establecido antes de iniciar la investigación, con una potencia aceptable (digamos del 80% o 90%, ver párrafo anterior) y un nivel de error alfa asimismo aceptable para el investigador (digamos, del 5% o del 1%). Aquí las técnicas para el cálculo del tamaño muestral son aún algo más complicadas que la antes reseñada, debido a la nueva condición de tomar en cuenta el error beta de la prueba. Por lo demás, los cálculos cambian según el tipo de distribución que adoptan las muestras y otras características de los estudios, por lo cual se comprende que un examen más completo del tema queda más allá del alcance del texto, y el lector puede consultar Armitage y Berry, 1994. Una exposición sencilla y suficientemente completa puede encontrarse en Florey, 1993.
[ 247 ]
7. Comparaciones entre dos medias muestrales. La distribución t 7.1 La distribución t de Student En la Sección 6 se ha visto el procedimiento general para la comparación de medias muestrales de variables continuas. Los ejemplos empleaban muestras grandes, de 100 individuos, y esto permitía emplear las varianzas muestrales, s², en el lugar de las varianzas de los universos, en general desconocidas. Sin embargo, es muy frecuente tener que trabajar con muestras más pequeñas, de pocas decenas de elementos, y estos casos, aún tratándose de poblaciones con distribución normal, las muestras tienden a presentar mayores densidades de probabilidad hacia las colas, esto es, para un determinado desvío del centro de la distribución, las probabilidades de ser excedido por los valores de la variable son mayores que las predichas por la curva normal. Estas muestras pequeñas siguen la llamada distribución t o de Student, con forma de campana muy similar pero no idéntica a la normal, ya que como se desprende de lo dicho, tiene colas ligeramente “más altas”, indicando mayores probabilidades para las desviaciones más alejadas del centro (Fig. 7.1). Figura 7.1. Curvas de distribución de probabilidades normal y de Student (trazo más grueso).
Puede observarse que hacia los extremos de la curva, un mismo desvío estándar deja por fuera un área de probabilidades mayor que en la distribución de Gauss. Esto quiere decir que en las muestras pequeñas, las probabilidades de que la variable asuma valores cercanos a las colas de la distribución, son relativamente mayores que en la distribución normal. Por [ 248 ]
esta razón, para poder afirmar que una observación se aleja significativamente del centro de la distribución, deberá hallarse a mayor distancia del mismo que si la distribución fuera la normal o de Gauss. Dada una variable con distribución normal y media μ, si se extrae una muestra de tamaño n, con media x– y desvío estándar s, se tiene que t = (x– − μ) / (s / √ n)
(7.1)
es un estadístico muestral que sigue la distribución t o de Student, y se utiliza en las pruebas de hipótesis con muestras pequeñas. El número de casos menos uno (n − 1), llamado grados de libertad, es un parámetro de la distribución, que varía con el tamaño de la muestra y está tomado en cuenta en las tablas correspondientes, donde determina el valor de t para los distintos niveles de probabilidad utilizados en las pruebas de significación. Como para otras distribuciones, las tablas de t se hallan extensamente publicadas y también se obtienen en los paquetes estadísticos corrientes. Puede verse que t es un cociente cuyo numerador es la desviación de la media muestral x– respecto de la media universal μ, y cuyo denominador es el error estándar de dicha media muestral. El error estándar corresponde a la expresión (5.3), en donde el desvío estándar del universo, σ, se ha reemplazado por el desvío estándar muestral s. De esta manera, al igual que z en la Sección anterior, t es una variable que expresa el desvío estandarizado del estadístico muestral x– y se aplica cuando las muestras siguen la distribución de Student. Su papel en las pruebas de hipótesis es el mismo que el del estadístico z utilizado en la Sección 6 para muestras grandes. Como las colas de la función t son más “altas” que las de la normal (Fig. 7.1), se precisa una mayor desviación respecto de la hipótesis nula para que una diferencia resulte significativa. Así, en una muestra de 10 elementos, con 10 − 1 = 9 grados de libertad, para alcanzar un nivel de significación P = 0.05, se requiere t = 2.22 (la diferencia del numerador deber ser 2.22 veces el desvío estándar dado en el denominador), mientras que la misma significación se alcanza en la distribución normal con una desviación z = 1.96, algo menor de 2 desvíos estándar. Esto señala la mayor sensibilidad para detectar diferencias significativas que tienen los métodos para muestras grandes vistos en la Sección 6, que sin embargo, si se aplican a muestras pequeñas producen resultados inexactos, con un exceso de resultados significativos. Por lo demás, cuando n tiende a infinito, la distribución t tiende a la normal, convergencia que se hace suficientemente importante en forma temprana y así, con muestras de unos 100 casos los valores de t ya son casi iguales a los de z. Esto explica que la distribución de Student sea apropiada también para muestras grandes, donde toma los mismos valores de la normal. Esto es importante dado que el límite entre muestras grandes y pequeñas no está claramente definido, y la distribución t se ajusta bien en todos los casos. 7.2. Comparación de dos medias muestrales: muestras no apareadas Los procedimientos de inferencia son análogos a los ya vistos para muestras grandes, y se examinarán ejemplos relativos a la comparación de dos medias muestrales. En general, las muestras a comparar pueden estar formadas por individuos diferentes, o por los mismos [ 249 ]
individuos antes y después de alguna intervención o de algún posible cambio en las variables en estudio. En el primer caso se habla de muestras no apareadas, por lo que se entiende que no hay correlación estadística entre los datos de las dos muestras. Como se sabe, al comparar las medias de dos muestras, la hipótesis nula suele ser que provienen de universos con la misma media, de modo que μ1 = μ2 y por lo tanto μ1 − μ2 = 0. De acuerdo a esta hipótesis, se espera que las diferencias entre las medias muestrales, x– 1 − x– 2 , presenten una distribución en forma de campana con centro en 0, y la prueba consiste en dividir la diferencia encontrada por su error estándar, lo que proporciona un valor de t. Este a su vez permite encontrar en las tablas de la distribución, la probabilidad de una diferencia x– 1 − x– 2 igual o mayor que la hallada en el estudio. Si esa probabilidad es suficientemente pequeña, la hipótesis de medias de población iguales debe ser rechazada, aceptándose la hipótesis alternativa de medias diferentes. Siempre que las varianzas de las muestras sean similares, el error estándar de la diferencia de medias se obtiene a partir de una varianza única s², que combina las varianzas de cada una de las muestras, s1² y s2² : s² = [( n1 − 1) s1² + (n 2 − 1) s2² ] / [( n1 − 1) + (n 2 − 1)]
(7.2)
donde n1 y n2 es el tamaño de cada muestra, y (n1 − 1) y (n2 − 1) son los grados de libertad de las muestras. Con esta estimación de la varianza muestral, el error estándar de la diferencia de medias se calcula a partir de (5.6), donde cada σ² está estimada por la varianza combinada s² : ES (x–1 − x–2) = √ ( s² / n1 ) + ( s² / n 2 )
(7.3)
y el estadístico de prueba t queda expresado como: t = (x–1 − x–2) / √ ( s² / n1 ) + ( s² / n 2 )
(7.4)
Ejemplo 7.1. Comparación de dos medias muestrales. Muestras no apareadas Se han determinado las cifras de colesterol HDL, en mg/dl, en una muestra de diez individuos y son las siguientes: 72, 45, 89, 40, 96, 54, 79, 71, 37, 57. Se desea saber si la media muestral difiere en forma significativa de la media de la muestra analizada en el Ejemplo 2.1. 1. Hipótesis: las medias del colesterol HDL difieren significativamente entre ambas muestras 2. Hipótesis nula (H0): el colesterol HDL no difiere significativamente entre las muestras. La hipótesis nula postula que las medias universales μ1 y μ2 son iguales: H 0 : μ1 = μ 2 y que su diferencia es cero: μ1 − μ2 = 0 3. Elección del nivel de significación de la prueba. Se acepta P = 0.05. [ 250 ]
4. Prueba de la hipótesis: el estadístico t y la obtención de P. Este es el único punto que difiere de los ejemplos de la Sección 6: el estadistico empleado es t en vez de z, y como se ha mencionado, en el cálculo del error estándar de la diferencia de medias, se combinan las dos varianzas muestrales. Se insiste en que los programas estadísticos obvian estos cálculos, que aquí se describen porque permiten entender los mecanismos de la inferencia estadística. Por lo mismo y para no alargar la exposición, se dan ya calculadas las medias y las varianzas de las muestras 1 y 2: X1
X2
∑x
640
460
Número de casos ( n ) –) Media (x
10
10
64.0
46.0
Varianza muestral ( s² )
422.4
276.9
A partir de (7.2) se obtiene una varianza muestral única, s², que combina ambas varianzas muestrales, s1² y s2² : s² = [( n1 − 1) s1² + (n 2 − 1) s2² ] / [( n1 − 1) + (n 2 − 1)] = [(10 − 1) 422.4 + (10 − 1) 276.9 ] / [ (10 − 1) + (10 − 1) ] = 349.7 El error estándar de la diferencia de medias se calcula según 7.3: – −x – ) = √ ( s² / n ) + ( s² / n ) ES (x 1 2 1 2 = √ ( 349.7 / 10 ) + ( 349.7 / 10 ) = 8.36 El estadístico t se calcula entonces como: t = (x–1 − x–2) / ES (x–1 − x–2) = (64 − 46) / 8.36 = 2.15 siendo (n − 1) + (n − 1) = 9 + 9 = 18, la suma de los grados de libertad de las muestras. La probabilidad de significación buscada se encuentra en tablas de la distribución t de Student, en la fila correspondiente a 18 grados de libertad, donde para t = 2.10 corresponde P = 0.05, con lo cual el valor 2.15 obtenido es ligeramente más significativo, y por lo tanto se puede escribir P < 0.05. El valor exacto de P (que se puede calcular de la tabla por interpolación) se obtiene inmediatamente de los paquetes estadísticos y es P = 0.045. 5. Último paso: aceptación o rechazo de la hipótesis nula Dado que la diferencia de las medias se considera significativa en un nivel P < 0.05 y este nivel ha sido alcanzado, se rechaza la hipótesis nula y se acepta la significación de la diferencia de medias. [ 251 ]
En el ejemplo se ha trabajado con varianzas que no difieren demasiado entre sí, lo cual permite combinarlas para obtener una estimación común con la cual completar los cálculos. La igualdad de varianzas debería evaluarse previamente, por procedimientos en los que no entraremos, y de hallarse diferencias significativas entre las mismas el error estándar de la diferencia se debería calcular como en (5.6). Sin embargo y en general, los resultados no suelen ser muy diferentes. Más importante del punto de vista práctico, los programas de estadística analizan automáticamente las varianzas y ofrecen junto con el correspondiente informe acerca de su similitud, la posibilidad de calcular t bajo cualquiera de los dos supuestos, varianzas iguales o desiguales. 7.3. Comparación de dos medias muestrales. Medias apareadas Una situación especial se plantea muy frecuentemente en la práctica cuando cada individuo o elemento de la muestra provee dos valores de la misma variable, uno antes y otro después de un determinado acontecimiento de interés, por ejemplo un tratamiento, y se desea comparar los datos previos y posteriores al mismo (estrictamente, no es imprescindible la existencia de un acontecimiento o tratamiento interpuesto, y pueden examinarse pares de datos obtenidos con cualquier diferencia de tiempo, lo que puede informar acerca de la variabilidad de los mismos). En estas circunstancias, las muestras suelen presentar importante correlación estadística (ver Sección 9) y como se mencionó en §5.5, las diferencias entre los pares de datos correspondientes a cada uno de los individuos que integran las muestras, forman un conjunto con una varianza menor que la suma de las varianzas que sería de esperar en muestras independientes. Esta reducción de la varianza se aprovecha para aumentar el poder de detectar algún cambio entre las muestras, mediante el procedimiento que se describe a continuación y que se entenderá mejor mediante un ejemplo. Ejemplo 7.2. Comparación de dos medias muestrales. Muestras apareadas. Considérese la muestra del ejemplo 2.1, y supongamos que luego de un tratamiento dirigido a elevar el colesterol HDL, el mismo es nuevamente dosado en cada individuo con los siguientes resultados: Caso Nº
HDL pre-tratamiento
HDL post-tratamiento
1
81
85
Diferencia ( d ) 4
2
37
38
1
3
35
37
2
4
64
72
8
5
46
51
5
6 7
37 45
45 38
8 −7
8
43
58
15
9
21
25
4
10
51
61
10
TOTALES
460
510
50
[ 252 ]
Las respectivas medias muestrales antes y después del tratamiento son 46.0 y 51.0 mg/dl, y su diferencia, igual a 5.0 mg/dl, sugiere un leve aumento del colesterol HDL No obstante, la diferencia entre las medias muestrales es menor que en el ejemplo anterior y, como el lector puede comprobarlo, si se aplica el mismo método de comparación, no resulta significativa. Sin embargo, si se observan en la cuarta columna de la tabla los cambios del HDL ocurridos en cada individuo, se verá que en nueve casos aumentó en la muestra post-tratamiento, y que no hay grandes contrastes entre la magnitud de las variaciones para cada individuo: el paciente con 81 mg/dl pasa a tener 84 (d = 84 − 81) y el paciente con 21 mg/dl pasa a tener 25 (d = 25 − 21). ¿Por qué no analizar solamente las diferencias, ocurridas en cada individuo? Si sobre las mismas no hubiera un efecto del tratamiento, su media debería oscilar alrededor de cero, y ésta es una buena hipótesis nula. Tal es el fundamento de la comparación de “muestras apareadas”. Si la media de las diferencias individuales difiere significativamente de cero, se admite que un cambio significativo ha ocurrido entre las tomas de cada par datos. La variable es la diferencia d entre cada par de datos, que se compara con una diferencia media hipotética μD = 0. El procedimiento es como sigue. En la cuarta columna se hallan las diferencias ( d ) entre ambas mediciones del HDL para cada individuo. La media de esas diferencias es igual a su sumatoria dividida por el número de casos:
y en el ejemplo es igual a 5.0 mg/dl (es la misma que la diferencia entre las medias muestrales).
1. Hipótesis nula (H0): la diferencia media en el universo el igual a cero, μD = 0 –
2. Hipótesis alternativa: la media de las diferencias en el universo, μ D (estimada por d ) difiere significativamente de cero 3. Elección del nivel de significación de la prueba. Se acepta P = 0.05. 4. Prueba de la hipótesis: el estadístico t y la obtención de P. El estadístico t mide la des– viación de la diferencia media d con respecto al cero de la hipótesis nula, en unidades de error – – estándar. Por lo tanto, el numerador de t está dado por d − 0 = d , y el denominador es el error estándar de la diferencia media, que se calcula como sigue. Varianza de las diferencias: se obtiene como cualquier varianza muestral a partir de las diferencias de la última columna de la tabla, a cada diferencia se le resta la diferencia media đ, el resultado se eleva al cuadrado y la suma de los cuadrados y se divide por (n − 1): –
Error estándar de la media d : se obtiene a partir de (5.3) reemplazando σ² por s²D: [ 253 ]
ESD = √ (s²D / n )
(7.7)
–
de donde se obtiene t como el cociente entre d y ESD: Con los datos del ejemplo: – d = (4 + 1+ 2+ …+ 10) / 10 = 5.0 s²D = [ (4−5)² + (1−5)² + (2−5)² + … + (10−5)²] / (10−1) = 314 / 9 = 34.9 ESD = √ (s²D / n) = √ (34.9 / 10) = 1.87 t = 5.0 / 1.87 = 2.68 lo que corresponde según tablas de la distribución t de Student, a P = 0.0253, con lo cual se satisface la condición P < 0.05. Las diferencias observadas en el colesterol HDL antes y después del tratamiento se apartan significativamente de cero. 5. Ultimo paso: aceptación o rechazo de la hipótesis nula La hipótesis nula de una diferencia media universal μD = 0 igual a cero deber ser rechazada, aceptándose la alternativa μD ≠ 0. Para comprender lo que ha ocurrido, hay que tener en cuenta que las cifras de HDL están (o pueden estar) influidas por el tratamiento y también por otras características particulares de cada individuo. Las diversas fuentes de variabilidad generan las varianzas de cada muestra por separado, mientras que por el contrario, la columna con las diferencias de HDL pre y post-tratamiento sólo expresa las variaciones ocurridas entre la primera y la segunda medición. Otras fuentes de variabilidad, que se manifiestan en el hecho de que los distintos individuos se presentan inicialmente con valores de HDL más altos o más bajos, tienden a cancelarse cuando se restan entre sí los dos valores de cada par de datos. En el ejemplo, las varianzas de las muestras son iguales a 276.9 y 332.4 (pre y post-tratamiento), mientras que la varianza de las diferencias entre pares es igual a 34.9. Esto determina un menor error estándar y consecuentemente, el incremento del valor de t y la posibilidad de detectar cambios significativos. En el ejemplo se ha producido un aumento pequeño pero significativo del colesterol HDL, que hubiera quedado oculto por la variabilidad individual de haberse empleado directamente las varianzas muestrales como se hace en el caso de muestras independientes, donde no es posible controlar la variabilidad “dentro del grupo”. Como se ve, la mayor eficacia del método de muestras apareadas se debe a que permite aislar las variaciones producidas por una determinada circunstancia o intervención, de la variabilidad existente entre los individuos de un grupo.
[ 254 ]
8. Comparaciones entre proporciones
Cuando se analizan muestras donde la variable de interés es de tipo binario (§2.2), es común poder conocer la frecuencia con que la variable toma uno de sus dos estados posibles en las distintas muestras, por ejemplo, se puede conocer la proporción de fumadores, de sexo femenino o masculino, si la edad es mayor o menor de 50 años, etc. En estos casos, puede resultar de interés saber si dos muestras que exhiben diferentes proporciones de una variable, por ejemplo de fumadores, expresan diferencias reales entre las poblaciones de las que fueron extraídas o difieren por las fluctuaciones del muestreo. Conviene tener presente que para cada variable binaria, uno de sus dos posibles estados suele considerarse el aspecto de mayor interés y denominarse suceso, como por ejemplo el hecho de ser fumador, ser del sexo masculino (o femenino), ser mayor de 50 años, etc. De esta forma, cada resultado de una variable es registrado según el suceso haya o no tenido lugar. En general, un suceso (p.ej. ser fumador) se puede presentar r veces en n observaciones y lógicamente, r podrá variar entre 0 (no hay fumadores en la muestra) y n (todos son fumadores en la muestra). El cociente p = r / n es la proporción de sucesos observados en la muestra y estima la proporción π de tales sucesos en el universo muestreado (§4.4). Como se ha mencionado, una de las situaciones más frecuentes en la práctica es la necesidad de comparar dos proporciones correspondientes a distintas muestras. Con este fin, es posible aprovechar la aproximación de la distribución binomial a la distribución normal, mencionada en §4.4.1. 8.1. Aproximación a la función binomial mediante la normal Este procedimiento se basa en que la proporción p de sucesos observados en una muestra, tiende a distribuirse en forma normal a medida que el número de observaciones realizadas, n, aumenta. Esto permite emplear las técnicas de la Sección 6 para resolver diferentes problemas de inferencia estadística. Se ha dicho que la proporción p de sucesos observados en una muestra, es una estimación de la probabilidad π en el universo del que procede (§4.4), y de esta manera, la comparación entre dos proporciones p1 y p2 , permite estimar las relaciones entre las respectivas probabilidades π1 y π2 , en los universos de los que proceden las muestras. El procedimiento para la comparación de dos proporciones muestrales se mostrará mediante un ejemplo.
[ 255 ]
Ejemplo 8.1. Comparación de dos proporciones en muestras independientes. Aproximación mediante la distribución normal En un conjunto de 470 individuos internados por endocarditis infecciosa (Modenesi y col., 2005) se encontró que 66 presentaron insuficiencia renal crónica (IRC) durante la evolución (grupo 1) y 404 no la presentaron (grupo 2). Durante la hospitalización se observaron 24 muertes en el grupo 1 (IRC), y 90 muertes en el grupo 2 (no IRC). La proporción de fallecimientos fue p1 = 24 / 66 = 0.36 = 36% en el grupo 1, y p2 = 90 / 404 = 0.22 = 22% en el grupo 2. ¿Son los datos prueba suficiente de que la muerte intrahospitalaria en la endocarditis infecciosa, es más frecuente en los portadores de insuficiencia renal crónica que en los que no la presentan? La hipótesis nula es que la mortalidad intrahospitalaria es la misma en portadores de insuficiencia renal crónica que en los que no la presentan, o lo que es lo mismo, la mortalidad en el universo del que procede el grupo 1 (π1) es la misma que en aquél del que procede el grupo 2 (π 2). Para poder afirmar que la diferencia observada es estadísticamente significativa, debe poder rechazarse la hipótesis nula y para esto, debe demostrarse que la diferencia p1 − p2 obtenida de las muestras tiene muy bajas probabilidades de observarse muestreando universos en los que π1 = π2 . Al igual que p1 y p2 , la diferencia (p1 − p2) se distribuirá en forma aproximadamente normal siempre y cuando las muestras no sean pequeñas y las p no presenten valores extremos, y en estos casos pueden utilizarse procedimientos similares a los ya vistos en Sección 6. Esto requiere construir un estadístico z para evaluar la diferencia (p1 − p2) en términos de su error estándar, y así conocer la probabilidad de haber obtenido una diferencia igual o mayor siendo verdadera la hipótesis nula de medias iguales (o diferencia cero). Llamando ES (p1 − p2) al error estándar de (p1 − p2), se tiene: z = (p1 − p2) / ES (p1 − p2)
(8.1)
Para calcular el error estándar de (p1 − p2) debe obtenerse primeramente una p muestral común que suma los numeradores y los denominadores de p1 y p2: p = (r1 + r2) / (n1 + n 2)
(8.2)
y calcularse la varianza de la diferencia (p1 − p2) a partir de lo visto en §5.5, reemplazando π por la p muestral común, y escribiendo 1 − p = q : var (p1 − p2) = (pq / n1)+ (pq / n 2) = pq (1/ n1 + 1/ n 2)
(8.3)
con lo cual el error estándar se obtiene como: ES (p1 − p2) = √ pq (1/n1 + 1/n 2)
(8.4)
y el estadístico z puede re-escribirse: z = (p1 − p2) / √ pq (1/n1 + 1/n 2) [ 256 ]
(8.5)
Recapitulando los datos y reemplazando se tiene: r1 = 24 muertes en el grupo 1, n1 = 66 número de individuos en el grupo 1 r2 = 90 muertes en el grupo 2, n 2 = 404 número de individuos en el grupo 2 p1 = r1 / n1 = 24 / 66 = 0.364 p2 = r2 / n 2 = 90 / 404 = 0.223 p = ( 24 + 90 ) / ( 66 + 404 ) = 0.243 q = 1 − 0.243 = 0.757 var (p1 − p2) = 0.243 × 0.757 (1 / 66 + 1 / 404) = 0.00324 ES (p1 − p2) = √ 0.00324 = 0.0569 z = (0.364 − 0.223) / 0.0569 = 0.141 / 0.0569 = 2.48 En tablas de la función normal se halla que para z = 2.48, la probabilidad de un valor más extremo es P = 0.013, lo que puede redondearse como P < 0.05 y más exactamente, como P < 0.02. Se concluye que la hipótesis nula debe ser rechazada y la diferencia entre las proporciones muestrales se acepta como significativa en un nivel P = 0.013. La probabilidad de muerte intrahospitalaria es significativamente mayor entre los pacientes con insuficiencia renal crónica. El procedimiento de aproximar la distribución binomial mediante la normal será suficientemente exacto siempre y cuando el estadístico z calculado según (8.5) tenga una distribución cercana a la normal. Este requisito se cumple cuando los productos p1 × n1, p2 × n2 , (1 − p1) × n1 y (1 − p2) × n2 son todos mayores que 5. Esto ocurrirá con tamaños muestrales n suficientemente grandes y proporciones p no demasiado cercanas a los extremos. En caso contrario la aproximación por la normal puede ser inexacta, y será conveniente utilizar otros métodos como el test exacto de Fischer, que se menciona más adelante. En el ejemplo, todos los productos mencionados exceden largamente el límite de seguridad 5 arriba consignado, con lo que la prueba resulta segura. De todos modos, siendo la distribución binomial una distribución discreta, suele realizarse una corrección en los cálculos de z, llamada de corrección de continuidad, que se mencionará más adelante. A continuación se verá otra forma de encarar el mismo problema mediante el cálculo de un estadístico que se funda en los valores muestrales observados y en los que deberían esperarse de ser válida la misma hipótesis nula con que se trabajó anteriormente, esto es, que las proporciones del suceso (en el ejemplo, la mortalidad intrahospitalaria) no difieren entre los grupos. 8.2. La distribución chi-cuadrado La comparación entre proporciones puede realizarse comprobando si la variable estudiada (por ejemplo, la mortalidad intrahospitalaria), se asocia o aparece con mayor frecuencia en uno de los dos grupos estudiados. Esto se logra disponiendo los datos en una tabla de 2 × 2 y calculando con su ayuda, los valores teóricos de la variable que serían de esperar si [ 257 ]
no hubiera asociación alguna con cualquiera de los grupos. La Tabla 8.1 correspondiente al ejemplo anterior permite ilustrar el resultado: Tabla 8.1. Tabla de 2 × 2 correspondiente a los datos del Ejemplo 8.1
Grupo 1
Obitos
Vivos
Totales
Observados 24
Observados 42
66
(IRC)
Esperados 16
Esperados 50
Grupo 2
Observados 90
Observados 314
( No IRC )
Esperados 98
Esperados 306
Totales
114
356
404 470
Se comprueba que frente a 16 óbitos esperados en el grupo 1, ocurrieron 24, y frente a los 98 óbitos esperados en el grupo 2, sólo se presentaron 90. La magnitud de las diferencias entre casos observados y casos esperados, permite elaborar un estadístico muestral llamado chi-cuadrado (que se suele escribir X²), que se compara con una familia de distribuciones también conocidas como chi-cuadrado y que se suelen denotar como χ². Este estadístico se calcula como: X² = ∑ [ (O − E)² / E ]
(8.6)
lo que expresa que para cada una de las cuatro celdas de la tabla, la diferencia entre los casos observados ( O ) y los esperados ( E ), debe elevarse al cuadrado y dividirse por el número de casos esperados, para finalmente sumar los resultados de las 4 celdas. Cuanto más grande resulte X², más improbable será que las discrepancias se deban al azar, y esto lleva a aceptar la existencia de algún tipo de asociación entre la mortalidad intrahospitalaria y la insuficiencia renal crónica en las poblaciones representadas por las muestras. En forma más general, la magnitud de X² expresa el grado de asociación entre las variables de filas y columnas. Al igual que la normal, las distribuciones χ² son continuas y se caracterizan por un parámetro llamado grados de libertad, que en el caso de una tabla de 2 × 2 es igual a 1. Las probabilidades de que X² supere determinados valores, en ausencia de asociación entre los elementos de filas y columnas, se hallan tabuladas para distintos grados de libertad. En el Ejemplo 8.2 se elabora con más detalle el procedimiento de cálculo de X² reseñado hasta aquí. Ejemplo 8.2. Comparación de dos proporciones en muestras independientes. La distribución χ² Cálculo de los casos esperados: Considérense los casos observados en el ejemplo anterior, dispuestos en una tabla de dos filas y dos columnas o tabla de 2 × 2: Grupo 1
Obitos
Vivos
Totales
Observados 24
Observados 42
66
Observados 90
Observados 314
404
114
356
470
IRC Grupo 2 No IRC Totales
[ 258 ]
En las filas, los pacientes son clasificados según la presencia de insuficiencia renal crónica: en la primera aparecen los 66 pacientes que la presentan (grupo 1), divididos en 24 individuos que fallecen y 42 que sobreviven, y en la segunda aparecen los 404 pacientes que no exhibieron insuficiencia renal crónica (grupo 2), divididos en 90 individuos que fallecen y 314 que sobreviven. Por otra parte, en las columnas, los pacientes son clasificados por la supervivencia: en la primera columna aparecen los óbitos, y en la segunda los casos que sobreviven. Las sumas de cada fila y de cada columna forman cuatro totales marginales. La suma de los totales marginales es igual al “gran total,” que representa a todos los individuos del estudio y se ubica en el ángulo inferior derecho de la tabla. Para obtener los casos esperados, hay que calcular cuántos individuos debería haber en cada celda de la tabla, si se distribuyeran en forma proporcional a los totales de fila y de columna. Por ejemplo, 66 de los 470 pacientes, o sea 66 / 470 = 0.14 o 14% del total, presentó insuficiencia renal crónica (y un 86% no la presentó). Si se espera que los 114 óbitos observados se hayan producido en forma independiente de la presencia de insuficiencia renal, su número en los grupos 1 y 2 sólo debería depender del tamaño de estos grupos y así, en el grupo 1 (insuficiencia renal crónica presente) deberían esperarse 0.14 × 114 = 16 óbitos, que es un 14% del total de óbitos observados, ya que el grupo 1 contiene el 14% del total de los pacientes del estudio. Esta expectativa corresponde a la hipótesis nula de la prueba, a saber, que los fallecimientos son independientes de la presencia de insuficiencia renal crónica. Los 16 óbitos esperados en el grupo 1, corresponden a la celda intersección de la fila Grupo 1 y la columna Obitos. Como se ha visto, para calcular los casos esperados en la casilla que corresponde a la intersección de la fila Grupo 1 y la columna Obitos, se hizo (66 / 470) × 114, o sea, (total de fila Grupo 1 / gran total) × total de columna Obitos. Esto significa que, en general, para la casilla correspondiente a la fila i y la columna j, se tendrá: Casos esperados = (total de fila i × total de columna j ) / gran total
(8.7)
Con este procedimiento se pueden calcular los valores esperados en las restantes celdas. En realidad, en tablas de 2 × 2 basta con calcular el valor esperado para una celda, y los otros tres se obtendrán por diferencia con los correspondientes totales marginales. Por ejemplo, si se esperan 16 óbitos en el grupo 1, en el grupo 2 deberán esperarse necesariamente 114 − 16 = 98 óbitos. En la Tabla 8.1 pueden verse los valores observados y calculados para el estudio que nos ocupa. En el grupo 1 (insuficiencia renal crónica presente), se observaron más óbitos que los esperados, exactamente 24 − 16 = 8 óbitos más. Lo opuesto ocurre en el grupo 2 (insuficiencia renal ausente), donde los óbitos observados son menos que los esperados de acuerdo a la cuantía del grupo. Otro tanto puede discurrirse acerca de los casos en que los pacientes sobreviven la internación: en el grupo 1 son menos que los esperados, y lo inverso ocurre en el grupo 2. La diferencia entre observado y esperado es la misma para las cuatro casillas, y sólo cambia de signo: en dos casillas el signo es positivo y en dos es negativo. En la magnitud de esta diferencia, que indica cuánto se alejan las proporciones muestrales de las esperadas bajo la hipótesis nula, se basa la prueba de chi cuadrado. [ 259 ]
Conviene saber que el hecho de que los valores esperados en este ejemplo sean números enteros, es casual (en realidad, para fila 1 y columna 1 se esperan exactamente 16.0085 casos, valor que ha sido redondeado). Al respecto, cuando hay decimales deben ser incluidos en los cálculos según la precisión deseada (por ejemplo, uno o dos decimales). La prueba de significación se realiza mediante el estadístico X², definido más arriba (8.6). Como se ha mencionado, este estadístico sigue una función de probabilidad conocida como chi-cuadrado y su magnitud aumenta cuanto mayor es la diferencia entre valores observados y esperados. La distribución se halla tabulada de modo de dar la probabilidad con que distintos valores de la función son sobrepasados por azar de muestreo. En el caso particular del arreglo 2 × 2, se dice que chi-cuadrado se halla distribuido con un grado de libertad. Los grados de libertad pueden entenderse como el número de celdas en que deben calcularse los casos esperados, para que queden automáticamente determinados, por diferencia con los marginales, los valores de las demás. Así, se ha hecho notar más arriba que en una tabla de 2 × 2, basta calcular el valor en una de las celdas para que queden automáticamente determinados los valores de las otras tres: luego, en estas tablas X² se distribuye con un grado de libertad. En la celda determinada por la fila Grupo 1 y la columna Obitos, se han observado 24 casos y se han calculado 16 casos esperados. Luego, el primer término de la sumatoria en (8.6) es: (O − E)² / E = (24 − 16)² / 16 = 64 / 16 =4 Prosiguiendo con las tres celdas restantes, puede comprobarse que en todas ellas la diferencia es igual, en dos con signo positivo y en dos con signo negativo. Los correspondientes cuadrados son siempre positivos y los cuatro numeradores de la sumatoria de X² son iguales: X² = ∑ [ (O − E)² / E ] = [(24 − 16)² / 16] + [(42 − 50)² / 50] + [(90 − 98)² / 98] + [(314− 306)² / 306] = 64 / 16 + 64 / 50 + 64 / 98 + 64 / 306 = 6.14 Según tablas de la distribución χ², para un grado de libertad y X² = 6.14, se tiene P = 0.013, lo que obliga a aceptar una desviación significativa de los valores observados, de aquéllos que se esperan bajo la hipótesis nula de proporcionalidad entre los valores de las celdas y sus marginales. La mortalidad y la presencia de insuficiencia renal crónica se hallan asociadas en forma estadísticamente significativa en la muestra analizada. Nótese también que el valor de P obtenido aquí, es igual al que se obtuvo con la aproximación normal (esto no es casual, dado que las distribuciones normal y χ² se hallan emparentadas matemáticamente). El método de las tablas de contingencia se generaliza para más de dos filas y / o columnas, siendo los procedimientos, análogos al caso más frecuentemente utilizado de la tabla 2×2. En todos los casos, los valores esperados para una celda se calculan como en (8.7), mul[ 260 ]
tiplicando los marginales de la fila y la columna correspondientes a esa celda, y dividiendo por el gran total. Deben conservarse las suficientes cifras decimales en los números calculados, a fin de no disminuir la exactitud de las estimaciones. El valor de X² se obtiene como indica (8.6). Hay varias fórmulas equivalentes para el cálculo de X², tendientes a simplificar la aritmética, pero con los recursos actuales para el cálculo que ofrecen los programas estadísticos, su exposición aparece poco relevante. Los grados de libertad para las tablas de contingencia se calculan siempre como el producto (número de filas − 1) × (número de columnas − 1). Así, una tabla de 3 × 4 tendrá asociados (3 − 1) × (4 − 1) = 6 grados de libertad. La importancia práctica de los grados de libertad es que a medida que aumentan, se necesitan mayores valores de X² para alcanzar un mismo nivel de significación estadística. Las distribuciones chi-cuadrado funcionan con variables discretas y por lo tanto, nunca deben emplearse con porcentajes, o sea, después de convertir las observaciones en valores porcentuales (%), pues éstos no siguen la distribución χ². 8.3. Corrección de continuidad para las distribuciones discretas Se ha dicho que una distribución de proporciones muestrales es discreta, lo que puede originar inexactitudes cuando se realizan inferencias utilizando las funciones normal o chicuadrado, ambas continuas. Estos inconvenientes son más importantes cuando las muestras son chicas. Por este motivo es común introducir una corrección, llamada de continuidad, en los procedimientos con variables discretas que recurren a la función normal o las distribuciones chi-cuadrado como se ha visto más arriba. En el caso de la aproximación por la normal, el procedimiento consiste en acercar las proporciones muestrales p1 y p2 sumando 0.5 al numerador de la más chica y restando 0.5 al de la más grande, con lo que se reduce la diferencia entre las nuevas estimaciones de p1 y p2 . Ejemplo 8.3. Corrección de continuidad en el Ejemplo 8.1 Si p1 es la mayor de las dos proporciones muestrales, su versión corregida estará dada por: p1C = (r1 − 0.5) / n1 y siendo p2 la menor de las dos proporciones muestrales, su versión corregida será p2C = (r2 + 0.5) / n 2 Con los datos del Ejemplo 8.1, resulta: p1C = (24 − 0.5) / 66 = 0.356 p2C = (90 + 0.5) / 404 = 0.224 Obsérvese que aunque 24 es menor que 90, la probabilidad de p1 es mayor que la de p2 , motivo por el cual se reduce 24 y se incrementa 90. De esta forma, p1C se reduce y p2C se incrementa, disminuyendo la diferencia entre ambas, lo que hace más exigente al test de significación. La diferencia p1C − p2C = 0.132 es ligeramente menor que la obtenida sin la corrección, y permite calcular z = 2.32, que corresponde a P = 0.02, valores ligeramente inferiores a los obtenidos [ 261 ]
en el Ejemplo 8.1 sin efectuar la corrección de continuidad. Como se ve, ésta resulta conservadora en el sentido de disminuir el número de resultados significativos en las pruebas. En el caso de X² la corrección de continuidad se aplica reduciendo en 0.5 la diferencia entre cada valor observado y su correspondiente calculado. Dicha corrección es obligatoria siempre que el valor esperado en alguna celda sea menor que 5. Ejemplo 8.4. Corrección de continuidad en el Ejemplo 8.2 La corrección se efectúa restando 0.5 del valor absoluto de cada diferencia entre valor observado y valor calculado. De esta manera, (8.6) queda modificada de la siguiente forma: X² = ∑ [ ( O − E − 0.5 )² / E ]
(8.8)
donde las barras significan la diferencia tomada siempre con signo positivo (valor absoluto). Reemplazando por los datos del ejemplo, se tiene para el primer término: (O − E − 0.5 )² / E = (24 − 16 − 0.5 )² / 16 = (8 − 0.5)² / 16 = 56.25 / 16 = 3.52 que resulta así de menor magnitud que sin la corrección, circunstancia en la que es igual a 4. Procediendo de la misma forma con los tres restantes términos, se obtiene X² = 5.40, que es menor que el valor 6.14 obtenido sin la corrección y, con un grado de libertad, corresponde a P = 0.02, resultado igual al obtenido mediante la aproximación normal, al aplicar la corrección de continuidad. Resulta evidente que la repercusión de la corrección de continuidad en las estimaciones disminuirá al aumentar n y así, su importancia será menor cuando se trate de muestras grandes y sus efectos serán mayores en las muestras pequeñas. Por este motivo se suele aconsejar emplearla siempre, aunque es un tema discutido y no todos los autores están de acuerdo (ver Armitage, 1994). 8.4. Riesgo y riesgo relativo Los resultados del estudio en pacientes con endocarditis infecciosa visto en los ejemplos anteriores, permitieron afirmar que la proporción de muerte intrahospitalaria es significativamente mayor entre quienes presentan insuficiencia renal crónica, y asimismo, que la mortalidad y la presencia de insuficiencia renal crónica se hallan asociadas en forma estadísticamente significativa. Por otra parte, la proporción de muerte intrahospitalaria permite estimar su probabilidad en el correspondiente grupo (§3.1), y ésta es una medida del riesgo del suceso en cuestión. Así, el riesgo de óbito en los pacientes con insuficiencia renal crónica del Ejemplo 8.1 se estima mediante la razón p1 (óbitos / total de enfermos en el grupo IRC), y en forma análoga se calcula el riesgo en los pacientes del grupo sin IRC. De este modo, el riesgo se define como la probabilidad de desarrollar una enfermedad (o cualquier suceso de interés) en un tiempo determinado de observación [ 262 ]
(en el ejemplo, durante la duración de la internación). El concepto de un tiempo dentro del cual se realizan las observaciones es de importancia, como se verá en las Secciones 15 y 16. Tratándose de una probabilidad, el riesgo puede expresarse como una proporción y también como un porcentaje. En el Ejemplo 8.1, el riesgo de muerte en el grupo 1 se estimó como p1 = 0.364 o 36.4%. Los intervalos de confianza para el riesgo se calculan como los correspondientes a las proporciones que lo estiman. Ejemplo 8.5. En el Ejemplo 8.1 se vio que la proporción de óbitos en pacientes con endocarditis infecciosa e insuficiencia renal crónica, que estima el riesgo en el grupo, estuvo dada por p1 = r1 / n1 = 24 / 66 = 0.364 o 36.4% El intervalo de confianza del 95% para la estimación se obtiene por aproximación a la distribución normal, tomando z = 1.96. La varianza (4.11) y el error estándar de p son iguales a : Var (p) = p (1 − p) / n ES (p) = √ p (1 − p) / n y los límites de confianza del 95% estarán dados por p ± 1.96 × ES (p). Con los datos del ejemplo: Var (p) = 0.364 (1 − 0.364) / 66 = 0.00351 ES (p) = √ 0.00351 = 0.059 Límites de confianza del 95%: 0.364 ± (1.96 × 0.059) = 0.480 y 0.248, o sea 48.0% y 24.8%. El intervalo de confianza del 95% para la proporción de óbitos observada en la muestra cuando coexiste insuficiencia renal crónica, se extiende entre 24.8% y 48.0%, y dentro del mismo es de esperar que se halle la media de población, con el mismo nivel de confianza. Para comparar el riesgo entre dos grupos diferentes, es posible dividir el riesgo en uno de ellos por el riesgo en el otro. El cociente se denomina riesgo relativo (RR, relative risk o risk ratio) y expresa el riesgo del grupo en el numerador, con respecto al grupo en el denominador. Simbolizando el riesgo con el cociente p = r/n, entre el número de individuos afectados ( r ) y el número total de individuos ( n ) en el correspondiente grupo, el riesgo relativo entre dos grupos queda expresado por: RR = (r 1 / n 1 ) / (r 2 / n 2)
(8.9)
donde los subíndices identifican los grupos y el RR expresa el riesgo del grupo 1 con respecto al grupo 2. En el ejemplo, el riesgo de óbito en pacientes con insuficiencia renal crónica resultó igual a 0.364, mientras que en los pacientes sin insuficiencia renal fue igual [ 263 ]
a 0.223, con lo que el cociente 0.364 / 0.223 = 1.63, expresa el riesgo relativo de muerte en los pacientes con insuficiencia renal, respecto de los que no la presentan. Si se invierten los términos del cociente, se cambia el grupo de referencia, y en el caso que nos ocupa se obtiene el riesgo relativo del grupo sin insuficiencia renal, con respecto al grupo de los que la presentan. Su valor está dado por 0.223 / 0.364 = 0.613, que es la inversa de 1.63 y al ser menor que 1, indica un menor riesgo en los individuos sin insuficiencia renal cuando se toma como referencia al grupo que la presenta. En el caso en que RR = 1 los dos grupos comparados presentan el mismo riesgo, concepto que se extiende a todas las estimaciones del riesgo relativo. Existen varios métodos para estimar el riesgo relativo, en buena parte originados en las distintas posibilidades que brindan el tipo de datos y los modelos que se manejan, lo cual se presta a algunas consideraciones. Por ejemplo, en el seguimiento de dos grupos a lo largo del tiempo, la medición de la proporción de casos de enfermedad en cada uno de los grupos al final del estudio, si bien es un modo de obtener una idea acerca del riesgo relativo, pierde información acerca de lo sucedido durante el tiempo de seguimiento. Así, no es lo mismo un 10% de mortalidad incidiendo gradualmente durante varios años, que ocurriendo mayoritariamente en los primeros días o semanas del seguimiento. En el ejemplo de la endocarditis infecciosa no se ha informado el tiempo de internación hasta el óbito, aunque no son de esperar períodos muy prolongados por tratarse de procesos agudos o subagudos y, en todo caso, su registro no ha sido un objetivo de los autores del estudio, de modo que las estimaciones del riesgo y el riesgo relativo se realizaron a partir de las proporciones de eventos en los distintos grupos durante toda la internación. En tanto, para estudios en los cuales el seguimiento en el tiempo es una característica relevante, existen métodos apropiados para estimar el riesgo relativo entre dos o más grupos, diseñados para obtener la mayor información posible de la distribución temporal de los sucesos y que se comentarán en la Sección 15. Por otra parte, otro modo muy difundido de estimar el riesgo relativo es mediante la razón de odds u odds ratio entre los grupos que se comparan. Este procedimiento, que se emplea siempre en los estudios llamados de caso-control y se examinará en Sección 16, presenta ciertas limitaciones cuando se aplica a otro tipo de datos, como los de la endocarditis infecciosa vistos más arriba, sobre las que se discutirá brevemente en §16.7 y s. 8.5. El test exacto de Fisher Otro método para la comparación de proporciones consiste en disponer los datos en una tabla 2 × 2 y examinar todas las variaciones que se pueden introducir en los mismos sin permitir que varíen los totales marginales. Con métodos apropiados, se puede calcular la probabilidad de cada una de las posibles disposiciones de los datos y luego, proceder a sumar la probabilidad de la disposición observada en el experimento, con las probabilidades de todas aquellas disposiciones o tablas que muestren desviaciones más extremas. El siguiente esquema ejemplifica el método: Supóngase que con un tratamiento A se observan 6 mejorías y 19 faltas de respuesta, y con un tratamiento B se observan 2 mejorías y 20 faltas de respuesta. La tabla 2 × 2 con sus totales marginales es la siguiente:
[ 264 ]
Mejorías
Fallas
Total Tratamientos
Tratamiento A
6
19
25
Tratamiento B
2
20
22
Total respuestas
8
39
47
Aparentemente hay cierta ventaja con el tratamiento A. Por lo demás, existen otras dos tablas que mejoran las cosas a favor de A sin modificar los marginales: 7 1
18 y 21
8 0
17 22
con 7 y 8 éxitos respectivamente (compruebe que los marginales son los mismos). No hay tablas más extremas que la que le adjudica las 8 mejorías al tratamiento A. Ahora bien, la probabilidad de presentación de cada tabla se puede calcular mediante técnicas de combinatoria que no examinaremos. La pregunta sobre cuántas veces o con qué probabilidad se puede obtener la tabla del problema o cualquiera de las otras dos más “extremas,” se responde simplemente sumando las probabilidades de cada tabla (que son independientes). Aquí las probabilidades para las tablas con 6, 7 y 8 éxitos a favor de A, si no hay ninguna influencia de los tratamientos (hipótesis nula) son 0.1301, 0.0336 y 0.0034 respectivamente, disminuyendo a medida que las cuentas se alejan de los valores esperados en la hipótesis de no asociación (el lector puede comprobar que el valor esperado bajo esta hipótesis, para mejoría con el tratamiento A, es igual a 4.26). La suma de las probabilidades arriba calculadas es P = 0.167, que excede el nivel de significación P = 0.05, por lo que la hipótesis nula no puede rechazarse. Hay un 16% de probabilidades de obtener por azar una tabla con 6, 7 u 8 éxitos a favor de A. También se ha propuesto evaluar y sumar la probabilidad de los valores extremos de la tabla en la otra dirección, esto es, con el tratamiento A en desventaja, con 2, 1 o 0 éxitos. Esto equivale a una prueba a dos colas (véase §6.5.2). Existen aún otras propuestas, como calcular P en una sola dirección pero exigir un nivel de significación más estricto, por ejemplo dividiendo P por dos y requiriendo P = 0.025 en lugar de 0.05 como nivel de significación. El método exacto de Fisher se obtiene en los programas estadísticos desde el menú para el análisis de asociación en variable discreta. Por otra parte, debe preferirse al método de chi-cuadrado cuando el número de casos esperado en alguna casilla sea menor que 5, o bien cuando el tamaño total de la muestra sea menor que 20. En el primer caso, si bien el test de chi-cuadrado con corrección de continuidad es adecuado, el hecho de disponerse de programas para el cálculo estadístico hace preferible el empleo del test exacto.
[ 265 ]
9. Correlación y regresión
9.1. Introducción Si se miden la talla y el peso de un grupo de personas, se observará que en general los individuos más altos son los de mayor peso, y los más bajos los de menor peso. Se trata de dos variables cuantitativas – talla y peso – que se presentan apareadas, cada par proviniendo de un individuo, y entre las cuales existe un tipo de asociación que puede expresarse diciendo que “al aumentar la talla tiende a aumentar el peso.” Este tipo de asociación se denomina positiva. Otras veces, a los valores más altos de una variable corresponden los más bajos de la otra, como puede ser el caso de la frecuencia cardíaca y la duración de la sístole: cuanto más alta la primera, menor la duración de la segunda. En estos casos se habla de una asociación negativa o inversa entre las dos variables. Debe insistirse en que cada par de mediciones procede de una misma fuente, por ejemplo, cada individuo provee su estatura y su peso, o bien la frecuencia cardíaca y la duración de la sístole. Además, debe notarse que en vez de expresar “al aumentar la talla tiende a aumentar el peso” podría decirse “al aumentar el peso tiende a aumentar la talla,” ya que lo que se está haciendo es describir cómo se asocian las variables, sin pretender afirmar si una variable determina el valor de la otra. Este tipo de asociación entre dos variables se suele referir con el nombre de correlación. El gráfico natural para este tipo de datos es el diagrama de dispersión (scatterplot) representado en la figura 9.1. Consiste en un par de ejes cartesianos, uno horizontal, comúnmente llamado eje de abscisas o eje de las x, y otro vertical, eje de ordenadas o eje de las y. A cada una de las dos variables correlacionadas se les adjudica un eje y de esta manera, a cada par de datos xi e yi , le corresponde un punto de la gráfica, con coordenadas xi , yi. En la figura 9.1. A, están representados los puntos correspondientes a la talla y peso de un grupo de adultos de ambos sexos. Observando un punto, que representa a un individuo, se pueden obtener la talla y el peso proyectándolo en forma perpendicular sobre cada uno de los dos ejes, en donde se leen los correspondientes valores. En este ejemplo y en forma arbitraria, se adjudicaron el eje de abscisas a la talla y el de ordenadas al peso. El hecho de que ambas variables tiendan a crecer o decrecer conjuntamente, se evidencia en la dirección de la “nube” de puntos que las representa, que se orienta hacia la derecha y arriba. Como se mencionó, este tipo de correlación se llama positiva, y si los puntos se representan por una recta que pase a través de ellos, ésta tendrá pendiente positiva. Desde ya se puede adelantar que si la relación entre las variables fuera “perfecta” (y lineal), los puntos estarían sobre [ 266 ]
una recta. Este no es el caso de la figura, donde forman una nube alargada que sigue una dirección más o menos lineal. En la figura 9.1.B, se hallan representados la frecuencia cardíaca y la duración del período eyectivo del ventrículo izquierdo medida en milisegundos, en una muestra de 100 individuos adultos de ambos sexos. En este caso se observa que cuanto mayor es la frecuencia cardíaca el período eyectivo tiende a ser más breve. Este tipo de correlación, donde una variable tiende a disminuir cuando la otra aumenta, se llama negativa o inversa, y si los puntos de la gráfica se representaran por una recta, ésta se orientaría hacia la derecha y abajo, exhibiendo una pendiente negativa. Figura 9.1. Gráficos de dispersión. A: correlación positiva entre talla y peso en 255 individuos adultos de ambos sexos. B: correlación negativa entre frecuencia cardíaca y período eyectivo en 100 adultos de ambos sexos sin enfermedad cardíaca.
Lo visto es el aspecto gráfico de la relación entre dos variables. ¿Cómo se puede medir el grado de intensidad o fuerza de la asociación? Corrientemente se emplea un estadístico muestral conocido como coeficiente de correlación, que se suele simbolizar con la letra r y cuyo valor absoluto puede oscilar entre 0 (en cuyo caso hay ausencia total de correlación y los puntos de la gráfica forman una nube sin dirección alguna) y 1 (en cuyo caso los puntos se hallan perfectamente alineados sobre una misma recta). En los casos intermedios los puntos tienden a agruparse en forma que sugieren la relación que hay entre ellos, y cuanto [ 267 ]
más se aproxima el coeficiente de correlación a la unidad, más se aproximan los puntos a una línea que representa la dirección general del conjunto. El coeficiente de correlación puede tener signo positivo o negativo, indicando si la asociación entre las variables es positiva o negativa, en el sentido ya mencionado. Así, para un determinado valor absoluto de r, el cambio de signo sólo cambia la inclinación de los puntos, como si la gráfica se reflejara en un espejo. Puede tenerse una idea del significado del coeficiente de correlación observando las dispersiones de la figura 9.1.A, donde r = 0.71 (correlación positiva) y 9.1.B, donde r = − 0.92 (correlación negativa o inversa). Puede apreciarse que los puntos se hallan más estrechamente alineados en la segunda gráfica, lo que se debe al valor más alto de r, mientras que el signo de la correlación expresa la dirección general de los puntos, “ascendiendo” o “descendiendo” hacia la derecha del gráfico. Dejando momentáneamente el tema de la correlación y considerando un caso donde los puntos muestrales se hallen dispersos a lo largo de un trayecto indicando una cierta dirección general, puede determinarse una recta que juega un rol análogo al de la media muestral, al representar y resumir la posición de los puntos muestrales. Una recta tal tiene la siguiente propiedad: si se miden verticalmente las distancias de cada punto a la recta y se las eleva al cuadrado, la suma de todos los cuadrados es la mínima que se puede lograr para ese conjunto de puntos. Esto quiere decir que entre todas las rectas que se pueden hacer pasar por los puntos, hay una que hace de la suma de los cuadrados lo que matemáticamente se conoce como un mínimo. Cualquier cambio subsiguiente en la altura o en la inclinación de la recta, por pequeño que sea, tendería a “desmejorar” el ajuste, aumentando la suma de las distancias al cuadrado.* La recta que corresponde a la sumatoria mínima se llama recta de regresión y está dada por una ecuación lineal, ecuación de regresión, cuya forma general es y = a + bx. La ecuación de esta recta de regresión se obtiene a partir de los datos muestrales mediante procedimientos de cálculo sobre cuya rutina se dará luego una breve reseña ilustrativa. Sin embargo, el cálculo de esas ecuaciones figura en el menú de los programas de estadística, de modo que lo que debe procurarse comprender son los conceptos básicos que justifican la utilidad de la correlación y la regresión en el campo de la investigación médica, ya que el cálculo numérico se obtiene fácilmente con solo introducir los pares de datos muestrales en dichos programas. La función lineal Si en la ecuación y = a + bx las letras a y b se reemplazan por números fijos o constantes y entonces se procede a dar valores arbitrarios a la x, para cada x la y toma un valor obligatorio. Se dice entonces que y es función de x, que x es la variable independiente (toma los valores que se elijan), y que y es la variable dependiente (sus valores están determinados por los de x). Las ecuaciones con la forma y = a + bx corresponden siempre a líneas rectas, y esta es la forma de las ecuaciones de regresión lineal. Las letras a y b son constantes en cada ecuación y se denominan parámetros. La letra * Aquí ocurre algo similar a lo ya visto respecto del cálculo de la varianza muestral (§2.5.2): si las distancias de los puntos a la recta se toman con su signo según éstos se hallen por encima o por debajo de la recta, la suma se cancela y no se obtienen operadores útiles. En tanto, las distancias elevadas al cuadrado son siempre positivas y los estadísticos resultantes demuestran tener numerosas aplicaciones teóricas y prácticas.
[ 268 ]
a corresponde al valor que toma y cuando x = 0, o sea al punto en que la recta cruza el eje vertical o eje de las y. Por este motivo representa el valor de la ordenada ( y ) en el origen de las x (x = 0) y se denomina ordenada al origen. En tanto, b multiplica a la variable independiente x, y el producto contribuye al valor de y. Por lo tanto, si x se incrementa en una unidad, el incremento de y será igual a b (al hacer x = x + 1 el producto bx pasa a valer b (x + 1) = bx + b, con lo que bx aumenta b unidades). Dicho de otra forma, b expresa el crecimiento de la función y = a + bx cada vez que x aumenta en una unidad. Cuanto más grande sea el valor de b, más rápidamente crecerá la función y mayor será la inclinación de la recta que la representa. En la figura 9.2 se observa cómo a un incremento Δx de la variable independiente corresponde un incremento Δy de la función. El cociente Δy / Δx es la tangente trigonométrica de la recta que representa y = a + bx, y se observa que si Δx = 1, de acuerdo a lo visto arriba, Δy debe ser igual a b. Por este motivo b se denomina pendiente de la función y corresponde a la inclinación de la recta que la representa. Qué ocurre cuando b tiene signo negativo? Como se comprende, a cada incremento de x le corresponderá un producto −bx con signo negativo, con lo que el valor de la función y disminuye y la recta que la representa se inclina hacia la derecha y abajo. En este caso las variables x e y se hallan correlacionadas negativamente y la recta correspondiente presenta pendiente negativa, igual a −b. Bastan las constantes a y b para determinar una recta única, y cada recta está completamente caracterizada por esos dos parámetros. 9.2. Regresión lineal Se ha visto que a partir de los datos muestrales puede determinarse una ecuación de regresión, que corresponde a una recta de regresión con respecto a la cual, la sumatoria de las distancias de los puntos muestrales elevadas al cuadrado, es un mínimo. Cuando se estudia la regresión entre dos variables, en general siempre interesa más conocer el efecto de una de ellas sobre la otra. Por ejemplo, entre el período eyectivo del ventrículo izquierdo y la frecuencia cardíaca, en general interesará saber qué valores puede tomar el primero para diferentes frecuencias cardíacas, mientras que difícilmente se esté interesado en estimar la frecuencia cardíaca a partir de la medición del período eyectivo. La ecuación que da el período eyectivo (y) en función de la frecuencia cardíaca (x) tendrá la forma Eyectivo = a + (b × frecuencia cardíaca). Los valores de a y b se obtienen de las muestras. Esto significa que en cualquier caso, para obtener una ecuación de regresión se precisa un grupo de observaciones en las que basar los cálculos. Luego, el investigador podrá aplicar los resultados al estudio de otros grupos, con alguna de las finalidades que se comentarán en más adelante. También debería tenerse presente que los valores de la variable dependiente dados por la ecuación de regresión para cada posible valor de la variable independiente, son los valores esperados o más probables, existiendo un margen de error, como se verá enseguida. Es importante tener en cuenta el rol de cada variable. Cuando x actúa como independiente e y como dependiente, ésta puede calcularse dando valores a x, hablándose entonces de regresión de y en x. Esto implica que el mínimo de las distancias que determinan los parámetros a y b de la recta, se toma en la dirección del eje vertical o de ordenadas. Es posible [ 269 ]
intercambiar ejes y calcular la regresión de x en y, siendo la ecuación de la nueva recta en general diferente a la anterior, ya que las distancias minimizadas se toman ahora a lo largo del eje horizontal. Sin embargo, corrientemente se trabaja con la regresión de y en x, a la cual se refiere esta reseña. En algunas oportunidades, x suele ser referida como variable predictora o covariable. La pendiente de la recta, b, toma el nombre de coeficiente de regresión e informa el signo y magnitud de la relación entre x e y. Ejemplo 9. Obtención de las ecuaciones de regresión Sólo con el objeto de esbozar la obtención de las ecuaciones de regresión a partir de las muestras obtenidas en la práctica, se exponen someramente los procedimientos estadísticos básicos a partir de las variables x e y cuyos valores se dan en la tabla 9.1.
Tabla 9.1 Caso
x
y
(x − x–)
(y − y–)
(x − x–)²
(y − y–)²
(x − x–) (y − y–)
1
2
3
−1
−2
1
4
2
2
4
7
1
2
1
4
2
3
3
4
0
−1
0
1
0
4
5
8
2
3
4
9
6
5
1
3
−2
−2
4
4
4
TOTAL
15
25
0
0
10
22
14
x– = ∑ x / n = 15 / 5 = 3 ∑ (x − x–)² = 10
y– = ∑ y / n = 25 / 5 = 5 ∑ (y − y–)² = 22
∑ (x − x–) × (y − y–) = 14
Las diferencias al cuadrado son ya conocidas y se utilizan en el cálculo de la varianza y el desvío estándar. Las columnas (x − x–) y (y − y–) corresponden a las mismas diferencias antes de ser elevadas al cuadrado, por lo cual tienen signo positivo o negativo, y en total suman cero. Sus productos, (x − x–) × (y − y–) para cada par de datos, figuran en la última columna con el signo correspondiente (signos iguales tienen producto positivo, signos diferentes producto negativo). La sumatoria de los productos, ∑(x − x–) × (y − y–), que está relacionada con una medida de la dependencia entre dos variables teóricas llamada covarianza, interviene en el cálculo del coeficiente de regresión b que se obtiene mediante la fórmula b = ∑(x − x–) × (y − y–) / ∑ (x − x–)²
(9.1)
Remplazando por los datos del ejemplo: b = 14 / 10 = 1.4 que expresa que la y crece a razón de 1.4 unidades por cada unidad en que lo hace x (Fig. 9.2). [ 270 ]
Figura 9.2. Recta de regresión correspondiente a la ecuación y = 0.8 + 1.4 x. El cociente de los incrementos Δy / Δx de las respectivas variables, es igual a la pendiente b de la recta. Se observa el valor de la función al origen, cuando x = 0. Las distancias de los puntos a la recta ( d ), se miden a lo largo del eje vertical.
Las medias de x e y determinan un punto que siempre se halla sobre la recta de regresión (en este caso x = 3, y = 5). Aprovechando esto, una vez obtenido el coeficiente de regresión b, solo queda calcular la ordenada al origen, a, para tener la ecuación de regresión completa. Siendo y = a + bx, pueden reemplazarse la x y la y por sus valores medios x– = 3, y– = 5 obteniéndose:
5 = a + 1.4 × 3 = a + 4.2 de donde a = 5 − 4.2 = 0.8 con lo cual la ecuación de regresión puede escribirse: y = 0.8 + 1.4 x Existen, como es de suponer, una cantidad de condiciones y requisitos teóricos para garantizar que las ecuaciones de regresión calculadas a partir de las muestras proporcionen resultados acordes con la realidad de los datos y para que los procedimientos de investigación e inferencia estadística realizados sean correctos. No corresponde extenderse sobre el tema, pero conviene saber que tanto x como y deben tener, cada una, distribuciones normales (o muy próximas a la normal). Los valores de la recta de regresión proporcionan el valor esperado o más probable de la variable dependiente y para cada valor de la variable independiente x. Sin embargo, en los [ 271 ]
gráficos de dispersión se observa que los puntos se distribuyen en el entorno de recta y en general queda una distancia entre cada punto y la misma (Fig. 9.2, d). Ahora bien, estando las variables relacionadas entre sí, se observa que en promedio, las distancias de los puntos a la recta son menores que las distancias de los puntos a la media de y. Es decir, las y están más concentradas alrededor de la recta que alrededor de su media y– . Esta reducción de la incertidumbre es una de las características fundamentales de la regresión y se dice que parte de la variabilidad de la variable dependiente y queda “explicada” por la regresión, o que la regresión “da cuenta” de cierta cantidad de variación. La variabilidad que persiste alrededor de la recta se denomina residual. En la figura 9.3 referente a la talla y el peso en 255 adultos sanos, se observa que el rango de dispersión del peso alrededor de su media, leído sobre el eje y, aún después de excluir un valor extremo de 128 kg, se extiende entre 40 a 114 kg. En tanto, la dispersión de los puntos por arriba y debajo de la recta, o sea las distancias de los puntos a la recta, son en promedio claramente menores, lo que ya es aparente a la inspección visual del diagrama. Esta característica esencial de la regresión se verá con algún detalle luego de examinar el tema de la correlación (§9.3). Figura 9.3. Regresión del peso en la talla en 255 individuos adultos de ambos sexos. La sumatoria de los cuadrados de las distancias de los puntos a la recta es un mínimo. La flecha grande representa la dispersión del peso alrededor de la media, y la flecha menor, la dispersión alrededor de la recta de regresión.
La ecuación de regresión del caso que nos ocupa es: Peso ( kg ) = −117 + 1.144 × Talla ( cm )
que expresa que por cada centímetro de estatura el peso varía en promedio 1.144 kg en la población muestreada. Nótese que el valor de la ordenada al origen es igual a −117, lo que significa que el peso esperado en el caso de una talla próxima a cero tendría valor negativo. La explicación es [ 272 ]
que la recta ha sido calculada dentro de rangos de talla y peso muy diferentes, y la variable peso sencillamente no existe para talla cero. Otro resultado de extender la operación de la recta más allá de los límites permitidos por el rango de las variables de origen, es que para un individuo de 1.10 m de estatura estima un peso de 9 kg. Evidentemente, la ecuación no es adecuada para su empleo en niños o en adultos con valores extremos en sus características corporales). Tampoco existe la posibilidad de que la frecuencia cardíaca de un individuo tome el valor cero, aunque la ecuación de regresión proporciona para el caso un período eyectivo muy prolongado. Estos resultados pueden ocurrir cuando funciones teóricas se extienden indefinidamente más allá de la existencia física de las variables y de los límites para los que han sido calculadas. Así, aceptar que las variables se comportan como lo predice la recta de regresión aún más allá de dichos límites, lo que se conoce como extrapolación de las estimaciones o de las conclusiones, es un procedimiento al menos inseguro cuando no erróneo, que en general debe evitarse. 9.2.1. Variabilidad de los coeficientes de regresión muestrales Debe tenerse en cuenta antes de proseguir, que los coeficientes a y b de la ecuación de regresión son estadísticos sujetos al azar del muestreo, que estiman los parámetros universales α y β respectivamente. Estos caracterizan la ecuación de regresión del universo de donde provienen las muestras, que se expresa y = α + β x. Surgen aquí varios temas de inferencia estadística, de los cuales sólo se examinará lo relativo a la significación del coeficiente de regresión entre dos variables x e y. Dadas dos variables, el coeficiente de regresión b entre ambas puede ser de mayor o menor magnitud, expresando la variación de y ante los cambios de x. Sin embargo, debe ser distinto de cero, pues en este caso, el término bx de la ecuación de regresión se anularía para todas las x, que así no tendrían ninguna relevancia en la determinación de las y. En este sentido, una vez calculada la ecuación de regresión, debe ponerse a prueba y poder rechazarse la hipótesis nula β = 0, que es la condición para aceptar que el coeficiente b estima un parámetro diferente de 0 y contribuye efectivamente en la determinación de y. Ejemplo 9 (continuación). Significación estadística de b frente a la hipótesis nula β = 0 Si se determina b en varias ocasiones se observarán las variaciones debidas al error del muestreo. Como se ha mencionado, para aceptar una relación entre las variables x e y, se debe poner a prueba el coeficiente de regresión b y demostrar su significación estadística frente a la hipótesis nula de que el coeficiente de regresión para la población es igual a cero (β = 0). El procedimiento consiste en construir a partir de los valores muestrales un estadístico de prueba que tiene la forma t = b / ES ( b )
(9.2)
donde ES (b) es el error estándar del coeficiente de regresión b. La distribución correspondiente es t con (n − 2) grados de libertad, siendo n el número de pares muestrales. Para llegar a t, primero debe calcularse una cantidad que es análoga a la varianza muestral ya conocida, con la diferencia que en este caso, las desviaciones que se elevan al cuadra[ 273 ]
do y suman, son las que existen entre los puntos muestrales y la recta. En el ejemplo visto antes e ilustrado en figura 9.2, cinco puntos muestrales producían la ecuación y = 0.8 + 1.4 x. Para obtener las desviaciones mencionadas, se calcula el valor Y de la recta (Y recta) para cada x de la muestra: fila 1: x = 2 Y = 0.8 + 1.4 × 2 = 3.6 fila 2: x = 4 Y = 0.8 + 1.4 × 4 = 6.4 y así sucesivamente completando las filas como se muestra en la tabla 9.2. Tabla 9.2 Caso
x
y observado
Y recta
y observado − Y recta
( y observado − Y recta )²
1
2
3
3.6
−0.6
0.36
2
4
7
6.4
+0.6
0.36
3
3
4
5.0
−1.0
1.00
4
5
8
7.8
+0.2
0.04
6
1
3
2.2
+0.8
0.64
TOTAL
15
25
25
0
2.40
Para cada punto muestral, la diferencia entre el valor de y observado (“real”) y el valor de y que da la recta para el correspondiente valor de x (“Y recta”), se eleva al cuadrado y, sumando en la última columna se obtiene la suma de cuadrados residual, que dividida por (n − 2) es un término que equivale a la varianza alrededor de la recta y se denomina cuadrado medio residual. El término residual expresa que el grado de dispersión vertical alrededor de la recta que miden estos operadores es un “residuo” de variabilidad que persiste una vez que la regresión ha reducido la variabilidad de las y alrededor de su media y–. El procedimiento es como sigue:
Suma de cuadrados residual = ∑ (y observado − Y recta)²
(9.3)
Cuadrado medio residual = S² 0 = ∑ (y observado − Y recta)² / (n − 2)
(9.4)
Dividiendo S² 0 por (x − x–)² (ya calculado en Tabla 9.1) se obtiene la varianza de b:
var (b) = S² 0 / (x − x–)²
(9.5)
cuya raíz cuadrada es el error estándar de b utilizado para la prueba de hipótesis: ES (b) = √ S² 0 / (x − x–)² y es el denominador de t en (9.2).
[ 274 ]
(9.6)
En el ejemplo se tiene: Suma de cuadrados residual = 2.40 S² 0 = 2.40 / (5 − 2) = 0.8 var (b) = 0.8 / 10 = 0.08 ES (b) = √ 0.08 = 0.2828 t = 1.4 / 0.2828 = 4.95 que, con 5 − 2 = 3 grados de libertad corresponde a P = 0.0158. Se rechaza la hipótesis nula, pues b se aparta significativamente de 0, y se asume la validez de la regresión entre x e y. Si la regresión de y en x resulta significativa como en el ejemplo, es lícito suponer una relación funcional entre ambas variables y se puede aprovechar la información que aporta la variable independiente para predecir o estimar el comportamiento de la variable dependiente. De lo que se ha visto, se deduce que al informar el resultado de un ensayo de regresión lineal es fundamental proporcionar, además de la ecuación de regresión, la significación estadística del coeficiente de regresión b, que en general se acepta si P < 0.05. 9.3 Correlación Se ha mencionado que el coeficiente de correlación, simbolizado r, mide el grado de asociación entre dos variables y se aproxima a 1 o −1 a medida que los puntos muestrales del diagrama de dispersión tienden a presentarse sobre una línea recta. Se ha mencionado también que el signo positivo corresponde al caso en que las variables crecen juntas y el negativo al caso en que una variable crece cuando la otra decrece. En el caso en que no exista ningún grado de correlación entre las variables el coeficiente de correlación toma el valor cero. Por lo tanto, el coeficiente de correlación podrá hallarse entre −1 y 1. Como no ha de extrañar, por describir la interrelación entre dos variables, el coeficiente de correlación está emparentado con el coeficiente de regresión, y para una muestra cualquiera, evaluar la significación estadística de b o r frente a la hipótesis nula, tiene los mismos resultados. Sin embargo, mientras b informa la posición y modo de relacionarse las variables, y es útil para describir los valores esperados de la variable dependiente al asignar valores a la variable independiente, el coeficiente de correlación sólo indica la magnitud de la tendencia de los puntos muestrales a disponerse sobre una línea recta. Ejemplo 9 (continuación). Cálculo de r. La fórmula que proporciona r a partir de los datos muestrales guarda gran similitud con la vista en el cálculo de b, en particular por incluir el producto de los desvíos de las x y las y: r = ∑(x − x–) × (y − y–) / √ [∑ (x − x–)² ∑ (y − y–)²]
(9.7)
En el ejemplo, los elementos para el cálculo se hallan en la tabla 9.1 y se obtiene: r = 14 / √ (10 × 22) = 0.944 [ 275 ]
La significación estadística de r se halla tabulada para distintas r y para distintos tamaños de muestra. Para una muestra de tamaño 5, el nivel de significación de r = 0.944 es P = 0.0158, idéntica a la significación de b, como ya se ha mencionado. No se abundará con el procedimiento de cálculo de P, que se obtiene en forma inmediata en los programas de estadística y ya se ha dicho que es equivalente a la P obtenida en la evaluación del coeficiente de regresión b, pero sí se mencionará que para un mismo valor de r, la significación será mayor al aumentar el tamaño de la muestra (número de pares muestrales) y para un mismo tamaño de muestra, la significación aumentará al aumentar el valor de r. Esto es, la significación estadística de r frente a la hipótesis nula de no correlación, aumenta exclusivamente con el valor de r y con el tamaño de la muestra. 9.3.1. El coeficiente de determinación r² Si se eleva al cuadrado el coeficiente de correlación, se obtiene el llamado coeficiente de determinación, r², con un rol muy importante en el análisis ya que permite relacionar la suma de cuadrados de y alrededor de su media (Tabla 9.1, columna [y − y–]² ), con la suma de cuadrados residual a la que se reduce la variabilidad de y cuando se la mide con respecto a la recta de regresión. Su significado se comprenderá mejor a través del ejemplo que se viene examinando. Ejemplo 9 (continuación). Variabilidad total y variabilidad explicada por la regresión Como se ha visto en §2.5.2, la varianza muestral es el cociente entre la suma de las desviaciones de la media elevadas al cuadrado y el número de elementos de la muestra. El numerador de esta expresión se denomina suma de cuadrados alrededor de la media, y es también una medida de la variabilidad. En la Tabla 9.1, la suma de cuadrados alrededor de la media para la variable dependiente y es el total de la columna (y − y–)², que expresa la dispersión de las y independientemente (sin tomar en cuenta) los valores de x. Por otra parte, en Tabla 9.2 se calcularon las desviaciones verticales de las y respecto de la recta (ver Figura 9.2, d). Estas desviaciones, elevadas al cuadrado y sumadas, expresan lo que queda de la variabilidad total de las y cuando sus desviaciones se toman respecto de la recta de regresión, y recibe el nombre de suma de cuadrados residual. En Tabla 9.2, es el total de la columna (y observado − Y recta)². Si ahora, a la suma de cuadrados alrededor de la media se le resta la suma de cuadrados residual, puede comprenderse que la diferencia represente los cuadrados “explicados” por la regresión, o sea, la porción de variabilidad o incertidumbre en la estimación de y que ha sido “suprimida” al tomar como referencia a la recta de regresión en lugar de la media de las y (los cuadrados “suprimidos” por la regresión se corresponden con las distancias desde la recta a la media de y, tomadas a nivel del valor x de cada observación [Y recta − y–]² ). De acuerdo a lo expresado, la relación entre las sumas de cuadrados puede escribirse: suma alrededor de la media (suma total) − suma residual = suma explicada por la regresión En el ejemplo, la suma total de cuadrados alrededor de la media de y está dada en la Tabla 9.1 y es igual a 22, la suma residual, obtenida en Tabla 9.2, es igual a 2.4, y la suma de cuadrados explicada por la regresión resulta igual a 22 − 2.4 = 19.6. La variabilidad que resta en el modelo luego de aplicada la regresión de y en x, variabilidad residual, es muy pequeña [ 276 ]
comparada con la variabilidad de y sin regresión (igual a 22), y con la variabilidad explicada por la regresión (igual a 19.6). Se demuestra que el coeficiente de determinación r² es igual a la proporción de la variabilidad total de la y, explicada por la regresión. En términos de suma de cuadrados: r² = suma explicada por la regresión / suma alrededor de la media En el ejemplo se tiene que r ² = 19.60 / 22 = 0.891 valor idéntico al que se obtiene elevando al cuadrado el coeficiente de correlación r calculado más arriba (r² = 0.944² = 0.891). Una proporción muy alta de la variabilidad total de la y está explicada en este ejemplo por la regresión, exactamente 0.891 u 89%. Queda un 11% de la variabilidad, no “explicada” por la regresión, que es la variabilidad residual alrededor de la recta. Esto puede visualizarse en la Figura 9.2, donde las distancias de los puntos a la recta son pequeñas comparadas con el rango de variación total de las y alrededor de su media. Debe tenerse presente que para evaluar el efecto de una regresión en la estimación de la variable dependiente, no es preciso realizar las sumas de cuadrados vistas más arriba, sino que basta con calcular el cuadrado del coeficiente de correlación r, que resulta igual a la proporción de la variabilidad total de y eliminada por el empleo de la ecuación de regresión. Cuanto más se aproxima r² a la unidad, mayor es la eficacia de la regresión y menor la variabilidad residual de las observaciones alrededor de la recta. Cuando r² = 1, el 100% de la variabilidad está explicada por la regresión, la residual es cero y los puntos se hallan exactamente sobre la recta. Como se acaba de ver, la proporción de la variabilidad total de una variable y explicada por su regresión en una variable x, está dada por el coeficiente de determinación r². Dicha variabilidad, por motivos teóricos, está expresada en término de sumas de cuadrados, y la suma total es precisamente el numerador de la varianza muestral de y. Para dar un ejemplo más, en la regresión del peso en la talla ilustrada en la Figura 9.3, el coeficiente de correlación es r = 0.71 y el coeficiente de determinación r² = 0.50, de donde se deduce que la variabilidad del peso, en término de suma de cuadrados, se reduce en 50% al tomar en cuenta su regresión en la talla. Una idea de esta reducción la da la inspección de la figura, donde se ve que la dispersión de los puntos hacia arriba y abajo de la recta es bastante menor que la dispersión total alrededor de la media, que va desde 41 a 128 kg. Sin contar con la regresión en la talla, si hubiera que apostar al valor más probable del peso de un individuo sorteado del conjunto, lo más ventajoso sería optar por la media de la muestra, que es igual a 72 kg, ya que en distribuciones normales el máximo de probabilidad está en el centro de la distribución. En cambio, conociendo la regresión del peso en la talla, lo más conveniente sería apostar al valor que da la recta para la estatura del individuo en cuestión. Por ejemplo, si se sabe es igual a 180 cm, la ecuación proporciona y = −117 + 1.144 × 180 = 89 kg, y este valor tiene más probabilidades de acercarse al peso real del sujeto que la media muestral de 72 kg. Esto es así porque los pesos están más concentrados alrededor de la recta (variación residual de las y) que alrededor de su media (variación total de las y). Puede argumentarse que, de llevarse [ 277 ]
a cabo el experimento, el individuo con talla de 180 cm podría por azar exhibir un peso cercano a 72 kg y perderse la apuesta. Esto puede ocurrir porque los valores que proporciona la recta son solamente los más probables, y existe una dispersión residual alrededor de la misma, no eliminada (explicada) por la regresión. Por este motivo podrían llegar a perderse algunas apuestas, pero en el largo plazo, si se repitieran un cierto número de veces, se comprobaría que en promedio, los pesos reales se acercan más a los pesos estimados a partir de la talla que a la media muestral, y esto es así porque los pesos reales están en promedio más próximos a la recta que a su media muestral. Muy generalmente, puede decirse que correlaciones que van entre r = 0.50 y r = 0.70 son consideradas buenas. Sin embargo, el valor de un coeficiente de correlación no sólo descansa en su magnitud sino también, en lo adecuado que resulta para la explicación de los fenómenos estudiados y en las necesidades del estudio (ver más adelante). Por otra parte, a una correlación como la recién vista entre la talla y el peso corporal, con r = 0.71, corresponde r² = 0.50 y la dispersión original sólo se reduce un 50%. Queda una proporción similar de variabilidad en la suma de cuadrados residual. No obstante, la significación estadística de r = 0.71 en una muestra de 255 individuos como la del ejemplo, tiene una P < 0.00001. Recuérdese que esta P es la misma que para la prueba del coeficiente de regresión b, y en cualquier caso significa que una relación tal como se dio en la muestra y se observa en la figura 9.3, se obtendría por azar en una muestra no correlacionada, en menos de 1 en 100000 veces. Como se ha mencionado, la significación estadística de un coeficiente de correlación depende en gran parte del número de casos en las muestras y así, pueden obtenerse coeficientes altamente significativos aún con valores absolutos relativamente bajos, por lo que la importancia del grado de correlación no debiera confundirse con la significación estadística del respectivo coeficiente. 9.4. Aplicaciones principales de la regresión Dentro de las aplicaciones de la regresión a los problemas de la investigación médica pueden mencionarse: Descripción de la relación entre dos variables Esta es la más general de las aplicaciones: en presencia de asociación entre dos variables cuantitativas que puedan considerarse continuas, la regresión determina el signo de la misma, su grado (dado por la magnitud de la variación explicada por la regresión), la posición y la pendiente de la correspondiente recta de regresión y aporta información sobre la distribución de las desviaciones residuales, que muchas veces resulta de utilidad. Puede decirse que la regresión caracteriza y resume la información relativa a la asociación de las variables implicadas. Ciertos índices clínicos corresponden a coeficientes de regresión; así, se podría afirmar que en poblaciones adecuadamente representadas por la muestra del ejemplo de la talla y el peso corporal, éste crece a razón de 1.14 kg por cada centímetro de incremento de la talla. El valor 1.14 es el coeficiente de regresión de la correspondiente ecuación del peso en la talla. Interpretación de la relación entre dos variables Este punto se halla relacionado con el anterior, y con la distinción entre asociación y causalidad. Las características de la asociación entre dos variables informan sobre su comportamiento en el contexto biológico del cual proceden y permiten extraer conclusiones útiles. Típicamente, [ 278 ]
un aumento de la pendiente de regresión señala una mayor tasa de cambio de la variable dependiente por cada aumento unitario de la variable independiente. Un punto de la mayor importancia relacionado con la interpretación de la asociación entre dos variables, es el relativo a las posibles vinculaciones causales entre los fenómenos descriptos por aquéllas. En este sentido, el hallazgo de regresión entre dos variables está lejos de asegurar que una sea la causa de la otra. De cualquier manera, el modelo matemático de la regresión no es una herramienta destinada a detectar causas, sino a establecer el modo de asociación entre variables de acuerdo a modelos estadísticos. En algunos casos la relación causal puede ser más o menos evidente, como la posible relación entre concentración de antibiótico y área de inhibición del crecimiento bacteriano, y la interpretación se basa en conocimientos médicos y no en indicios provenientes de los datos de la regresión. Más aún, la tendencia a relacionar causalmente dos variables no queda definitivamente convalidada por el solo hallazgo de asociación estadística, ya que ésta puede deberse a otras asociaciones interpuestas, cuya detección es un tema adicional. Por ejemplo, si bien es de esperar encontrar correlación positiva entre las cifras de urea y creatinina plasmática, no parecería lógico atribuir a una de ellas el aumento de la otra, siendo lo más plausible que ambas sustancias varíen en el mismo sentido de acuerdo a la función renal. En resumen, debe quedar claro que asociación estadística no implica causalidad, aunque por cierto no la excluye, y las relaciones de causa-efecto entre dos variables tenderán a producir asociación entre las mismas. La asociación entre dos variables es un hecho de demostración estadística, mientras que atribuir un mecanismo de causa-efecto a la asociación demostrada es un producto del juicio del investigador, basado en sus conocimientos del tema y la información previa disponible. Predicción de la variable dependiente Conociendo la regresión de una variable dependiente y en una variable independiente x, es posible predecir el valor más probable de y para cada magnitud que se asigne a x. Dicho valor es el que toma la coordenada y de la recta de regresión para la correspondiente x. Esto quiere decir que la predicción de y es para valores determinados de x, y es el caso de la predicción del peso corporal a partir de la talla comentado anteriormente. Hay que tener en cuenta que el valor predicho de y tiene un grado de incertidumbre debido a la variación residual alrededor de la recta, por lo cual, para aumentar la precisión, la residual debería ser lo más pequeña posible, lo que se consigue cuando el coeficiente de correlación r es lo suficientemente grande. Debido a esta aplicación, la variable independiente x suele ser denominada variable predictora o simplemente, predictor. Conviene tener presente que una predicción eficaz de la variable dependiente no requiere que existan nexos causales con la variable predictora, sino que la variabilidad explicada por la regresión sea lo suficientemente grande como para acotar el error residual, situación que se expresará en un coeficiente de determinación r² más o menos cercano a la unidad. Ajuste para una covariable Se trata de un procedimiento extremadamente útil para comparar una determinada variable, en dos muestras que difieren en forma importante en algún factor, variable independiente o covariable, que a su vez tiene la capacidad de alterar la variable en estudio. En la figura 9.4 se puede observar que el período eyectivo ventricular izquierdo (la variable de interés, [ 279 ]
y) depende marcadamente de la frecuencia cardíaca (variable independiente o covariable, x) y que la relación es inversa, de modo que cuando aumenta la frecuencia cardíaca disminuye el período eyectivo. También puede verse que el grupo “Ο” presenta frecuencia cardíaca promedio más alta que el grupo “∗.” Además, el período eyectivo es significativamente más corto en el grupo con frecuencia cardiaca alta (276 mseg versus 307 mseg, P < 0.0001). La diferencia en la duración del período eyectivo sin duda existe, y es significativa, pero ¿expresa algún trastorno de la función cardíaca o simplemente se debe a que el grupo con período eyectivo más corto tiene frecuencia cardíaca más alta? Tratar de igualar la frecuencia cardíaca de los pacientes en los dos grupos antes de medir el período eyectivo sería una solución perfecta, pero como en la mayoría de los casos, difícil o imposible en la práctica. En tanto, la estadística proporciona un método ingenioso y efectivo para “cancelar” el efecto de la diferente frecuencia cardíaca sobre las mediciones del período eyectivo. Muy sumariamente, el método consiste “correr” los puntos a lo largo de la recta de regresión, moviendo el grupo con frecuencia cardíaca alta hacia la izquierda y el grupo con frecuencia cardíaca baja hacia la derecha, hasta “superponer” las frecuencias cardíacas. Entonces se observan los puntos en su nueva posición y la pregunta es: ¿todavía están los períodos eyectivos del grupo “alta frecuencia” por debajo de los del otro grupo? Si la diferencia ha desaparecido y el período eyectivo resulta similar en ambos grupos, será evidente que la diferencia que existía antes de la maniobra se debía a las distintas frecuencias cardíacas y se informará: “la diferencia entre los períodos eyectivos … desaparece luego del ajuste (o la corrección) para la frecuencia cardíaca.” En cambio, si después de haber hecho “coincidir” las frecuencias cardíacas de los dos grupos el período eyectivo sigue siendo menor en el grupo con frecuencia cardíaca originariamente más alta, resulta evidente que la mayor frecuencia cardíaca no alcanza para “explicar” la menor duración del período eyectivo en este grupo y hay que admitir que puede haber otros motivos para que esto ocurra, quizá un deterioro de la función ventricular. El informe debe decir que “la diferencia entre los períodos eyectivos … persiste luego del ajuste (o la corrección) para la frecuencia cardíaca.” Figura 9.4. Ajuste de la duración del período eyectivo ventricular izquierdo para la frecuencia cardíaca en dos grupos cuyos integrantes se denotan con ∗ y Ο. Se observan las medias de la frecuencia cardíaca y del período eyectivo para cada grupo.
[ 280 ]
Si bien el deslizamiento de los puntos a lo largo de la recta puede imaginarse sin mucha dificultad y la inspección visual del gráfico es muy útil, el análisis se realiza por medio de técnicas matemáticas. Nuevamente conviene recordar que el procedimiento está disponible en la mayoría de los paquetes estadísticos bajo los títulos “comparación de las rectas” o “análisis de la covarianza.” Se mencionarán algunos detalles de la prueba. Primero conviene obtener una recta de regresión para cada grupo y comprobar que las pendientes no sean muy diferentes: en caso contrario, la relación funcional entre eyectivo y frecuencia cardíaca será distinta para cada grupo y el “ajuste” para la frecuencia cardíaca no será seguro. Si en cambio las pendientes son similares, se reúnen ambas regresiones en una sola y se evalúa si los puntos de un grupo están más altos o bajos que los del otro, con respecto de la recta de regresión común. La eventual diferencia en la altura de las y para cada grupo, dará la pauta de diferencias entre grupos “corregidas o ajustadas” para la frecuencia cardíaca. Esto es lo que se ha hecho en la Figura 9.4: se ha trazado la recta común para ambos grupos y resulta claro que los respectivos puntos no difieren en su altura con respecto a la recta, y se superpondrían si se los deslizara a lo largo de la misma. En la comparación de diversas variables, el ajuste para factores que pueden afectarlas y dificultar la interpretación de los resultados es uno de los recursos más útiles del análisis estadístico. 9.5. Regresión lineal y curvilinear. Transformaciones Si bien es frecuente que las relaciones entre dos variables correspondan a puntos que tienen tendencia a distribuirse a lo largo de una línea recta, en otras oportunidades la observación del gráfico de dispersión sugiere que los puntos se hallan mejor representados por líneas curvas. En estos casos la relación entre las variables dependiente e independiente no es lineal, y la expresión general y = a + bx ya no la describe en forma apropiada. En estos casos es frecuente que una o ambas variables puedan ser re-expresadas mediante un cambio de escala, de modo que la nueva relación entre ellas sea lineal. Estos cambios de escala se conocen como transformaciones y han sido comentados en §4.8. Típicamente consisten en expresar las variables como su logaritmo, su inversa o bien una potencia (que para un exponente = 1/2 es la raíz cuadrada de la base). Cuando esto es efectivo, las variables transformadas exhiben entre sí una relación lineal y pueden ser analizadas por los métodos corrientes que se han visto hasta aquí y que se incluyen en los paquetes estadísticos. Frecuentemente ocurre que la desviación de la linearidad exhibida por los datos es poco marcada y, en estos casos, la regresión lineal con la variable original puede resultar preferible por su simplicidad y porque en general, la interpretación de los datos en sus unidades de medida habituales resulta más sencilla y directa. No obstante, si el ajuste lineal de los datos transformados resulta en un incremento significativo del coeficiente de determinación r², será en general aconsejable trabajar con los mismos. Por lo demás, en los casos en que las variables x e y se hallan relacionadas en forma no lineal, puede ser importancia en la investigación el tratar de determinar el significado biológico de la relación curvilinear entre aquéllas. Acerca de las transformaciones en regresión lineal puede consultarse Ingelfinger, 1994.
[ 281 ]
10. Análisis de la varianza
10.1. Introducción El análisis de la varianza comprende un conjunto de técnicas entre cuyas principales aplicaciones está la comparación de medias muestrales en los casos en que los datos se hallan clasificados en más de dos formas o grupos. En este sentido, las técnicas conocidas como de análisis de la varianza constituyen extensiones de los procedimientos para la comparación de pares de muestras vistos en secciones anteriores. Aquí se expondrán los conceptos básicos en los que dichas técnicas se fundamentan. Así como existen muchas formas de obtener y disponer los datos de los diversos tipos de estudio, hay también un gran número de modelos para su análisis. Sin embargo, debe tenerse en cuenta que los lineamientos generales para la comparación de medias, contraste de hipótesis, interpretación de los estadísticos de prueba y de los niveles de significación obtenidos, son los ya vistos en las Secciones 6 y siguientes. En el análisis de la varianza, lo que aumenta es el número de hipótesis y pruebas que se evalúan simultáneamente en un mismo conjunto de datos y por lo tanto, la complejidad de los procedimientos y de los cálculos numéricos, que en general requieren de programas para su computación. Como se verá, estas técnicas analizan la variabilidad de los datos separándola según sus fuentes de origen, que son la variabilidad de los individuos dentro de cada grupo, y la variabilidad entre los distintos grupos en los que se clasifican los datos. La variabilidad entre los grupos se expresa por la variabilidad entre sus medias, y si ésta es mayor que la observada entre los individuos que los integran, se puede concluir que deben existir diferencias entre las medias de los grupos estudiados. La variabilidad se evalúa mediante varianzas obtenidas de las muestras, y de ahí el nombre de este conjunto de procedimientos, que a pesar del mismo están dedicados a la comparación de medias. Por lo demás, el análisis de la varianza, al permitir la comparación de cada una de tres o más medias muestrales con todas las demás, da origen a comparaciones múltiples, que aumentan las posibilidades de análisis y a la vez implican limitaciones que deben tenerse en cuenta al interpretar los resultados. Este tema se comentará con algún detalle en §10.3. 10.2. Análisis de un factor. Técnica para la comparación de varios grupos En lo que sigue se describirán los elementos básicos hallados en el modelo conocido como de “un factor,” donde se analiza una determinada variable o factor, como puede ser la glucemia o el peso corporal, en muestras o grupos provenientes de una población con media [ 282 ]
μ y varianza σ² (en principio no conocidas), siendo k el número de muestras o grupos. Estos pueden diferir, entre otras cosas, en el valor de sus medias, y son esas diferencias las que suelen ser de interés para el investigador, ya que pueden reflejar características distintivas del material en estudio, incluyendo el efecto de intervenciones experimentales o terapéuticas. El término factor expresa que la variable analizada se halla controlada por el experimentador. Así, la glucemia puede ser obtenida en ayunas y en varios tiempos determinados luego de una ingesta, o en grupos de diabéticos con distintos hipoglucemiantes, el peso corporal puede ser controlado en grupos de individuos con distintos regímenes terapéuticos y, en general, puede decirse que el factor o variable presenta diferentes niveles. Cada nivel de un factor, como puede ser la glucemia con un determinado hipoglucemiante o el peso con un determinado régimen terapéutico, se denomina genéricamente tratamiento, que no necesariamente debe ser un tratamiento médico sino que es el nivel o clase en que se ha tomado la variable en un grupo en particular. En consecuencia, el término tratamiento tiene aquí una acepción más amplia que la corrientemente utilizada en medicina. Dado que el modelo considera una sola fuente de variabilidad (la variable o factor en estudio), este tipo de análisis de la varianza se conoce también como de “una ruta” (one-way analysis). Como se ha dicho, el objetivo principal del análisis de un factor suele ser detectar diferencias significativas entre las medias muestrales x–1, x–2 , x–3 , … x– k, de varios grupos, correspondientes a distintos tratamientos o niveles del factor. Este método puede verse como una generalización del test t de Student para muestras no apareadas (§7.2). Aunque este es el modelo más sencillo dentro del grupo de técnicas para el análisis de la varianza, las operaciones numéricas son más extensas que las reseñadas hasta ahora para comparaciones de pares de muestras y no se entrará en mayores detalles de cálculo, ya que los programas estadísticos llevan a cabo el análisis a partir de menús de manejo sencillo y, por otra parte, se trata de procedimientos de inferencia estadística cuyos aspectos principales han sido ya examinados en secciones anteriores. A continuación se dan los conceptos básicos en los que se fundamenta el análisis de la varianza para la comparación de medias muestrales de una variable distribuida en varios grupos con distintos tratamientos. Considérese una variable continua x, como puede ser el peso corporal o cualquier otra, medida en k grupos de tamaño ni donde cada grupo tiene su media muestral x– i. Como en la comparación de pares, interesa la comparación de las medias entre sí, para determinar si existen diferencias significativas entre ellas. Puede verse que con tres medias las comparaciones posibles son x–1 versus x–2 , x–1 versus x–3 y x–2 versus x–3. Con cuatro grupos las posibles comparaciones ya son seis y siguen aumentando con el número de éstos. Para realizar el análisis, los grupos pueden disponerse en columnas de datos como se observa en la tabla del Ejemplo 10. Dichos datos pueden considerarse sujetos a la variabilidad común a todos los individuos que forman los grupos en estudio, y a la variabilidad debida a posibles diferencias entre las medias de los grupos. Es decir, el modelo de análisis acepta que los grupos proceden de un universo con varianza σ² común a todos ellos, y que por lo tanto, sus varianzas muestrales s² serán estimadores adecuados (técnicamente, insesgados) de dicha varianza universal. Ahora bien, si los distintos grupos difieren en sus medias, esas diferencias añadirán una fuente extra de variabilidad a los datos. Esta nueva fuente de variabilidad puede separarse por métodos de cálculo, de la variabilidad común a todos los grupos, y si es de suficiente magnitud obligará a descartar la igualdad de las me[ 283 ]
dias grupales y a aceptar la existencia de diferencias significativas entre ellas, que podrán adjudicarse a diferencias entre los grupos en relación a sus distintos niveles o tratamientos. De esta manera, la variabilidad total de los datos puede descomponerse en la variabilidad dentro de los grupos y la variabilidad entre los grupos. Esta última se calcula a partir de las medias muestrales x– i , mientras que la variabilidad dentro de los grupos se estima como el agregado de la variabilidad en cada uno de éstos. La variabilidad dentro de cada grupo se calcula con respecto a la media del mismo, con lo que la eventual variación entre las medias no tiene influencia en esta estimación. En el caso de existir diferencias entre las medias de los grupos, sus medias muestrales x– i presentarán un grado mayor variabilidad que el esperado por efectos del azar, y la variabilidad entre los grupos agrandará la variabilidad total s² de los grupos considerados en su conjunto, sin afectar la variabilidad dentro de los grupos (o sea, sin afectar la variabilidad dentro de cada uno de los grupos). Así, la razón entre la variabilidad entre los grupos y dentro de los grupos se agrandará, dando idea de las diferencias existentes entre las medias. La variabilidad total del conjunto de datos se calcula a partir de las desviaciones de cada elemento de cada grupo, de la media común para todos los grupos, y es en realidad la varianza muestral de todos los grupos reunidos en uno solo. Se puede luego calcular la variabilidad entre los grupos (entre las medias de los grupos) y restándola de la variabilidad total, obtener la variabilidad dentro de los grupos. Como ya se ha dicho, si la variabilidad entre los grupos, en comparación con la variabilidad dentro de los grupos, excede determinados valores, se está en condiciones de afirmar que existen diferencias significativas entre las medias de los distintos grupos en estudio, no explicables por las fluctuaciones del azar. La comprobación de tales diferencias es el objeto principal de este modelo de análisis de la varianza. En todas estas técnicas, la variabilidad se mide como sumas de cuadrados (esto es, desviaciones de la media elevadas al cuadrado, como las que forman el numerador de las varianzas, §2.5.2). Se cumple que: Suma de cuadrados total = suma de cuadrados entre los grupos + suma de cuadrados dentro de los grupos. Cada suma tiene asociada cierta cantidad de grados de libertad en relación al número y forma de agrupación de los datos y, dividiendo las sumas por sus respectivos grados de libertad se obtienen los llamados cuadrados medios, que en realidad son varianzas (el cuadrado medio total es la varianza muestral de todos los casos, tal como se calcula en §2.5.2). En un modelo con k grupos de n elementos cada uno, donde n × k = N es el número total de datos, los grados de libertad dentro de los grupos se calculan como N − k, y los grados de libertad entre grupos, como k − 1. Aquí aparece el punto más importante de toda la técnica: debido al diseño del análisis, si no hay fuentes de variabilidad extra entre los grupos (diferencias entre las medias), el cuadrado medio entre grupos (s² entre) y el cuadrado medio dentro de los grupos (s² dentro) estimarán una misma varianza de población σ² y no serán muy diferentes entre sí. Pero si hay fuentes de variabilidad que afecten a los grupos y sus medias, el cuadrado medio entre grupos aumentará con respecto al cuadrado medio dentro de los grupos, que se mantendrá sin cambios como un estimador de σ², con lo cual la razón (s² entre) / (s² dentro) se incrementará en mayor o menor grado. El cociente de varianzas [ 284 ]
(s² entre) / (s² dentro) = F
(10.1)
sigue la llamada distribución F, que se halla tabulada según los grados de libertad del numerador y del denominador, proporcionando la probabilidad P de que un valor F sea excedido por error de muestreo en el caso en que las varianzas entre y dentro de los grupos estimen la misma magnitud σ². La hipótesis nula es que las distintas medias muestrales x– i no difieren significativamente entre sí y que las diferencias observadas entre medias se deben al azar del muestreo. El cociente se forma siempre con el mayor s² en el numerador, de modo que F nunca es menor que 1. El caso que interesa es aquel en que el mayor cuadrado medio es s² entre, señalando una posible diferencia significativa entre las medias. Los grados de libertad de los cuadrados medios se calculan como se expuso más arriba, y mediante los mismos se busca en las tablas de F la probabilidad asociada con el valor muestral hallado en el análisis. Lo visto hasta aquí se ilustrará con un ejemplo para aclarar ciertos aspectos de interés del procedimiento, dejando a un programa de estadística la tarea realizar los cálculos numéricos.
A fin de simplificar los conceptos en todo lo posible, se da una tabla con el peso en kilogramos de tres grupos de adultos del sexo masculino con diferentes condiciones clínicas. Los grupos se rotulan A, B y C. Cada grupo consta de 10 individuos. Sus medias figuran en la última fila. Grupo
Medias
Grupo B
Grupo C
Grupo D
86
89
101
92
84
66
100
101
64
93
95
87
87
100
73
111
94
66
104
97
72
96
65
70
84
75
53
102
99
77
95.5
89.9
72.9
El total de casos es N = 30 y el número de grupos k = 3. El resultado del análisis numérico es el siguiente: Fuente
Grados de libertad
Suma de Cuadrados
Cuadrado Medio (s²)
F
P
k−1=2
2784.8
1392.4
10.39
0.0004
Dentro
N − k = 27
3616.9
134.0
Total
N − 1 = 29
6401.7
Entre
Los grados de libertad entre y dentro de los grupos son iguales a 3 − 1 = 2 y 30 − 3 = 27 respectivamente. En la tercera columna puede comprobarse que las sumas de cuadrados entre [ 285 ]
y dentro de los grupos suman el total de cuadrados. Dividiendo las sumas de cuadrados por sus respectivos grados de libertad, se obtienen los cuadrados medios, que son las varianzas entre y dentro de los grupos. El cociente entre los cuadrados medios entre y dentro de los grupos, 1392.4 / 134 es igual a 10.39, que es el valor muestral del estadístico F. Este es el estadístico de prueba de la hipótesis nula de igualdad de medias grupales. Según tabla, para 2 y 27 grados de libertad, la probabilidad asociada con F igual o mayor que 10.39 es P = 0.0004. El cuadrado medio entre los tres grupos es significativamente mayor que el cuadrado medio dentro de los grupos, con lo que se descarta la hipótesis nula de varianzas iguales, y dado que el cuadrado medio entre grupos representa la variabilidad entre las medias muestrales, se debe descartar la hipótesis nula de medias muestrales iguales. Se acepta automáticamente la hipótesis alternativa de diferencias entre las muestras, en particular entre sus medias. Surge entonces el problema de averiguar entre qué muestras, A, B, y C, se encuentran las diferencias significativas entre las medias. Como se comprenderá, las diferencias significativas podrían darse entre cada una de las medias o bien sólo entre algunas de ellas. Las tres posibles comparaciones son A y B, A y C, B y C. En estos casos se habla de comparaciones múltiples, y la diferencia hallada más arriba puede radicar en mayor o menor grado en los diferentes pares de muestras pasibles de ser comparados. Existen varios procedimientos adecuados, que pueden obtenerse en forma inmediata de los programas de análisis estadístico y detectan los pares de medias entre los que las diferencias pueden ser consideradas significativas, proporcionando asimismo su nivel P de significación. Pero antes de enumerar los más empleados se comentará el tema más general de las comparaciones repetidas o múltiples en estadística. 10.3. Comparaciones múltiples Las comparaciones múltiples aparecen frecuentemente en el trabajo con muestras, y es necesario estar al tanto de ciertas características que les imprimen a las pruebas de hipótesis. El hecho fundamental en las comparaciones múltiples radica en que aún en el caso en que dichas comparaciones fueran realizadas entre grupos donde no existen diferencias significativas, por ejemplo comprobando pares de medias de entre varios grupos provenientes de un mismo universo, siempre existe la probabilidad de hallar diferencias significativas entre algunos de esos pares, simplemente por azar (§6.6). Cuando se adopta un nivel de significación P = 0.05, las comparaciones múltiples producirán conclusiones erróneas en alrededor de uno de cada veinte ensayos realizados. La probabilidad de resultados erróneos se relaciona con el nivel de significación adoptado al realizar las comparaciones o lo que es lo mismo, con la magnitud del error de tipo alfa esperado, y en general no habría precauciones especiales que tomar si las comparaciones se limitaran estrictamente a aquellas para las cuales fue diseñado el experimento y donde es razonable esperar resultados. Sin embargo, en la búsqueda de conclusiones interesantes o potencialmente útiles, es frecuente realizar todas las comparaciones posibles entre grupos de muestras esperando obtener diferencias significativas que, en todo caso, se procuran explicar una vez encontradas. Estos procedimientos de rastrillaje o dragado (dredging), muy empleados en la producción de resultados, tienen el serio inconveniente mencionado más arriba de la obtención de una cierta cantidad de resultados significativos producidos por azar. [ 286 ]
Si bien restringir las comparaciones a los grupos de interés ayuda a minimizar el problema, la solución no es completa y cabe imaginar circunstancias en las cuales aparezcan diferencias significativas inesperadas pero de gran importancia para el tema en estudio. Una manera de hacer menos probable la aparición de diferencias significativas debidas al azar, es adoptar niveles de significación más altos al llevar a cabo comparaciones múltiples. Por otra parte, se han desarrollado varios métodos para realizar este tipo de comparaciones en grupos de muestras, que tienen la propiedad de ser más conservadores que la comparación de los múltiples pares de medias posibles mediante la reiteración de pruebas de significación estadística independientes. Sin embargo, si la comparación entre pares de grupos se realiza eligiendo los pares según su importancia en el diseño del experimento y con una hipótesis previa, esto es, evitando el rastrillaje sistemático, la diferencia entre un par de medias puede evaluarse mediante su error estándar y la distribución t, como se verá en el siguiente ejemplo. Ejemplo 10 (continuación) Si se eligen dos medias de entre un grupo de muestras donde se ha determinado el cuadrado medio o varianza entre y dentro de los grupos, tal como se ha mostrado en la primera parte del ejemplo, se puede poner a prueba la hipótesis nula de medias iguales mediante el estadístico t, que se calcula como el cociente entre la diferencia de las medias y su error estándar, tal como se hizo en §7.2. El error estándar de la diferencia se obtiene a partir del cuadrado medio dentro de los grupos, s² dentro, que toma el lugar de s² en la ecuación (7.2). Con esto, y si el número de elementos n es igual para todas las muestras, (7.3) se convierte en: ES diferencia = √ s² dentro × (2 / n)
(10.2)
con lo que la comparación entre las medias x A y x B se hace mediante el estadístico t: t = (x–A − x– B ) / ES diferencia
(10.3)
con N − k grados de libertad. En el Ejemplo, para comparar las medias de los grupos A y B y siendo el cuadrado medio dentro de los grupos igual a 134, se tiene: ES diferencia = √ 134 ( 2 / 10) = 5.18 t = ( 95.5 − 89.9 ) / 5.18 = 1.10 Los grados de libertad son N − k = 27. Como se entiende, una desviación de tan solo 1.1 unidades estándar está lejos de apartarse en forma significativa de la hipótesis nula, y esto puede confirmarse en las tablas de la distribución t, donde se comprueba que P es igual a 0.28. Las comparaciones restantes dan: [ 287 ]
A versus C : B versus C:
t = ( 95.5 − 72.9 ) / 5.18 = 22.6 / 5.18 = 4.36 P = 0.0002 t = ( 89.9 − 72.9 ) / 5.18 = 17 / 5.18 = 3.28 P = 0.003
y son ambas altamente significativas. Por lo tanto, de los tres pares de medias posibles, hay dos que difieren en forma significativa y uno que no lo hace. Debe notarse que el ES diferencia es el mismo para todas las comparaciones, ya que se trata de un estadístico calculado a partir de todos los grupos. La posibilidad de utilizar una única estimación del ES diferencia para todo el conjunto de grupos, permite calcular la diferencia mínima que deberá haber entre dos medias cualesquiera para ser significativa. En el ejemplo, para un nivel de significación P = 0.05, el valor de t para 27 grados de libertad (dentro de los grupos, ver antes) es según tablas igual a 2.052 y por lo tanto, para que una diferencia se considere significativa en ese nivel, tendrá que ser igual o mayor a 2.052 veces el ES diferencia, o sea mayor que 2.052 × 5.18 = 10.63. Esta es la llamada diferencia significativa mínima (LSD o least significant difference) y cualquier diferencia igual o mayor será significativa para el nivel de confianza adoptado (en este caso 0.05). Puede verse por inspección visual que esa diferencia es superada por la de los grupos A versus C y B versus C, mientras que la diferencia entre A y B es menor y por lo tanto no significativa. Un procedimiento para chequear la significación de un conjunto grande de diferencias consiste en disponerlas en forma creciente o decreciente y comenzar la evaluación por los valores extremos. Si la diferencia resulta significativa se procede hacia los valores interiores, y una vez que una diferencia resulta no significativa, los restantes pares comprendidos ya no necesitan ser chequeados. Sin embargo, al aumentar los grupos aumentan los pares de datos que se pueden formar, y para k grupos hay un total de pares igual a ½ k (k−1). Al comparar los pares por el método del error estándar de la diferencia como se hizo en el ejemplo, y al aumentar la cantidad de comparaciones, aparece el problema de las comparaciones múltiples y debe evitarse el riesgo de obtener un exceso de comparaciones significativas a expensas de pares que difieren por azar. Con el objeto de obtener pruebas de significación que reduzcan dicho riesgo, se han diseñado, como se ha mencionado más arriba, una variedad de métodos que tienen la característica de ser más conservadores, de modo que al evaluar un conjunto de grupos con la misma media universal μ, cuyas medias muestrales difieren sólo por error de muestreo, la probabilidad de obtener un resultado significativo no excederá el nivel de significación que el test invoca. Los principales son los de Bonferroni, Newman-Keuls, Scheffé y Tukey. Con el método de Bonferroni, el nivel de significación que se desea evaluar se divide por el número de comparaciones a realizar. Si por ejemplo se realizan 3 comparaciones, como en el ejemplo visto antes, aceptándose un nivel de significación P = 0.05, para que cualquiera de las comparaciones pueda ser declarada significativa en ese nivel, deberá alcanzar una P = 0.05 / 3 = 0.016. En el ejemplo anterior las dos diferencias detectadas como significativas lo siguen siendo de acuerdo al método de Bonferroni, pues en ambas es P < 0.016. Sin embargo, este método, aunque fácil de realizar, tiene el inconveniente de tornarse excesivamente conservador al aumentar el número de comparaciones y disminuir mucho el valor de P requerido para poder afirmar que una diferencia es significativa. Es posible que en general deban preferirse los otros métodos arriba mencionados. Todos ellos están disponibles en los menús de los programas de estadística. [ 288 ]
10.4. Otros modelos de análisis con más de una clasificación de los datos Existen modelos o diseños más complejos de análisis de la varianza, que consideran dos o más fuentes de variabilidad. En el caso de dos formas de clasificación de los datos se suele hablar de análisis en “dos-rutas” (two-way). En los diseños con dos clasificaciones de los datos, la primera puede ser el factor de interés, como por ejemplo distintos procedimientos diagnósticos o terapéuticos, y la segunda los individuos a los que se administran los tratamientos. Esto puede tabularse destinando una columna a cada tratamiento y las filas a los individuos en los que se evalúan los resultados. Los datos se disponen en la misma forma que en la tabla del ejemplo 10.1, pero en este tipo de diseño cada fila corresponde a un individuo (o una fuente de datos en general) que proporciona una respuesta a cada uno de los tratamientos de las columnas. En el modelo mencionado, los individuos constituyen la segunda fuente de variación de los datos. Cada fila constituye una unidad o bloque experimental, y el diseño que administra un conjunto de tratamientos a cada bloque, en forma aleatorizada, se denomina diseño de bloques aleatorizados (randomized blocks). En general, y en especial cuando se comparan tratamientos u otras intervenciones sobre conjuntos de individuos u otras unidades experimentales, como pueden ser muestras de sangre u otros especímenes biológicos, la variabilidad inherente a las distintas unidades (individuos) que forman las muestras suele tener poco interés para el investigador, aunque puede dificultar la detección de diferencias significativas entre tratamientos. Al respecto, en forma análoga a lo ya visto para el análisis de un factor, existe el recurso de de dividir la variabilidad total de los datos en cuadrados medios debidos a la variabilidad entre filas (individuos), entre columnas (tratamientos) y residual. De esta manera se pueden obtener los siguientes cocientes entre cuadrados medios: Filas (individuos o bloques) / residual = F filas Columnas ( tratamientos ) / residual = F columnas cuya significación se obtiene en tablas de la distribución F. Los grados de libertad asociados a las filas se calculan como (número de filas − 1), los asociados a las columnas, como (número de columnas − 1), y los asociados al cuadrado medio residual, como (filas − 1) × (columnas − 1). Con el diseño que toma en cuenta los individuos o bloques experimentales, se hace posible aislar y separar la variabilidad debida a los individuos (filas), de la variabilidad residual (que equivale a la variabilidad dentro de los grupos del modelo visto en §10.2 y se utiliza como estimación de la varianza de población σ² en las pruebas de hipótesis). Al reducirse la variabilidad residual, se hace más probable la detección de diferencias significativas entre tratamientos, que son las que suelen importar al investigador. Si bien se mencionó que la variabilidad entre bloques no suele ser de especial interés en sí misma, esto no es necesariamente así en todos los casos. El hecho de existir diferencias significativas entre bloques puede señalar la importancia de factores individuales no bien conocidos, en la respuesta al tratamiento principal representado por las columnas. Al excluir de la comparación entre tratamientos la variabilidad debida a las filas (individuos), el método de bloques randomizados representa una generalización del test t de Stu[ 289 ]
dent para muestras apareadas. De este modo, es el procedimiento a elegir cuando se tienen tres o más muestras originadas en un mismo grupo de individuos, típicamente, resultados a lo largo de varios tratamientos o en varios momentos de la evolución de una determinada enfermedad. La variabilidad debida a las distintas modalidades de comportamiento de los diferentes individuos queda excluida de la varianza residual contra la cual se realizan las comparaciones de las varianzas entre grupos. Cuando en el modelo de dos factores ambos corresponden a tratamientos o condiciones experimentales bajo el control del experimentador, el correspondiente diseño recibe el nombre de factorial de r filas por c columnas o factorial r × c. En estos casos existen dos tratamientos, uno con r y otro con c dosajes o modos de administración. Se dice que un tratamiento presenta r niveles y el otro c niveles. La disposición de los datos es la misma que en la tabla del Ejemplo, con c columnas correspondientes al tratamiento con c niveles, y r filas correspondientes a los r niveles del otro tratamiento. La diferencia fundamental con el modelo de bloques randomizados está en que ahora el segundo factor es otro tratamiento controlado por el investigador. Los diferentes métodos de análisis de la varianza se hacen más complejos a medida que los modelos experimentales se van haciendo más complicados, y el objetivo de este incremento en la complejidad es aumentar la eficacia de los análisis y la capacidad de aislar y cuantificar fuentes de variación de los datos que agreguen información relevante acerca de las poblaciones muestreadas. Se obtiene así una variedad de diseños o modelos experimentales, en cuyo examen no se entrará en esta oportunidad y pueden consultarse en Armitage y Berry, 1994. 10.4.1 Interacción Un hecho conocido en el campo de la biología es que en ocasiones, la aplicación simultánea de dos tratamientos o intervenciones sobre un mismo objeto de estudio, produce un efecto mayor que el que se podría esperar de la simple suma de los efectos de cada tratamiento aplicado en forma individual. Esto se expresa a veces como potenciación de los efectos y puede verse algunas veces entre dos antibióticos o entre dos fármacos empleados con un mismo objeto. En otras oportunidades, el efecto resulta menor que el esperado de la suma de los efectos individuales de cada tratamiento, y en estos casos se habla de atenuación o cancelación de los mismos. El fenómeno puede llegar a detectarse mediante el análisis estadístico de los datos, recibiendo el nombre de interacción. Para obtener una noción de sus aspectos estadísticos, considérese un diseño factorial de dos tratamientos, con los resultados dispuestos en una tabla con c columnas correspondientes a los c niveles de un tratamiento A, y r filas correspondientes a los r niveles de un tratamiento B. Supóngase que hay una observación para cada posible combinación de los niveles de A y B, o sea para cada celda de la tabla. Si en estas circunstancias alguna de las observaciones en las celdas presentara un valor llamativamente diferente del resto (mucho mayor o mucho menor), el investigador estaría autorizado a sospechar la presencia de interacción entre los correspondiente niveles de los dos tratamientos. Sin embargo, con una observación por celda, la interacción queda confundida y sumada con la variabilidad entre filas y entre columnas, y no existe forma de ponerla en evidencia. En estos casos, obteniendo varias observaciones [ 290 ]
o réplicas por celda, puede llegar a separarse la variabilidad entre las medias de las distintas celdas, de la variabilidad entre las filas y la variabilidad entre las columnas. De este modo, la eventual presencia de interacción entre determinados niveles de las filas y columnas, puede llegar a ponerse en evidencia mediante el examen de la variabilidad entre las medias de las celdas. Esto aumenta la complejidad del modelo, y la variabilidad residual con la que se realizan las comparaciones debe ser re-calculada a partir de la variabilidad dentro de las celdas, una vez aislada la variabilidad entre las mismas. Afortunadamente, los paquetes estadísticos corrientes evitan los cálculos numéricos extensos y proporcionan distintos modelos de análisis basados en diferentes estructuras de los datos. En esta sección sólo se han procurado delinear y resumir las ideas básicas en las que se funda el conjunto de técnicas conocidas como análisis de la varianza.
[ 291 ]
11. Regresión múltiple
11.1. Generalidades Muchas veces hay asociación entre más de dos variables y existe la posibilidad de expresar una de ellas en función de las demás. Una forma de hacerlo consiste en una extensión del método de la regresión para un par de variables x e y. En este caso habrá más de una variable independiente, cuyos valores determinarán a la variable dependiente y de acuerdo con una ecuación de regresión múltiple. Varias x son así utilizadas simultáneamente para explicar los cambios de la y. Las distintas variables x1, x2 , … xi , suelen llamarse variables independientes y también predictores o covariables. Se ha señalado que como muchas veces dos o más de las xi están correlacionadas entre sí y por lo tanto no son estadísticamente independientes, la expresión variable independiente debería evitarse. Sin embargo su uso está aceptado, en el sentido de que cada xi puede condicionar en parte los valores que adopta y. En líneas generales, gran parte de los conceptos vistos con respecto a la regresión simple de una sola x, se mantienen para la regresión múltiple. Con la introducción de más de una variable independiente, muchas veces es posible aumentar la precisión de las estimaciones de la variable dependiente, lo cual se explica porque cada variable independiente aporta información para dicha estimación, hecho que se traduce en una reducción de la variabilidad residual (la que permanece “inexplicada” por la regresión). Desde ya, una de las aplicaciones de la regresión múltiple es el aumento de la precisión en la predicción de una variable dependiente. 11.2. La ecuación de regresión múltiple La forma general de la ecuación de regresión múltiple estimada a partir de los datos es: Y = a + b1x1 + b2x 2 + … + bixi + … + bnxn
(11.1)
donde bi son los coeficientes de regresión múltiple o de regresión parcial de Y en xi. En forma análoga a lo ya visto para la regresión lineal simple, estas ecuaciones se calculan para conjuntos de datos (muestras) donde se han medido la variable dependiente y las n variables independientes xi. Mediante el procedimiento de cuadrados mínimos se obtienen los coeficientes a y bi con los que se formula la ecuación correspondiente al conjunto de datos. Posteriormente, estas ecuaciones pueden ser utilizadas en sus varias aplicaciones, sustituyendo las x por valores elegidos, para obtener el valor esperado o predicho de la variable dependiente y. Cada [ 292 ]
bi estima el efecto de la correspondiente variable xi mientras se mantienen constantes las otras x. Esto permite ensayar cuestiones del tipo “qué pasaría si xm aumentara (disminuyera) mientras las demás xi se mantienen constantes?” Gráficamente, una ecuación en dos variables independientes x1 y x2 se representa por un plano de regresión en un sistema con tres ejes ortogonales, x1, x2 e y. Con más de dos variables independientes la representación gráfica ya no es posible por requerir más de tres dimensiones espaciales, pero los resultados numéricos se obtienen sin dificultad para tres o más variables independientes. Cuando las xi no tienen exponentes distintos de 1, se habla de ecuaciones lineales y regresión lineal múltiple, que es ampliamente utilizada en las distintas aplicaciones médicas y a la cual se refieren los apartados siguientes. Las aplicaciones de la regresión múltiple son similares a las de la regresión simple y las principales son la descripción de las relaciones entre las variables predictoras y la dependiente, la interpretación de esas relaciones, la predicción de la variable dependiente, realizar “ajustes” para determinados valores de las distintas covariables y evaluar posibles interacciones entre éstas. Puede ser que no todas las variables independientes ensayadas estén relacionadas con la dependiente, y cuando esto ocurre, la variable cuyo coeficiente de regresión múltiple no es significativamente diferente de cero se suprime de la ecuación, ya que su inclusión no aumenta la eficacia de la regresión. En lo que sigue se examinarán las principales características y utilidades de la regresión múltiple, sin entrar en los algoritmos de cálculo, que como es fácil suponer, son más complejos que los dedicados a la regresión simple y cuya fundamentación teórica va más allá del alcance de este texto. Sólo se menciona que se trata de extensiones de los procedimientos para una sola variable independiente y que se basan en calcular los coeficientes que minimizan las sumas de los cuadrados de las diferencias entre las y observadas y sus correspondientes estimaciones. Ejemplo 11 En una muestra de 213 adultos de ambos sexos el índice electrocardiográfico de Sokolow medido en milímetros presentó correlación positiva con la masa ventricular izquierda, lo cual permitió calcular la siguiente ecuación de regresión simple: MVI = 99 + 2.92 × índice de Sokolow donde MVI es la masa ventricular izquierda en gramos, 99 la ordenada al origen y 2.92 el coeficiente de regresión, b, de la MVI en el índice de Sokolow. Se ha chequeado la significación de b obteniéndose P < 0.0001, de lo que se deduce que el índice de Sokolow influye significativamente en la estimación de MVI. De acuerdo a las unidades utilizadas en su cálculo, b está expresado en gramos/milímetro y predice 2.92 gramos de MVI por cada milímetro que mida el índice de Sokolow. Así, un índice de 20 mm corresponde a una MVI estimada de 99 (gramos) + (2.92 gramos/mm × 20 mm) = 157 gamos. Ahora bien, como también se sabe que la masa corporal tiene relación con la MVI, pueden incluirse los pesos de los individuos en la matriz de datos y obtenerse una ecuación de regresión múltiple de la MVI en el índice de Sokolow y en el peso corporal. Con los datos elegidos para el ejemplo dicha ecuación resulta: [ 293 ]
MVI = −40 + 2.3 × índice de Sokolow (mm) + 2.09 × peso (kg) donde los coeficientes de regresión múltiple para Sokolow y peso son 2.3 y 2.09 respectivamente y ambos son significativos, cada uno con P < 0.0001 (en general, si algún coeficiente resulta no significativo, la correspondiente variable no afecta la regresión y puede ser retirada del análisis). Las unidades a emplear (mm y kg) quedan determinadas al elaborar la ecuación, y en el ejemplo proporcionan la MVI en gramos. Así, si el individuo antes considerado, con un índice de Sokolow = 20 mm, pesara 80 kg, la MVI esperada sería igual a −40 + (2.3 × 20) + (2.09 × 80) = 173 gramos, mientras que si pesara 50 kg, con el mismo índice de Sokolow, la MVI esperada sería igual a −40 + (2.3 × 20) + (2.09 × 50) = 111 gramos. De esta manera, las variables independientes pueden modificarse de a una por vez y comprobar su efecto con independencia de las demás. Nótese que, sin conocer el peso, la MVI esperada a partir del índice de Sokolow = 20 mm es igual a 157 gramos. Este es el valor esperado que se halla sobre la recta de regresión, y es la mejor “apuesta” a falta de más información. En tanto, si se cuenta con el peso corporal, a través de la regresión múltiple puede mejorarse la estimación: en un individuo de 80 kg se espera una MVI = 173 g y en uno de 50 kg, una MVI de 111 g. Ambos resultados mejoran la estimación original.* 11.3. El coeficiente de determinación R² Los procedimientos para aislar las fuentes de variación de la variable dependiente en la regresión múltiple son análogos a los vistos para la regresión simple, aunque requieren cantidades considerablemente mayores de cálculo. Así, puede calcularse la suma de cuadrados de la variable dependiente y explicada por la regresión, y la suma total de cuadrados de la y sin tomar en cuenta la regresión (esta es simplemente la conocida suma empleada para calcular la varianza de la Y alrededor de su media). El cociente entre ambas sumas expresa la proporción de la variabilidad total de la variable dependiente explicada por la regresión, y se conoce como R² o coeficiente de determinación. En términos de sumas de cuadrados: R² = suma explicada por la regresión / suma total de cuadrados R² es análogo al coeficiente de determinación r² visto en §9.3.1. Su raíz cuadrada, R, es el coeficiente de correlación múltiple. Como no es posible adjudicar una dirección a la asociación de la y con más de una variable independiente, se da siempre a R valor positivo. Su test de significación se obtiene mediante el cociente entre los cuadrados medios debidos a la regresión y los cuadrados residuales, que resultan de restar los primeros del cuadrado medio total. Dicho cociente sigue la distribución F y la correspondiente prueba provee evidencia respecto de la hipótesis compuesta que postula que todos los coeficientes de regresión son iguales a cero (b1 = b2 = … = bn = 0). Volviendo a R², su valor puede variar entre 0 (las variables no aportan información útil para predecir la y) y 1 (la variable y queda determinada sin margen de error para cada conjun * Nótese que si se emplea el peso medio del grupo, en el ejemplo 72 kg, se obtiene MVI = -40 + (2.3 × 20) + (2.09 × 72) = 156 g, que es el valor predicho por el índice de Sokolow cuando no se incluye el peso en el cálculo (la diferencia con 157 g se debe a error de redondeo).
[ 294 ]
to de variables independientes x1, x2 , … xn). Como para r² en el caso de una sola x, R² mide la proporción de la variabilidad total de las Y explicada por la regresión. Sin embargo, hay una diferencia con el caso de la regresión simple y es que, en la regresión múltiple, R² informa acerca del valor global de la función de regresión pero no indica cuál o cuáles de las x son las que contribuyen significativamente a predecir la variable dependiente. Es así que aún en el caso más simple de dos variables independientes, x1 y x2 , R² no señala si ambas o sólo una de las xi son las que aportan a la regresión. Esta información se puede obtener de los coeficientes de regresión múltiple, bi , cuya significación frente a cero se evalúa para cada xi frente a su error estándar, mediante la distribución t. De lo dicho se desprende que la información que da R² es poco detallada y deben examinarse los coeficientes de regresión múltiple para estimar la importancia de cada variable independiente. También puede evaluarse la magnitud del cambio producido por el agregado de una variable independiente, a través de las variaciones experimentadas por R². Estas pueden ser o no significativas, y en el primer caso, el grado de incremento de R² permite conocer la proporción de varianza de la variable independiente Y, explicada por la variable independiente introducida en último término. De manera análoga puede evaluarse el efecto del borrado de variables independientes. Ejemplo 11 (continuación) En la regresión de la masa ventricular izquierda (MVI) en el índice de Sokolow del ejemplo anterior, el coeficiente de correlación entre ambas variables es r = 0.35, y su cuadrado o coeficiente de determinación es r² = 0.12. Esto significa que sólo un 12% de la variabilidad de la variable dependiente MVI es explicada por la regresión en el índice de Sokolow. Si entonces se agrega el peso como nueva variable predictora de la MVI, se obtiene la segunda ecuación del ejemplo anterior, donde cada coeficiente contribuye a explicar parte de la variabilidad de la MVI. Para esta ecuación con dos variables independientes se tiene R = 0.72 y R² = 0.52, lo que expresa que el 50% de la variabilidad total de la MVI queda explicada por la regresión múltiple. En este caso, la variación de la MVI alrededor de los valores predichos por la ecuación de regresión para cada par de valores de Sokolow y peso, es la mitad de la que existe alrededor de la media de MVI aislada. Queda todavía un 50% de la variabilidad sin explicar, esto es, como variación residual alrededor de los valores predichos por la regresión múltiple. En general, el agregado de nuevas variables independientes como pudieran ser la edad y el sexo, tenderá a agrandar el valor de R², que por construcción nunca puede superar el valor de 1. Puede verse que al agregar la variable peso, el coeficiente de regresión de Sokolow se modifica, así como el valor de la constante. Esto se explica por el hecho de que ambas variables predictoras contribuyen a la estimación de la variable independiente. También puede notarse que la variabilidad de la Y explicada por la regresión aumenta del 12% al 52% al agregar el peso, lo que señala la importancia de ésta variable en la regresión (corroborando esta afirmación, en la muestra estudiada, la correlación entre MVI y peso corporal es igual a 0.67, mucho mayor que la observada entre MVI y Sokolow). El agregado de variables independientes nunca hará descender el coeficiente de determinación R² y en general tenderá a aumentarlo, aunque la variable introducida pueda tener poco significado en la interpretación de los cambios generados en la variable independiente. Por este motivo se suele utilizar el coeficiente R² ajustado para el número de variables indepen[ 295 ]
dientes, que tiende a limitar el crecimiento de R² y constituye una medida más conservadora de la correlación múltiple, aunque en general y para un número no demasiado extenso de variables independientes, las diferencias con y sin ajuste resultan poco importantes. En lo que sigue se comentarán algunos aspectos de importancia del trabajo con modelos de regresión múltiple y sus aplicaciones en medicina. 11.4. Selección de variables independientes. Procedimientos automáticos Si bien las variables independientes que presentan coeficientes de regresión significativos están efectivamente relacionadas con la variable dependiente, el significado de la relación no siempre es evidente y está sujeto a interpretaciones basadas en los conocimientos médicos o biológicos que se tienen acerca del material en estudio. Por otra parte, una variable cuyo coeficiente de regresión no alcanza significación estadística puede en principio eliminarse de la regresión por no aportar información a la misma, aunque como se verá, siempre debe procederse con cautela por la posibilidad de que el comportamiento de dicha variable se halle afectado por la presencia de otras covariables con roles semejantes, cuestión que se torna aún más atendible si existen motivos de índole teórica vinculados con el tema del estudio, que confieren importancia médica a la variable en cuestión. Al respecto, dos variables importantes con algún tipo de semejanza que las vincule, pueden competir en la explicación de la variable dependiente con resultados diversos y a veces no esperados, como puede ser la pérdida de la significación estadística de una de ellas, por lo que el criterio del investigador es fundamental para la interpretación correcta de los resultados. Sobre este punto se volverá más adelante. En contraste, no toda variable cuyo coeficiente de regresión sea significativo debe ser necesariamente importante dentro del marco de la investigación, bien por ser sus efectos de pequeña magnitud y por contribuir escasamente a acotar los cambios de la variable dependiente, o bien por su rol en el contexto del estudio. Por último, debe recordarse que la falta de significación estadística de un determinado coeficiente de regresión puede también deberse al ya conocido error de tipo beta, mencionado en la Sección 4, y si hay motivos teóricos para creer que una variable pueda tener un papel de importancia dentro del sistema de datos en estudio, no debería abandonársela sin ulteriores verificaciones. Los métodos para seleccionar las variables independientes más importantes son varios y no existe uno que sea superior a los demás. En general se aprovecha la capacidad de cálculo que proporcionan los paquetes estadísticos. Es habitual explorar primeramente la regresión simple de la variable dependiente en cada una de las independientes, seleccionar entre éstas la que presenta el coeficiente de regresión más significativo, y luego ensayar todas las regresiones posibles que resulten de agregarle a la ya seleccionada, cada una de las restantes. Se elige la regresión que produce el mayor incremento de R², se agrega una tercera variable y así sucesivamente hasta que el agregado de nuevas variables cese de incrementar la suma de cuadrados debida a la regresión más allá de un nivel establecido por convención. Este procedimiento se conoce como escalonado en forma progresiva (step-up o forward entry). El procedimiento inverso (step-down) comienza con todas las variables independientes y elimina progresivamente las no significativas hasta que quedan aquellas que lo son por encima de un nivel preestablecido. Otro procedimiento escalonado (stepwise) selecciona las variables [ 296 ]
como en el primer caso, pero cada vez que agrega una nueva, chequea todos los coeficientes de regresión, ya que una variable significativa en una etapa, puede dejar de serlo cuando se agrega otra que la reemplaza y la vuelve no significativa. Esto remite al problema señalado más arriba acerca del significado biológico o médico de cada variable, que debe ser también un criterio decisivo para la inclusión y el retiro de las variables independientes. Esto debe hacerse de acuerdo no sólo con el grado de significación estadística, sino también de acuerdo con la importancia médica o biológica de cada variable dentro del material en estudio. Se mencionarán brevemente algunos aspectos relacionados. 11.5. Colinearidad. Variables reemplazantes o “proxy” La situación conocida como colinearidad o multicolinearidad ocurre cuando dos o más variables predictoras se hallan altamente correlacionadas entre sí. La consecuencia, que sólo se enuncia, es que sus respectivos coeficientes de regresión tendrán errores estándar muy grandes y tenderán a producir resultados no significativos, pudiendo obtenerse conclusiones y comparaciones erróneas. La colinearidad es frecuente y puede esperarse cuando dos variables estiman un mismo fenómeno, por ejemplo si se incluyen como medidas antropométricas la longitud de la pierna y del antebrazo, o el nivel plasmático de dos metabolitos cercanamente emparentados, situaciones en que es de esperar altos coeficientes de correlación entre las variables independientes (en estos casos las variables involucradas no son estadísticamente independientes aunque conserven la denominación, consagrada por el uso). Muchas veces, al incluir dos variables predictoras que juegan un rol similar y se hallan correlacionadas entre sí, sólo una de las dos presenta un coeficiente de regresión significativo. En tal caso, si se retira la variable que resultó significativa, se suele comprobar que la otra adquiere significación estadística y pasa a cumplir la función de la que ha sido eliminada. Las dos variables independientes se sustituyen una a otra. En estas circunstancias se tiende a considerar como la más importante, aquélla que retiene la significación estadística cuando se ensayan conjuntamente. Sin embargo esto no es necesariamente así, ya que como se ha mencionado, aparte de la capacidad de estimar la variable dependiente, es necesario evaluar la importancia de las variables por su significado en el contexto del estudio, que no está relacionado en forma obligatoria con la fuerza de su asociación con la variable dependiente. También puede ser que ambas variables sean importantes y necesarias para el estudio, y en este caso, las posibilidades son no incluirlas en la misma ecuación o bien, si las variables son de la misma naturaleza, como pueden ser las longitudes de dos segmentos corporales, emplear su promedio. Otra eventualidad es que la variabilidad explicada por la regresión sea compartida por las dos variables predictoras de modo tal que ambas se tornen no significativas en el modelo. Si en un caso así se opta por suprimir directamente las dos variables, puede caer significativamente la suma de cuadrados de la regresión y deteriorarse la capacidad de predicción de la variable dependiente y toda la calidad del estudio. Algo análogo puede ocurrir con grupos de dos o más variables que de por sí no se revelan significativas en la regresión y que, al ser retiradas en conjunto, provocan una caída significativa de R². Esto se explica porque estando correlacionadas, la supresión de cualquiera de ellas es suplida por las restantes, pero al eliminarse todo el conjunto no quedan variables que proporcionen la información que aportaba el grupo suprimido. [ 297 ]
Como se acaba de ver, en una regresión múltiple cabe la posibilidad de que variables predictoras correlacionadas se reemplacen entre sí en una ecuación de regresión. Esto se conoce con el término proxying, hablándose en tal caso de variables proxy, palabra inglesa que significa reemplazar o “actuar en lugar de”. Si bien esto suele ser inconveniente, el reemplazo entre variables con un significado parecido y correlacionadas entre sí puede aprovecharse para tener una idea del efecto de alguna variable inaccesible o de difícil obtención, mediante el empleo de una variable proxy. Por ejemplo, se puede estimar la severidad de un cuadro anginoso por la cantidad de pastillas de nitritos consumidas. Por otra parte, las variables proxy pueden presentar los inconvenientes de la colinearidad y, entre otras cosas, tender a cancelarse mutuamente o presentar coeficientes de regresión no significativos a pesar de ser importantes dentro del sistema de variables en estudio. Por último, debe tenerse en cuenta que es posible encontrar correlación entre variables que no presentan un nexo lógico claro, y donde una tienda a reemplazar a otra sin que sea evidente o aún conjeturable el motivo del fenómeno. En estos casos es aconsejable profundizar la búsqueda de los fundamentos teóricos que hagan explicable en términos lógicos la relación hallada y, hasta tanto esto no se logre, abstenerse de adelantar conclusiones aventuradas. Si una variable no tiene cabida lógica en el escenario del estudio, no debería ser incluida en las conclusiones sin más reparos. Existen indicadores de colinearidad sobre los que no se entrará en detalles, que se hallan incluidos en los programas estadísticos corrientes, programas que también suelen alertar sobre la presencia de colinearidad en los datos. Por lo demás, la colinearidad suele hacerse evidente por el comportamiento conjunto de variables que en forma aislada, son importantes y significativas. En algunas oportunidades en que la colinearidad surge como un problema computacional, es posible redefinir la variable problema mediante transformaciones que eliminen o reduzcan la colinearidad (ver Armitage y Berry, 1994). 11.6. Regresión con variables independientes binarias o indicadoras (dummy variables) En los estudios de regresión, como en otros campos de la estadística, frecuentemente se desea analizar los datos separadamente en distintos subgrupos como sexo masculino o femenino, diabéticos y no diabéticos, presión arterial sistólica mayor o menor que 140 mm Hg, etc. Estos criterios de clasificación constituyen variables binarias o dicotómicas, y si se introducen en la ecuación de regresión múltiple debidamente codificadas, pueden ahorrar la necesidad de llevar a cabo dos regresiones por separado, como una para hombres y otra para mujeres, o una para hipertensos y otra para no hipertensos. Cuando se emplean con esta finalidad, suelen denominarse variables indicadoras o dummy. Introduciendo una variable indicadora z cuyos dos valores posibles sean 0 y 1, se tiene que la ecuación de regresión múltiple ajustada a los datos se puede escribir: Y = a + dz + b1x1 + b2x 2 + …+ bnxn
(11.2)
que se diferencia de la 11.1 solamente en el término dz, donde z es la variable indicadora y d su coeficiente de regresión múltiple. De aquí resulta que cuando z = 1, dz = d × 1 = d, y cuando z = 0, dz = d × 0 = 0. Quedan así planteadas dos ecuaciones: [ 298 ]
Y = a + d + b1x1 + b2x 2 + … + bnxn Y = a + b1x1 + b2x 2 + … + bnxn
cuando z = 1 cuando z = 0
que sólo difieren en que, en el grupo en el cual la variable indicadora vale 1 (cuando la condición que indica está presente), la cantidad d se suma a la estimación de Y. Si por ejemplo, la variable z se refiere a la presencia de hipertensión arterial, se puede llamarla HTA y definir z = HTA = 1 en los hipertensos, y z = HTA = 0 en los no hipertensos. El correspondiente coeficiente de regresión múltiple d, permanecerá sin cambios (d × 1) en los hipertensos, y se anulará (d × 0) en los demás individuos. El método puede hacerse extensivo a variables que admiten más de dos estados, como por ejemplo peso normal, sobrepeso y obesidad, con lo que las comparaciones posibles aumentan. En lo que sigue se verán algunos aspectos relativos a la introducción de una variable binaria en un modelo de regresión múltiple.
Ejemplo 11 (continuación) Se desea evaluar el efecto de la presencia de hipertensión arterial en las estimaciones de la masa ventricular izquierda (MVI) del ejemplo anterior. Creando la variable binaria HTA y definiéndola como HTA = 1 en los hipertensos y HTA = 0 en los restantes individuos, hallando la nueva estimación de los parámetros de la regresión se obtiene: MVI = -35 + 1.73 × índice de Sokolow (mm) + 2.06 × peso (kg) + 29 × HTA siendo 29 el coeficiente de regresión parcial d, de la MVI en la variable indicadora HTA. El programa estadístico informa que, al igual que los otros dos coeficientes, el último es también altamente significativo frente a cero (p < 0.0001). De las unidades empleadas para medir la MVI resulta que la dimensión del coeficiente es gramos. Cada vez que HTA = 1, el último término será igual a 29 × 1 = 29, lo que expresa que a la masa calculada mediante el índice de Sokolow y el peso, se deben sumar 29 gramos. Por el contrario, si se trata de un individuo no hipertenso, la variable HTA vale 0 y su producto con el coeficiente d = 29 se anula, de modo que no hay nada que añadir al valor de la MVI calculada en base al índice de Sokolow y peso. Los individuos no hipertensos constituyen así el grupo de referencia, a cuyas estimaciones hay que sumar el valor del coeficiente de regresión para la variable HTA cuando se trata de un individuo hipertenso. Como se ve, la regresión con una variable independiente binaria genera dos grupos, correspondientes a dos regresiones, una para cada estado de la variable binaria. En el ejemplo, el nuevo valor de R² es 0.59, ligeramente mayor que el de 0.52 obtenido para el índice de Sokolow y el peso corporal antes de introducir la variable HTA. Hay una ligera mejoría en la precisión de las estimaciones de la MVI al considerar hipertensos y no hipertensos por separado. Este leve aumento en la suma de cuadrados debida a la regresión, que se refleja en el incremento de R², no depende de los valores del índice de Sokolow y el peso de cada individuo, y así, para cualquier par de valores de Sokolow y peso, la MVI debe ser incrementada en unos 29 gramos si el individuo es hipertenso, y no hacer agregados en caso contrario. [ 299 ]
11.7. Interacción Al clasificar una muestra en dos o más niveles o estratos según una variable discreta d, puede suceder que las respuestas de la variable dependiente Y a los cambios de una variable independiente continua X, sean de diferente magnitud según se evalúen en los distintos estratos en los que se ha clasificado la muestra. Cuando esto ocurre se dice que entre las variables d y X existe interacción. En el ejemplo considerado hasta aquí, puede interesar saber si la relación entre Sokolow y MVI es la misma en presencia que en ausencia de hipertensión arterial, esto es, si entre las variables Sokolow y HTA existe interacción. Otro tanto puede preguntarse acerca de las variables peso y HTA. En general, un modo de evaluar la presencia de interacción en un modelo como el que nos ocupa, es calcular el producto de las variables implicadas para cada uno de los casos de la muestra, creando una nueva variable que se denomina término de interacción. Si su coeficiente de regresión múltiple resulta estadísticamente significativo, puede esperarse interacción entre las variables en cuestión. Por ejemplo, si se desea saber si existe interacción entre el peso corporal y la hipertensión arterial, debe calcularse el producto peso × HTA para cada individuo de la muestra. Esta nueva variable se introduce junto con las demás variables independientes y se evalúa el modelo resultante. Para comprender el procedimiento, considérese el caso limitado a la variable binaria HTA y la variable continua peso, como predictores de la MVI. El término de interacción será (HTA × peso). La ecuación que estima la MVI será entonces: MVI = a + b1× peso + b2 × HTA + b3 × (HTA × peso) Si el coeficiente b3 resulta estadísticamente significativo se está autorizado a deducir la presencia de interacción entre peso y HTA. Si bien en la muestra del Ejemplo 11 dicho coeficiente no fue significativo y no se pudo comprobar interacción, en lo que sigue se muestran los fundamentos del procedimiento. Cuando HTA = 0, los dos últimos términos de la ecuación anterior se anulan, y ésta se reduce a: MVI = a + b1× peso En tanto, cuando HTA = 1, se tiene que (b2 × HTA) = b2 , y (b3 × [HTA × peso]) = b3 × peso, y consecuentemente, en los hipertensos la ecuación debe re-escribirse: MVI = a + b1× peso + b2 + b3 × peso = a + (b1 + b3) × peso + b2 con lo cual se observa que el coeficiente de regresión del peso resulta igual a (b1 + b3), mientras que en los no hipertensos es igual a b1. Esto equivale a decir que el peso estimará la MVI con distintos coeficientes en hipertensos y en no hipertensos, y la interpretación será que existe interacción entre hipertensión y peso cuando se trata de estimar la MVI. Como se ha dicho, el requisito es que el coeficiente del término de interacción ( b3) resulte estadísticamente significativo, pues en caso contrario, se elimina de la regresión y la interacción no se confirma. [ 300 ]
11.8. Principales aplicaciones de la regresión múltiple Las aplicaciones de la regresión múltiple son similares a las de la regresión con una sola variable independiente ya vistas en la Sección 9, siendo las fundamentales la descripción de las relaciones entre las variables predictoras y la dependiente, la interpretación de esas relaciones, la predicción de la variable dependiente para distintos niveles de cada variable independiente, y el ajuste de la variable dependiente para una variable independiente luego de haber controlado el nivel de las demás. La descripción de las relaciones entre las variables se obtiene a partir de los coeficientes de regresión múltiple para cada predictor independiente y asimismo, mediante la evaluación del grado de cambio del coeficiente de correlación múltiple R² al introducir o retirar una variable del modelo. Lo referido en §9.4 con respecto a la regresión simple y su interpretación en el contexto biológico de los ensayos, tiene aquí la misma vigencia y puede incluso presentar aspectos más complicados por el hecho de que cada variable independiente suele afectar en mayor o menor grado el comportamiento de las demás. Esto puede comprobarse en los ejemplos, en los cambios que experimenta el coeficiente de regresión del índice de Sokolow, primeramente al agregar la variable peso y luego, la variable HTA. A su vez, el coeficiente de la variable peso cambia al agregar al modelo la variable HTA. La predicción de la variable dependiente a partir de las independientes puede realizarse para distintas combinaciones de los valores de éstas, y en particular, manteniendo constante el valor de algunas de ellas, lo cual permite “aislar” los efectos de las restantes. En este punto deben tenerse particularmente presentes las precauciones relativas a la extrapolación de las estimaciones más allá del rango de las variables independientes en que fueron estimados los coeficientes de regresión, y asimismo, debe tenerse presente la posibilidad de interacción (§11.7). En cuanto a los ajustes de las estimaciones de la variable dependiente Y, a lo expuesto en §9.4 cabe agregar que en los modelos de regresión múltiple pueden realizarse para una o más de las variables independientes. Por otra parte, es interesante notar que del punto de vista del modelo estadístico es indiferente cuál de las variables se elige para el ajuste, siendo el criterio médico el que debe orientar la investigación, ya que la interpretación del significado biológico de los resultados y su relevancia se basa siempre en el juicio del investigador. Así, en el ejemplo analizado de la estimación de la MVI, es posible evaluar las relaciones entre ésta y el índice de Sokolow después de ajustar los datos para distintos valores de la variable peso y también, evaluar la influencia del peso para determinados niveles del índice de Sokolow. El significado clínico de estos ajustes, y si alguno de ellos tiene importancia en la materia, queda a criterio del médico. En general, para todas las aplicaciones de la regresión múltiple es conveniente hallarse familiarizado con las nociones básicas que se han esbozado hasta aquí, y tener presente que se trata de una herramienta de análisis que en ningún caso debería reemplazar al juicio clínico fundamentado. Debe tenerse en cuenta que aún la más evidente y significativa relación estadística entre dos variables no implica de por sí una relación causal entre las mismas. Más aún, la posibilidad que una o más variables independientes deban su importancia al hecho de representar las fluctuaciones de otras variables no incluidas en el modelo (variables proxy) sólo puede ser decidida por el investigador.
[ 301 ]
12. Regresión logística
12.1. Regresión con variable dependiente binaria Muchas veces las variables binarias constituyen objetos de interés como potenciales variables dependientes, susceptibles de ser predichas o estimadas por distintas variables independientes, pero en estos casos la regresión ordinaria de cuadrados mínimos vista en las Secciones 9 y 11 presenta inconvenientes para adaptarse a una variable dependiente que solo reconoce dos estados posibles. En efecto, si bien una gran variedad de situaciones médicas como la presencia o ausencia de distintas patologías, la respuesta a un tratamiento, etc., pueden codificarse como variables binarias, su inclusión en los modelos de regresión ordinaria como la variable dependiente a ser estimada, produce resultados de interpretación dudosa, cuando no ilógicos. Como ejemplo, supóngase que se sabe que una determinada enfermedad cardiovascular guarda relación con los niveles de colesterol plasmático, siendo más frecuente en individuos con niveles altos de colesterol. En este caso puede llegar a interesar la posibilidad de predecir la enfermedad a partir de los niveles de colesterol plasmático. Una forma de intentarlo es codificar la enfermedad en cuestión como una variable binaria E (E = 1 enfermedad presente, E = 0 enfermedad ausente) y, a partir de un grupo de individuos en quienes se conoce efectivamente la presencia o ausencia de enfermedad, calcular la regresión de la enfermedad así codificada, en los niveles de colesterol plasmático. Con los métodos vistos en la Sección 9 se obtendrá una ecuación de tipo E = a + b × colesterol, donde E es la variable dependiente y colesterol la variable independiente. Como ésta es una variable continua, la ecuación de regresión predecirá también una gama continua de valores para E, lo que se halla en desacuerdo con el hecho de que E sólo puede adoptar los valores 1 o 0, ya que la enfermedad sólo puede estar presente o ausente, y esto es ya un obstáculo para el empleo de la regresión ordinaria en la estimación de variables binarias. Prosiguiendo con el ejemplo, en la figura 12.1 se observa el gráfico de dispersión y la correspondiente recta de regresión lineal para 100 individuos hipotéticos, 42 enfermos (E = 1) y 58 sanos (E = 0). Puede verse que los enfermos están dispuestos a lo largo de la línea E = 1 y los no enfermos a lo largo de la línea E = 0, mientras los respectivos valores de su colesterol se leen en el eje x. La mayor parte de la recta de regresión está comprendida entre E = 0 y E = 1, y puede verse que a mayores cifras de colesterol la recta asciende indicando valores de E más próximos a 1. Este hecho es importante dado que, si bien la regresión predice valores continuos, inadecuados para describir una variable binaria que solo toma los valores 1 y 0, esos valores continuos podrían interpretarse como la probabilidad de que la variable binaria se halle presente. En otras pala[ 302 ]
bras, el valor que toma E para los diversos valores del colesterol plasmático, podría interpretarse como una medida de la probabilidad de la enfermedad E para los correspondientes valores del colesterol plasmático. Figura 12.1. Recta de regresión lineal ordinaria ajustada para una variable dependiente binaria E ( = enfermedad cardiovascular) en función del los niveles de colesterol. Los valores predichos por la recta de regresión pueden llegar a ser mayores que 1 o menores que 0.
Sin embargo, el propósito de interpretar la variable dependiente E como la estimación de una probabilidad, empleando la regresión lineal ordinaria, se encuentra enseguida con limitaciones. En efecto, en la Figura 12.1 se observa que hacia sus extremos, esto es para valores relativamente altos o bajos de colesterol, la recta de regresión lineal predice valores de E mayores que 1 o menores que 0 (negativos), lo cual hace imposible aceptarlos como valores plausibles para una probabilidad. Además, hay otros inconvenientes de índole teórica en los que no es necesario entrar, pero suficientemente importantes como para impedir el empleo de la regresión lineal ordinaria para la estimación de las probabilidades de una variable binaria en función de variables independientes. Sin embargo, la idea de hallar a partir de los datos muestrales algún tipo de función de las variables independientes que estime, no el valor real de la variable dependiente binaria sino sus probabilidades, ha dado origen a la llamada regresión logística. La regresión logística, cuya variable dependiente es siempre binaria o dicotómica, permite determinar la existencia de relaciones entre los valores de las variables independientes y la probabilidad de ocurrencia de la variable dependiente. En la Figura 12.2 se ilustra la forma en que se distribuyen las probabilidades de E estimadas mediante regresión logística, en función de los niveles del colesterol, para los mismos datos de la Figura 12.1.
[ 303 ]
Fig.12.2. La curva de probabilidades predicha por el método de la regresión logística se “aplana” hacia el piso y el techo de las probabilidades, sin extralimitarse.
Puede observarse que las probabilidades de E, en ordenadas, se extienden en forma continua entre 0 y 1, y también, que los valores bajos de colesterol se asocian con probabilidades de E próximas a 0 y a la inversa, los valores muy altos se asocian con probabilidades próximas a 1, pero en ningún caso los valores se extralimitan, y el rango de los valores de la probabilidad de E queda siempre comprendido entre 0 y 1. Así, el modelo de regresión logística resulta adecuado para describir las probabilidades de una variable dependiente binaria. Dada su importancia como técnica estadística, se esbozarán muy someramente los fundamentos teóricos en que se basa. 12.2. Aspectos teóricos y significado de la regresión logística Uno de los problemas que plantea la estimación de probabilidades en variables binarias, es que la relación entre dichas probabilidades y sus variables predictoras no es lineal. Es así que en el caso de la enfermedad cardiovascular (E) y el colesterol, puede esperarse una relación más o menos lineal entre la probabilidad de E y los valores del colesterol cercanos al medio de la escala, pero en cambio, con valores muy altos, donde la probabilidad de E ya está muy elevada, no debe esperarse que un aumento de 20 o 30 mg/dl de colesterol, digamos entre 350 y 370 mg/dl, tenga mucho efecto en aumentar la morbilidad, ya de por sí muy alta en este extremo. Lo mismo puede decirse de colesteroles muy bajos, donde debe esperarse que la probabilidad de E varíe muy poco al pasar de 150 a 170 mg/dl, siendo en ambos casos muy baja. De modo que la gráfica que represente en forma realista las probabilidades de E, no debería ser una línea recta sino tener una forma como se muestra en la figura 12.2, donde se observa que la pendiente se hace cada vez menor a medida que se alcanzan los valores extremos de la variable independiente, cuando la variación de la probabilidad ante estos valores se hace proporcionalmente menor que [ 304 ]
en el centro de la distribución. En la tarea de linearizar estas relaciones se ha desarrollado la regresión logística, calculándose sus parámetros a partir de conjuntos de individuos donde cada uno aporta una o más variables independientes (por ejemplo, colesterol, glucemia, tabaquismo) y asimismo el estado de la variable dependiente (E = 1, o E = 0). Se esbozarán los procedimientos en el ejemplo que nos viene ocupando. Ya se ha visto que hallar una recta de regresión por el método de mínimos cuadrados es inadecuado para describir probabilidades, ya que fácilmente predecirá valores mayores que 1 y menores que 0. En cambio, en la regresión logística, se halla una ecuación lineal de la forma y = a + bx, donde x corresponde al valor de la variable independiente (el colesterol) pero, mediante una elaboración matemática, en lugar de la probabilidad de E (que no puede representarse por una recta), la variable dependiente y expresa el logaritmo de los odds de la variable E, también llamado logit, de donde proviene el término regresión logística. El núcleo de la regresión logística consiste precisamente en la obtención de las ecuaciones lineales que estiman logits, lo que se logra mediante procedimientos especiales que difieren de los empleados en la regresión lineal ordinaria o de mínimos cuadrados vista en secciones anteriores. Obtenidos los logits, cuyo significado es poco o nada intuitivo, es posible pasar a los odds y probabilidades de E. Estas probabilidades son las que se han graficado en la curva de la Figura 12.2, y se obtienen de los correspondientes logits. Contra lo que podría suponerse, esta última tarea no es complicada. En principio, los programas estadísticos calculan la función lineal a + bx, caracterizada por los parámetros a y b, que proporciona los logits de la variable dependiente E a partir de la variable independiente x (colesterol). Lo ya expresado puede escribirse: Logit i = ln (odds i) = ln [Pi / (1 − Pi)] = a + b xi
(12.1)
siendo Pi la probabilidad de la variable dependiente E cuando la variable independiente toma el valor xi. Para los datos el ejemplo que nos ocupa, los programas de regresión logística proporcionan a = − 25 y b = 0.11. El parámetro b se conoce como coeficiente de regresión logística. Si elegimos un individuo con un colesterol de 210 mg/dl se tiene, siguiendo con el ejemplo: L = ln (odds) = a + bx = − 25 + 0.11 × 210 = − 1.9 El valor −1.9 es el logaritmo natural de los odds (logit) de la variable dependiente (E) para el individuo en cuestión, incómodo para trabajar pero que tiene la ventaja ser una función lineal de las variables independientes (el colesterol en este caso). De esta expresión se puede pasar a los odds de E (odds de presentar E, o sea E = 1). De (12.1) se tiene que:* odds (E) = e a + bx = e − 1.9 = 0.15 que son los odds de presentar E teniendo un colesterol de 210 mg/dl. También se pasa fácil * Recuérdese que dado el logaritmo de un número b, el número b se obtiene elevando la base (el número e en los logaritmos naturales) al logaritmo en cuestión: b = e ln b y en el ejemplo odds = e ln odds
[ 305 ]
mente a la probabilidad de presentar E con solo recordar que P = odds / (odds+1) (§3.4): P (E) = 0.15 / (0.15 + 1) = 0.13 o 13%. que es la probabilidad estimada para el caso en cuestión. La significación estadística del coeficiente de regresión múltiple b, a partir del cual y de los valores del colesterol se deducen logits, odds y probabilidades, se prueba con los métodos apropiados y la interpretación de los resultados es la tarea más importante y delicada que resta (ver párrafos siguientes). Es común obtener ecuaciones de regresión logística para más de una variable independiente, como pudieran ser en el ejemplo el colesterol, los triglicéridos y la glucemia. El logaritmo de los odds (logit) está dado, como se ha visto, por una expresión lineal que puede extenderse indefinidamente sobre el eje de las x, pudiendo adoptar valores negativos o positivos arbitrariamente grandes. Ahora bien, los odds, estando dados por e elevado a distintos exponentes, podrán tener valores positivos ilimitadamente grandes pero nunca menores que cero, como puede comprobarse fácilmente con una calculadora de mano. Esto concuerda con el concepto de odds como P / (1−P), siendo P siempre positiva y no mayor que 1 ni menor que 0. Finalmente, al convertir odds en probabilidades mediante la fórmula P = odds / (odds+1), nunca se obtendrán valores superiores a 1, ya que el denominador es siempre una unidad más grande que el numerador. Por lo tanto, al convertir logits en odds se establece un piso en 0, y al pasar de odds a probabilidades se coloca un “techo” en 1, con lo que la curva de probabilidades toma necesariamente la forma sigmoidea característica de la Fig. 12.2, que se extiende entre 0 y 1 y ya no presenta los inconvenientes vistos cuando se intentó ajustar a los datos del colesterol una recta de regresión lineal ordinaria. El método para obtener la ecuación que da logits como función de las variables independientes y posibilita todo el desarrollo teórico subsiguiente, se conoce como de máxima verosimilitud (maximum likelihood), y estima los parámetros de las funciones de regresión logística como aquéllos que tienen la máxima probabilidad de producir los datos observados en las muestras. Este método, extensamente empleado en estadística, difiere del método de los cuadrados mínimos u OLS (ordinary least squares) en que se fundan las técnicas vistas en las secciones 9 y 11, mencionadas como regresión OLS u ordinaria. Sus aspectos teóricos quedan fuera del alance del texto. En lo que sigue, se intentará aclarar en lo posible la interpretación de los resultados y algunas aplicaciones de la regresión logística corrientes en medicina. 12.3. Significación de los resultados de la regresión logística La significación de los coeficientes de regresión logística se prueba en forma análoga a otros estadísticos, en particular a los coeficientes de regresión ordinaria vistos en las Secciones 9 y 11, siendo la hipótesis nula que el correspondiente parámetro de población es igual a cero y las diferencias observadas se han debido al azar del muestreo. Sin embargo, en el caso de la regresión logística las pruebas no son tan seguras como en el de la regresión ordinaria y exigen mayores precauciones, en particular tratándose de muestras pequeñas. En este sentido, los valores de P obtenidos en las pruebas de significación de los respectivos coeficientes, [ 306 ]
no siempre guardan una relación estrecha con la fuerza o la importancia de una variable en el modelo. Un estadístico de prueba para los coeficientes de regresión es el de Wald, igual al cuadrado del cociente entre el coeficiente de regresión logística y su error estándar, que tiene una distribución chi-cuadrado con un grado de libertad. Se halla incluido en los paquetes estadísticos corrientes. Existen otros métodos que apuntan a asegurar la validez de los hallazgos, en relación a limitaciones como el tamaño de las muestras. Como ya se ha dicho, la estimación de los coeficientes de regresión logística se basa en una técnica llamada de máxima verosimilitud, que utiliza para el cálculo una función llamada con el mismo nombre (maximum likelihood function) y que permite no solamente obtener los logits sino también evaluar en forma global el grado de “ajuste” del modelo resultante a los datos muestrales. Esto permite a su vez calibrar la importancia de cada variable en el resultado de la regresión, observando el grado de cambio en el ajuste global de la regresión luego de introducir o retirar la variable en cuestión (el caso análogo en la regresión ordinaria consiste en observar los cambios en el coeficiente de correlación múltiple R² con el agregado o retiro de variables). Esta es otra forma de evaluar la significación de los coeficientes de regresión logística. Como se ve, existen numerosas alternativas para hacerlo, lo que indica que no hay un procedimiento único y directo, y analizar los resultados requiere alguna experiencia, así como cierto conocimiento previo del material estudiado. Lo dicho debe hacer tomar precauciones ante la obtención de conclusiones apresuradas o sin un análisis cuidadoso de su significado en el contexto de la investigación (ver Pampel, 2000). 12.4. Algunas propiedades de la regresión logística Como se ha dicho, la regresión logística proporciona ecuaciones con ciertas analogías a las de regresión lineal ordinaria o de mínimos cuadrados tratadas en secciones anteriores, donde la significación estadística de los coeficientes de regresión expresa la importancia de la correspondiente variable independiente en la determinación de la probabilidad de la variable dependiente binaria. En el caso de la regresión logística, las correspondientes ecuaciones consisten en logits, expresiones lineales en función de las variables independientes, que es común convertir en odds o en probabilidades para facilitar su interpretación. Como se ha dicho, en general es preferible trabajar con muestras no demasiado pequeñas. La regresión logística presenta más cuestiones de interpretación que la regresión lineal ordinaria. En la sección 9 examinó el coeficiente de regresión del peso en la talla para un grupo de adultos de ambos sexos, y se mencionó que en un experimento dado había resultado igual a 1.14 (kg / cm), lo que significa que por cada centímetro de aumento en la estatura se espera un aumento promedio del peso igual a 1.14 kg. En este punto es importante notar que este aumento de aproximadamente 1 kg de peso por cm de estatura, es esperable dentro de todo el rango de estaturas incluido en el análisis, es decir, tanto para una persona de alta como para una de baja estatura. En otras palabras, puede esperarse un incremento del peso igual a 1.14 kg tanto si la estatura pasa de 150 a 151 cm como si lo hace de 195 a 196 cm (este hecho es estadístico y su ajuste a la realidad biológica no interviene aquí). No ocurre lo mismo para las probabilidades predichas por los logits en la regresión logística, donde para cambios en los valores más extremos de la variable independiente (en el ejemplo, el colesterol) se esperan variaciones menos marcadas de las probabilidades que las que se observan en el [ 307 ]
centro de la distribución. Así, se vio que un individuo con 210 mg/dl de colesterol tenía 0.13 o 13% de probabilidades de enfermedad bajo las condiciones simuladas por el ejemplo; ahora, si el colesterol aumenta en 10 mg/dl, a un nivel de 220 mg/dl, la nueva probabilidad de E se calcula en 0.31 o 31%, con lo cual se ha duplicado largamente. En cambio, un individuo con un colesterol en el extremo alto de la distribución, por ejemplo 250 mg/dl, tendrá una probabilidad de E estimada en 92%, y si se en este punto el colesterol se incrementa en 10 mg/dl, a 260 mg/dl, la nueva probabilidad será igual a 97%, con lo que habrá aumentado en poco más del 5% respecto del nivel que tenía para 250 mg/dl. Esto se nota claramente inspeccionando la curva de probabilidades en la figura 12.2, más empinada en el centro y aplanada hacia los extremos (no se olvide que en ningún caso podrá situarse por encima de 1 o por debajo de 0). Como se ve, en regresión logística los resultados en términos de probabilidades u odds, serán distintos según se calculen en el centro o en la periferia de los posibles valores de la variable predictora o, lo que es equivalente, según el nivel de probabilidad P de la variable dependiente a partir del cual se estimen los cambios. La relación entre niveles de colesterol y probabilidad de E no es lineal. No se entrará en las diversas cuestiones que aparecen en este punto, mencionándose sólo la conveniencia de hacer las determinaciones cerca del centro de las distribuciones, aunque existen numerosos métodos de abordaje para éstos y otros tópicos relativos a la interpretación de los resultados de la regresión logística. Como en la regresión múltiple ordinaria, en regresión logística las variables independientes pueden ser más de una, y en líneas generales, muchos conceptos similares se aplican a ambos tipos de regresión. Sin embargo, hay aspectos de importancia en los cuales los dos métodos difieren. El más importante radica en que, como en la regresión logística el valor de cualquier variable independiente X1 condiciona el valor P de la variable dependiente, y este valor condiciona a su vez, como se vio en el párrafo anterior, el efecto que sobre él pueda tener una segunda variable independiente X 2 , un cambio en X1 modificará la influencia de X 2 sobre la variable dependiente. Por ejemplo, con valores muy altos de probabilidad de E, condicionados por niveles elevados de colesterol plasmático (X1), cualquier cambio en una segunda variable independiente (X 2) tendrá un efecto sobre dicha probabilidad, menor que el que cabría esperar cuando la probabilidad de E se halla en sus valores medios. La regresión logística puede también llevarse a cabo con variables independientes de tipo binario, como por ejemplo las que resultan de codificar distintas características de los datos como el género, factores de exposición o de riesgo y cualquier otra circunstancia que permita clasificar los datos en dos categorías (en realidad, la técnica puede extenderse a variables discretas con más de dos estados, permaneciendo uno de éstos como referencia a partir del cual se comparan los restantes). Así, el sexo puede ser codificado como variable binaria independiente asignando el 1 a mujeres y el 0 a varones. Con esto, el coeficiente para el género, bg, se anula cuando se multiplica por 0 (hombres) y vale bg cuando se multiplica por 1 (mujeres). La diferencia entre ambos resultados refleja las diferencias esperadas en la variable dependiente, expresadas en logits, que se pueden transformar fácilmente en odds o en probabilidades. Nuevamente, deberá elegirse el nivel de las otras variables independientes o bien de la variable dependiente, donde evaluar el efecto de sexo a través de su coeficiente bg, pues los efectos no serán los mismos en diferentes niveles de aquéllas.
[ 308 ]
12.5. Algunas utilidades de la regresión logística. Odds ratios Las aplicaciones de la regresión logística son análogas a las de la regresión ordinaria y algunas han sido esbozadas en lo que antecede. En principio, la determinación del efecto de las variables independientes o predictoras sobre las probabilidades de la variable dependiente, la comparación de la magnitud de dichos efectos y la evaluación de la independencia estadística de las variables predictoras son aplicaciones importantes. Así, se vio que la ecuación de regresión logística que relaciona la variable dependiente E con el colesterol plasmático, expresada como logits de E, permite pasar a odds de E y a probabilidad de E, para cualquier valor del colesterol. Si la regresión resulta estadísticamente significativa, se puede descartar la hipótesis nula de no asociación entre enfermedad y colesterol, y darle plena utilidad. En este punto puede agregarse otra variable al modelo y evaluar si es significativa como la variable colesterol, y si ésta conserva su significación luego de haber introducido la nueva variable. Si es así, se podrá afirmar que ambas variables son predictores independientes de E. También podrá ocurrir que una de las dos variables no sea significativa en presencia de la otra por compartir información, y los conceptos vistos en la Sección 11 son en general aplicables también en regresión logística. La comparación del efecto de distintas variables predictoras, el estudio de sus interrelaciones y la comprobación de hipótesis, son aplicaciones corrientes de la regresión logística. Algunas de las situaciones que pueden dificultar la obtención de resultados válidos son la omisión de variables relevantes, la inclusión de variables que no lo son, la colinearidad entre variables independientes, y otras condiciones de índole formal sobre las que no es posible extenderse, que pueden eventualmente llegar a infringir los supuestos teóricos de la técnica (cf. Menard, 2001). Por último, se expondrá una importante relación entre la regresión logística y el odds ratio de la variable dependiente para dos niveles de la variable predictora. Considérese una ecuación de regresión logística para una variable dependiente Y, cuyos logits están dados por una expresión del tipo L(Y) = a + bx, siendo a constante, b el coeficiente de regresión de x, y sea x una variable independiente binaria. Los logits y los odds para x = 1 y para x = 0 son:
L x=1 = a + b × 1 = a + b L x=0 = a + b × 0 = a
Odds x=1 = e a + b Odds x=0 = e a
Como se aprecia, L1− L 0 = b, o sea que la diferencia entre los logits para x = 1 y x = 0, es igual al valor del coeficiente b de la variable independiente x. Como L1 y L 0 son logaritmos de odds, y la diferencia entre los logaritmos de dos números es el logaritmo del cociente de esos números, la diferencia entre L1 y L 0 será el logaritmo del cociente de odds. En símbolos: L1 − L0 = ln (Odds x=1 / Odds x=0) y como L1− L 0 = b, el coeficiente de regresión de la variable binaria b es el logaritmo de la razón de odds u odds ratio (OR) para los valores 1 y 0 de la variable independiente. Este hecho es de gran utilidad en el análisis estadístico y vincula la regresión logística con otras técnicas que manejan odds, como el cálculo del riesgo relativo en los estudios de tipo casocontrol (ver Sección 16). [ 309 ]
En §16.6 se analiza un estudio de tipo caso-control donde se determina el odds ratio (OR) para el infarto de miocardio en presencia (x = 1) y ausencia (x = 0) de dislipemia, obteniéndose el valor 2.70. Introduciendo los mismos datos en un programa de regresión logística, se obtiene la ecuación: logit (infarto) = 1.40 − ( 0.993 × dislipemia ) donde 0.993 es el coeficiente b de la variable dislipemia. Como se demostró más arriba, este coeficiente es el logaritmo del OR entre los valores 1 y 0 de dislipemia. Por lo tanto, el OR se obtiene tomando el antilogaritmo de 0.993: OR = e 0.993 = 2.70 y el resultado es el mismo que se obtiene mediante el análisis directo de la Tabla 16.1 En forma análoga a lo ya visto, cuando la variable predictora es continua, la diferencia entre los logits para un incremento en una unidad de la variable predictora, es el logaritmo del OR de la variable dependiente entre los dos valores de la predictora. Por lo demás, la regresión logística permite el manejo eficiente de modelos con distintas variables en estudio, siendo un método de análisis multivariado de gran utilidad para abordar muchas situaciones que se presentan en la investigación médica. Con esto se han procurado delinear en forma muy esquemática los fundamentos y las posibles aplicaciones de la regresión logística. Si bien la complejidad de los cálculos está solventada en los paquetes estadísticos corrientes, las posibilidades y limitaciones inherentes a estas técnicas deben tenerse siempre presentes para obtener conclusiones suficientemente sólidas.
[ 310 ]
13. Métodos no paramétricos
13.1. Introducción Existen métodos que permiten la evaluación de diversas hipótesis, en especial en pruebas de significación estadística entre muestras, sin necesidad de asumir un tipo determinado de distribución de los datos, como podrían ser la distribución normal, la binomial o cualquier otra. Esto significa que dichos métodos operan sin necesidad de estimar los parámetros de las poblaciones de donde provienen las muestras (varianza, desvío estándar), y por este motivo son conocidos como métodos no-paramétricos (distribution-free methods). Con estos métodos, no sólo son innecesarias las estimaciones de parámetros de población, sino que éstos no intervienen en las pruebas de hipótesis. En general, los métodos no-paramétricos se utilizan cuando la presunción de no-normalidad de los datos es fuerte, o cuando de ser cierta, pudiera tener consecuencias de importancia en los cálculos. Su principal utilidad son las pruebas de significación estadística, ya que al no estimar parámetros son menos útiles para estudiar las características de la distribución de una variable. Por lo tanto, se utilizan para comparar muestras, pero como se verá, no comparan sus medias, varianzas u otros parámetros, es decir, no toman en consideración de qué tipo de distribución se trata en cada caso. En ocasiones, no sólo puede ser incierto el tipo de distribución de los datos, sino que éstos pueden carecer de escalas de medición adecuadas, y en estos casos ha demostrado utilidad proceder a su evaluación comparativa, sin adjudicarles medidas sino posiciones o rangos dentro del conjunto. Así, al evaluar del efecto de varios analgésicos, éstos pueden ser clasificados según su eficacia relativa respecto de los otros, en una escala de eficacia ascendente o descendente. Otro tanto ocurre al clasificar la intensidad del del dolor anginoso de uno a diez, o al graduar la capacidad funcional según la información proporcionada por el paciente. Si bien es difícil contar con unidades precisas para la medición del dolor o la capacidad funcional según escalas subjetivas, la ordenación de las variables (analgesia, intensidad del dolor, capacidad funcional) según la magnitud de las distintas observaciones, suele ser eficaz y permitir comparaciones entre distintos grupos sin ser necesario que los números o rangos asignados a cada individuo se distribuyan según una función de probabilidad conocida. En estas circunstancias tienen aplicación los métodos no paramétricos. Si bien los métodos no paramétricos tienen la ventaja de requerir menos trabajo de cálculo que los demás métodos basados en estimaciones de los parámetros de las poblaciones, y [ 311 ]
en este sentido se consideran métodos “rápidos,” los recursos de computación con los que actualmente se cuenta han hecho que lo sencillo y rápido del cálculo pase a segundo plano y así, la principal utilidad de los métodos no paramétricos son los casos en donde no se puede llegar a conocer el tipo de distribución subyacente en las muestras, o bien no existen escalas adecuadas para las mediciones y, en cualquier caso, la estimación de parámetros en los que basar los cálculos no es factible. 13.2. Pruebas para datos apareados. En estas pruebas la hipótesis nula propone que la distribución es simétrica alrededor de un valor central arbitrario, por ejemplo cero, y se utilizan con variables que pueden oscilar alrededor de éste, tomando tanto valores positivos como negativos. Esta situación es típica de la comparación entre pares de datos obtenidos de una misma muestra antes y después de una determinada intervención o tratamiento, donde la hipótesis nula a plantear es que el tratamiento no tiene efecto y por lo tanto las diferencias entre cada par de datos deben oscilar alrededor de cero, con desviaciones en uno u otro sentido (positivas y negativas) en número aproximadamente igual y de similares magnitudes. Supóngase que se ensayan a ciegas dos analgésicos, durante una semana cada uno, en 10 pacientes, y que al final del ensayo se pide a cada paciente que informe cuál de las dos semanas fue más confortable (las drogas A y B se deberían administrar aleatoriamente en la primera o segunda semana, y con un intervalo entre ambas, para evitar en lo posible el “arrastre” de los efectos de un período al otro). Los resultados pueden ser: “A mejor que B”, “B mejor que A” y “A y B iguales.” (los casos “A y B iguales” no se toman en cuenta pues no proporcionan información en un sentido u otro). La hipótesis nula es que, sin considerar los empates, los casos “A mejor que B” y “B mejor que A” tienen las mismas probabilidades, o sea P(“A mejor que B”) = P(“B mejor que A”) = 0.5. En el ejemplo, para 10 pacientes se esperan 5 casos a favor de A y 5 a favor de B (si hubiera “empates,” simplemente no se cuentan y se continúa el análisis con el resto de los datos). Supóngase que para 8 pacientes resultó “A es mejor que B” y para los 2 restantes “B es mejor que A.” Estos valores se apartan de los esperados por hipótesis nula, que son 5 para cada caso. Con ayuda de la distribución binomial, haciendo p = q = 0.5 (iguales probabilidades para “A mejor…” y “A no mejor…”) pueden determinarse las probabilidades exactas de obtener 8 respuestas a favor de A, y también las probabilidades en los casos aún más extremos: 9 respuestas a favor de A y 10 respuestas a favor de A. Un detalle importante: para que la prueba sea a 2 colas, deben considerarse los resultados extremos tanto para los casos en que “A es mejor que B” como para aquéllos en que “B es mejor que A,” que corresponden a 8, 9 y 10 respuestas a favor de B, o sea 2, 1 y 0 respuestas a favor de A. La suma de las probabilidades extremas para 8, 9 y 10 resultados a favor de A, más las opuestas, en el otro extremo: 2, 1, y 0 resultados a favor de A, expresa la cantidad de veces en que deberían esperarse resultados iguales o más extremos que los encontrados, si no hubieran en el universo diferencias entre las probabilidades a favor de A y a favor de B. Esta prueba se conoce como test del signo, y en el ejemplo arroja P = 0.11 (como se ve, hay más del 10% de probabilidades de obtener un resultado igual o más extremo a favor de una u otra droga). En los casos en que el número de observaciones es grande, la prueba de la hipótesis nula puede realizarse aproximando la distribución binomial por la normal, mediante los procedi[ 312 ]
mientos vistos en la Sección 8. En muestras de poblaciones que siguen la distribución normal, el test equivalente al test del signo es el test t de Student para datos apareados (§7.3). Como se ha dicho, la hipótesis nula se rechaza cuando hay suficiente evidencia de acumulación de datos con uno u otro signo, o sea a uno u otro lado del cero. Con ser extremadamente útil, el test del signo no aprovecha la información dada por la magnitud de las desviaciones de los datos. Por ejemplo, examínese el puntaje, de 1 a 10, obtenido para el efecto ansiolítico de dos drogas, A y B, probadas en seis individuos, en forma ciega y randomizada:
Individuo
Puntos A
Puntos B
A es mejor
A−B
|A−B|
Rango
1
8
2
Si
6
6
4
2
6 2
4 9
Si No
2 −7
2 7
2 5
3 4
4
9
No
−5
5
3
5
6
5
Si
1
1
1
6
1
9
No
−8
8
6
Se observa que si bien 3 casos favorecen a A y 3 casos a B, en los casos en que B es mejor que A, la diferencia en valor absoluto es mayor que cuando A supera a B (cuando B supera a A, lo hace por un promedio de 6.7 puntos, mientras que cuando A supera a B, la diferencia media es de 3 puntos). Ordenando las diferencias en forma creciente por su valor absoluto | A − B |, y adjudicándoles un número de orden o rango de menor a mayor, se ve que los rangos más altos tienden a asociarse con los casos en que la droga B fue mejor que A. Este comportamiento, que no sería detectable por el test del signo (ya que hay igual número de observaciones a favor de cada droga), puede ponerse a prueba calculando la significación de la diferencia entre las sumas de los rangos para A y B, que debería esperarse fueran iguales o muy similares si ambas drogas manifestaran los mismos efectos. La prueba se conoce como test de los rangos con signo de Wilcoxon (signed rank sum test). Los valores críticos de las sumas de rangos para los distintos niveles de P, se hallan calculados en forma exacta y tabulados para números relativamente pequeños de casos. Para muestras con mayor número de observaciones existen aproximaciones mediante la distribución normal, que no se expondrán aquí (ver Armitage y Berry, 1994). En el ejemplo, las sumas de rangos son, según la última columna, 1+2+4 = 7 para A y 3+5+6 = 14 para B, y si bien la diferencia no resulta significativa (consultando tablas), de continuar la tendencia en favor de B, podría esperarse que con un mayor número de casos se pudiera demostrar su significación estadística. El test de los rangos con signo tiene así la ventaja de tomar en cuenta la magnitud de las diferencias entre los pares de observaciones y no sólo su signo. Nótese de paso, que el desarrollo del test no necesita de ninguna presunción sobre el tipo de distribución subyacente en las poblaciones estudiadas. Como para el test del signo, el test equivalente en la teoría normal, es el test t de Student para datos apareados (§7.3).
[ 313 ]
13.3. Dos grupos independientes, ordenación por rangos Estos procedimientos se aplican en el caso de tener dos muestras al azar, una de ellas formada por n1 elementos de una población X, y la otra formada por n2 elementos de una población Y. La hipótesis que suele interesar es que las muestras provengan de distintas poblaciones, en una de las cuales la variable estudiada tienda a ser mayor o menor que en la otra, pero sin detenerse a considerar ni a calcular los parámetros de las poblaciones, como la media y el desvío estándar. Como se ha dicho, la ventaja de estos métodos “no paramétricos” radica en que muchas veces las variables muestrales no siguen distribuciones conocidas y sus parámetros no pueden estimarse como para aplicar los métodos de las secciones anteriores. En estos casos, la suposición más simple que se puede hacer, es que entre ambas muestras exista un “desplazamiento” de los valores de sus elementos, de modo que en una de ellas los valores de la variable tiendan a ser mayores o menores que en la otra. Esto se ilustra en la Figura 13.1, donde se observa que los valores de la distribución B son en general 2 unidades mayores que los correspondientes valores de la distribución A, sin importar que las distribuciones sean claramente no-normales. La hipótesis nula es que no existe diferencia o desplazamiento entre las distribuciones A y B, y debe poder ser rechazada para aceptar la validez de la hipótesis alternativa. Figura 13.1. Las distribuciones A y B, cuyos parámetros no están determinados, se hallan desplazadas entre sí de modo que los elementos de B se hallan en promedio 2 unidades de la escala por arriba de los elementos de A.
Existen varios procedimientos equivalentes destinados a probar la diferencia o “desplazamiento” entre la magnitud de las observaciones en X e Y, que se basan en el ordenamiento de las observaciones de acuerdo a su magnitud. Cada observación recibe así un número de orden o rango, de donde proviene el nombre de algunas de las pruebas. Si las poblaciones X e Y no difieren entre sí, los rangos de las observaciones xi y yj en las respectivas muestras, no deberían a su vez exhibir grandes diferencias, y en esto se basan las pruebas que se mencionan a continuación. El equivalente de estas pruebas en la teoría normal es el test t para muestras no apareadas o independientes (§7.2). El test de la suma de rangos de Wilcoxon (Rank sum test) asigna un número de orden, de menor a mayor, a las observaciones de las muestras a comparar, tomadas conjuntamente. Luego procede a sumar los números de orden o rangos dentro de cada muestra. La hipótesis nula es que, siempre que los grupos sean del mismo tamaño, la suma los rangos debe ser igual o muy [ 314 ]
semejante en ambos grupos. En cambio, si las observaciones tienden a tener valores mayores en una de las muestras, la correspondiente suma de los rangos también tenderá a ser mayor en esa muestra y será una evidencia en contra de la hipótesis nula y a favor de una diferencia entre ambos grupos. Considérense por ejemplo las siguientes observaciones correspondientes a la fracción de eyección en dos grupos de individuos, en donde interesa obtener algún grado de evidencia acerca del aparente predominio de valores más altos en el grupo X: Grupo X: 24, 32, 35, 38, 39, 40, 41, 45 Grupo Y: 23, 29, 30, 31, 34, 34, 35, 37
Ordenando las observaciones de menor a mayor y asignándoles un rango, se tiene: Observación
23
24
29
30
31
32
34
34
35
35
37
38
39
40
41
Grupo:
Y
X
Y
Y
Y
X
Y
Y
X
Y
Y
X
X
X
X
55 X
Rango:
1
2
3
4
5
6
7
8
9.5
9.5
11
12
13
14
15
16
Como existe una observación igual a 35 en cada grupo, a las que les corresponderían como puede verse arriba los rangos 9 y 10, a cada una se le adjudica el promedio de ambos rangos, o sea 9.5. En forma análoga se manejan los “empates” entre más de dos observaciones idénticas. Nótese que en cambio, si las observaciones idénticas se repiten en un mismo grupo, no es necesario asignarles un rango promedio: por ejemplo, en el Grupo Y se repite dos veces el 34, que aparece con los rangos 7 y 8, aportando un total de 15 a la suma de rangos de Y. Si se adjudicara un rango de 7.5 a cada repetición, el total sería también igual a 15. Sumando los rangos (y no el valor de las observaciones) para cada grupo y llamando a la suma T, obtenemos: T X = 2 + 6 + 9.5 + 12 + 13 + 14 + 15 + 16 = 87.5 Ty = 1 + 3 + 4 + 5 + 7 + 8 + 9.5 + 11 = 48.5 Como comprobación, la suma de T X y T Y debe ser igual a la suma total de los rangos, o sea, la suma de los números naturales de 1 a 16, pues hay 16 observaciones en total. La suma de los primeros n números naturales es igual a ½ n (n+1), lo que para n = 16 es igual a ½ × 16 × 17 = 136. Este valor es idéntico al que se obtiene sumando los rangos en cada grupo ( 87.5 + 48.5 ). En el ejemplo se observa que los valores correspondientes al grupo X tienen una suma de rangos mucho mayor que la del grupo Y, lo que sugiere que la hipótesis nula de distribuciones iguales no es correcta, ya que con igual número de casos en cada grupo se esperaría que la suma de los rangos para cada uno fuera aproximadamente la misma, o sea la mitad de la suma total de los rangos, en este caso 136 / 2 = 68. En este ejemplo, las sumas se alejan bastante de lo esperado. La significación de las posibles desviaciones, como evidencia para rechazar la hipótesis nula, se halla calculada y tabulada para diversos tamaños muestrales. Para el caso del ejemplo, se encuentra en tablas que para nX = nY = 8 casos por grupo, P = 0.05 cuando la menor de las dos sumas, T X o bien T Y, es ≤ 49. Como en nuestro caso T Y = 48.5, se concluye [ 315 ]
que un desplazamiento en los rangos como el observado es altamente improbable por azar, y se acepta una diferencia significativa entre los grupos, con un nivel P = 0.05. Desde ya debe notarse que la hipótesis nula con T X = T Y se aplica en los casos en que cada grupo tiene igual número de observaciones (nX = nY) pues de otra forma, T guarda también relación con el número de casos de cada grupo, ya que a mayor número corresponderá mayor cantidad de rangos sumados en T. De todos modos, en las tablas se hallan entradas para nX y nY (denominadas n1 y n2), previstas las posibles diferencias en el tamaño de los grupos o muestras a comparar. El procedimiento de consulta es siempre sencillo y no tiene especial importancia su descripción en este lugar. El proceso de cálculo en los paquetes estadísticos corrientes es inmediato y solo requiere la introducción de las dos series de datos a comparar. Las tablas corrientes con los niveles de P para diferentes tamaños de muestra han sido calculadas en forma exacta. Sin embargo, cuando el número de casos en cada grupo excede los tabulados, y si ninguno de los grupos contiene menos de 4 observaciones, puede utilizarse una aproximación a través de la distribución normal o de Gauss, sobre la cual no se tratará en este compendio (ver Armitage y Berry, 1994). Las pruebas de Mann-Whitney y de Kendall son equivalentes a la anterior y examinan todos los pares que se pueden formar con una observación del grupo X y otra del grupo Y, contando las veces en que el mayor valor del par pertenece a X y las veces en que pertenece a Y. El predominio de uno de los grupos constituye evidencia en contra de la hipótesis nula de no diferencias entre grupos, favoreciendo la de un “desplazamiento” entre los valores de sus observaciones, como el ilustrado en la figura 13.1. Los posibles resultados se hallan tabulados e integran los paquetes estadísticos corrientes. 13.4. Comparaciones entre más de dos grupos En el caso de comparaciones entre grupos formados según un único criterio de clasificación con tres o más niveles, un método empleado es el de Kruskal - Wallis, que es una generalización de pruebas como la de Wilcoxon o Mann-Whitney vistas en el parágrafo anterior. Un ejemplo de su empleo es la comparación entre tres o más grupos de pacientes, cada grupo adjudicado a un régimen terapéutico diferente (como podrían ser dosis crecientes de un mismo fármaco o también, fármacos diferentes), cuando las respuestas de interés no tuvieran distribución normal y en cambio pudieran ser ordenadas según rangos. El procedimiento análogo para variables con distribución normal, es la comparación de medias mediante el análisis de la varianza de un factor o “una ruta”, visto en §10.2. El objeto del análisis es detectar diferencias significativas en los niveles de la variable en estudio, en la forma de “desplazamientos” entre las distribuciones de sus rangos en los distintos grupos. Básicamente, el conjunto formado por los individuos de todos los grupos, se ordena de menor a mayor según la magnitud de la variable en estudio en cada individuo. A continuación, a la serie de valores así obtenida se hacen corresponder los rangos constituidos por los enteros de 1 en adelante. A partir de esta ordenación, a cada grupo le corresponderá la suma de los rangos de sus componentes, y el análisis procede en forma análoga al análisis de la varianza pero trabajando sobre los rangos y no sobre los valores originales de la variable. Se obtiene así un estadístico de prueba que tiene una distribución aproximada a chi-cuadrado,
[ 316 ]
con un grado de libertad menos que el número de grupos comparados. La hipótesis nula es que no existen diferencias entre la magnitud de los resultados para cada grupo. En tal caso, la suma de los rangos correspondientes también será igual o muy similar en todos los grupos. En lo que sigue se esboza la disposición de los datos para su análisis, que es además la forma habitual en la que se ingresan en los programas de cálculo estadístico. Los detalles del procedimiento pueden consultarse en Armitagex–y Berry, 1994. Considérense 3 tres grupos, A, B y C, formados por cuatro individuos cada uno y tratados con diferentes concentraciones de un fármaco. El resultado se evalúa como el tiempo en días hasta la curación o la obtención de determinado criterio que indique la finalización del tratamiento, y es el siguiente: Grupo A
Grupo B
4
10
Grupo C 12
3
5
15
7
12
21
8
7
9
Las cuentas de los días para cada individuo, ordenadas de mayor a menor, con su correspondiente rango y el grupo de pertenencia de cada individuo, son los siguientes: Días
3
4
5
7
7
8
9
10
12
13
15
21
Rango
1
2
3
4.5
4.5
6
7
8
9
10
11
12
Grupo
A
A
B
A
B
A
C
B
B
C
C
C
Como existe un “empate” entre los grupos A y B para las observaciones cuarta y quinta, a cada una se le adjudica el rango promedio 4.5. Reemplazando cada observación por su rango, la distribución final de los rangos en los grupos es: Grupo A
Grupo B
Grupo C
2
8
10
1
3
11
4.5
9
12
6
4.5
7
Esta es la forma habitual de disponer los datos en las hojas de los programas de estadística. Nótese que se opera con los rangos y no con la variable original (cantidad de días). El análisis prosigue en forma similar al análisis de la varianza para un factor (§10.2). Provisto que los casos en cada grupo no sean menos de cinco, la aproximación dada por Kruskal y Wallis es buena y, como se ha mencionado, el estadístico correspondiente se distribuye según chi-cuadrado con un grado de libertad menos que el número de grupos. Cuando los datos son originados en unidades experimentales o bloques (§10.4), por ejemplo en individuos que proporcionan una respuesta a cada uno de varios tratamientos, las respuestas de cada individuo pueden ordenarse en rangos de 1 a t, siendo t el número de [ 317 ]
tratamientos del ensayo. Para evaluar el resultado éstos, puede utilizarse el test de Friedman, que es una extensión del test del signo para muestras apareadas y cuyo análogo en la teoría normal es el análisis de la varianza en “dos rutas.” Este test se halla implementado en los distintos paquetes estadísticos y no se entrará en detalles de cálculo. En lo que sigue se muestra la disposición de los rangos en este tipo de prueba. En la tabla se observa que cada individuo proporciona los rangos 1 a 4, según haya sido la magnitud de su respuesta a cada uno de los cuatro tratamientos: Sujeto Nº
Tratamiento A
Tratamiento B
Tratamiento C
1
1
3
2
Tratamiento D 4
2
3
1
2
4
3
1
2
3
4
4
2
1
4
3
5
4
1
3
2
Esta es la forma habitual de disponer los datos en las hojas de los programas de estadística. Las magnitudes originales de las respuestas han sido reemplazadas por sus correspondientes rangos. Dado que a cada individuo se le adjudica el mismo número de rangos, en este caso 1 a 4 por haber cuatro tratamientos, la variabilidad entre las filas se reduce a cero y los efectos se observan entre columnas, o sea entre tratamientos. Los estadísticos de prueba se obtienen mediante procedimientos análogos a los vistos en la Sección 10, y para los detalles del cálculo puede consultarse Armitage y Berry, 1994. 13.5. Correlación de rangos En algunas oportunidades en que se desea evaluar el grado de correlación entre dos variables x e y, el coeficiente de correlación lineal r, visto en la Sección 9, puede no ser adecuado por varias causas, entre otras la no normalidad de las distribuciones de las variables y la no linearidad de la asociación entre las éstas. En esos casos, si dichas variables pueden ser ordenadas por rangos, pueden utilizarse métodos no paramétricos entre los que se cuenta la determinación del coeficiente de Spearman, rs. El procedimiento es análogo al visto en la Sección 9 para la determinación del coeficiente de correlación r, reemplazándose los valores muestrales de las x y las y por sus respectivos rangos. Debe por lo tanto adjudicarse rangos, de 1 en adelante, a las x, y repetirse el procedimiento con las y. Los pares originales de datos quedan así reemplazados por pares de rangos, y el procedimiento de cálculo de rs sigue como para el cálculo de r visto en Sección 9. La significación de rs frente a la hipótesis nula ( rs = 0) se puede obtener en forma aproximada mediante el mismo método que para el coeficiente r, dependiendo también de la magnitud de rs y del número de pares de la muestra. Asimismo existen tablas con la significación de rs frente a cero para distintos tamaños de muestra. Un análisis más detallado de los métodos no paramédicos puede encontrarse en Wackerly y col., 2002.
[ 318 ]
14. Pruebas diagnósticas
14.1. Pruebas positivas y negativas, diagnósticos verdaderos y erróneos Los diagnósticos de diversas enfermedades y condiciones médicas, se basan muchas veces en pruebas diagnósticas o tests, frecuentemente de laboratorio, mediante los cuales se puede clasificar a cada individuo como sano o afectado por la condición investigada. En la práctica los individuos o casos pueden clasificarse en forma dicotómica, en sanos o enfermos, y los exámenes o pruebas, en positivos (indicando presencia de la enfermedad o condición particular) y negativos (no indicando su presencia). Muchas pruebas de laboratorio permiten este tipo de interpretación, como por ejemplo el dosaje de los niveles de creatinquinasa en la isquemia miocárdica, que pueden considerarse como “test positivo” o “prueba positiva” al sobrepasar un determinado valor arbitrario aceptado como máximo normal. Sin embargo, cualquier método o elaboración diagnóstica capaz de detectar la presencia de una determinada condición o enfermedad, se comporta como una prueba o test. Así por ejemplo, la auscultación de un soplo sistólico de cierta intensidad en los focos de la base del tórax e irradiado al cuello, constituye una prueba diagnóstica de estenosis valvular aórtica, aunque no hayan técnicas de laboratorio de por medio y el instrumento de diagnóstico sea en realidad el propio médico. En cualquier caso, tanto el resultado de laboratorio como el signo clínico auscultatorio, operan como una prueba diagnóstica y cuando son positivos, clasifican a los individuos que los presentan, como portadores de isquemia miocárdica y valvulopatía aórtica respectivamente. Sin embargo, es sabido que las pruebas diagnósticas pueden producir resultados erróneos, ya sea por no detectar la enfermedad investigada cuando ésta se halla presente, como por señalar su presencia en individuos sanos. En base a esto, cuando una prueba resulta positiva (p. ej., creatinquinasa elevada) en un portador de la condición anormal investigada (isquemia), se habla de un resultado verdadero positivo, mientras que si la condición anormal se halla ausente, el resultado se denomina falso positivo. En cuanto a los resultados negativos de una prueba, si se obtienen en individuos que no presentan la enfermedad investigada, se llaman verdaderos negativos, mientras que si se obtienen en individuos que realmente la presentan, se denominan falsos negativos. Las respectivas siglas, VP, FP, VN y FN se usarán corrientemente en lo que sigue. Una forma eficaz de visualizar estas relaciones es graficarlas como en la figura 14.1. [ 319 ]
Figura 14.1. Representación de los resultados de una prueba diagnóstica hipotética. El rectángulo menor representa a los enfermos y el mayor, a los sanos. El área grisada representa los tests que resultaron positivos, y el área clara, los tests negativos. De las respectivas áreas se deduce que los tests positivos resultaron mayoría entre los enfermos, aunque hay algunos individuos sanos con tests positivos. También se aprecia que la mayoría de los individuos sanos presentaron tests negativos, como también lo hicieron algunos de los enfermos. VP verdaderos positivos, VN verdaderos negativos, FP falsos positivos, FN falsos negativos.
A todo esto, es fundamental tener en cuenta que para poder calificar los resultados de una prueba como verdaderos o falsos, debe existir un procedimiento diagnóstico que sirva para determinar la presencia o ausencia de la patología investigada con un alto nivel de certeza y actuar como estándar o patrón de referencia. Como se comprenderá, tales métodos de referencia suelen ser menos accesibles y muchas veces no están disponibles al realizar las pruebas diagnósticas en el contexto de la práctica clínica, de modo que la condición de verdaderos o falsos de los resultados obtenidos, muchas veces sólo puede ser conocida después de obtener nuevas evidencias, como biopsias, resultados quirúrgicos, o bien por la evolución del cuadro clínico y el agregado de nuevos exámenes al conjunto de datos. El alto nivel de certeza proporcionado por los métodos de referencia y en ocasiones por otros datos clínicos, es el que permite conocer el desempeño de una prueba diagnóstica, es decir, cuáles son las proporciones de sus aciertos y errores, y así, emplearla sola cuando no se dispone de métodos de referencia. Es comprensible que en general no exista una separación clara entre pruebas corrientes y métodos de referencia, pero lo que queda claro es que éstos últimos proporcionan un nivel de certeza diagnóstica en general muy superior a las primeras, que precisamente permite clasificarlas como verdaderas o falsas. En forma muy general, es el caso de los exámenes bioquímicos frente a la biopsia, o el de la electrocardiografía frente a la cinecoronariografía o los estudios radioisotópicos de perfusión miocárdica. Sin embargo, el tema es complejo y presenta aristas médicas sobre las que no corresponde extenderse, como la pregunta que surge muchas veces acerca de si la esencia de lo evaluado por una prueba diagnóstica y el correspondiente método de referencia, es en realidad la misma. De modo que, el comportamiento de las diversas pruebas diagnósticas frente al “veredicto” de los métodos de referencia, permite conocer sus capacidades diagnósticas e interpretar sus resultados en la forma más correcta posible cuando se las emplea en la rutina médica sin el apoyo de dichos métodos. Tales capacidades diagnósticas son la sensibilidad y la especificidad. [ 320 ]
14.2. Sensibilidad y especificidad Si se aplica una determinada prueba o test diagnóstico para cierta enfermedad a un grupo de 100 individuos que la padecen, y 90 presentan el test positivo (“verdaderos positivos”), se dice que la sensibilidad del test es del 90%. Los restantes 10 enfermos en quienes el test falla en la detección de la enfermedad y resulta negativo, corresponden a “falsos negativos.” La relación entre el número de tests verdaderos positivos (que señalan correctamente la presencia de la enfermedad) y el total de enfermos estudiados, se llama sensibilidad del test. Por lo tanto, ésta puede expresarse como: Sensibilidad = VP / ( VP + FN)
(14.1)
o bien Sensibilidad = VP / total de enfermos en quienes se aplica el test Si en otros 100 individuos, esta vez sanos, se aplica el mismo test y resulta negativo en 90 casos (“verdaderos negativos”), se dice que la especificidad del test es del 90%. Los restantes 10 individuos sanos en los que el test resulta erróneamente positivo, corresponden a “falsos positivos.” La relación entre el número de tests verdaderos negativos (que señalan correctamente la ausencia de enfermedad) y el total de individuos sanos estudiados, se llama especificidad del test. Por lo tanto, ésta puede expresarse como: Especificidad = VN / (VN + FP)
(14.2)
o bien Especificidad = VN / total de sanos en quienes se aplica el test Como se desprende de lo visto hasta aquí, para conocer la sensibilidad y la especificidad de un test o prueba diagnóstica, ésta debe ensayarse en individuos en los que no haya dudas sobre su estado de salud o enfermedad, de modo de medir la sensibilidad del test en los enfermos y la especificidad en los sanos, sin posibilidad de confundir ambos estados. Una vez conocidas (estimadas) su sensibilidad y especificidad, recién podrá usarse el test para sus fines diagnósticos, en individuos cuyo estado de salud o enfermedad sea incierto. De aquí surge que la sensibilidad y la especificidad de las diversas pruebas diagnósticas se estiman siempre con respecto a un método estándar o patrón de referencia. Se acepta que el método estándar no producirá resultados erróneos. De esta manera, la sensibilidad y especificidad de las distintas pruebas diagnósticas, como marcadores humorales o imágenes, se podrán evaluar en individuos para los que también se disponga, como se ha mencionado anteriormente, de información diagnóstica con alto nivel de certeza, entre la que se cuenta el resultado de los métodos de referencia. En realidad, estos estándares son también pruebas diagnósticas, y la distinta jerarquía de las mismas es materia de conocimiento médico. Asimismo, los estándares pueden ser mejorados o modificados al incorporarse nuevos conocimientos y técnicas [ 321 ]
en la materia. Por otra parte, si bien la seguridad diagnóstica que proporciona un método de referencia es algo importante y deseable, estos métodos patrón son en general más complejos y costosos que los demás, y muchos de ellos son invasivos y pueden llegar a causar daño. Estos hechos son los que confieren su importancia al conocimiento de las pruebas diagnósticas alternativas, que por contraste resultan en general más sencillas, baratas y repetibles. También es útil recordar que los métodos patrón o estándar, no sólo pueden ser costosos, sino a veces imposibles de obtener, como puede ser el diagnóstico de certeza de alguna enfermedad cuando ésta se halla en sus estadios iniciales, diagnóstico que muchas veces sólo podrá lograrse de la historia clínica en estadios más avanzados, o bien, de la autopsia. En tanto, la determinación de la sensibilidad y especificidad de las pruebas diagnósticas permitirá su aplicación clínica, eventualmente evitando o postergando el empleo de métodos costosos o invasivos. Un test es mejor que otro cuanto más sensible y específico, y este criterio permite comparar tests entre sí. Sin embargo, no es posible mejorar las dos propiedades a la vez en el mismo test. Si se desea aumentar la sensibilidad será necesario disminuir el umbral diagnóstico del test, esto es, exigirle una menor desviación de la normalidad para tomarlo como positivo. Al respecto debe notarse que los resultados que producen la mayoría de los tests son datos continuos o que permiten gradaciones, con lo cual el valor a partir del cual se considera que un test es positivo, conocido comúnmente como umbral, es una decisión de los investigadores. Por ejemplo, para aumentar la sensibilidad de la creatinquinasa en la detección de la isquemia miocárdica, sería factible reducir el valor establecido como máximo normal o valor umbral a partir del cual se considera que la enzima indica isquemia. Sin embargo, la contraparte inevitable es que al hacer esto, cierta cantidad de individuos normales aunque con valores de la enzima algo más altos que los demás, sean incorrectamente clasificados como isquémicos, cayendo la especificidad de la prueba. Lo inverso ocurre si se trata de obtener tests altamente específicos, que resultarán en general tan exigentes para dar un resultado positivo, que fallarán en detectar la patología existente en muchas oportunidades, cayendo en consecuencia la sensibilidad del test. Para un mismo test, esta interdependencia de la sensibilidad y la especificidad es siempre la misma y es característica del test, siendo lo que permite comparar la eficacia relativa de distintos tests entre sí. Las estimaciones de la sensibilidad y la especificidad de un test diagnóstico dependen como se ha visto, de los límites de normalidad adoptados y asimismo, dependerán de la definición y niveles de severidad de las condiciones investigadas. Una vez establecidas estas condiciones, la sensibilidad y la especificidad son características del test. En contraste, es fundamental notar que la sensibilidad y la especificidad de una prueba diagnóstica no dependen de la proporción de individuos sanos y enfermos en el grupo en el que se aplica la prueba. Si la sensibilidad de la prueba es del 90%, detectará la enfermedad en 9 de cada 10 enfermos, o en 90 de cada 100, sin importar la proporción de enfermos y sanos en la población estudiada. Como se verá a continuación, este hecho contrasta con las diferentes proporciones de resultados correctos que puede rendir una misma prueba según se aplique a poblaciones con distintas prevalencias de la enfermedad, esto es, con distintas proporciones de enfermos y sanos.
[ 322 ]
14.3. Valor predictivo Si una misma prueba diagnóstica se aplica a poblaciones con distinta prevalencia de la enfermedad en cuestión, las proporciones de aciertos y errores diagnósticos serán diferentes para cada población, aunque la sensibilidad y la especificidad de la prueba permanezcan invariables. Lo que varía en función de la composición de las poblaciones es lo que se denomina el valor predictivo de la prueba. Esto se ilustrará mediante dos ejemplos, expuestos en la tabla 14.1. Si se considera una muestra de 800 individuos tomada de una población donde la prevalencia de la enfermedad sea del 50%, habrá que esperar 400 individuos sanos y 400 enfermos. Si se aplica una prueba diagnóstica cuya sensibilidad y especificidad sean ambas iguales al 90%, detectará correctamente el 90% de los enfermos y el 90% de los sanos, esto es, 400 × 0.9 = 360 individuos en cada caso. En consecuencia habrán 40 falsos positivos y 40 falsos negativos, correspondientes al 10% de los sanos y al 10% de los enfermos respectivamente (tabla 14.1, A). En la columna correspondiente a test (+) se observa que 360 de cada 400 tests, o 9 de cada 10, identifican correctamente a un enfermo. Tabla 14.1. La misma prueba, cuya sensibilidad y especificidad, ambas del 90%, son constantes, se aplica a dos muestras de 800 pacientes cada una, la primera proveniente de una población con una prevalencia de la enfermedad del 50% (A) y la otra, de una población con una prevalencia del 10% (B). Se muestra el número de individuos esperados en cada categoría de la tabla.
A. Prevalencia 50 %
Test
Test
( + )
Enfermos
360
40
400
40
360
40
400
400
Sanos
B. Prevalencia 10 %
( − )
( + )
(−)
Enfermos
72
8
80
Sanos
72
648
720
144
656
800
800
Si en cambio, la prevalencia de la enfermedad fuera más baja, digamos del 10%, habría que esperar que sólo 80 de los 800 individuos la presenten, y que los restantes 720 sean sanos. Esto se aprecia en la tabla 14.1, B, donde con la misma sensibilidad y especificidad del test que en el caso anterior, es fácil calcular que habrán 80 × 0.9 = 72 enfermos correctamente detectados por un test positivo (verdaderos positivos) y 720 × 0.9 = 648 individuos sanos correctamente diagnosticados por un test negativo (verdaderos negativos). Si ahora se observa la columna correspondiente a test (+) se comprueba que de 144 tests positivos obtenidos en el total de la muestra, 72 pertenecen a enfermos correctamente clasificados y 72 a individuos sanos erróneamente diagnosticados como enfermos. Si bien la detección de 72 de los 80 enfermos es satisfactoria, ahora el número de falsos positivos ha aumentado casi al doble, y se trata de individuos sanos que deberán sufrir nuevos exámenes. Lo que ha ocurrido es que, al haber una cantidad proporcionalmente muy grande de individuos sanos, aunque la especificidad del test siga siendo del 90%, el 10% de falsos positivos esperable entre los sanos y aceptable en el primer ejemplo, ahora produce una cifra de 72 falsos positivos. Este valor coincide en el
ejemplo con el número de verdaderos positivos, por lo que un test cualquiera sorteado entre los 144 tests positivos, tiene la mitad de las probabilidades de corresponder a un individuo enfermo y la otra mitad, de corresponder a uno sano. Este resultado, que limita la utilidad del test para la detección de enfermedad, está condicionado por la baja prevalencia de la misma.* La relación entre el número de individuos enfermos correctamente identificados como tales y el total de resultados positivos, se llama valor predictivo del test positivo y se expresa: Valor predictivo de un test ( + ) = VP / (VP + FP)
(14.3)
En el ejemplo, como se ha visto, si la prevalencia de la enfermedad es del 50%, el valor predictivo de un test positivo resultará igual a 360 / 400 = 0.9 o 90%, y si la prevalencia es del 10% resultará igual a 72 / 144 = 0.5 o 50%. Análogamente a lo visto para un test positivo, se llama valor predictivo de un test negativo al cociente entre el número de individuos sanos correctamente identificados como tales, y el total de tests negativos obtenidos: Valor predictivo de un test ( − ) = VN / (VN + FN)
(14.4)
En el ejemplo en el que la prevalencia de enfermedad es del 10%, y con una prueba con sensibilidad y especificidad iguales al 90% (Tabla 14.1, B), se observa que se producen 648 verdaderos negativos y 8 falsos negativos, de donde resulta que el valor predictivo de un test negativo es igual a 648 / (648 + 8) = 0.99 o 99%. Este alto valor predictivo para un test negativo es la contrapartida del bajo valor predictivo (50%) que tiene un test positivo cuando la prevalencia de la enfermedad es baja. Se ve que la utilidad de una prueba depende, por una parte, de su sensibilidad y especificidad y por la otra, de la prevalencia de la enfermedad en la población en estudio. Esto tiene importantes consecuencias prácticas. Se vio que una baja prevalencia de enfermedad, al implicar una mayoría de individuos sanos, favorece la presentación de falsos positivos, puesto que éstos se dan entre los individuos sanos. Esta abundancia de falsos positivos disminuye la probabilidad de que un test positivo en esa población, sea verdadero (14.3). De este modo, aunque la sensibilidad y la especificidad de un test sean altas y no varíen, al aplicarlo al diagnóstico en una población con baja prevalencia de enfermedad proporcionará una cantidad de falsos positivos que hará poco útil la prueba, pues habrá que proseguir con nuevos estudios para separarlos de los verdaderos positivos (enfermos). 14.4. Probabilidad previa y probabilidad posterior a un test. Teorema de Bayes Cuando un test resulta positivo para una determinada condición o enfermedad, es inmediato pensar que la probabilidad de padecer dicha enfermedad debe estimarse como más alta de lo que se juzgaba antes de realizar el test (en este tipo de situaciones, en que la probabilidad de la enfermedad no se estima demasiado alta, resulta útil una prueba diagnóstica, ya que si la probabilidad antes de la prueba se considerara muy alta, tendría menos sentido realizarla). * Es fácil comprobar que con sensibilidad y especificidad iguales a 90% como en el ejemplo, si la prevalencia de la enfermedad cae por debajo del 10%, un test positivo tiene mayor probabilidad de corresponder a un sano que a un enfermo.
[ 324 ]
Nótese también, que para poder aceptar que las probabilidades de enfermedad han aumentado, debía existir alguna noción previa sobre las mismas antes de hacer el test. Al respecto, se habla de probabilidades pre-test y post-test. El teorema de Bayes permite utilizar las probabilidades pre-test estimadas o aceptadas para una determinada enfermedad, y los resultados de un test orientado al diagnóstico de la misma, del que se conocen su sensibilidad y su especificidad, para estimar una nueva probabilidad de enfermedad que incluya la información proporcionada por el test, la que se denomina probabilidad post-test. Aquí se expondrán sucintamente los conceptos más básicos y la posible aplicación del teorema de Bayes al análisis de los resultados de un test, examinando en especial la forma en que se modifican las probabilidades estimadas. Aunque las diversas pruebas o tests pueden presentar más de dos resultados, incluyendo series de valores continuos, y las clases de enfermedad pueden ser varias, la descripción se limitará al caso más simple de dos posibles resultados del test, que se llamarán test positivo (T+) y test negativo (T−), y dos clases posibles de diagnóstico, a saber, enfermedad presente (D) y enfermedad ausente (no D). El teorema de Bayes, que admite aplicaciones en varios campos de las ciencias, en medicina se desarrolla en su forma más simple a partir de un test T, cuya sensibilidad y especificidad son conocidas, y cuyos dos resultados posibles son, como se mencionara, positivo o negativo (frecuentemente, a partir de una línea arbitraria de corte en una prueba que rinde resultados en una escala continua). Antes de la aplicación del test, debe tenerse una idea o existir una estimación, de la probabilidad de enfermedad para el individuo o caso en cuestión, que se denomina probabilidad previa o pre-test, P(D). La prevalencia de la enfermedad en la población es frecuentemente utilizada como probabilidad pre-test. El teorema se deriva formalmente del cálculo de probabilidades esbozado en la Sección 3, y proporciona la probabilidad de enfermedad, con la condición de un test positivo. Este resultado es el valor predictivo de un test positivo visto en el párrafo anterior, que se denomina habitualmente probabilidad post-test y se expresa P(D | T+), que se lee: “probabilidad de enfermedad, dado un test positivo.” Su valor está dado en función de la sensibilidad y la especificidad del test, y de la probabilidad de enfermedad pre-test, P(D). Antes de examinar la ecuación de Bayes, obsérvese que en términos de probabilidad condicional, la sensibilidad de un test se define como P(T+ | D) o “probabilidad de un test positivo, dada la presencia de enfermedad,” y tiene la forma de la ecuación 14.1. Análogamente, la especificidad se define como P(T− | no D), que es la “probabilidad de un test negativo, dada la ausencia de enfermedad,” y es idéntica a la expresión dada en 14.2. Con estas premisas, la fórmula de Bayes corresponde a la siguiente ecuación: P(D | T+) = P(T+ | D) × P(D) / P(T+ )
(14.5)
donde P(T+ | D), como se dijo, es la sensibilidad del test, en tanto que el numerador completo, [ P(T+ | D) × P(D) ], según la regla para la multiplicación de probabilidades resulta ser la probabilidad de (T+ y D), test positivo y enfermedad presente.* En tanto, el denominador P(T+), es la probabilidad de un test positivo en todo el conjunto de sujetos, sanos y enfermos, que integran la población, y corresponde a la zona grisada de la figura 14.1. Se ve que la ecuación * Recuérdese que la regla para la multiplicación de probabilidades, esto es, para obtener la probabilidad de A y B ocurriendo simultáneamente, es: P (A y B) = P (A) × P (B | A) ( §3.3.2).
[ 325 ]
de Bayes divide la probabilidad de “test positivo y enfermedad” por la probabilidad de “cualquier test positivo, haya o no enfermedad.” De esta manera, responde a la pregunta: cuál es la probabilidad de que el paciente tenga la enfermedad, si el test resulta positivo? Ahora bien, a fin de obtener una forma del teorema en función de la sensibilidad y especificidad del test, el denominador debe descomponerse en la suma las probabilidades de test positivo dada enfermedad, y test positivo en ausencia de enfermedad: P(T+ ) = [ P(T+ | D) × P(D) ] + [ P(T+ | no D) × P( no D) ]
(14.6)
de modo que reemplazando P (T+ ) en 14.5, se tiene una versión desarrollada del teorema: P(D | T+) = P(T+ | D) × P(D) / [P(T+ | D) × P(D) + P(T+ | no D) × P(no D) ]
(14.7)
donde, como se señaló más arriba, P(T+ | D) es la sensibilidad del test, y P(D) la prevalencia o cualquier estimación de la probabilidad pre-test. A su vez, P(T+ | no D) es la probabilidad de obtener un test positivo en ausencia de enfermedad, la cual es el complemento de la especificidad y se puede por tanto escribir (1 − especificidad). Por último, P(no D) es el complemento de la prevalencia P(D) y puede escribirse 1 − P(D). Haciendo estas sustituciones el teorema de Bayes queda expresado como: P(D |T+) = sensibilidad × P(D) / [sensibilidad × P(D) + (1 − especificidad) × (1−P(D)] (14.8) que permite estimar la probabilidad de enfermedad dado un resultado positivo del test, conociendo tres datos: la sensibilidad y la especificidad del test, y la prevalencia de la enfermedad o probabilidad pre-test. Ejemplo 14.1. Se ha informado que la ecocardiografía de esfuerzo tiene una sensibilidad del 68% y una especificidad del 90% para el diagnóstico de enfermedad coronaria (Hirano y col., 2006). De acuerdo a esto, ¿en cuánto puede estimarse la probabilidad de enfermedad coronaria en un hombre de 40 años, asintomático, con un ecocardiograma de esfuerzo positivo (anormal)? Dejando de lado la exactitud de las estimaciones de la sensibilidad y especificidad del eco de esfuerzo, el tema crucial es la asignación de probabilidades pre-test de enfermedad coronaria al paciente en cuestión, ya que la aplicación de la fórmula de Bayes es sencilla. La prevalencia de la enfermedad coronaria en la población general puede aceptarse, a los fines del ejemplo, en alrededor del 7% (Diamond y Forrester, 1979). Aunque es posible tratar de mejorar la estimación de las probabilidades pre-test de enfermedad coronaria a partir de múltiples factores, en particular los llamados factores de riesgo, se mostrará el cálculo con los datos mencionados. Reemplazándolos en 14.8, se tiene: P(coronariopatía | test +) = 0.68 × 0.07 / [ 0.68 × 0.07+ (1 − 0.90) × (1 − 0.07)] = 0.34
[ 326 ]
con lo que la probabilidad de padecer coronariopatía luego de un ecocardiograma de esfuerzo anormal se estima en 34%. Esta sigue siendo una probabilidad no demasiado alta: la probabilidad de estar sano es aún 1 − 0.34 = 0.66 o 66%. La chance de estar sano, según la prueba, es de alrededor de 2 a 1. Si el paciente en cuestión se presentara con angina atípica, la probabilidad pre-test podría estimarse en alrededor del 50% (Braunwald el al, 2001). En tal caso, la probabilidad post-test sería igual a P(coronariopatía | test +) = 0.68 × 0.50 / [ 0.68 × 0.50 + (1 − 0.90) × (1 − 0.50)] = 0.87 u 87% que es un valor relativamente alto y debería obligar a proseguir los estudios. Por último, si el paciente se presentara con angina típica, su probabilidad pre-test rondaría, según la misma fuente, el 90%, y el lector puede calcular como ejercicio que la probabilidad luego de un test ecocardiográfico positivo resulta del 98%, que es un nivel muy alto que se podría decir “próximo a la certeza,” aunque teniendo presente que los cálculos estadísticos se ajustan a los datos pero no reemplazan al juicio médico. Mediante la aplicación reiterada de la fórmula de Bayes, realizando diversos tests (diferentes entre si), se pueden mejorar las estimaciones. Nuevamente es necesario insistir en la cautela que se debe tener al aceptar números y porcentajes para el diagnóstico de un paciente determinado. Un punto crítico que incide mucho en la aplicabilidad de la fórmula de Bayes a las situaciones reales, es la estimación de la probabilidad de enfermedad antes de cualquier test. Como ya se ha mencionado, una buena medida de la probabilidad pre-test es la prevalencia de la enfermedad en la población de donde provienen los casos, que es un dato numérico derivado de la observación (ver Sección 16). Sin embargo, no siempre se tienen estimaciones precisas de la prevalencia, y puede incluso que no sea determinable para las condiciones más o menos complejas de un paciente dado. Con frecuencia, aunque existen elementos de juicio más o menos claros a favor o en contra de la condición en estudio, esos conocimientos no son fácilmente traducibles en probabilidades, que son números, y la probabilidad pre-test permanece indeterminada. Si bien habrá consenso en que un individuo joven y asintomático al que se le solicita una prueba ergométrica debe tener una baja probabilidad de padecer enfermedad coronaria, la probabilidad pre-test estará mucho menos definida si se trata de un paciente de mediana edad con síntomas dudosos y uno o dos factores de riesgo. En diversos campos de interés, existen estimaciones de la probabilidad pre-test, elaboradas a partir de muestras estudiadas con métodos estándar para decidir la presencia o no de enfermedad, en determinadas poblaciones. Para su aplicación en el caso de un individuo en particular, siempre hay que considerar detalladamente las características de las poblaciones de donde fueron derivadas las estimaciones, y determinar si son suficientemente concordantes con las condiciones del paciente en particular.
[ 327 ]
14.5. Razón de probabilidades de una prueba diagnóstica (likelihood ratio) En este apartado se describen los cocientes o razones de probabilidad de los tests, más conocidos por su expresión inglésa likelihood ratio, que son estadísticos que resumen en un solo número la sensibilidad y la especificidad de un test, y como éstas, lo caracterizan. Los likelihood ratios (LR) permiten un manejo sencillo y eficiente de la sensibilidad y la especificidad de los tests, para obtener las probabilidades post-test, toda vez que se tenga una estimación de las probabilidades previas. El LR de un test positivo resume cuánto más propensos a presentar un test positivo se hallan los individuos con la enfermedad, que los que no la padecen. Como sabemos, la probabilidad de un test positivo en los enfermos está dada por la sensibilidad del test, y la probabilidad del mismo test positivo, en los sanos, es el complemento de la especificidad, o sea 1−especificidad. Por lo tanto, puede escribirse: LR (test +) = sensibilidad / (1 − especificidad)
(14.9)
Puede también considerarse el caso de un test negativo, y en este caso, el LR expresará la razón entre la probabilidad de un test negativo en los enfermos y de un test negativo en los sanos. Es fácil ver que estas probabilidades están dadas por 1−sensibilidad y por la especificidad, respectivamente. Se tiene entonces: LR (test −) = (1 − sensibilidad) / especificidad
(14.10)
En lo que sigue se examinará el LR para un test positivo. En primer lugar, se observa en (14.9), que aumentará cuanto más sensible y específica sea la prueba. También se ve que cuando la sensibilidad y la especificidad son ambas iguales a 0.50, el LR será igual a 1. En este caso el resultado del test será irrelevante para el diagnóstico. Por último, si caen la sensibilidad y la especificidad, se podrá dar que LR (test +) < 1, y en este caso la enfermedad será más improbable con un test positivo que con uno negativo. En el ejemplo de un test con una sensibilidad y una especificidad del 90%, reemplazando en (14.9) se tendrá LR (test +) = 0.90 / ( 1 − 0.90) = 9 y para la ecocardiografía de esfuerzo (Ejemplo 14.1) donde sensibilidad = 68% y especificidad = 90%, será LR (test +) = 0.68 / ( 1 − 0.90) = 6.8 En forma muy general, likelihood ratios mayores que 10 se consideran evidencia fuerte a favor del diagnóstico de la enfermedad en cuestión. Ahora bien, los likelihood ratios cobran su utilidad práctica en el contexto del teorema de Bayes, y su aplicación es extremadamente sencilla con la condición de trabajar con odds en vez de probabilidades (§3.4), para lo cual solamente deberá recordarse la transformación: Odds = P / (1 − P). [ 328 ]
Se ha visto que el teorema de Bayes expresa la probabilidad post-test o probabilidad de enfermedad dado un test positivo, P( D | T+), en función de la sensibilidad y especificidad del test. Expresando dicha probabilidad como odds post-test a favor de la enfermedad, puede demostrarse que (14.8) equivale a: Odds post-test = odds pre-test × likelihood ratio
(14.11)
que es una ecuación sencilla donde deben reemplazarse las probabilidades por sus odds. A partir de la probabilidad pre-test P(D), muchas veces estimada a partir de la frecuencia o prevalencia de la enfermedad en la población, se calculan los odds pre-test, P(D) / [1 − P(D)]. El producto de estos odds por el LR corresponde a los odds post-test a favor de la enfermedad, el resultado de la aplicación de la fórmula de Bayes expresado en odds. El pasaje de odds a probabilidades convencionales se realiza como en (3.7): P = odds / (odds + 1). Ejemplo 14.2. Con los datos del Ejemplo 14.1, el cálculo de las probabilidades de enfermedad coronaria post-ecocardiograma de esfuerzo positivo puede hacerse conociendo el LR del método para un test positivo, que se ha visto más arriba que se calcula a partir de (14.9) y para este caso resultó igual a 6.8. Este valor es característico para el test, y sólo se requiere multiplicarlo por una estimación de los odds pre-test a favor de coronariopatía, para obtener los odds post-test según (14.11). Se verá el caso del paciente con probabilidad pre-test P(D) = 0.07. Se tiene: Odds pre-test = P(D) / [1 − P(D)] = 0.07 / (1 − 0.07) = 0.075 Odds post-test = odds pre-test × likelihood ratio = 0.075 × 6.8 = 0.51 Probabilidad post-test = Odds post-test / (Odds post-test + 1) = 0.51 / ( 0.51 + 1) = 0.34 como en el Ejemplo 14.1. Conociendo el LR del método no es necesario emplear la sensibilidad y la especificidad, pues toda la información está contenida en aquél. Se ha visto hasta aquí que la sensibilidad y la especificidad caracterizan a las pruebas diagnósticas o tests, pero en principio sólo predicen la proporción de tests positivos y negativos que se obtendrán de individuos enfermos y sanos respectivamente. Si además del resultado del test se tiene una idea de la prevalencia de la enfermedad en la población, que estima la probabilidad de la enfermedad sin tomar en cuenta el test, es posible mejorar la precisión de esta estimación calculando el valor predictivo de un resultado positivo o negativo del mismo. La ecuación de Bayes (14.8) proporciona estimaciones del valor predictivo donde es posible evaluar la contribución relativa de la sensibilidad y la especificidad de test en los resultados obtenidos. Finalmente, los likelihood ratios resumen en un solo número la relación entre sensibilidad y especificidad de un test, y permiten un sencillo cálculo de las probabilidades post-test, con el único requisito de expresarlas como odds.
[ 329 ]
14.6. Exactitud global de un test (overall accuracy) La llamada exactitud global de un test (overall accuracy) expresa la proporción de resultados correctos que se obtienen con su aplicación, y se calcula sumando verdaderos positivos y verdaderos negativos, y dividiendo por el número total de individuos examinados: Exactitud global = VP + VN / (VP + FP + VN + FN)
(14.12)
donde el denominador corresponde a las distintas clases de resultados posibles. Se ve que la exactitud global condensa en una sola cifra los datos empleados para estimar el valor predictivo de un test positivo y de un test negativo, y que se obtiene sumando los numeradores y los denominadores de las ecuaciones 14.3 y 14.4. La exactitud global de un test tiene la ventaja de expresar el rendimiento en una sola cifra, pero a expensas de no discernir si los casos correctamente identificados corresponden a verdaderos positivos o verdaderos negativos, o sea sin separar los valores predictivos positivo y negativo del test. Esta es una importante desventaja. Por lo demás, al igual que para el valor predictivo de un test, la exactitud global también depende de la prevalencia de la enfermedad en la población. En los ejemplos de §14.3 correspondientes a la Tabla 14.1 se ha visto como los valores predictivos para un mismo test difieren marcadamente según la prevalencia de la enfermedad y sin embargo, la exactitud global es la misma, como puede comprobase fácilmente sumando los “aciertos” en el caso A (360 verdaderos positivos y 360 verdaderos negativos) y en el caso B (72 verdaderos positivos y 648 verdaderos negativos), que totalizan 720 diagnósticos correctos en cada una de las dos opciones. Por lo tanto, la exactitud global mezcla la información acerca del comportamiento de un test de un modo innecesario, y es un indicador de escaso valor, del rendimiento de una prueba diagnóstica. 14.7. Curvas ROC Las llamadas curvas ROC (receiver operating characteristc) constituyen una forma de condensar y presentar en forma visual una gran cantidad de información acerca del rendimiento de un test, cuando los resultados del mismo se pueden medir en escala continua. Su fundamento es que, dado que al variar el punto de corte de un test a partir del cual se lo considera positivo cambiarán su sensibilidad y especificidad, y si existe una cantidad indefinidamente grande de posibles puntos de corte arbitrarios, habrá también una gran cantidad de niveles en cada uno de los cuales el test funcionará con una sensibilidad y una especificidad determinadas. De esta manera, en cada punto de corte, el test producirá una determinada cantidad de resultados verdaderos positivos y falsos positivos. Estos resultados representan la sensibilidad y el complemento de la especificidad, 1 − especificidad, respectivamente. De esta manera, a cada punto de corte o nivel del test, le corresponderá un par de valores, y si los puntos se representan en un sistema de ejes cartesianos, generan una secuencia que recibe el nombre de curva ROC y es característica de cada test. En general, al evaluar un test en un solo punto de corte, por encima del cual se diagnostica la presencia de la enfermedad, lo que se está haciendo es obtener un punto de la curva ROC, cuyas coordenadas vertical y horizontal son las proporciones de resultados verdaderos positivos y de resultados falsos positivos respectivamente.
[ 330 ]
Figura14.2. Curva ROC para el diagnóstico de hipertrofia ventricular izquierda mediante el índice de Sokolow-Lyon. El eje vertical representa la sensibilidad del test y el eje horizontal el complemento de la especificidad (1 − especificidad) para los diversos umbrales posibles. Los puntos A, B y C representan el rendimiento del test con distintos umbrales.
Para obtener una curva ROC completa se necesitan más puntos, para lo cual hay que variar el umbral del test de un modo continuo. Como en cualquier determinación de la sensibilidad y la especificidad de un test, debe contarse con un método estándar que proporcione los diagnósticos de referencia. La mecánica del procedimiento se esboza a continuación a partir de datos presentados por Rodríguez y col, 2004. En una muestra de 266 individuos de ambos sexos, se ensaya el índice electrocardiográfico de Sokolow-Lyon para el diagnóstico de la hipertrofia ventricular izquierda (HVI), pero en vez de hacerse una única prueba con el valor de corte tradicionalmente aceptado de 35 mm (3.5 mV), se realizan varios ensayos para distintos puntos de corte. Previamente, la presencia de HVI ha sido detectada con “certeza” mediante el ecocardiograma (que actúa como método referencia) en 72 individuos, con lo cual hay 266 − 72 = 194 individuos sin HVI. Volviendo al índice de Sokolow-Lyon, tomando como punto de corte 35 mm (de modo que Sokolow-Lyon ≥ 35 mm se considera diagnóstico de HVI) se observan 22 resultados positivos, de los cuales 17 corresponden a HVI (verdaderos positivos) y 5 a individuos sin HVI (falsos positivos). Con este punto de corte, la proporción de verdaderos positivos detectados es de tan sólo 17 en 72 individuos con HVI, o sea 17 / 72 = 0.24 o 24%, en tanto que la proporción de falsos positivos es de 5 en 194 individuos normales o sea 5 / 194 = 0.026 o 2.6%. La proporción de verdaderos positivos detectados refleja la sensibilidad del test con un punto de corte en 35 mm, en tanto que la proporción de falsos positivos, 0.026, corresponde a los casos donde “falla” la especificidad, lo que se puede expresar como (1 − especificidad). Si se representan gráficamente la fracción de verdaderos positivos (sensibilidad) y la de falsos positivos (1 − especificidad) se obtiene el punto A de la Figura 14.2. Dado que 0.026 es igual a (1 − especificidad), la especificidad se calcula enseguida en 1 − 0.026 = 0.974 o 97.4%. Estos datos concuerdan con la pobre sensibilidad y muy alta especificidad del índice de Sokolow[ 331 ]
Lyon en el nivel de corte en que es corrientemente utilizado. El punto A es un punto perteneciente a la curva ROC del índice de Sokolow-Lyon, para la muestra evaluada. Nótese que para estas determinaciones es indispensable tener un estándar de referencia que proporcione el “veredicto” acerca de la presencia o ausencia de la condición evaluada por la prueba. En el caso que nos ocupa, el estándar es el ecocardiograma, y la prueba bajo evaluación, el índice electrocardiográfico de Sokolow-Lyon. Tomando otro punto de corte para el diagnóstico de HVI, por ejemplo Sokolow-Lyon ≥ 25 mm, los diagnósticos verdaderos positivos son ahora 47 en 72 o sea 0.65 o 65% mientras que los resultados falsos positivos son (por pura coincidencia) nuevamente 47, que entre 194 individuos sin HIV indican 47 / 194 = 0.24 o 24% de resultados falsos positivos. Se observa que al reducir el umbral diagnóstico a 25 mm, la sensibilidad del índice de Sokolow-Lyon para la HVI aumenta al 65%, pero a expensas de una caída de la especificidad a 1 − 0.24 = 0.76 o 76%. Estos resultados se traducen en el punto B de la Figura 14.2. Finalmente, véase que ocurre tomando un valor umbral exageradamente bajo de, digamos, 15 mm. Ahora el test detecta correctamente (verdaderos positivos) a 70 / 72 = .97 o 97% de los casos de HVI, pero también produce 166 resultados falsos positivos, o sea 166 / 194 = .86 u 86%, lo que implica que la especificidad ha caído al nivel inaceptable de 1 − 0.86 = 0.14 o 14%. Este es el punto C de la Figura 14.2. Los programas de computación recorren automáticamente todos los valores que puede tomar el test en una muestra y para cada punto, realizan cálculos similares a los ya vistos, tomando como referencia los datos proporcionados por el método estándar, generando las correspondientes curvas ROC. Puede verse que cuánto mayor sensibilidad se obtenga con la menor cantidad de falsos positivos, o sea, con el menor sacrificio posible de especificidad, la curva ROC se acercará al ángulo superior izquierdo de la gráfica (nótese que dicho ángulo corresponde a sensibilidad 100% y especificidad 100%). Por esta razón una medida de la eficiencia de un test es la proporción de área bajo la curva en relación al área total de la gráfica (la curva ROC para un test con 100% de sensibilidad y especificidad, estaría formada por los bordes izquierdo y superior de la gráfica, abarcando toda su área). No se puede decir qué proporción de área bajo la curva corresponde a un test bueno, muy bueno o malo, pero está claro que en general, cuanto mayor el área bajo la curva, mayor será la eficacia del test. En el ejemplo del índice de Sokolow-Lyon, el área es de 0.76 o 76%. De lo visto hasta aquí, queda claro que una curva ROC proporciona el par sensibilidad – especificidad para cada uno de los umbrales que puede adoptar el test, permitiendo elegir el más adecuado a las necesidades del investigador. El nivel de especificidad deseado, que equivale a la proporción de resultados falsos positivos que se está dispuesto a tolerar, condiciona el punto de la curva en que se deberá trabajar, y este punto tiene asociado un nivel de sensibilidad que no será posible superar con el test en cuestión. Si la sensibilidad ha de ser aumentada, habrá que se sacrificar la especificidad desplazándose a la derecha sobre el eje horizontal, admitiendo una mayor proporción de resultados falsos positivos, con lo que también aumentarán los verdaderos positivos. Todas las estrategias posibles en materia de sensibilidad y especificidad pueden ser así evaluadas mediante la inspección de la curva ROC, para elegir la más conveniente de acuerdo al tipo y finalidad de cada test. En los casos en los que un diagnóstico correcto es muy importante por las consecuencias que implicaría [ 332 ]
no detectar la enfermedad, se deberá trabajar en un punto de la curva de alta sensibilidad, lo que podrá implicar una mayor proporción de resultados falsos positivos. Ahora bien, si los resultados falsos positivos obligan a estudios riesgosos, penosos u onerosos, se tendrá un límite para incrementar la sensibilidad, puesto que ello resultará en un aumento paralelo de tales resultados. En cualquier caso, las curvas ROC permiten elegir el o los puntos de la misma en los cuales se obtiene el mejor compromiso entre sensibilidad y especificidad de acuerdo a las necesidades médicas de cada situación, pero, como es obvio, no incrementarán las posibilidades diagnósticas intrínsecas de cada test. Existen programas estadísticos que generan las curvas ROC a partir de un juego de datos compuesto por los resultados del test para un conjunto representativo de individuos, y la condición de “verdadero enfermo” y “verdadero sano” para cada uno de éstos, dada por el estándar de referencia. Estas curvas ROC podrán ser luego utilizadas para definir los niveles de sensibilidad y especificidad en los que se prefiere trabajar con el test diagnóstico, siempre y cuando se apliquen a poblaciones y técnicas comparables con aquéllas empleadas para elaborarlas. Una muy buena discusión de los aspectos fundamentales de las curvas ROC se hallará en Metz (1978).
[ 333 ]
15. Análisis de la sobrevida
15.1. Introducción El análisis de la sobrevida se refiere a un conjunto de métodos destinados a estudiar la ocurrencia de distintos eventos, entre ellos la muerte, en grupos de individuos seguidos a lo largo del tiempo, esto es, longitudinalmente. Las llamadas curvas de sobrevida dan la proporción de individuos de un conjunto inicial, que se mantiene con vida en diferentes momentos a lo largo de un tiempo de observación. Son muy utilizadas para tener una imagen visual de la forma en que la mortalidad afecta a distintos grupos de individuos, por ejemplo en el seguimiento de distintos tratamientos, en la búsqueda de diferencias que puedan tener importancia en la futura selección de las mejores opciones terapéuticas. Se representan en un sistema de ejes, con el tiempo en las abscisas (x) y la proporción de sobrevivientes en las ordenadas (y), se inician en tiempo cero y con el 100% de los individuos con vida, presentando una forma escalonada, descendente hacia la derecha y abajo, a medida que la proporción de sobrevivientes disminuye con el tiempo (Fig. 2.4). Los correspondientes datos numéricos en que se originan reciben el nombre de tablas de sobrevida. Estos instrumentos proceden de los censos, relevamientos destinados a conocer y eventualmente administrar distintos aspectos de grandes grupos humanos como naciones o ciudades, de los cuales existen referencias históricas más o menos lejanas. Las técnicas censales adquirieron un gran desarrollo a partir del siglo XVIII, pero los adelantos más importantes en lo relacionado con las ciencias médicas datan de las últimas décadas, cuando además recibieron la contribución del campo del análisis multivariado. Las curvas de sobrevida son la expresión gráfica de toda una elaboración teórica que permite su cálculo numérico, incluyendo los métodos para la construcción de modelos matemáticos que las representan, las técnicas para la comparación de varias curvas entre sí y también para la evaluación de covariables que puedan tener influencia sobre la producción de los eventos. A pesar de su nombre, las curvas de sobrevida son aplicables a cualquier condición o evento con una probabilidad de aparición definida, que pueda afectar a conjuntos de individuos. Así, son condiciones de interés frecuente la morbilidad o aparición de una enfermedad, sus recaídas, las intervenciones o reintervenciones quirúrgicas, las internaciones y también circunstancias médicamente favorables como la remisión de determinados procesos o síntomas, etc. También puede interesar el momento en que se alcanza cierto punto sobre una variable continua, como por ejemplo el momento en que los glóbulos blancos descendidos por [ 334 ]
un tratamiento se recuperan por sobre un valor prefijado. Cualquiera de estas situaciones se denomina evento, y las técnicas estudian la incidencia de eventos y el tiempo transcurrido hasta el evento. El tiempo que transcurre hasta la presentación de los eventos se suele designar como tiempo de sobrevida, tiempo de seguimiento o tiempo al evento, siendo también utilizados los términos failure time y, en el caso de ensayos terapéuticos, trial time. Este tiempo no se refiere al calendario, sino que comienza a contarse desde cero en el momento de la inclusión del individuo en el seguimiento. En este tipo de estudios es frecuente observar la proporción de pacientes libre de eventos en diferentes momentos del seguimiento. Así, se puede calcular la proporción de individuos libre de eventos o sobreviviente, a los seis meses, al año, etc. En otras oportunidades se informa la proporción de individuos dentro de un grupo, que han sufrido un evento durante un tiempo de observación o seguimiento determinado, lo que se conoce como la incidencia del evento durante dicho intervalo. 15.2. Curvas de sobrevida Existen gran cantidad de técnicas para el estudio de la sobrevida y los eventos en general, algunas de las cuales toman datos catastrales y relevan conjuntos de individuos de distintas edades en distintos puntos del tiempo, siendo procedimientos afines a los censos. Más importantes en medicina son los estudios de seguimiento (follow up studies) donde los individuos de un grupo con determinadas condiciones, como pueden ser enfermedades o tratamientos en curso, son controlados a partir del momento de su inclusión en el estudio, registrándose el tiempo transcurrido hasta la aparición del evento de interés. También suelen denominarse estudios de cohortes, y sus resultados pueden expresarse como tablas y curvas de sobrevida. En los estudios de cohortes, las tablas de sobrevida reflejan la proporción de individuos que sobreviven cada uno de los controles realizados durante el tiempo de seguimiento, el que se mide desde el comienzo del estudio. Sucintamente, una curva de sobrevida puede elaborarse como sigue. La probabilidad de sobrevida en un tiempo dado se estima como la proporción entre el número de individuos que se hallan con vida en el momento del control, y el total de individuos ingresados al estudio. Por ejemplo, si el grupo inicial consta de 100 individuos, y en un período de tiempo x1 se producen 10 eventos, la estimación de la sobrevida hasta x1 es igual a (100 −10) / 100 = 0.90 o 90%. Si en un período subsiguiente x2 se producen otros 10 eventos, la estimación de la sobrevida para esa etapa tendrá en cuenta que se inició con los 90 sobrevivientes de la primera, y el cálculo será igual a (90 −10 / 90) = 0.89 u 89%. Para estimar la sobrevida a lo largo de varios períodos, se multiplican las probabilidades para cada uno de ellos, que se tratan como probabilidades independientes (3.5). En el ejemplo, la probabilidad de sobrevivir los dos primeros períodos es igual a la probabilidad de sobrevivir al primero, multiplicada por la de sobrevivir al segundo, o sea 0.90 × 0.89 = 0.80. Puede comprobarse que si se consideran los 20 eventos ocurridos durante x1 y x2 en relación a los 100 pacientes iniciales, el resultado es el mismo. Las tablas suelen construirse en forma acumulativa, con los porcentajes de sobrevida observados para los distintos intervalos del seguimiento, acumulados como porcentaje total desde el inicio del mismo hasta cada punto de control temporal. [ 335 ]
El ejemplo se ilustra en la figura 15.1, donde se observa la técnica gráfica corriente: la sobrevida se representa por un segmento horizontal que indica el porcentaje de sobrevivientes al comenzar el intervalo y se extiende hasta el comienzo del intervalo siguiente. En este punto, el nuevo porcentaje se grafica como un nuevo segmento o escalón, discontinuo con el anterior y que representa el porcentaje de sobrevivientes al descontarse los individuos fallecidos en el intervalo previo. No hay así trazos oblicuos en las curvas de sobrevida. En la figura, el primer segmento indica el 100% de individuos que inician el estudio en el tiempo x0 . En el tiempo x1 se han producido los primeros 10 óbitos y el porcentaje de sobrevida del 90% es indicado por el nivel del segmento que comienza en x1. En el tiempo x2 , cuando se han producido otros 10 eventos y el porcentaje de sobrevida alcanza el 80%, se inscribe el correspondiente escalón, que se modificará en el tiempo x3 y así sucesivamente. Figura 15.1. Construcción de una curva de sobrevida (ver el texto). Se expone el porcentaje de sobrevivientes en x1 (90%) y x 2 (80%), correspondiente a los dos primeros escalones.
Debe mencionarse que el complemento de la probabilidad de sobrevida, px, es la probabilidad de óbito o evento, qx, igual a (1 − px ). No se entrará en detalles de construcción y cálculo de las curvas de sobrevida, pero se señalará que existen varios aspectos que surgen al poner en práctica un estudio. Quizá el más importante es el tratamiento de los individuos que por algún motivo no completan el tiempo de seguimiento establecido. Las dos causas fundamentales son las pérdidas de contacto durante el seguimiento (withdrawals) y el fin del protocolo antes de que algún o algunos individuos hayan cumplido su seguimiento. Estas observaciones incompletas se refieren frecuentemente como censored observations y hay técnicas de análisis para tratar con estos casos sin descartarlos del estudio, que se basan en que el individuo en cuestión estaba vivo (información aprovechable) por lo menos hasta el momento del último contacto. Sin embargo, y a pesar de que dichas técnicas son efectivas, la recomendación es hacer todo lo posible por no perder ningún caso (Peto y col., 1976). 15.3. Curvas de Kaplan y Meier. Un punto delicado es la elección de los intervalos de tiempo en que se dividirá la duración total del seguimiento. Si son muy grandes pierde precisión el estudio, y si son muy pequeños [ 336 ]
el contacto con el paciente en tiempos estipulados y la recolección de datos se tornan engorrosos, consumidores de tiempo y costosos. El tema de los intervalos de duración arbitraria se evita mediante el método de Kaplan y Meier, que además proporciona herramientas de análisis efectivas y relativamente sencillas en sus lineamientos generales, y se reseñará a continuación. Con este método se considera que el tiempo de seguimiento se halla dividido en una gran cantidad de pequeños intervalos, en general tan pequeños como puedan ser registrados sin perder exactitud. Como frecuentemente se emplean intervalos de un día, supongamos que ese es el intervalo elegido. El método procede así: habiendo nj individuos en seguimiento, si en un día cualquiera se producen dj eventos (uno o más eventos), la probabilidad de evento estimada para el tiempo t j es:
q j = d j / n j
(15.1)
y de acuerdo a lo ya expresado, la probabilidad de sobrevida será p j = 1 − q j = 1 − (d j / n j) = (n j − d j) / n j
(15.2)
El producto de todos los términos de probabilidad de sobrevida, desde el comienzo del estudio hasta el día tj inclusive, es la probabilidad estimada de sobrevida hasta ese punto en el tiempo, y puede expresarse con la mayúscula griega Π, que simboliza el producto de una serie de términos:
l t = Π p j = Π [ (n j − d j) / n j ]
(15.3)
siendo lt la probabilidad de sobrevida entre el comienzo del estudio y el día (o intervalo) t. Ahora bien, en los días en los que no hubo eventos, d j = 0 y por lo tanto p j = (n j − 0) / n j = 1, y como multiplicar por 1 no altera el producto, los días en que no hubo eventos no entran en los cálculos. En cuanto a las pérdidas de seguimiento, simplemente se descuentan de nj. Si el día en que hay eventos también se presentan pérdidas de seguimiento, éstas se descuentan de nj después de haber calculado pj, como si se hubieran producido luego de los eventos, y con esta convención, el procedimiento evita correcciones más o menos complicadas en el cálculo de la sobrevida. El estimador lt se conoce como producto-límite, por ser un producto donde a los intervalos tienden a un límite mínimo. Por regla general, los resultados son expuestos en forma de curvas de sobrevida, formadas por tantos escalones como días o intervalos con eventos se hayan presentado, conocidas como curvas de Kaplan - Meier. 15.4. Comparación de curvas: el logrank test Es común desear comparar dos o más curvas de sobrevida a fin de obtener conclusiones acerca de la incidencia relativa de eventos entre los grupos de los que provienen. Hay una gran cantidad de métodos con ese fin, siendo uno de los más importantes el llamado, por motivos teóricos, logrank test. Como su procedimiento de cálculo es algo complicado, y prescindible al disponerse de métodos computarizados de sencillo manejo, sólo se darán los rasgos gene[ 337 ]
rales del mismo, que son importantes por dar una idea de la forma en que se realizan las comparaciones. El método consiste en formar un conjunto único con los datos de los dos grupos a comparar, digamos A y B, manteniendo la identificación de cada individuo según el grupo al que pertenezca. Supongamos que en un momento los grupos tienen nA = 100 y nB = 50 individuos respectivamente, y ese día se producen 3 eventos en el conjunto de ambos grupos. La expectativa lógica bajo la hipótesis nula de no diferencia en incidencia de eventos entre los grupos, es que 2 de los tres eventos ocurran en el grupo con 100 individuos, y el restante en el grupo con 50 individuos, esto es, que la incidencia de eventos sea proporcional al número de individuos de cada grupo. Esta es la base del método, y si los eventos se presentan en cantidades proporcionales al tamaño de cada grupo, no habrá diferencias entre lo observado y lo esperado. Pero si en cambio los eventos acontecen de otra forma, por ejemplo los 3 eventos en uno de los grupos, o 2 eventos en el grupo más chico y 1 en el más grande, se tienen evidencias en contra de la hipótesis nula. Cada vez que se producen uno o más eventos, se compara el número observado en cada grupo con el esperado de acuerdo a la cuantía del respectivo grupo. A lo largo de todo el estudio, se suman los eventos observados (O) y esperados (E) en cada uno de los grupos, obteniéndose las sumas OA y E A en el grupo A, y las sumas OB y E B en el grupo B. El estadístico
X² = [(OA − E A)² / E A] + [(OB − EB)² / EB]
(15.4)
se distribuye muy aproximadamente según la distribución chi-cuadrado con un grado de libertad, y permite probar diferencias significativas entre los grupos A y B. La razón
h = (OA / E A) / (OB / EB)
(15.5)
se conoce como hazard ratio y es una expresión del riesgo relativo de evento en el grupo A respecto del B. La significación estadística del riesgo relativo h frente a la hipótesis nula de riesgos iguales (h = 1), se calcula mediante (15.4) y se obtiene en los paquetes estadísticos corrientes. Como se ha visto, el análisis de la sobrevida puede realizarse mediante diversos métodos y en distintos ámbitos. En medicina son muy comunes los estudios de seguimiento de grupos o cohortes, muchas veces para evaluar diferencias entre grupos sometidos a distintas intervenciones terapéuticas pero también con otros objetivos, como evaluar la evolución de distintos padecimientos, o de enfermedades estratificadas según distintos factores de riesgo. El método de Kaplan y Meier es uno de los de elección para analizar la sobrevida en cohortes, y una de las pruebas de significación más empleadas es el logrank test. Existen otras semejantes, como la de Wilcoxon, que asimismo se obtienen en los paquetes de computación de uso corriente. 15.5. Métodos paramétricos El estudio del tiempo de sobrevida puede hacerse postulando una distribución de probabilidades para el mismo, y estimando sus parámetros a partir de los datos de las muestras o grupos de individuos. Es decir, se elige una fórmula o modelo matemático que se espera que [ 338 ]
describa la forma de transcurrir el tiempo de sobrevida, y a partir de los datos reales de los grupos se estiman los parámetros correspondientes a la distribución previamente elegida. De esta forma, el modelo como función del tiempo, describe la sobrevida observada en los distintos grupos, en forma análoga a lo que hace una ecuación de regresión cuando estima la variable independiente. Dichos modelos de la sobrevida permiten una serie de inferencias y comparaciones, así como la introducción de métodos multivariados a fin de controlar los efectos de diversas covariables, siendo el tiempo la variable en función de la cual se expresan las características de la sobrevida. La estimación de los parámetros de dichos modelos se realiza en general por el método de máxima verosimilitud (maximum likelihood), que no es dado examinar aquí. Como estas técnicas son relativamente complejas, sólo se comentarán las características más importantes de los métodos paramétricos y la interpretación de sus resultados, en especial lo que se refiere al método “semi-paramétrico” de Cox. Mediante los métodos paramétricos, se pueden construir distintas funciones F( t ) que describen la proporción de eventos que se van acumulando a lo largo del seguimiento hasta cada instante t, o sea en función del tiempo. Siendo que una función F( t ) da cuenta de la proporción de eventos, la proporción de sobrevivientes hasta cada instante t, estará dada por la función S( t ) = 1 − F( t ). Por ejemplo, si F( t ) indica que a los t días de seguimiento los eventos alcanzan al 15% del grupo original, se tendrá que S( t ) = 1 − 0.15 = 0.85 u 85%, corresponde a la proporción de de sobrevivientes hasta ese instante. S( t ) se denomina función de sobrevida (survivor function) y su representación gráfica es similar a las curvas de sobrevida vistas anteriormente, aunque en este caso deriva de un modelo matemático ajustado a los datos (Fig. 15.2). Hay diversos modelos de sobrevida y una forma de describirla es a través de la llamada función de riesgo (hazard function), que relaciona el riesgo de muerte en un instante t, con la proporción de sobrevivientes hasta ese mismo momento. Figura 15.2. Función de sobrevida para λ = 0.02, unidades de tiempo arbitrarias.
La probabilidad de sobrevida en un instante o tiempo t a partir del comienzo del seguimiento, está dada por la función f ( t ), llamada función de densidad de probabilidad del tiempo de sobrevida. Su integral, F ( t ), describe la proporción de muertes o eventos producidos hasta el instante t, y guarda con f ( t ) relaciones análogas a las de las funciones de densidad y de distribución de probabilidad vistas en §4.6.1. Como ha sido mencionado, la función S( t ) = 1 − F( t) se llama función de sobrevida, y su valor establece la proporción de sobrevivientes hasta el momento t. Por último, el cociente
[ 339 ]
λ ( t ) = f ( t ) / S ( t )
(15.6)
se conoce como función de riesgo (hazard function) y puede expresarse como la probabilidad de que, habiendo sobrevivido hasta el instante t, se produzca el evento en el instante siguiente. Existen varios modelos para λ ( t ), el más sencillo de los cuales corresponde a λ = constante. En este caso, se demuestra que la función de sobrevida toma la forma S ( t ) = e − λ t
(15.7)
cuya gráfica para λ = 0.02 se observa en la Figura 15.2. Sin embargo, el asumir λ invariable a través del tiempo no se considera totalmente satisfactorio y se han elaborado otros modelos, como los de Weibull y Gompertz, en los que la función de riesgo se modifica en función del tiempo (Armitage y Berry, 1994). 15.6. Método de los riesgos proporcionales El estudio de la sobrevida en un grupo, solamente en función del tiempo y sin considerar otras condiciones que pudieran modificarla, presenta un interés limitado. En contraste, resulta muy importante la posibilidad de obtener modelos de la sobrevida que la representen, no sólo en función del tiempo sino también de otras variables individuales como pueden ser la edad, condiciones patológicas, tratamientos recibidos, resultados de métodos diagnósticos, etc. Esto expande los alcances del método al control de múltiples variables y de sus interrelaciones, permitiendo estimar la llamada tasa de riesgo (hazard rate) relacionada con dichas variables. La función λ ( t ) queda expresada como λ ( t, x ), donde x representa las distintas covariables x1, x2 , … xn. Los datos son así analizados en relación al tiempo y a las n covariables. La expresión general de la función de riesgo puede luego escribirse:
λ ( t, x ) = λ0 e β x
(15.8)
donde λ0 es el componente del riesgo dependiente del tiempo y βx representa la función de regresión β1x1 + β2x2 + … + βnxk, donde las xi son los factores o covariables de interés pronóstico. Cada variable xi posee su coeficiente de regresión, que representa la parte que tiene en el riesgo total del modelo. Dado que los riesgos implicados por cada conjunto de valores de las xi no es afectado por el tiempo, cuyo efecto está descripto por λ0 , estos modelos se conocen como de riesgos proporcionales (proportional hazards). En estos modelos de sobrevida en función del tiempo y de otras variables xi , muchas veces ocurre que el componente dependiente del tiempo no es fácil de determinar. Por otra parte, el interés principal suele estar centrado en las covariables que caracterizan a los individuos e influyen en la sobrevida. Esto llevó a emplear modelos que dejan sin definir la porción de la función dependiente del tiempo λ0 ( t ), y estiman el riesgo relativo dependiente del conjunto de covariables en x. La función resultante es análoga a la (15.8), pero se ha omitido λ0 por postularse que el efecto del tiempo es el mismo para todos los individuos del grupo:
[ 340 ]
riesgo relativo = e β x
(15.9)
siendo βx = β1x1 + β2x2 + … + βnxk una regresión múltiple de las distintas covariables, cuyos coeficientes β se obtienen mediante el procedimiento de estimación conocido como de máxima verosimilitud. Reemplazando las x por sus valores numéricos y exponenciando en e, se obtiene la estimación del riesgo para un individuo con ese arreglo particular de los datos. En el caso de una variable independiente dicotómica puede obtenerse el riesgo relativo entre los dos estados posibles de la misma, como por ejemplo diabetes presente y diabetes ausente, tratamiento 1 y tratamiento 2, etc. Este método, en que el riesgo para cada conjunto de variables se considera independiente del tiempo, y relativo con respecto al valor que tomen las covariables, se conoce como método de los riesgos proporcionales de Cox (proportional hazards). A fin de ilustrar el procedimiento, considérese el caso del seguimiento de una cohorte en la que una variable independiente binaria, codificada como normal = 0 o alterada = 1, exhibe al final del estudio un coeficiente b = 1.2, que resulta estadísticamente significativo. Reemplazando el valor 1.2 en la fórmula (15.9), se obtiene:
variable normal ( x = 0), riesgo = e β x = e 1.2 × 0 = e 0 = 1
y
variable anormal ( x = 1), riesgo = e β x = e 1.2 × 1 = e 1.2 = 3.32
con lo que la estimación para la variable en estado normal queda como valor de referencia y el riesgo relativo resulta 3.32 veces mayor en los pacientes con la variable alterada. Como el modelo de Cox no toma en cuenta el tiempo, no permite hacer predicciones con respecto al tiempo de presentación de los eventos, sino estimar el riesgo que implica cada cambio en las covariables con respecto al conjunto de los datos. Estas son estimaciones del riesgo relativo. Como se ha visto, cada coeficiente β mide el cambio en el riesgo relativo por cada incremento en una unidad de la variable correspondiente. En el caso de una variable dicotómica, como se vio más arriba, el cambio en una unidad implica el cambio de estado de la variable, pero el método también puede aplicarse a variables continuas, y cuando hay diferentes predictores independientes constituye un efectivo modelo de regresión múltiple para la estimación de los riesgos relativos, siempre bajo el presupuesto de que el efecto del tiempo es el mismo para todos los individuos considerados. El grado de significación estadística de los coeficientes de regresión así como sus límites de confianza, se obtienen de los paquetes estadísticos corrientes.
[ 341 ]
16. Enfermedades en las poblaciones
16.1. Generalidades En forma general, la epidemiología trata de la distribución de la enfermedad en las poblaciones. Así, uno de los temas principales de la epidemiología es lo concerniente a la presencia de enfermedad y a la aparición de nuevos casos, llamadas respectivamente prevalencia e incidencia. Otro interés de la epidemiología es el estudio de la gama de factores que pueden interactuar con la presentación de las enfermedades, entre los que se cuentan los ambientales, biológicos, socioeconómicos, etc. Un tipo importante son los factores médicos, que incluyen las distintas intervenciones terapéuticas. Todos estos factores se llaman exposiciones. A los sujetos que entran en relación con esos factores se los suele denominar expuestos. En general, muchos de los métodos de la estadística prestan utilidades para abordar los problemas de la enfermedad en las poblaciones, pero hay algunos especialmente aptos para adaptarse a las situaciones típicas de la epidemiología, que como se entenderá, son métodos de tipo esencialmente “observacional” o descriptivo, en contraste con los procedimientos experimentales o de laboratorio, donde las cosas se disponen y aún se provocan, a criterio del investigador. Así, los estudios epidemiológicos se ocupan de observar y dar cuenta del panorama espontáneamente proporcionado por la enfermedad, describiendo su modo de aparición, permanencia, duración, propagación y modificación por diversas exposiciones. En cambio, los estudios experimentales seleccionan el material de estudio, actúan sobre él mediante todo tipo de intervenciones, lo modifican y evalúan los cambios provocados, tal como ocurre en el ensayo de drogas o en el trabajo con animales o preparados de laboratorio. Con todo, la distinción entre estudios descriptivos y experimentales no es neta, y hay situaciones que comparten características, como pueden ser los estudios de grandes muestras de poblaciones en las que se ensayan distintas terapéuticas, donde las técnicas del seguimiento suelen emplear los métodos típicos de la epidemiología, y el hecho de administrarse un tratamiento controlado tiene que ver con las intervenciones experimentales. Existen dos métodos especialmente apropiados para el estudio de la enfermedad en poblaciones: el seguimiento de cohortes o grupos a lo largo del tiempo, y los estudios de tipo caso-control. La primera variedad se refiere con cierto detalle en la Sección 15, y tiene características que muchas veces la harían de elección, aunque no siempre su puesta en práctica es sencilla, y no hay forma de obviar el tiempo de seguimiento requerido. En tanto, los estudios caso-control, que constituyen un método propio de los estudios epidemiológicos, [ 342 ]
también presentan recursos de diseño y cálculo que los hacen útiles, y serán examinados en lo que sigue. 16.2. Prevalencia e incidencia La prevalencia mide la frecuencia de una enfermedad existente en la población en el momento del estudio, y está dada por la razón P = número total de casos / número total de población
(16.1)
en el momento en que se hace su determinación. Se expresa como casos por cien, por mil, etc, según su magnitud. Si en una población hay 2 casos de una determinada enfermedad por cada 100 individuos, la prevalencia será de 0.02 o, expresado en porcentaje, 2%. El término prevalencia no sólo se aplica a enfermedades, sino a cualquier condición o evento que pueda estar presente o ausente en una población. Así, se habla corrientemente de la prevalencia de distintos factores de riesgo para enfermedad, y también de características como el género o el color del cabello, etc. La incidencia mide la tasa de ocurrencia de nuevos casos de enfermedad en una población durante un tiempo determinado, y se expresa como I = número de casos nuevos / población en riesgo
(16.2)
donde “población en riesgo” se refiere a la población, observada durante cierta cantidad de tiempo. Como interesa especialmente el tiempo durante el cual se producen los nuevos casos, se multiplica el número de individuos observados, por el tiempo de observación y se obtiene el “tiempo total de riesgo.” Si por ejemplo se observa un conjunto de 100 individuos durante dos años, el tiempo total de riesgo o exposición será igual a 100 × 2 = 200 individuos-años. De esta forma, el denominador de (16.2) expresa en “individuos-tiempo.” En el ejemplo, si se producen 6 casos de enfermedad durante los dos años del estudio, se hablará de una incidencia de 6 casos en 200 personas-año, o también, de 3 casos cada 100 personas-año. 16.3. Riesgo relativo (risk ratio) y diferencia de riesgo Se ha visto en la Sección 8 que el concepto de riesgo puede expresarse en forma general como la probabilidad de desarrollar una enfermedad o evento dado, en un tiempo determinado de observación. También se vio que en circunstancias en las cuales el tiempo de presentación del evento es poco relevante en el contexto médico, la simple determinación de la proporción de individuos afectados en un conjunto puede constituir una estimación adecuada del riesgo. Sin embargo, el tiempo de desarrollo de la enfermedad suele ser de importancia, como ocurre típicamente en la evolución de procesos crónicos donde el tiempo hasta la aparición de complicaciones, óbito, o remisión del cuadro o de los síntomas, suele ser crucial. En estos casos, la incidencia de la enfermedad, que expresa la frecuencia de su aparición entre los integrantes del grupo en estudio, constituye una medida más adecuada del riesgo de padecerla que la simple determinación de la prevalencia. Un individuo sano perteneciente a un grupo donde la incidencia de una enfermedad es n veces mayor que en otro, tiene n veces más probabilidades [ 343 ]
de contraerla que un individuo del último grupo. El cociente entre la incidencia de enfermedad en dos grupos se llama riesgo relativo (RR) o “razón de riesgos” (risk ratio): RR = I1 / I 2
(16.3)
donde I es la incidencia y el subíndice denota los grupos 1 y 2. El riesgo se refiere al grupo 1 respecto del grupo 2. La evaluación del riesgo relativo es especialmente útil entre grupos expuestos y no expuestos a un determinado factor, siendo RR = I expuestos / I no expuestos
(16.4)
lo que da una idea de la importancia del factor en cuanto a la probabilidad de padecer la enfermedad en un tiempo determinado de observación. Resulta evidente que si la incidencia de una enfermedad es el doble en presencia del factor que en su ausencia, el riesgo relativo asociado al factor será igual a 2. El factor puede también estar asociado con una menor incidencia de la enfermedad, y si la incidencia en expuestos fuera la mitad que en los no expuestos, el riesgo relativo sería igual a 0.5. En un caso así podría interpretarse que el factor en cuestión tiene un efecto “protector” contra la enfermedad. También se comprende que si no hay diferencia entre dos grupos en la incidencia de un evento, el riesgo relativo será igual a 1. Nótese que RR = 1 es la hipótesis nula en la evaluación del riesgo entre dos conjuntos de individuos. Una segunda forma de comparar el riesgo de una enfermedad en relación a la exposición a un determinado factor, es hallar la diferencia entre las incidencias en individuos expuestos y no expuestos. Esta diferencia de riesgo (DR) (risk difference, absolute risk reduction) expresa la variación absoluta del número de casos asociada con la presencia del factor, para un mismo número de individuos-año en el denominador. La diferencia de riesgo puede expresarse como:
DR = I expuestos − I no expuestos
(16.5)
En el caso en que la incidencia de un padecimiento en presencia de un factor fuera de 6 casos por 100 individuos-año, y que en ausencia del mismo fuera de 2 casos por 100 individuos-año, la diferencia sería igual a 4 casos más entre los individuos expuestos. Nótese que la misma DR se obtendría si entre los expuestos se observaran 54 casos y entre los no expuestos, 50 casos. En esta eventualidad, la misma diferencia de 4 individuos se torna menos importante. Esto aparece reflejado en el riesgo relativo (RR), que en la primera instancia es igual a 6 / 2 = 3 y en la segunda es igual a 54 / 50 = 1.08, apenas mayor que uno. Por otra parte, el RR sería el mismo tanto si la incidencia de enfermedad en expuestos y no expuestos fuera de 3 y 1 casos respectivamente, como si fuera de 30 y 10. En esta situación será la DR la que aclare la magnitud de los efectos medidos, al valer 3 − 1 = 2 en el primer caso, y 30 − 10 = 10, en el segundo. De lo visto se desprende que tanto el riesgo relativo como la diferencia de riesgo son indicadores que solamente se pueden interpretar en forma com[ 344 ]
pleta cuando se conoce la incidencia del proceso en estudio en al menos uno de los grupos que se comparan. Resulta evidente que si el riesgo de enfermedad es menor en los individuos expuestos, como puede ser el caso si la exposición se refiere a un tratamiento efectivo, (16.5) proporcionará valores negativos. Este detalle formal no impide entender los resultados como una reducción del riesgo asociada a la exposición. Se ha visto en la Sección 8, que en circunstancias donde el tiempo de presentación de los eventos no es el objeto principal de la investigación, como en el estudio de la mortalidad hospitalaria por endocarditis infecciosa en individuos con y sin insuficiencia renal, el riesgo y el riesgo relativo pueden estimarse a partir de la proporción de casos en los distintos grupos. Cabe agregar que en estos casos también la diferencia de riesgo puede estimarse como la diferencia entre las proporciones de individuos afectados en los grupos expuesto y no expuesto, lo cual puede expresarse como la diferencia en la mortalidad, por cada 100 individuos. 16.4. Número necesario a tratar Se ha mencionado que las distintas terapéuticas pueden ser consideradas exposiciones. En tal sentido, los diversos estudios clínicos suelen comparar los efectos de diferentes tratamientos entre sí, o con placebo. Dichos ensayos clínicos participan de muchas de las características de los estudios epidemiológicos, en particular en lo que se refiere la observación de grupos de individuos sometidos a distintas exposiciones terapéuticas, y la estimación del riesgo de presentar diversos eventos relacionados con la patología estudiada. En estos casos, es frecuente que los tratamientos reduzcan la incidencia de la enfermedad o de sus complicaciones, y en tales circunstancias el riesgo relativo entre el tratamiento y el régimen alternativo será menor que 1, mientras que la diferencia de riesgo indicará el exceso de enfermedad o eventos en los individuos no tratados. Una medida muy empleada del éxito de un tratamiento deriva de la diferencia de riesgo, que en el caso de un tratamiento beneficioso puede entenderse como el exceso de enfermedad en el grupo no tratado, y también, como el número de individuos que han evitado la enfermedad en el grupo tratado, siempre con referencia al número de individuos-año evaluado. En estas circunstancias puede aceptarse que si el tratamiento presentó una DR a su favor de 5 pacientes / 1000 individuos-año, deberán tratarse 1000 / 5 = 200 individuos durante un año para tener la expectativa de evitar la enfermedad en uno de tales individuos. Si la DR fuera igual a 20 pacientes / 1000 individuos-año, deberían tratarse 1000 / 20 = 50 individuos durante un año para salvar de la enfermedad a uno de ellos. Estas cantidades se conocen como número necesario a tratar (NNT) y como se ve, son la inversa de la diferencia de riesgo:
NNT = 1 / DR
(16.6)
En forma análoga al NNT, en el caso de efectos adversos de la terapéutica puede calcularse el número necesario para dañar, que expresa el número de individuos que deben recibir el tratamiento para que uno de ellos experimente un efecto adverso. La utilidad principal de este indicador reside en la evaluación de efectos colaterales indeseables cuando interesa administrar el tratamiento por los beneficios derivados de sus efectos principales.
[ 345 ]
16.5. Riesgo atribuible Las consecuencias de un determinado aumento del riesgo por la exposición a un factor dado, dependerán también de la proporción de individuos en la población que presenten el factor y estén expuestos a su influencia. Es decir, el riesgo relativo asociado con un factor de exposición tendrá mayor repercusión en la población cuanto mayor sea la prevalencia del factor. Una medida de este efecto está dada por el llamado riesgo atribuible (attributable risk), que expresa la proporción de casos incidentes en la población, atribuibles a la presencia del factor en cuestión, y que se estima como una proporción o porcentaje de la incidencia global de enfermedad. Una forma de calcularlo es estimando la incidencia entre los individuos no expuestos del grupo (I NE), restándola de la incidencia global estimada en la totalidad del grupo (I t), y dividiendo por esta última: Riesgo atribuible = ( I t − I NE ) / I t
(16.7)
Existen otras expresiones del riesgo atribuible, entre ellas una que permite calcularlo en función del riesgo relativo para el factor del que se trate (RR), y de la proporción o prevalencia del factor en la población (PF): Riesgo atribuible = [PF (RR − 1)] / [ 1 + PF (RR − 1) ]
(16.8)
Esta fórmula es útil cuando no se dispone de estimaciones de las incidencias de la enfermedad, que requieren el seguimiento en el tiempo, pero en cambio puede estimarse el riesgo relativo entre expuestos al factor y no expuestos. Esta situación es característica de los estudios caso-control, que se examinarán en el párrafo siguiente. 16.6. Estudios caso-control En los estudios de tipo caso-control se evalúa la asociación entre enfermedad y exposición a factores diversos, mediante la comparación de un grupo de individuos que padecen la enfermedad, casos, y un grupo de referencia libre de ella, controles. El objetivo es estimar si la exposición a un determinado factor influye en la incidencia de la enfermedad en estudio. Un ejemplo de una serie de exposiciones o factores lo constituyen los llamados factores de riesgo cardiovascular, como la hipertensión, diabetes, dislipemia, tabaquismo, etc. Como se ha dicho, el aspecto que interesa estimar es la incidencia de enfermedad cuando un factor está presente y cuando no lo está: si la incidencia aumenta en presencia del factor, el grado de aumento del riesgo se podrá medir mediante el cociente de las incidencias en presencia y en ausencia del mismo, que es el riesgo relativo visto anteriormente. Una forma natural de estimar el riesgo relativo es seleccionar un grupo de individuos con el factor en cuestión y otro libre del mismo, y seguirlos en el tiempo contando las veces que aparece la enfermedad en cada grupo. Este tipo de estudio, el seguimiento de cohortes, se aborda en la Sección 15, siendo su principal limitación requerir tiempos en general prolongados. Ahora bien, en los estudios de tipo caso-control, tanto la presencia de enfermedad como de exposición, se investigan a partir de historias clínicas o archivos, o bien realizando las correspondientes investigaciones diagnósticas en el momento del estudio. Primeramente se eligen individuos de los que se sabe fehacientemente que presentan la enferme[ 346 ]
dad (casos) o que no la presentan (controles), y recién entonces se determina quiénes se hallan y quiénes no se hallan expuestos al factor en consideración. Es llamativo que, a pesar de no contarse con estimaciones directas de la incidencia de la enfermedad, pues no hay seguimiento, estos estudios proporcionen estimaciones suficientemente buenas del riesgo relativo, también conocidas como riesgo relativo aproximado, y en esto radica su importancia. El desarrollo de un estudio caso-control se expondrá y comentará a continuación. En un trabajo dirigido a examinar la asociación del infarto de miocardio con el uso de contraceptivos (Dunn y col, 1999), se comparó un conjunto de 448 mujeres que lo habían presentado, con otro de 1728 mujeres de edad similar y sin antecedentes de infarto. Los diagnósticos se obtuvieron en forma retrospectiva a partir de historias clínicas y entrevistas con médicos tratantes y pacientes. Varios factores de riesgo fueron considerados en el mismo estudio, y en la Tabla 16.1 se muestran los datos relativos a la proporción de dislipemia en casos y controles, dispuestos en una tabla de 2 × 2. Tabla 16.1. Tabla de 2 × 2. Clasificación de casos (infarto de miocardio) y controles según la presencia de dislipemia, en 2176 mujeres de 16 a 44 años de edad (Dunn y col, 1999). CASOS
CONTROLES
Dislipemia
34
51
Total 85
No dislipemia
414
1677
2091
Total
448
1728
2176
De la tabla se obtiene la proporción de casos y de controles “expuestos” a la dislipemia, pero no las incidencias de infarto de miocardio en las mujeres dislipémicas (ya que no hay un seguimiento en el tiempo y tanto casos como controles se han obtenido en forma independiente). Así, 34 / 448 = 0.076 o 7.6%, es la proporción de los infartos “expuesta” a la dislipemia, y 51 / 1728 = 0.03 o 3.0%, es la proporción de controles con dislipemia, con lo cual se conoce la proporción de dislipemia en casos y controles, pero no se sabe con qué frecuencia tenderá a presentarse el infarto de miocardio en presencia y en ausencia de dislipemia, es decir, la tabla no proporciona la incidencia de infarto en presencia y en ausencia de dislipemia, sino más bien el porcentaje de dislipemia encontrado en infartos y controles. Ahora bien, si casos y controles se hubieran obtenido mediante el muestreo aleatorio de una población extensa, sin elegirlos por el diagnóstico, la proporción de casos de infarto de miocardio entre mujeres con dislipemia podría servir para estimar el riesgo de infarto en ese grupo, y análogamente, la proporción de infarto entre mujeres normolipémicas permitiría tener una estimación aproximada el riesgo de infarto en ausencia de dislipemia, procediendo como en §8.4. El cociente entre ambos riesgos resultaría entonces una estimación del riesgo relativo de padecer infarto de miocardio en dislipémicos y normolipémicos. Sin embargo y a pesar de que casos y controles no han sido obtenidos por muestreo aleatorio de poblaciones, es un hecho interesante y útil que el riesgo relativo pueda derivarse con suficiente exactitud de estudios caso-control, donde casos y controles han sido obtenidos en número arbitrario, y muchas veces, a partir de distintas bases de datos. El procedimiento para el análisis de un estudio caso-control se describe a continuación, para lo cual es conveniente representar los casos como en la Tabla 16.2. [ 347 ]
Tabla 16.2. Tabla de 2 × 2. Número de de casos y controles clasificados según la exposición. CASOS
CONTROLES
Total
Dislipemia
a
c
a+c
No dislipemia
b
d
b+d
Total
a+b
c+d
Si los números en las celdas representaran las proporciones en la población, el riesgo en el grupo expuesto podría obtenerse en forma aproximada por la proporción de infartos en el total de dislipemias, a / (a + c), y análogamente, el riesgo en el grupo no expuesto (no dislipemia) podría obtenerse como b / (b + d). El cociente entre los riesgos en expuestos y no expuestos sería entonces una estimación del riesgo relativo (RR): RR = [ a / (a + c) ] / [ b / (b+ d) ]
(16.9)
Por motivos teóricos, en los estudios caso-control debe usarse una aproximación a (16.9), en donde los casos, a y b, son suprimidos del denominador. La expresión se transforma así en la razón de los odds u odds ratio (OR):
OR = (a / c) / (b / d)
(16.10)
que es cómodo de calcular como:
= (a × d) / (b × c)
(16.11)
En forma análoga a lo ya visto para el risk ratio, el OR es el cociente entre los odds de infarto en dislipémicos y en no dislipémicos. Esta nueva estimación del riesgo relativo por medio del odds ratio resulta aceptable mientras el número de casos (enfermedad) sea relativamente pequeño en comparación con los controles, cosa que por otra parte es frecuente en estudios epidemiológicos. A fin de demostrar que la ecuación (16.10) expresa el OR en función de las frecuencias de casos y controles, obsérvese que si la probabilidad de infarto en el conjunto dislipemia está dada por a / (a + c), su complemento (1 − probabilidad) debe ser igual a c / (a + c), ya que a y c se refieren a las dos únicas posibilidades, infarto y no infarto. Recordando que odds = probabilidad / (1 − probabilidad), los odds de infarto en el grupo dislipemia estarán dados por a / (a + c) dividido por c / (a + c), lo que es igual a a / c, el numerador de (16.10). En forma análoga, los odds de infarto en el grupo no expuesto resultan iguales a b / d, que es el denominador de (16.10). En este punto debe enunciarse un hecho fundamental, en cuyo análisis no cabe profundizar aquí (ver Armitage y Berry, 1994, e Ingelfinger y col, 1994), que permite estimar con suficiente exactitud el riesgo relativo (RR) aún cuando no se conozcan las incidencias de la enfermedad en los grupos expuesto y no expuesto, y no se cumpla la exigencia de muestreo aleatorio de la población de interés: en los estudios de caso-control, el odds ratio, expresado [ 348 ]
como (a/c) / (b/d) (datos dispuestos como en Tabla 16.2), es una estimación del riesgo relativo de enfermedad (RR) entre individuos expuestos y no expuestos. El enunciado afirma que obteniendo conjuntos de casos y controles, la proporción de individuos expuestos al factor en estudio en cada uno de ellos, permite estimar con suficiente exactitud el riesgo relativo de enfermedad entre expuestos y no expuestos. Este hecho es interesante, ya que a partir de muestras arbitrarias de casos y controles se llega a estimar el riesgo de enfermedad de acuerdo a la exposición, y fundamenta la validez de la estimación del riesgo relativo en los estudios de tipo caso-control. Es notable que sus resultados se hallen de acuerdo con los que proporcionan los estudios de seguimiento de cohortes, aún cuando los estudios de caso-control no provienen del muestreo aleatorio de poblaciones, sino que casos y controles han sido seleccionados en número arbitrario, frecuentemente a partir de distintas fuentes de datos. Prosiguiendo el examen del infarto en la dislipemia, reemplazando en (16.10) se obtiene el odds ratio: OR = (a / c) / (b / d) = (34 / 51) / (414 / 1677) = 2.70 que es una expresión del riesgo relativo de infarto de miocardio en presencia de dislipemia, respecto de los individuos sin dislipemia, obtenida del odds ratio. 16.7. Odds ratios y estimaciones del riesgo relativo En este lugar debe remarcarse que el odds ratio es un estimador muy utilizado del riesgo relativo, no solamente en los modelos caso-control que nos ocupan, sino también en otras áreas como la regresión logística y algunas técnicas del metanálisis. Sin embargo, se ha visto más arriba que el cálculo del odds ratio implica una aproximación a la expresión del riesgo relativo (16.9), que resulta simplificada por la supresión de los casos en el denominador. Con todo, la estimación del riesgo relativo mediante el odds ratio es inevitable en estos estudios, dado que el riesgo no puede ser obtenido mediante la ecuación (16.9) porque entre otros motivos, casos y controles han sido obtenidos en cantidades arbitrarias fijadas por el investigador. Afortunadamente y como ya se ha mencionado, las estimaciones del riesgo relativo mediante el odds ratio son suficientemente precisas mientras el número de los casos sea pequeño con relación a los controles, cosa que por otra parte es frecuente en los estudios epidemiológicos. De todos modos, el odds ratio tenderá siempre a proporcionar estimaciones del riesgo relativo más extremas que las reales, por lo cual a veces es denominado riesgo relativo aproximado. Por otra parte, existe una gran cantidad de modelos estadísticos donde el riesgo relativo puede calcularse, tanto mediante la ecuación (16.9), como mediante el odds ratio. Así, en la Sección 8 se vio que un conjunto de individuos con endocarditis infecciosa presentó distinto riesgo de mortalidad según existiera o no insuficiencia renal asociada (ver Tabla 8.1). El riesgo relativo se calculó según (8.9), que es una expresión equivalente a la (16.9), obteniéndose RR = 1.63. Si con los mismos datos se procede ahora a obtener el odds ratio, el lector podrá comprobar que el resultado es 1.99, con lo que el riesgo relativo estimado es algo mayor que el obtenido mediante la ecuación que toma en cuenta los totales marginales. Esta sobrestimación producida por el odds ratio hace aconsejable emplearlo con precaución en las estimaciones del riesgo relativo, pues si el número de casos no es pequeño en comparación con los controles, se apartan excesivamente del mismo. Como ya se ha observado en la Sección [ 349 ]
8 a propósito de los pacientes con endocarditis, si se estima el riesgo relativo de los pacientes sin insuficiencia renal con respecto a los que la presentan, el cociente se invertirá y se tendrá RR = 1 / 1.63 = 0.61, que al ser menor que cero denota una menor mortalidad en el grupo sin enfermedad renal. En este caso, el odds ratio también se invertirá y será igual a 1 / 1.99 = 0.50, ahora subestimando el riesgo relativo. Es decir, el odds ratio proporciona siempre valores más extremos que el riesgo relativo, al que sobrestima cuando éste es mayor que 1, y subestima cuando es menor que 1. Sin embargo, el odds ratio es una expresión sencilla y suficientemente segura del riesgo relativo si se toman en cuenta las restricciones numéricas para su cálculo. Por lo demás, el odds ratio, que relaciona los odds a favor de un suceso entre dos grupos, es de por sí una medida de la probabilidad y aparece en distintas áreas de la teoría estadística, como se ha mencionado más arriba. En §12.5 se tratan algunos aspectos relacionados con su rol en la regresión logística. Es interesante anotar aquí que el OR es el mismo si se calcula a lo largo de las filas según la exposición, que si se calcula a lo largo de las columnas, según se trate de casos o controles. Esta simetría explica que el OR sea el mismo si se calcula para los casos (infarto) respecto de expuestos y no expuestos, que si se calcula para la exposición (dislipemia) en casos y controles. Puede decirse que el OR es una medida de asociación entre las dos variables de la tabla, y numéricamente es irrelevante con respecto a cuál de éstas se calculen los odds. También puede verse en (16.11), que el OR puede calcularse de la tabla en forma muy sencilla, multiplicando en cruz y dividiendo los productos (por lo que suele denominarse cross ratio). 16.8. Evaluando la significación estadística del odds ratio De no haber diferencias entre los odds, el OR para el estudio caso-control será igual a 1, y como estima el riesgo relativo de enfermedad (infarto) en presencia de exposición (dislipemia), un OR = 1 significará que la expectativa de enfermedad es la misma tanto en presencia como en ausencia del factor de riesgo o exposición. En el ejemplo, un OR = 2.70 como el obtenido más arriba, significa que una paciente dislipémica tiene chances de desarrollar un infarto en razón de 2.70 a 1 con respecto a los controles normolipémicos. Si en (16.11) se invierten numerador y denominador, se obtiene un OR = 1 / 2.70 = 0.37, que expresa las chances de infarto en el grupo sin dislipemia con respecto al grupo dislipémico, y por ser menor que 1, señala un efecto “protector” de los lípidos normales con respecto a la dislipemia. Para evaluar la significación estadística de un odds ratio, se debe poder demostrar que difiere significativamente de 1, que es el valor de la hipótesis nula. Una forma habitual de presentar los resultados de la prueba de significación en este tipo de estudios, es dar los límites de confianza superior e inferior del OR hallado, y rechazar la hipótesis nula siempre que el 1 quede por fuera de dichos límites. El cálculo de los límites de confianza para el valor del OR estimado, que son los límites para el riesgo relativo, es algo complejo porque los odds no están normalmente distribuidos y debe trabajarse con sus logaritmos naturales, que tienen una distribución aproximadamente normal y permiten aprovecharla para calcular los límites asociados al nivel de confianza deseado. Como en otras oportunidades, los límites se calculan para un nivel de confianza elegido, por ejemplo del 95%, lo que implica un nivel de significación P = 0.05. [ 350 ]
En el ejemplo, los límites de confianza del 95% para OR = 2.70, son 1.73 y 4.22. Como con los datos del ejemplo la probabilidad del OR de exhibir valores por fuera de esos límites es de sólo el 5%, se acepta que el OR hallado difiere significativamente de 1 y se rechaza la hipótesis nula, afirmándose que el riesgo de padecer un infarto de miocardio es significativamente mayor en las mujeres expuestas a la dislipemia, con un nivel P ≤ 0.05. A continuación se da una breve reseña, a modo de ilustración, de uno de los métodos para el cálculo de los límites de confianza para el OR, aunque éstos pueden obtenerse directamente de los paquetes estadísticos corrientes. Cálculo de los límites de confianza para el odds ratio muestral Dado que como se mencionó, el logaritmo de los odds tiene distribución aproximadamente normal, se trabaja con el logaritmo natural del odds ratio, ln (OR). En esta nueva escala, la varianza del logaritmo del OR es:
Var [ln (OR)] = 1/a + 1/b + 1/c + 1/d
(16.12)
siendo a, b, c y d el número de individuos en cada celda, en tablas como la 16.2. El desvío estándar (DS) es la raíz cuadrada de la varianza:
DS [ln (OR)] = √ Var (ln OR)
(16.13)
y los límites de confianza para el 95% se aproximan mediante la distribución normal tomando z = 1.96, siempre sobre la transformación logarítmica:
ln (Límite inferior) = ln (OR) − 1.96 × DS [ ln (OR )] ln (Límite superior) = ln (OR) + 1.96 × DS [ ln (OR )]
Con los datos vistos para el infarto de miocardio y la dislipemia se tiene: y con lo que:
ln (OR) = ln 2.70 = 0.9933 Var [ln (OR)] = 1/34 + 1/414 + 1/51 + 1/1677 = 0.052 DS [ln (OR)] = √ 0.052 = 0.228 ln (Límite inferior) = 0.9933 − (1.96 × 0.228) = 0.5464 ln (Límite superior) = 0.9933 + (1.96 × 0.228) = 1.4402
y para volver a los valores originales, deben obtenerse los correspondientes antilogaritmos:
Límite inferior = antilog 0.5464 = 1.73 Límite superior = antilog 1.4402 = 4.22
que son los valores anticipados más arriba.
[ 351 ]
16.9. Odds ratios, factores de riesgo y marcadores de enfermedad Se ha dicho que la evaluación de las asociaciones entre patologías y factores de exposición es una de las tareas típicas de la epidemiología, y la estimación del riesgo es uno de los objetivos principales. En todas esas situaciones, las estimaciones del riesgo relativo, entre las cuales el odds ratio es muy utilizado, dan idea del aumento (o disminución) de las probabilidades de desarrollar la enfermedad en el grupo expuesto con relación al no expuesto. Cuando el odds ratio difiere significativamente de la unidad, se puede rechazar la hipótesis nula de riesgos iguales y aceptar un efecto de la exposición sobre la probabilidad de enfermedad. Estos resultados permiten conocer aspectos epidemiológicos de la enfermedad y sus relaciones con distintos factores de exposición. Así, está bien establecida la importancia de los llamados factores de riesgo en la enfermedad cardiovascular, hecho que se repite en las distintas áreas de la medicina, en las que diversos factores de riesgo han sido demostrados con amplios niveles de confianza. Esto ha llevado a emplear muchos factores de riesgo como marcadores de enfermedad, es decir, como indicadores de la presencia o desarrollo futuro de la enfermedad. Sin embargo, para que un factor de riesgo sea eficaz para clasificar a los individuos de acuerdo a su estado de salud o enfermedad, actual o futuro, el correspondiente odds ratio debe exhibir valores que están muy por encima de los habitualmente hallados en los estudios epidemiológicos (cf. Pepe y col, 2004). Esto tiene una gran relevancia en vista de la tendencia a emplear diversas pruebas clínicas, en general de laboratorio, como indicadores o marcadores de enfermedad, y se comenta brevemente a continuación. Se ha visto más arriba que la dislipemia se halla asociada con el infarto de miocardio en mujeres jóvenes, con un OR = 2.70. Si ahora se examina la Tabla 16.1, se observará que 34 entre 448 casos de infarto presentaban dislipemia, con lo cual, si la dislipemia se toma como marcador de infarto, se tiene que su sensibilidad es igual a 34 / 448 = 8% (ver Sección 14), notablemente baja para detectar la enfermedad en forma eficiente. Con la especificidad las cosas mejoran, calculándose en 1677 controles (sin infarto) no dislipémicos entre 1728 controles en total, esto es, 1677 / 1728 = 97%. Como se aprecia, un odds ratio igual a 2.70, estadísticamente significativo, no garantiza un buen rendimiento de la dislipemia como marcador de enfermedad en la población estudiada. Sin embargo y muy importante, el aumento de las chances de infarto de miocardio por la presencia de dislipemia es un dato de tipo epidemiológico que tiene su valor intrínseco y ha quedado bien demostrado en el estudio. Como segundo ejemplo, un test ecocardiográfico de esfuerzo dedicado a la detección de la enfermedad coronaria como el mencionado en el Ejemplo 14.1, con una sensibilidad del 68% y una especificidad del 90%, producirá por término medio 68 resultados verdaderos positivos entre 100 sujetos enfermos, y 90 resultados verdaderos negativos entre 100 individuos sanos. Disponiendo estos datos en una tabla de 2 × 2 y completando las casillas, se tendrá: Enfermos
Sanos
Test positivo
68
10
78
Test negativo
32
90
122
Totales
100
100
200
[ 352 ]
Totales
de donde el odds ratio se obtiene como (68 × 90) / (32 × 10) = 19, que es un valor muy grande a pesar de la apenas moderada sensibilidad de la prueba. Por último, de la Tabla 14.1 puede calcularse fácilmente, multiplicando en cruz y dividiendo según (16.11), que un test con sensibilidad y especificidad iguales al 90% implica un odds ratio igual a 81. Estos altos requerimientos para poder clasificar los individuos como sanos o enfermos con aceptable exactitud, explican porqué los niveles de asociación entre enfermedad y factores de riesgo detectados en muchos estudios epidemiológicos, si bien permiten relacionar enfermedad y factor, no son suficientes para clasificar a los individuos según su estado de salud o enfermedad. En resumen, si bien los factores asociados con mayor riesgo de enfermedad ayudan al conocimiento de la misma y a su eventual prevención y tratamiento, para actuar eficazmente como marcadores de enfermedad deben exhibir odds ratios mucho mayores que los habitualmente requeridos para demostrar asociación. En otras palabras, el logro de los estudios epidemiológicos de establecer asociaciones significativas entre enfermedades y factores de exposición, permite en forma indudable aumentar los conocimientos y recursos médicos, inclusive en el área preventiva; sin embargo, para la detección de la enfermedad y la clasificación eficaz de los individuos según su presencia o ausencia, son necesarios pruebas o tests que rindan odds ratios mucho mayores que los habitualmente manejados en los estudios corrientes de exposiciónenfermedad. La evaluación de tales pruebas debe realizarse con los métodos adecuados, que se describen en la sección 14. 16.10. Combinaciones de tablas pertenecientes a varios subconjuntos. Método de Mantel y Haenszel En oportunidades, un mismo estudio de tipo caso-control puede llevarse a cabo en diferentes grupos de pacientes o en diferentes subconjuntos de un grupo mayor (por ejemplo, en varones y mujeres por separado), y muchas veces se desea obtener una estimación global del riesgo relativo para el conjunto que resulta de acumular todos los datos. Dentro de los métodos disponibles para tal objeto, el de Mantel-Haenszel es particularmente utilizado, entre otras cosas, por su buena tolerancia cuando las frecuencias en algunos de los subgrupos son relativamente pequeñas (Mantel y Haenszel, 1959). Consiste en calcular los términos (ai × di) y (bi × ci) para cada subgrupo i, de la misma forma que en los estudios con un grupo único (16.11), y acumularlos como sigue para obtener el riesgo relativo del grupo amalgamado: RR = ∑ (ai × di / ni) / ∑ (bi × ci / ni)
(16.14)
donde ni es el número de individuos en el grupo i. Existen varios métodos para chequear la significación de este estimador, algo más complejos que el esbozado más arriba para el modelo no estratificado, y que se hallan disponibles para su aplicación en los paquetes estadísticos corrientes. 16.11. Apareamiento de casos y controles (matching) Un tema recurrente en medicina es el control de variables ajenas al núcleo del estudio, pero que se sabe que pueden influenciar y distorsionar los resultados por presentar distintos grados de asociación con las variables de interés que se están estudiando. Tales variables no [ 353 ]
son otra cosa que factores de exposición como los vistos hasta aquí, pero cuyos efectos muchas veces son ajenos a los objetivos de la investigación y cuya influencia sobre los resultados de la misma en general se procura eliminar. Asimismo, al evaluar la influencia de un factor de riesgo en la presentación de una determinada enfermedad, es conveniente que otros posibles factores (cofactores) como la edad, el sexo o la eventual presencia de distintas condiciones fisiológicas o patológicas, se hallen distribuidos en forma similar en casos y controles, de modo de balancear sus posibles efectos sobre ambos grupos. El procedimiento general es procurar que casos y controles sean lo más similares que sea posible en lo que se refiere a la presencia de los factores cuya influencia se desea evitar. Un método eficaz es elegir para cada caso, un control que presente los mismos factores cuyos efectos sobre los datos se desean neutralizar. En general, el emparejamiento o matching de casos y controles puede realizarse para cualquier variable, en especial la edad, el sexo y aquéllas condiciones que puedan tener relevancia en la presentación de la enfermedad en estudio, y así alterar las relaciones entre la enfermedad y la exposición de interés. Esto facilita el hallazgo de diferencias significativas, atribuibles al factor de exposición que se está investigando en cada oportunidad. A cambio de esta ventaja, el emparejamiento renuncia a obtener información acerca de las variables para las cuales se lleva a cabo: si los controles se eligen de la misma edad y sexo que los casos, la influencia de estas dos variables en la incidencia de la enfermedad no podrá ser evaluada en el estudio. Como se comprende, el emparejamiento de casos y controles según ciertas variables, es importante cuando esas variables están asociadas a las enfermedades o a las exposiciones. Por ejemplo, al estudiar la importancia de la exposición a ciertos inhalantes en la incidencia de enfisema pulmonar, puede ser importante aparear casos y controles según sean o no fumadores, ya que esta condición por sí misma puede afectar la incidencia del enfisema pulmonar. Este modelo, que permitirá detectar con mayor eficacia los efectos de dichos inhalantes en el enfisema, tendrá como precio renunciar a obtener información acerca de la importancia del tabaquismo en el enfisema pulmonar. Al respecto, cabe suponer que esta información es ya conocida por los investigadores o, en todo caso, que no es el objeto del estudio. Asimismo, una variable puede estar asociada con determinadas exposiciones de importancia y por ejemplo, la posesión de encendedores puede hallarse asociada con el hábito del cigarrillo, de modo que la interpretación de los resultados es siempre un punto crucial. Debe también mencionarse un límite para este tipo de procedimientos, y es que pueden llevar a la subdivisión excesiva de los datos agotando el número de casos necesario en cada clase para la obtención de resultados consistentes. Además, la necesidad de elegir casos y controles con las mismas características según las cuales se realiza el emparejamiento, en general limita las posibilidades de llevarlo a cabo para más de unos pocos factores. Para proceder con este tipo estudios, una vez apareados los casos y los controles, es posible tabular cada par de acuerdo a la presencia o ausencia de exposición en sus dos integrantes. Por lo tanto, en cada par de caso y control se podrá dar: caso expuesto-control no expuesto, caso no expuesto-control expuesto, ambos expuestos, ambos no expuestos (Tabla 16.3).
[ 354 ]
Tabla 16.3. Estudio caso-control con datos apareados Casos expuestos
Casos no expuestos
Controles expuestos
r
t
Total c
Controles no expuestos
s
u
d
Total
a
b
Si bien las cuatro casillas de la tabla proporcionan información acerca de la exposición, el análisis suele limitarse a los pares discordantes s y t (caso expuesto-control no expuesto y caso no expuesto-control expuesto). Aunque no se examinará la demostración, la razón s/t formada por los pares discordantes arriba mencionados, estima el riesgo relativo de enfermedad entre individuos expuestos y no expuestos en los estudios de caso-control apareados: RR = s / t (16.15) La significación estadística del riesgo relativo así estimado se prueba frente a la hipótesis nula s = t, que implica un riesgo relativo = 1. Cuando s ≠ t, el riesgo relativo indicado por el cociente s / t es diferente de 1 e importa conocer si lo es en forma significativa. La prueba de significación consiste en determinar la probabilidad de hallar s / (s + t ) pares discordantes, sabiendo que si s = t, dicha probabilidad será P = 0.5 (por lo cual este es el valor de la hipótesis nula). Esta evaluación puede hacerse mediante el test de McNemar, que utiliza la aproximación de la distribución binomial a la normal y una de cuyas expresiones es
z = | s − t | / √ ( s + t )
(16.16)
donde z se distribuye como una variable normal estandarizada cuya probabilidad se obtiene de las tablas de la distribución normal. El numerador es la diferencia en valor absoluto, entre los casos discordantes observados en s y en t, mientras que el denominador es la raíz cuadrada de su suma. Se recordará que para un nivel de significación P = 0.05, z = 1.96, que es el valor que debe alcanzar el test para resultar significativo en dicho nivel. 16.12. Variabilidad muestral, sesgo, factores de confusión y exposiciones Los estudios de tipo caso-control vistos en los párrafos anteriores constituyen una clase importante de estudio epidemiológico, cuyo potencial puede extenderse al estudio del efecto de distintos tratamientos, entendidos como “exposiciones.” En forma general, las causas que pueden afectar la interpretación de los resultados de los distintos procedimientos de inferencia estadística y por lo tanto, los de los estudios caso-control, son la variabilidad muestral, la presencia de diversos tipos de sesgo, y factores relacionados con las variables en estudio, mencionados más arriba como exposiciones y también llamados factores de confusión. La variabilidad muestral, traducida en el llamado error de muestreo, es común a los distintos procedimientos que involucran muestras: su manejo se realiza a través de distintos instrumentos orientados a limitarla y acotarla, algunos de los cuales han sido ya esbozados, como [ 355 ]
el diseño de las muestras y la estimación de intervalos de confianza mediante los procedimientos de inferencia estadística (Sección 6). Como en todas las áreas de la inferencia estadística, el problema de las comparaciones múltiples tiene la misma importancia y el mismo potencial para producir un aumento de resultados significativos cuando la hipótesis nula es en realidad verdadera, por lo que debe ser siempre tenido en cuenta (ver §10.3). Por sesgo o tendencia se entiende una distorsión o desviación sistemática de los resultados obtenidos, respecto de los correspondientes valores en la población estudiada, y es frecuente mencionarla con la palabra inglesa bias. Existen múltiples causas para su presentación en los estudios clínicos, y en los estudios de tipo caso-control puede originarse, entre otras posibilidades, al seleccionar los controles en poblaciones que no son comparables con aquella de la que se obtuvieron los casos, en el diferente registro de las exposiciones en casos y controles, o en errores en la clasificación de casos y exposiciones. Por ejemplo, en pacientes con enfermedades cardiovasculares, es más probable que las exposiciones conocidas como factores de riesgo sean investigadas con más profundidad que en controles cuyas historias provengan de un consultorio de clínica general. De esta forma, la relación entre la proporción de expuestos en el grupo cardiológico y en los controles puede aparecer aumentada, por haber sido menos investigada en los últimos. Con el término factores de confusión (confounding variables) se denominan aquellos factores o variables que están asociados a la vez con la enfermedad y con la exposición, y pueden de esa forma contribuir a la asociación entre éstas. Estos son los factores que frecuentemente requieren consideración especial en los estudios caso-control y pueden hacer necesario el emparejamiento o matching para controlarlos (ver más arriba). A la par de su tratamiento formal mediante técnicas estadísticas como la estratificación de las muestras y el matching, el juicio médico es fundamental en la interpretación de los resultados. El sedentarismo puede estar asociado a una mayor incidencia de coronariopatía (enfermedad), pero también a una mayor tendencia a fumar y a un mayor grado de obesidad (exposiciones), de donde resulta difícil adjudicar su parte como causa de enfermedad a cada uno de los distintos factores, y si la evaluación se centra en el rol del sedentarismo, el tabaco y la obesidad podrán resultar factores de confusión. Como enseguida se comprende, la confusión por efecto de diversos factores puede ser notablemente complicada y también recíproca, y por lo tanto difícil de discernir en cada escenario clínico en particular. Según ha sido ya mencionado, la subdivisión de las muestras en estratos y la posibilidad de matching se hallan limitadas en los estudios caso-control por la disminución de casos en cada estrato y por las dificultades para obtener controles que emparejen con los casos una gran cantidad de factores de confusión. En general, sólo será posible comparar un factor o exposición de interés, y solamente se podrán controlar unos pocos factores relacionados. En tanto, el hecho de que los estudios caso-control proporcionen estimaciones del riesgo relativo basadas en odds, los emparenta con las técnicas de la regresión logística vistas en la Sección 12, que permiten estimar el riesgo como variable binaria en función del logaritmo de los odds o logit. En estos casos, introduciendo los distintos factores de interés entre las variables predictoras, el odds ratio para cualquiera de ellas se puede calcular de la ecuación de regresión (Sección 12). Otros métodos como la regresión múltiple y el método de riesgos proporcionales de Cox, vistos en las secciones 11 y 15 respectivamente, resultan útiles para tratar de aislar [ 356 ]
y evidenciar los efectos de los diferentes factores sobre distintos modelos orientados a estimar el riesgo. Estos y otros métodos multivariados, ayudan a remover los efectos de algunas variables para observar el de las restantes, “controlando” los efectos las aquéllas y superando las posibles limitaciones de los modelos caso-control. Cuando la variabilidad muestral, los posibles sesgos y los factores de confusión han sido controlados y pueden aún detectarse efectos estadísticamente significativos relacionados con las exposiciones en estudio, se tienen los resultados de interés para la investigación. De este modo podrá afirmarse la asociación de los diversos factores de exposición, con las enfermedades o condiciones estudiadas. Por último, debe insistirse en que las consideraciones médicas respecto de los hechos en estudio son al menos tan importantes como los métodos utilizados para el análisis. El establecimiento de conexiones de causa-efecto entre los hechos observados pertenece al juicio de los investigadores y está fundado en los conocimientos existentes acerca de tema en estudio. Como en todas las aplicaciones de la estadística, asociación y correlación no implican causalidad, y una asociación fuerte entre un factor de exposición y la incidencia de una determinada enfermedad no garantiza por sí sola la existencia de una relación causal entre exposición y enfermedad. Por otra parte, si existen motivos fundados para suponer la existencia de una relación entre un determinado factor y una situación clínica, la investigación no debería abandonarse tras un estudio negativo, ya que puede deberse a insuficiente potencia de la prueba, o a factores de confusión o sesgo, introducidos en el modelo. Solo el juicio médico fundado en un conocimiento sólido de la materia investigada podrá decidir acerca de las conclusiones más correctas y el camino a seguir.
Referencias Afifi AA, Clark V. Computer-aided Multivariate Analysis. 3rd ed. Boca Raton, Florida: Chapman & Hall/CRC; 1999. Altman DG, Matthews JNS. Interaction1: heterogeneity of effects. BMJ 1996; 313: 486. Altman DG, Bland JM. Generalization and extrapolation. BMJ 1998; 317: 409-410. Altman DG, Machin D, Bryant TN, Gardner MJ (ed.). Statistics with Confidence: Confidence Intervals and Statistical Guidelines. 2nd ed. London: BMJ Books, 2000. Armitage P, Berry G. Statistical Methods in Clinical Research. 3rd ed. Oxford, England: Blackwell Science Ltd; 1994. Baker SG. The central role of receiver operating characteristic (ROC) curves in evaluating tests for the early detection of cancer. J Natl Cancer Inst 2003; 95: 511-515. Bland M. An Introduction to Medical Statistics. 3rd ed. Oxford, UK: Oxford University Press; 2006. Braunwald E, Zipes D, Libby P. Heart Disease. 6th ed. Philadelphia: W.B. Saunders Company; 2001. Cox DR, Snell EJ. Analysis of Binary Data. 2nd ed. London, England: Chapman & Hall; 1992. Diamond GA, Forrester JS. Analysis of probability as an aid in the clinical diagnosis of coronary artery disease. NEJM 1979; 300: 1350-1358. Diamond GA, Forrester JS. Clinical trials and statistical verdicts: probable grounds for appeal. Ann Intern Med 1983; 98: 385-394. [ 357 ]
Dixon WJ, Massey FJ, Jr. Introducción al Análisis Estadístico. 2da ed. Mexico: Libros McGraw – Hill; 1973. Dunn N, Thorogood M, Faragher B, de Caestecker L, MacDonald TM, McCollum C, Thomas S, Mann R. Oral contraceptives and myocardial infarction: results of the MICA case-control study. BMJ 1999; 318: 1579-1583. Feinstein AR. Clinical Biostatistics. 1st ed. St. Louis, Mo., USA: The C.V. Mosby Company; 1977. Florey C du V. Sample size for beginners. BMJ 1993; 306: 1181-1184. Freiman JA, Chalmers TC, Smith H, Jr., Kuebler RR. The importance of beta, the type II error and sample size in the design and interpretation of the randomized control trial. Survey of 71 “negative” trials. NEJM 1978; 299: 690-694. Glantz SA. Biostatistics: how to detect, correct and prevent errors in the medical literature. Circulation 1980; 61: 1-7. Gorry GA, Pauker S, Schwartz WB. The diagnostic importance of the normal finding. NEJM 1978; 298: 486-489. Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 1982; 143: 29-36. Harrel FE, Jr., Lee KL, Pollock BG. Regression models in clinical studies: determining relationships between predictors and response. J Natl Cancer Inst 1988; 80: 1198-1202. Hirano Y, Uehara H, Nakamura H, Ikuta S, Nakano M, Akiyama S, Ishikawa K. Efficacy of Ultrasound-assisted Stress Testing Using a Hand-carried Ultrasound Device for Diagnosis of Coronary Artery Disease. J Am Soc Echocardiogr 2006; 19:536-539. Hoel PG. Introduction to Mathematical Statistics. 5th ed. New York: Wiley; 1984. Ingelfinger JA, Mosteller F, Thibodeau LA, Ware JH. Biostatistics in Clinical Medicine. 3rd ed. New York: McGraw - Hill, Inc; 1994. Kattan MW. Judging new markers by their ability to improve predictive accuracy. J Natl Cancer Inst 2003; 634-635. Leung WC. Balancing statistical and clinical significance in evaluating treatment effects. Postgrad Med J 2001; 77: 201-204. Levy D, Labib SB, Anderson KM, Christiansen JC, Kannel WB, Castelli WP. Determinants of sensitivity and specificity of electrocardiographic criteria for left ventricular hypertrophy. Circulation 1990; 81: 815-820. Lusted LB. Decision-making studies in patient management. NEJM 1971; 416-424. Mantel N, Haenszel W. Statistical aspects of the analysis of data from retrospective studies of disease. J Nat Cancer Inst 1959; 22: 719-748. Menard S. Applied Logistic Regression Analysis. Sage University paper series on quantitative applications on social sciences. 2nd ed. Thousand Oaks, CA. : Sage Publications, Inc. ; 2000. McPherson K. Statistics : the problem of examining accumulating data more than once. NEJM 1974; 501-502. Markush RE. Levin´s attributable risk statistic for analytic studies and vital statistics. Am J Epidemiol 1977; 105: 401-406. Matthews JNS, Altman DG. Interaction 2: compare effect sizes not P values. BMJ 1996; 313:808. Matthews JNS, Altman DG. Interaction 3: how to examine heterogeneity. BMJ 1996; 313: 862. Metz CE. Basic principles of ROC analysis. Semin Nucl Med 1978; 8: 283-298. [ 358 ]
Modenesi JC, Ferreirós ER, Swieszkowski S, Nacinovich FM, Cortés C, Cohen Arazi H, Kazelian L, Varini S, Ciruzzi M, Casabé JH, en representación investigadores EIRA-II. Predictores de mortalidad intrahospitalaria de la endocarditis infecciosa en la República Argentina: resultados del EIRA-II. Rev Argent Cardiol 2005; 73: 283-290. Mood AM, Graybill FA. Introducción a la Teoría de la Estadística. 4ª ed. Madrid: Aguilar; 1978. Pampel F. Logistic Regression. A Primer. 1st ed. Thousand Oaks, CA.: Sage Publications, Inc. ; 2000. Passik CS, Ackermann DM, Pluth JR, Edwards WD. Temporal changes in the causes of aortic stenosis: a surgical pathologic study of 646 cases. Mayo Clin Proc 1987; 62:119-23. Pepe MS, Janes H, Longton G, Leisenring W, Newcomb P. Limitations of the odds ratio in gauging the performance of a diagnostic, prognostic, or screening marker. Am J Epidemiol 2004; 159: 882890. Peto R, Pike MC, Armitage P, Breslow NE, Cox DR, Howard SV, Mantel N, McPherson K, Peto J, Smith PG. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. I. Introduction and design. Br J Cancer 1976; 34: 585-612. Peto R, Pike MC, Armitage P, Breslow NE, Cox DR, Howard SV, Mantel N, McPherson K, Peto J, Smith PG. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. II. Analysis and examples. Br J Cancer 1977; 35: 1-39. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. NEJM 1978; 299: 926-930. Rifkin RD, Hood WB, Jr. Bayesian analysis of electrocardiographic exercise stress testing. NEJM 1977; 297: 681-686. Rodríguez ML, Dizeo C, Selva H, Brito M, Nordaby RA, Campo A, García Guiñazú CA, Machado RA. En presencia de valvulopatía el ECG tiende a subestimar la masa ventricular izquierda: un resultado de la fibrosis intersticial? Rev Argent Cardiol 2004; 72 (sup 3): 149. Schroeder LD, Sjoquist DL, Stephan PE. Understanding Regression Analysis: An Introductory Guide. 1st ed. Newbury Park, CA: Sage Publications, Inc.; 1986. Snedecor GW, Cochran WG. Métodos Estadísticos. 5a ed. Mexico: Compañía Editorial Continental, S.A.; 1970. Talfryn H, Oakley D, Crombie IK, Tavakoli M. When can odds ratios mislead? BMJ 1998; 316: 989991. Tukey JW. Some thoughts on clinical trials, especially problems of multiplicity. Science 1977; 198: 679684. Turner JC. Matemática Moderna Aplicada. Probabilidades, Estadística e Investigación Operativa. 1st ed. Madrid: Alianza Editorial S.A.; 1974. Vickers AJ, Altman DG. Analysing controlled trials with baseline and follow up measurements. BMJ 2001; 323: 1123-1124. Wackerly DD, Mendenhall W, III, Scheaffer RL. Estadística Matemática con Aplicaciones. 6a ed. Mexico: Thomson; 2002. Weissler AM. A perspective on standardizing the predictive power of noninvasive cardiovascular tests by likelihood ratio computation: 1. Mathematical principles. Mayo Clin Proc 1999; 74: 1061-1071. Weissler AM. A perspective on standardizing the predictive power of noninvasive cardiovascular tests by likelihood ratio computation: 2. Clinical applications. Mayo Clin Proc 1999; 74: 1072-1087. Zhang J, Yu KF. What´s the relative risk? JAMA 1998; 280: 1690-1691. [ 359 ]
[ 360 ]