Revista Colombiana de Estadística
Volumen 23 (2000) N 2, páginas
DEL SIGLO XX, FISHER, EL GENIO
SERGIO YÁÑEZ CANAL
(Profesor Asociado, Departamento de Estadística,
Universidad Nacional de Colombia; Sede Medellín)
Resumen
Introducción
Sus resultados le dieron a la estadística el estatus de disciplina científica, reafirmado por los innumerables campos de aplicación de sus metodologías. Me concentraré en su aporte a los fundamentos que convierten a la estadística en ciencia, no sin advertir que su estatura genial destaca en muchos otros campos, como el diseño experimental para citar sólo uno.
Estas ideas se presentaron en su primera versión, a manera de conferencia, dentro del "SEMINARIO GRANDES PENSADORES DEL FIN DEL MILENIO, CUARTO CICLO: MATEMÁTICOS 1999" organizado por
El texto que hoy se presenta en el Simposio de Estadística 2001, se enriqueció durante el debate para la creación del Departamento de Estadística de
Argumentar sobre lo obvio, al menos para uno, es en primera instancia difícil, se tiende a rechazar la idea por trivial, pero reflexionando se hace necesario explicar que
La épica de los pueblos es elemento fundamental de su identidad. De manera análoga, la estadística tiene sus mitos alrededor del azar, los dioses y los oráculos. Sus ilustres ancestros en la Teoría de
Parafraseando a Efron (1998) "incluso los científicos necesitan sus héroes, y R. A. Fisher fue sin duda el héroe de la estadística del siglo XX. Sus ideas transformaron nuestra disciplina de tal forma que hasta un César o un Alejandro hubieran envidiado."
Antes de entrar en materia propongo institucionalizar una “Conferencia de Historia de
Bosquejo Histórico
El carácter genial de Fisher y su importancia histórica son resumidas por Hald (1998) al afirmar que "hay tres revoluciones en la inferencia estadística paramétrica debidas a Laplace (1774), Gauss y Laplace entre 1809-1812 y Fisher (1922) respectivamente. Les tomó a cada uno de estos autores alrededor de 20 años, y muchos artículos para desarrollar sus ideas básicas en detalle, y al resto de la comunidad estadística medio siglo para entender y desarrollar los nuevos métodos y sus aplicaciones".
En la figura 1 se presentan estos tres colosos con sus obras capitales. La de Fisher establece los fundamentos de la que a nuestro juicio es
En términos simples, la genética era discreta y la evolución asumía continuidad, la una trabaja con muestras pequeñas y la otra con muestras grandes, estas diferencias en términos estadísticos enmarcan el trasfondo conceptual de la controversia Pearson-Fisher. Estos debates se resuelven a favor de la ciencia, las distintas hipótesis logran coexistir, se enriquece el acervo de conocimientos, se avanza en la diferencia bajo el mismo gran techo disciplinar. La parte anecdótica enriquece la leyenda, muestra facetas humanas de los genios, las pequeñeces al lado de las grandezas; y nos ayuda a recordar que la forma neutral del conocimiento avanza entre lo conflictual humano. Una medida de la vitalidad de una ciencia, es la importancia de sus debates, de sus contradicciones (irresolubles según los actores); así comienza la estadística y continúa hoy su muestra de vitalidad en los debates entre bayesianos y frecuentistas, no sin mencionar los “analistas de datos" que no aceptarán ninguna de las casillas anteriores.
Retomando las coordenadas de los orígenes mencionemos algunos hechos de importancia siguiendo la figura 2. Pearson y Galton fundaron en 1901 Biometrika, revista cimera de la nueva disciplina y donde Fisher publicó en 1915 su artículo sobre la distribución del coeficiente de correlación; fue su único artículo en dicha revista. A la muerte de Galton se estableció en el University Collage (Londres) la “Galton Chair" de Eugenesia, cátedra que pasó a ocupar Pearson renunciando a la de matemáticas aplicadas y mecánica que regentaba desde 1884. Al posesionarse Pearson de su cátedra fundó un nuevo departamento, el DEPARTAMENTO DE ESTADÍSTICA APLICADA, el primero en la disciplina, 1911 su año de inicio. Fisher publicó su primer artículo estadístico en 1912 al graduarse en Matemáticas en Cambridge University.
En 1933 Pearson renuncia y su departamento se divide, a Fisher se le concedió la “Galton Chair" como director del Departamento de Eugenesia y Egon S. Pearson, hijo de Karl, fue nombrado director del Departamento de Estadística Aplicada, en pisos diferentes del mismo edificio. Neyman fue contratado por Egon en 1934 y trabajaron juntos hasta 1938 cuando Neyman viajó a Berkeley. La sociedad Neyman-Pearson desarrolló el punto de vista Pearsoniano hacia una teoría de decisiones en contraposición a la visión de Fisher más de análisis de datos. Esto fomentó la controversia Pearson-Fisher de importantes consecuencias en el mundo estadístico.
Después de la segunda guerra mundial Fisher trabajó como profesor de genética en Cambridge hasta 1957 cuando se retiró. Luego viajó a Australia en
En 1935, se funda el Institute of Mathematical Statistics (IMS) en EstadosUnidos, otro de los puntos de referencia obligatorios de nuestra disciplina y responsable de otro de los íconos, la revista Annals of Mathematical Statistics. Fisher fue miembro de su primer comité editorial. Recientemente el Annals fue reemplazado por dos publicaciones: el Annals of Probability y el Annals of Statistics. Según Gifi (1990) esto fue una consecuencia del debate de los “analistas de datos", (Tukey (1962) de un lado, Benzecri (1973) de otro) y de la confrontación de la escuela norteamericana (responsable del Annals) e inglesa relativa a la “estadística matemática". Estos debates aclaran la autonomía disciplinaria de la estadística con métodos completamente diferentes y donde la “demostración matemática" no es estándar único de validez, sino también su relación con la experiencia que constantemente retroalimenta el desarrollo metodológico-aplicado de la estadística. Esa relación de los científicos experimentales con los datos es lo que potencia la creación de la estadística y la mantiene. Al respecto Fisher afirmaba (ver Box (1997)) que la “estadística matemática en sí misma debe su origen y continuo crecimiento a su confrontación con los datos científicos más que a problemas teóricos".
Fisher y Student
William Sealy Gosset (1876-1937), quien escribió con el seudónimo de Student, famoso por su distribución “t", la que desarrolló como respuesta a problemas prácticos de variedades de cebada, en su trabajo en la cervecería Guinness, es un ejemplo de que los grandes desarrollos de la estadística han surgido, generalmente, como respuesta a necesidades prácticas. Lo que se llamaría la “t" de Student aparece por primera vez en un artículo de Gosset en 1908. El trabajo era con muestras pequeñas, la deducción teórica de la distribución no estaba completa, pero sí verificada numéricamente la curva teórica contra la muestral. Esto último lo hace precursor de la simulación. Fisher en 1912 formalizó la prueba de la distribución “t" y mantuvo una buena relación con Gosset quien no tenía una gran formación matemática (ver Pearson(1968)), pero compartía con Fisher el interés por los datos experimentales, tema que K. Pearson, quien había sido profesor de Gosset, no aceptaba y con todo su poder académico combatía. Inspirado por Gosset, Fisher desarrolló entre 1922 y 1925 la teoría de muestras pequeñas bajo normalidad que con el nombre de Análisis de Varianza y Covarianza tuvo gran impacto en la teoría y la práctica de la estadística. (Fisher trabajó en Rothamsted, Inglaterra, centro experimental agrícola, de
Egon Pearson, ya casi octogenario, en artículo sobre el impacto del trabajo de Fisher, Pearson (1974), da un clarificador resumen de las diferencias conceptuales entre su padre Karl Pearson y Fisher. Comenta que entre 1890 y 1920, Galton y K. Pearson establecen la escuela biométrica, bajo la influencia de Darwin, lo cual los lleva a trabajar con muestras grandes, pues su interés es la reproducción de las especies (humanos, animales, plantas), libremente en su medio natural. Esta teoría de muestras grandes no necesitaba estudiar en detalle la lógica de la inferencia estadística para interpretar sus resultados. Mientras tanto, Fisher estaba interesado en datos experimentales, lo cual lo obligaba a trabajar con muestras pequeñas que exigían un examen cuidadoso de las bases de la inferencia científica. Dice textualmente Pearson hijo, “Lo que fue y sería importante para mí es cómo Fisher, en los 1920..., hizo que los estadísticos reflexionáramos acerca de las ideas fundamentales".
Egon reconoce también la influencia de Fisher en Neyman-Pearson, dando argumentos para reafirmar la genialidad de Fisher que lo erige como la figura dominante de la estadística del siglo XX.
Fisher y la X 2 de Pearson
Karl Pearson en 1900 desarrolló el estadístico X2 y encontró su distribución asintótica cuando los parámetros son conocidos, pero erróneamente afirmó que al tener los parámetros desconocidos y reemplazándolos por sus estimativos, la distribución asintótica era la misma. Fisher, en su gran trabajo seminal de 1922, citado en la figura 1, introduce la noción de grados de libertad y su teoría de estimación por máxima verosimilitud (Pearson usaba el método de momentos), lo que le permite encontrar la distribución asintótica correcta de
Fundamentos de la Estadística Teórica
La influencia de Fisher en el desarrollo de la estadística como ciencia es definitiva. Su artículo de 1922 marca época y permite que la disciplina establezca sus sólidos fundamentos y reflexione sobre su objeto de estudio y sus metodologías. Sus ideas desataron y desatan controversias que han enriquecido y solidificado la arquitectura del bello edificio estadístico.
Para Fisher (ver Hald (1998) pág. 713) el objeto de los métodos estadísticos es la reducción de los datos, lo cual se logra al considerar los datos disponibles como una muestra aleatoria de una población hipotética infinita, cuya distribución con respecto a las características bajo discusión es especificada por relativamente pocos parámetros. Establece tres tipos de problemas:
· Especificación: Sobre la escogencia de la distribución de probabilidad para la población.
· Estimación: Cómo calcular los “estadísticos" de la muestra aleatoria para representar los parámetros de la población teórica.
· Distribución: Sobre distribuciones muestrales de los “estadísticos".
También establece tres criterios de estimación:
· Consistencia
· Eficiencia
· Suficiencia
Hald (1998) afirma que los tres tipos de problemas y los tres criterios de estimación dan el marco para un programa de investigación que dominó la estadística teórica durante todo el siglo. Otro aspecto importante de su trabajo es la creación de todo un nuevo vocabulario técnico. Los siguientes términos fueron acuñados por Fisher: parámetro, estadístico, varianza, verosimilitud, “score" ideal, ancilaridad, información, hipótesis nula, test de significancia, nivel de significancia, punto crítico, aleatorización, diseños factoriales, interacción, confusión. Un punto clave de estos avances es la clara distinción expresada por Fisher entre valores muestrales y poblacionales, que se reflejó en el aspecto notacional al utilizar las letras griegas para la población y latinas para la muestra.
Máxima Verosimilitud
El método de máxima verosimilitud es el método de estimación introducido por Fisher (1922), que intuitivamente pretende obtener el estimativo de un parámetro seleccionado aquí el que maximiza la probabilidad de observar los datos que realmente fueron observados. Este es un gran ejemplo de la lógica reduccionista de Fisher basada en los datos y con un gran sentido práctico en cuanto a su facilidad de utilización.
Fisher siempre prefirió resultados exactos en muestras pequeñas pero paradójicamente las propiedades optimales de los estimadores máximo verosímiles son asintóticas. En 1925 Fisher probó que los estimadores eran los mejores asintóticamente normales (bajo ciertas condiciones de regularidad):
Donde
es el número de información de Fisher, que representa la mínima varianza y tal que NI(θ) recoge la información acerca de θ contenida en la muestra. Estas ideas intuitivas fáciles de aplicar y además las “mejores" en el sentido mencionado, sin tener que apelar a razonamientos Bayesianos ni a desarrollos matemáticos artificiosos, es el resultado culminante de la filosofía de pensamiento Fisheriano.
Los logros de Fisher generaron un gran interés en resultados optimales. El producto más espectacular de ese entusiasmo fue el lema de Neyman-Pearson para pruebas de hipótesis óptimas, seguido por la teoría de intervalos de confianza de Neyman. A pesar de que Fisher nunca aprobó las ideas anteriores, filosóficamente las podemos ubicar dentro de lo Fisheriano.
Bajo la influencia de las ideas de Neyman, Abraham Wald (1950) coloca la estadística dentro del campo de la teoría de decisiones. Ese afán de lo óptimo lleva al frecuentismo (según Neyman-Wald) a una teoría rigurosa con un enorme atractivo matemático, muy lejos de la lógica inferencial de Fisher que pretendía aprender de los datos. Al respecto Fisher (1956) decía: “... todavía es cierto que las Ciencias Naturales pueden ser conducidas exitosamente solo por pensadores responsables e independientes, que concentran sus mentes e imaginación a la interpretación detallada de observaciones verificables. La idea de que esa responsabilidad puede ser delegada a un gran computador programado con funciones de decisión, pertenece a la fantasía, muy lejana de la investigación científica."
Fisher frente a la controversia Bayesianos VS. Frecuentistas
El punto de vista frecuentista de Neyman-Wald, con pretensiones estructuralistas y universales en la búsqueda del óptimo generó su propia contrarreforma, el Bayesianismo. Estos nuevos Bayesianos enfatizan las probabilidades subjetivas y las decisiones de tipo personal (existen también los objetivistas y los empíricos que tienen todos en común la escogencia de la probabilidad apriori). Así llegamos al comienzo del siglo XXI con esta controversia “Bayesianos vs. Frecuentistas" como prueba de vitalidad de nuestra disciplina, polémicas generadoras de nuevos conocimientos.
En la figura 3 tomada de Efron (1998) vemos a Fisher en comparación con los Frecuentistas y Bayesianos. Efron (1998) interpretando la gráfica 3 nos dice que da la impresión de que la estadística Fisheriana concilia entre las otras dos escuelas pero en un punto crucial no transa: en su facilidad de uso. Si algo va a reemplazar a la mirada fisheriana en el siglo XXI deberá ser una metodología que sea fácil de aplicar en el día a día. El pensamiento de Fisher se caracterizaba por esa naturalidad computacionalmente algorítmica de sus metodologías, siempre expresable en términos prácticos. En esta dirección se piensa que la influencia de Fisher perdurará.
Fisher y el futuro de la estadística
Este intento predictivo lo hago basado en un artículo de Bradley Efron (1998), uno de los más grandes estadísticos de hoy, creador del boostrap. La figura 4, tomada de Efron (1998) presenta los principales temas actuales de investigación en función de la influencia de los tres polos: Bayesiano, Frecuentista y Fisheriano.
Si bien la mayoría de las ideas de Fisher no se usan hoy, su influencia expresada a través de su pensamiento como se trató en la sección anterior, se espera que perviva y contribuya como elemento unificador en la estadística del siglo XXI. El artículo de Efron viene acompañado de comentarios de un selecto grupo de estadísticos. De ellos vale la pena anotar el de Hinkeley quien llama la atención sobre la ausencia de la escuela de análisis de datos de Tukey. Efron replica: “En su forma más pura esta línea de trabajo es estadística sin teoría de probabilidad y como tal no la puedo colocar en ninguna parte del triángulo estadístico". Pienso que observaciones y respuestas como la anterior nos invitan a intentar nuestra propia representación gráfica, a reflexionar sobre nuestro quehacer en el contexto de la dinámica contemporánea de la estadística, de su gran diversidad de intereses y aplicaciones que constituyen nuestra actual comunidad, ya centenaria.
Kruskal (1980) en un comentario al libro sobre Fisher, de su hija Joan Fisher Box (ver Box 1998) cita a otro genio creativo, latinoamericano esta vez, Jorge Luis Borges, para ilustrar la complejidad de la obra de Fisher. Yo no puedo resistir la tentación de citarlo en referencia al triángulo de la figura 4, donde en un claro juego de espejos borgiano la estadística en ese calidoscopio, toma múltiples y agradables formas según la posición que se tome sin perder su inasible unidad: “Tan compleja es la realidad, tan fragmentaria y tan simplificada la historia, que un observador omnisciente podría redactar un número indefinido y casi infinito, de biografías de un hombre, que destacaran hechos independientes y de las que tendríamos que leer muchas antes de comprender que el protagonista es el mismo." (Borges 1960).
Referencias
[1] Benzecri, J.P. Analyse des Donées 2 vols.
[2] Borges, J.L. Sobre el Vathek de William Beckford. Otras Inquisiciones. Alianza Editorial, pág. 133. (1960).
[3] Box, J.F. R.A. Fisher. The life of a Scientest Wiley and Sons,
[4] Box, J.F. Ronald Aymler Fisher Leading Personalities in Statistical Sciences Editado por Johnson, N.L. y Kotz. John Wiley and Sons: New York.(1997)
[5] Efron, B.. R. A. Fisher in the
[6] Fisher R.A. . On the mathematical foundations of the theoretical statistics. Philos. Trans., R. Soc. London A, 222,(1922), 309-368.
[7] Fishr, R. A. . Statistical methods and Scienti¯c inference. Oliver and Boyd. Folks, J.L. (1981). Ideas of Statistics. Wiley and Sons.(1956)
[8] Gifi, A. Nonlinear Multivariate Analysis. Wiley. (1990).
[9] Hald, A. A History of Mathematical Statistics from 1750 to 1930. Wiley and Sons. (1998)
[10] Kruskal. W. The Significance of Fisher: A.Review of R.A. Fisher: The life of a Scientist. Journal of the American Statistical Association. 75, No. 372, (1980), 1019-1030.
[11] Pearson, E.S. Studies in the History of Probability and statistics, XX. Some early correspondence between Gosset, Fisher and K. Pearson, with notes and comments. Biometrika, 55,3, (1968), 445.
[12] Pearson, E.S. Memories on the impact of Fisher's work in the 1920's. Int. Stat. Rev. 42,(1974) No 1.
[13] Rao, C. R. R.A. Fisher: The Founder of Modern Statistics. Statistical Science. 7, No.1, (1992) 34-48.
Comentarios