Ir al contenido principal

Karl Pearson, el Creador de la Estadística Matemática.




Historia de la probabilidad y la Estadística [IV] (J. Basulto y J. J. García, eds.) Huelva: servicio de publicaciones de la Universidad de Huelva.
(2009), 351-356.

Karl Pearson, el Creador de la Estadística Matemática.
M. A . Gómez Villegas
Dpto de Estadística e Investigación Operativa.
Facultad de CC Matemáticas.
Universidad Complutense De Madrid.

Karl Pearson fue historiador, escribió sobre folklore, fue un socialista convencido, abogado, matemático aplicado, biómetra, estadístico, maestro y biógrafo. Pero sin duda su contribución más importante es al nacimiento de la Estadística Aplicada. Es por lo que le debemos el mayor crédito, en frase de él mismo "Hasta que los fenómenos de cualquier rama del conocimiento no hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia".
Introdujo el método de los momentos para la obtención de estibadores, el sistema de curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la correlación lineal para aplicarla a la teoría de la herencia y de la evolución. Introdujo el método de la χ2 para dar una medida de ajuste entre datos y distribuciones, para contrastar la homogeneidad entre varias muestras, y la independencia entre variables. Fundó los Anales de Eugenesia y en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que fue editor hasta su muerte. En una descripción autobiográfica decía "una explicación para mi vida, se debe a una combinación de dos características que he heredado: capacidad para trabajar mucho y capacidad para relacionar las observaciones de los demás".

Datos biográficos.

Nacer en Londres en 1857 y muere en 1936, su familia es originaria de Yorkshire. Hijo de un abogado, estudia en la University College Schooll. En 1873, a la edad de 16 años fue retirado de la escuela por motivos de salud, y pasa el año siguiente con un preceptor privado. En 1875 obtuvo una beca para él King´s College, en Cambridge. El decía que Cambridge le dio, placer en las amistades, placer en las polémicas, placer en el estudio, placer en la búsqueda de nuevas luces, tanto en las matemáticas como en la filosofía y la religión; así como ayuda para mantener su radicalismo científico dentro de los límites moderados y razonables. Con 22 años marcha a Alemania y estudia leyes, física y metafísica. Entre 1880 y 1884 es profesor de matemáticas en el King College y en el University College. En 1911 fue el primer profesor de Galton de Eugenesia, la naciente parte de la Biología encargada de los estudios encaminados a conseguir la mejora de las especies. Era un darwinista convencido.
En el año 1890 se producen dos sucesos importantes para la trayectoria científica de Pearson; Galton publica su Herencia Natural donde incluye sus trabajos de correlación y regresión y Weldon se incorpora a la cátedra de zoología en el University College de Londres. Los primeros trabajos le van a dotar de una herramienta, con la que cuantificar las medidas de dependencia con la que va a poder contrastar, con resultado positivo, la teoría de la evolución introducida por Darwin. La figura de Weldon le va a permitir trabajar con un biólogo que compartía sus ideas de la evolución y que sería una fuente inagotable de cuestiones, que obligarían a Pearson a ir obteniendo técnicas estadísticas que le permitieran responder a los problemas que Weldon le planteaba. Entre 1891 y 1892 imparte conferencias sobre la geometría de la estadística en el Gresham College, y en ellas introduce los estigmogramas, entigramas, histogramas, cartogramas, stereogramas, etcétera. Estas lecturas marcan el comienzo de una nueva época en la teoría y la práctica de la estadística.
Entre 1893 y 1906 publica unos 100 artículos sobre la teoría estadística y sus aplicaciones. La capacidad de investigación de Pearson es asombrosa, a lo largo de su vida publicó más de 650 artículos, fundó junto con Galton y Weldon, en 1901, la revista Biometrika para publicar artículos de estadística aplicada a la biología, ese mismo año publica sus Tablas para Estadísticos y Biometrístas para ayudar a los ajustes de curvas. En 1905 pública el artículo sobre la teoría general de la correlación asimétrica y la regresión no lineal. En 1914 Fisher empieza la polémica con él cuando trata de publicar un artículo en Biométrika, sobre el coeficiente de correlación muestral para muestras de una población normal bivariante. El artículo fue referenciado por Weldon como biólogo y por K. Pearson como estadístico y fue rechazado. Posteriormente Fisher diría que su artículo había sido referenciado por un biólogo que nos había estadística y por un estadístico que no sabía biología.
Para completar la personalidad de K. Pearson, decir en su primera época, cuando descubre que los valores de la ruleta no son aleatorios, escribe el gobierno francés para que cierre los casinos y dedique el dinero a la Academia de Ciencias, para que se funde un laboratorio de probabilidad, que aplique ésta al problema de la evolución biológica.

Contribuciones de Karl Pearson.

La primera contribución de Karl Pearson que me interesa citar, sobre todo en este contexto, es su serie de conferencias sobre la Historia de la Estadística que dio en el University College de Londres entre los años de 1921 y 1933. Las conferencias fueron recogidas por su hijo Egon Pearson, catedrático de Estadística en el University College también, y que a aunque algunas personas no eran partidarias de su publicación sin ser revisadas, constituyen un valioso documento para la historia.
Para hacerse una idea del tipo de trabajo que entraña transcribimos la siguiente cita de la introducción de las conferencias, tomadas del prefacio de las conferencias dadas por Karl Pearson.
Lleva mucho tiempo leer las fuentes originales. En la historia de la estadística muy poca gente se ha tomado la molestia de hacerlo. Yo podría dar muchos ejemplos, de la cantidad de errores que ha propiciado esta conducta, pero me concentraré con poner tres o cuatro.
1. Muchos alemanes llaman Achenwall el "padre de la estadística", cuando no es así. El aplicaba el término con un significado distinto al que se aplica actualmente.
2. Hay una curva fundamental en estadística que lleva el nombre de Gauss. Laplace la descubrió 10 años antes y su descubridor real fue De Moivre medio siglo antes.
3. Hay un teorema fundamental en estadística es el teorema de Bernoulli, cuando su descubridor fue también De Moivre.
4. Más recientemente, y yo soy parte culpable, el coeficiente de correlación lineal ha sido atribuido a Bravais, cuando debiera haberlo sido a Galton.
La segunda contribuciones la familia de curvas de Karl Pearson.
La siguiente contribución fue el método de la distancia de la χ2 para dar una medida de ajuste entre una distribución teórica y una experimental.
El cuarto procedimiento que nos legó Pearson, fue la concreción de la definición del coeficiente de correlación lineal para el estudio de la dependencia estadística y el método de los momentos para determinar los parámetros desconocidos de una distribución, cuando se dispone de una muestra aleatoria simple de la misma.

La familia de distribuciones asimétricas.

Karl Pearson introduce la familia de distribuciones asimétricas como una alternativa a la distribución normal, que había sido la protagonista ya desde el tiempo de Quetelet. Llega a la familia de distribuciones razonando sobre una mixtura de dos distribuciones normales y concluye que puede haber situaciones en las que los errores de las observaciones no sean normales y por lo tanto se consigan mejores ajustes a situaciones prácticas mediante las mixturas. Los problemas técnicos en los que se ve envuelto son de envergadura, para la determinación de los parámetros se reforzaba resolver una ecuación de grado 9. Esto es lo que le llevó a Galton a dudar de la corrección del método. No obstante fue, la resolución del problema de la mixtura lo que le hizo abordar el problema de la obtención de distribuciones que permitieran sustituir a la normal para modelizar la incertidumbre.
Introduce la familia de distribuciones en su publicación K. Pearson (1895), mediante la solución de la ecuación diferencial

Obtiene, para valores convenientes de las constantes, la distribución Beta simétrica, la distribución Beta asimétrica, la Gamma y la Normal.
Además para ajustar los parámetros introduce el método de los momentos.

El método de la distancia de la χ2.

Está contenido en una memoria de 1900 y lo introduce para dar una medida del ajuste entre una distribución de probabilidad y una muestra.
La idea es, dada la muestra (x1, x2, ... xn) y la distribución f(x/θ) construir el estadístico
Que se distribuye χ2k-1, si la muestra proviene de la distribución. Donde se supone realizada una partición de k elementos en el recorrido de la distribución, con lo que lo valores Yi, las frecuencias observadas de los xi en el elemento i de la partición, puede suponerse con distribución multinomial, e yi son las frecuencias observadas bajo la hipótesis de que la distribución de la muestra es f(x/θ).
El procedimiento sería generalizado a los problemas de homogeneidad y a las tablas de contingencia, por el propio Karl Pearson y por sus discípulos, Edgeworth y Yule, para culminar en los trabajos posteriores de Fisher. Información relevante de esta evolución puede verse en Stigler (1986) el desarrollo de los métodos pueden verse en Gómez Villegas (2005).

El coeficiente de correlación lineal.

La medida de la independencia entre dos variables ha tenido una larga historia y ha preocupado, básicamente por su utilidad práctica, a bastantes científicos. Es Galton, el que consigue concretar su definición, aunque todavía incorrecta, pero es Karl Pearson el que en dos memorias consigue precisarlo. La primera titulada "regresión, herencia y panmixia" es de 1896; la segunda, escrita en colaboración con Filón "Sobre los errores probables de las frecuencias y su influencia en la selección aleatoria, la variación y la correlación" es de 1898.
En la primera memoria, está incluida con precisión la definición del coeficiente de correlación muestral como

Con  

  y también incluye la distribución del coeficiente de correlación poblacional ro en el caso de una distribución normal bivariante. Curiosamente aplica un razonamiento bayesiano para determinar la distribución del coeficiente de correlación poblacional.
En la diferenciación entre el coeficiente de correlación muestral y poblacional, afirma que r. es el estimador más probable de ρ, en concreto enuncia sin demostrarlo, que el valor que maximiza la distribución de probabilidad final que ha obtenido para ρ es el coeficiente de correlación muestral, con lo que anticipa el método de estimación de la máxima verosimilitud que posteriormente desarrollará Fisher.
En el verano de 1933 renuncia a su cátedra y se retira, el University College de Londres divide su cátedra en tres; una de Eugenesia que fue desempeñada por Fisher, una de Estadística que fue desempeñada por Egon Pearson, el hijo de Karl Pearson, y una de Biometría. Puede decirse que en ese momento ha sido creada la estadística aplicada como un procedimiento para tratar la incertidumbre y para ser aplicada a todas y cada una de las ciencias experimentales.
Un estudio más detallado de la vida y el trabajo de Karl Pearson puede consultarse en E. Pearson (1938).

Agradecimientos.

Este trabajo ha sido realizado en parte por ayudas del Ministerio De Educación y Ciencia proyecto MTM 2005-05462 y de la comunidad de Madrid- Universidad Complutense proyecto 910395.

BIBLIOGRAFÍA.

Gómez Villegas, M.A. (2005) Inferencia Estadística, Madrid: Díaz de Santos.

Pearson, E.S. (1938) An Appreciation of Some Aspects of His Life and Work, Cambridge:

Cambridge University Press (existe una traducción de A. Eidlicz (1948) Pearson Creador de la Estadística Aplicada, Buenos Aires: Espasa-Calpe).

Pearson, K. (1900) On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling, Philosophical Magazine 5 th series, 50, 157-175.

Pearson, K. (1978) The History of Statistics in the 17 th and 18 th Centuries, Edited by E.S. Pearson. New York: MacMillan.

Pearson, K. (1895) Contributions to the mathematical theory of evolution, II: skew variation. Philosophical Transactions of the Royal Society of London, A, 186, 343-414.

Pearson, K. (1896) Contributions to the mathematical theory of evolution, III: regression. Heredity and panmixia, Philosophical Transactions of the Royal Society of London, A, 187,
253-318.

Pearson, K. and Filon, L.N.G. (1898) Contributions to the mathematical theory of evolution, IV: on the probable errors of the frequency constants and on the influence of random selection on variation and correlation. Philosophical Transactions of the Royal Society of London, A, 191, 229-311.

Stigler, S.M. (1986) The History of Statistics: The Measurement of Uncertainty before 1900, Cambridge: Belknap Harvard.

Comentarios

Anónimo ha dicho que…
Me pareció accesible la información que compartes además de que la clasificas de una manera estratégica que facilita su comprensión.
Unknown ha dicho que…
Este comentario ha sido eliminado por el autor.

Entradas populares de este blog

CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA

Cultura Científica No 2 (2004) CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA Cuadros D. Jaime.* (*) Maestría en Educación, UPN. Esp en Estadística, Universidad Nacional de Colombia. Lic. en Matemática y Estadística, UPTC. Profesor catedrático FUJC. E-mail: cuadros@telecorp.net. RESUMEN Sir Ronald Fisher (1890-1962) fue profesor de genética y muchas de sus innovaciones estadísticas encontraron expresión en el desarrollo de metodología en estadística genética. Sin embargo, mientras sus contribuciones en estadística matemática son fácilmente identificadas, en genética de poblaciones compartió su supremacía con Sewal Wright (1889-1988) y J.S.S. Haldane (1892-1965). Este documento muestra algunas de las mejores contribuciones de Fisher a las bases de la estadística genética, y sus interacciones con Wrigth y Haldane, los cuales contribuyeron al desarrollo del tema. Con la tecnología moderna, tanto la metodología estadística como la información gen

Nuevas tendencias de la Estadística en el siglo XXI

Rev. Real Academia de Ciencias. Zaragoza. 61: 87-97, (2006). (Conferencia leída en el Aula Magna de la Facultad de Ciencias de la Universidad de Zaragoza, el 15 de noviembre de 2006, con motivo de la festividad de San Alberto Magno.). José A. Cristóbal. Departamento de Métodos Estadísticos. Facultad de Ciencias, Universidad de Zaragoza, 50009 Zaragoza. La llegada del nuevo milenio ha impulsado un nuevo espíritu en la investigación tanto para científicos como para humanistas. En particular, todo apunta hacia el desarrollo de una nueva cultura intelectual donde el trabajo más profundo de los científicos se hace más accesible al público en general. En palabras de John Brockman, filósofo norteamericano y autor de numerosos libros sobre ciencia de vanguardia: "La aparición de esta nueva cultura es una evidencia de un gran anhelo universal, un deseo para la nueva e importante idea que dirige nuestros tiempos: un desarrollo revolucionario en biología molecular, ingeniería

Historia de la Estadística en Venezuela

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD profesores Guillermo Ramírez y Maura Vázquez. Historia de la Estadística. La etimología de la palabra estadística sugiere su origen. Este término se deriva del italiano statista , que a su vez proviene del latín status , vocablo que significa estado en el sentido político de la palabra. Se empleó entonces el término "estadística" para designar a la colección y descripción de datos relativos a la población y riqueza de los pueblos. Se pueden distinguir las siguientes etapas en el desarrollo histórico de la estadística: 1) Edad Antigua (- Siglo V). Como se ha dicho, en sus inicios la estadística constituía el conjunto de datos que describían los recursos más importantes con los que contaban los pueblos: población, tierras y riquezas, y que se uti