Ir al contenido principal

Análisis de Datos

Estadística Española. Nº 71 Ene-Jun 1976

ANALISIS DE DATOS

Sixto Ríos

UNIVERSIDAD COMPLUTENSE DE MADRID

Cuando la Estadística se va poblando por todos sus capítulos de modelos de decisión bayesianos, neobayesianos, nó bayesianos, intervalos de confianza de otros tantos tipos, etc., parecerá a muchos algo trasnochado el título elegido para estas notas. Pero precisamente hemos escogido este tema porque, como dice Tukey, el análisis de datos es un tema "elemental, importante y despreciado".

Sin duda, la impetuosa corriente, iniciada por Student y Fisher a comienzo de siglo, con el tratamiento de los problemas de inferencia estadística en el marco de un modelo matemático apropiado, ha arrastrado a casi todas las mentes estadísticas nacidas en el medio siglo transcurrido.

Es un hecho reconocido que la idea de considerar un conjunto de datos estadísticos como una muestra aleatoria de una población, real o potencialmente existente, y utilizar los métodos del Cálculo de probabilidades para establecer relaciones de inferencia de las características de la muestra a los parámetros de la población, ha permitido resolver importantes problemas prácticos y teóricos y su desarrollo ha dado lugar a innumerables trabajos y libros.

Pero no todos los problemas en que intervienen datos estadísticos se encuentran en estos modelos de la decisión o la inferencia estadística, que implican la consideración de una población y de una muestra aleatoria de la misma

Frecuentemente el estadístico se enfrenta con unos datos a los que no tiene sentido considerar como muestra de ninguna población y deben obtenerse conclusiones basadas sobre los mismos, que no pueden, por tanto, tener el carácter de una inferencia estadística tal como la hemos descrito (*) en párrafos anteriores.

Si comparamos los datos relativos a división en fincas agrícolas de dos provincias de España, p.e., Zamora y Sevilla, ¿Podemos decir que estos datos son indicativos de una mayor división de la tierra en una provincia que en otra? Obtener conclusiones sobre situaciones como ésta puede tener interés; pero aquí no se trata de muestras aleatorias y no tiene sentido aplicar la inferencia estadística convencional.

¿Se puede tener una respuesta satisfactoria a este problema utilizando la media y la desviación típica o serán más adecuadas para dar una respuesta comprensible a tal cuestión otras medidas coma la mediana y el recorrido intercuartil o bien otras nuevas adecuadamente definidas?

De un modo general podemos decir que el tratamiento de un problema mediante inferencia formal, es decir, utilizando modelos matemáticos que permitan dar una medida de la incertidumbre de las conclusiones obtenidas mediante alguno de los procedimientos ya clásicos de intervalos de confianza, probabilidades a posteriori, funciones de riesgo, etc., puede no tener sentido por alguna de las siguientes razones (entre otras): a) los datos no permiten conocer los efectos de algunas de las más importantes causas de variación; b) las causas se presentan en una forma claramente no aleatoria; c) no existe un modelo probabilístico apropiado para la situación, pues los conocidos presentan restricciones completamente inadecuadas a la situación real.

En tales situaciones cabrá, sin embargo, hacer "indicaciones" como consecuencia del análisis de los datos. Para el investigador el valor principal de los datos reside en lo que indican o parecen demostrar. Ejemplos de indicaciones son por ejemplo:

1) Apariencia de similaridad en la composición de dos poblaciones de medidas obtenida a través de sus histogramas por ser ambos de tipo acampanado, o ambos bimodales, etc;

2) o de comportamiento general de una serie de frecuencia (p.e., parecen decrecer de un modo exponencial, etc.),

3) las dispersiones de varias poblaciones presentan una gran estabilidad, mientras los valores centrales son muy distintos.

Podemos decir en general que una indicación es una conclusión comprensible obtenida a través de una cierta elaboración de datos estadísticos y que esta elaboración se puede llamar un indicador. Un indicador puede ser un histograma o un estadístico (media, varianza, coeficiente de correlación, etc.) o un esquema de cálculo más complicado (análisis complejo de varianza, análisis de regresión múltiple, etc.).

Pero ¿Por qué el tratamiento de la "inferencia" con modelos probabilísticos formales ha tenido tan importante desarrollo, mientras el de la "indicación" ha sido tan limitado, hasta el punto que en los libros puede considerarse reducido a los capítulos, más o menos ramplones, de la llamada estadística descriptiva?

No es fácil contestar a esta pregunta: posiblemente los que constituyen una nueva teoría o técnica comienzan por abrir los caminos más fáciles y muchas veces el peso específico de estos pioneros arrastra a muchos otros investigadores por el camino iniciado, abandonando otros problemas que consideran menos generales o más específicos y difíciles

En trabajos recientes de J.W. Tukey (**) se describe el análisis de datos de una manera que queremos recoger aquí: "Extensas partes del análisis de datos son inferenciales en el sentido muestra-población, pero esto no es todo el análisis de datos. Extensas partes del análisis de datos son incisivas, permitiendo establecer indicaciones que no se pueden obtener por simple y directo examen de los datos brutos, pero esto no es todo el análisis de datos. Otras partes del análisis de datos se refieren .a los métodos para planificar la toma de datos y a la distribución del esfuerzo y otras consideraciones valiosas para la observación, experimentación y análisis".

Es bien sabido de cuantos aplican la Matemática o la Estadística a los problemas reales la dificultad de ser fieles simultáneamente a la realidad y al modelo, evitando resolver un problema que no es el real sino otro inventado por el matemático, para su más fácil solución o por no ser capaz de crear el método matemático adecuado.

Mi mayor ilusión sería que estas notas valieran para despertar el interés de los estadísticos profesionales por estos aspectos fundamentales del análisis de datos, estimulándoles a la lectura de la memoria de J.W. Tukey, que tantos problemas nuevos suscita y plantea.

(*) Tampoco se ha de confundir este aspecto de la Estadística con lo que se suele llamar muestras de poblaciones finitas

(**) The future of data analysis, The Annals of Mathematical Statistics Vol. 33. n°- 1.

Comentarios

Entradas populares de este blog

CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA

Cultura Científica No 2 (2004) CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA Cuadros D. Jaime.* (*) Maestría en Educación, UPN. Esp en Estadística, Universidad Nacional de Colombia. Lic. en Matemática y Estadística, UPTC. Profesor catedrático FUJC. E-mail: cuadros@telecorp.net. RESUMEN Sir Ronald Fisher (1890-1962) fue profesor de genética y muchas de sus innovaciones estadísticas encontraron expresión en el desarrollo de metodología en estadística genética. Sin embargo, mientras sus contribuciones en estadística matemática son fácilmente identificadas, en genética de poblaciones compartió su supremacía con Sewal Wright (1889-1988) y J.S.S. Haldane (1892-1965). Este documento muestra algunas de las mejores contribuciones de Fisher a las bases de la estadística genética, y sus interacciones con Wrigth y Haldane, los cuales contribuyeron al desarrollo del tema. Con la tecnología moderna, tanto la metodología estadística como la información gen

Historia de la Estadística en Venezuela

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD profesores Guillermo Ramírez y Maura Vázquez. Historia de la Estadística. La etimología de la palabra estadística sugiere su origen. Este término se deriva del italiano statista , que a su vez proviene del latín status , vocablo que significa estado en el sentido político de la palabra. Se empleó entonces el término "estadística" para designar a la colección y descripción de datos relativos a la población y riqueza de los pueblos. Se pueden distinguir las siguientes etapas en el desarrollo histórico de la estadística: 1) Edad Antigua (- Siglo V). Como se ha dicho, en sus inicios la estadística constituía el conjunto de datos que describían los recursos más importantes con los que contaban los pueblos: población, tierras y riquezas, y que se uti

Nuevas tendencias de la Estadística en el siglo XXI

Rev. Real Academia de Ciencias. Zaragoza. 61: 87-97, (2006). (Conferencia leída en el Aula Magna de la Facultad de Ciencias de la Universidad de Zaragoza, el 15 de noviembre de 2006, con motivo de la festividad de San Alberto Magno.). José A. Cristóbal. Departamento de Métodos Estadísticos. Facultad de Ciencias, Universidad de Zaragoza, 50009 Zaragoza. La llegada del nuevo milenio ha impulsado un nuevo espíritu en la investigación tanto para científicos como para humanistas. En particular, todo apunta hacia el desarrollo de una nueva cultura intelectual donde el trabajo más profundo de los científicos se hace más accesible al público en general. En palabras de John Brockman, filósofo norteamericano y autor de numerosos libros sobre ciencia de vanguardia: "La aparición de esta nueva cultura es una evidencia de un gran anhelo universal, un deseo para la nueva e importante idea que dirige nuestros tiempos: un desarrollo revolucionario en biología molecular, ingeniería