Ir al contenido principal

Análisis Exploratorio y Análisis Confirmatorio de Datos



Espacio Abierto
Cuaderno Venezolano de Sociología
Universidad del Zulia
Asociación Venezolana de Sociología
mcparra@cantv.net
ISSN 1315-0006
VENEZUELA


2002
Javier Parra Olivares
Análisis Exploratorio y Análisis Confirmatorio de Datos

Espacio Abierto, enero-marzo, volumen. 11, número 1
Cuaderno Venezolano de Sociología
Asociación Venezolana de Sociología
Maracaibo, Venezuela
pp. 115-124

Red ALyC
Red de Revistas Científicas de América Latina y el Caribe
Ciencias Sociales y Humanidades


Resumen

Hoy día, en el marco de la crisis de los grandes paradigmas teóricos, las universidades y centros de investigación siguen privilegiando, con marcado énfasis, los análisis de datos que conducen a la Confirmación de teorías o hipótesis, en contraste con un reducido interés en las herramientas estadísticas que orientan a la exploración de datos sobre problemas de la realidad social. Esto es común aún en campos relativamente nuevos o poco trabajados por la ciencia social (Parra, 1990). A menudo, se olvida que, en la ciencia, muchas veces es más importante encontrar la pregunta que hallar la respuesta, lo cual apunta a la posible formulación de enfoques diferentes a los actuales y al enriquecimiento del universo intelectual de las diversas disciplinas de lo social.
Como consecuencia de lo anterior, se requiere la enseñanza y empleo de ambos enfoques de análisis de datos de investigación: tanto el exploratorio como el confirmatorio, como medios para el avance de las ciencias sociales. Este trabajo intenta realizar un aporte en este sentido, presentando algunas de las cuestiones claves que plantea la lógica o la práctica de la investigación científica y derivando de aquellas las diferencias de la Exploración y de la Confirmación, en especial en lo atinente a la actitud ante el conocimiento.

Palabras clave: Análisis exploratorio, análisis confirmatorio, paradigmas, actitud científica, estadística, ciencias sociales.

El Problema.

Durante mucho tiempo, en las ciencias sociales, el análisis de datos ha tenido diversidad de papeles que podrían ser resumidos o clasificados en dos tipos: el Confirmatorio y el Exploratorio. El paradigma de investigación científica más familiar para la mayoría de la gente podría ser resumido como se observa en el siguiente cuadro:

Sin embargo, no se puede obviar que, si se pensara a la producción científica sólo como resultado de este esquema confirmatorio, se estaría dejando de lado a buena parte de la práctica y el esfuerzo cotidiano de la investigación.

En este sentido, cabría preguntarse (y responderse): como se observa en el siguiente cuadro:

Se podría decir, en consecuencia, que para poder implementar el paradigma confirmatorio se requiere, sin duda, realizar una gran cantidad de trabajo exploratorio. Por lo tanto, ninguno de los dos tipos de análisis son suficientes por sí solos para contribuir al avance de la ciencia.

Si se retoma el esquema del paradigma anterior, agregándole un paso en la primera etapa, se podía visualizar mejor lo que realmente se da en la investigación:

Por ejemplo: si tenemos la idea de que existe un cierto valor A en las personas que contribuye sólidamente a que éstas mantengan una determinada conducta B ante su entorno y queremos comprobarlo, entonces aún no hemos formulado una pregunta (o problema) en el sentido subyacente en los esquemas paradigmáticos arriba mencionados. Lo que tenemos es una idea de una pregunta pero no el tipo de pregunta que puede tener una respuesta con soporte estadístico (o fundamentada en datos) obsérvese el siguiente cuadro.


 
La clase de pregunta que si tiene respuesta debe estar mejor delimitada y su selección debe depender de cuestiones prácticas y no sólo de deseos. Por ejemplo, desearemos responder a una pregunta como ésta: "Entre las personas que poseen el valor A, ¿cuál procentaje presenta la conducta B ante su entorno y qué porcentaje no tiene esa conducta?".

La formulación de la pregunta en sí involucra a) de hecho, que puede ser preguntado, b) cuales diseños son factibles y c) cuán probable es que un diseño dado genere. una respuesta útil. Por tanto, de entrada la exploración perspicaz y extensiva (de datos pasados) pueden (y deben) estar presentes en este proceso de formular la pregunta de investigación.

Pregunta
Respuesta
1) ¿Cómo de generan las preguntas?
La mayoría de las preguntas de producen a partir de ideas “cuasi-teóricas” y por la exploración de datos pasados
2) ¿Cómo se orientan los diseños?
Con frecuencia se guían por l mejor información (cualitativa o cuantitativa) que esté disponible proveniente, también, de la exploración de datos pasados
3) ¿Cómo se vigila la recolección de datos?
Con base en la exploración de lo datos tal y como se presentan con la finalidad de encontrar comportamientos no esperados
4) ¿Cómo se supervisa el análisis o quien nos indica cuáles datos debemos descartar?
Generalmente se hace por la exploración de los datos antes, durante y después del análisis en busca de rastros, ideas y algunas conclusiones a un tanto por ciento de confianza
´

En consecuencia, la ciencia ni comienza con una pregunta ordenada o clara, ni finaliza con una respuesta ordenada y clara.

Por tanto, necesitamos como analistas de datos o como estadísticos recordar que a menudo es más importante encontrar la pregunta que hallar la respuesta.

Análisis Exploratorio de Datos.

Es un modo de análisis de los datos que utiliza el resumen numérico y visual para explorar datos en busca de patrones no anticipados. Autores clásicos como John Tukey, Frederick Hartwig y Brian Dearing lo catalogan como un "estado mental" ante el conocimiento. Es así como el primero lo define como una actitud, una flexibilidad y "algunas hojas con gráficos" (o transparencias, o ambos). Esto último como un reconocimiento de que el ojo que mira al horizonte es el mejor instrumento que tenemos para observar, de manera completa, lo no anticipado (Tukey, 1980). Por su parte, Hartwig y Dearing argumentan que el investigador debe aprender todo lo posible acerca de una variable o conjunto de variables antes de utilizar los datos para probar hipótesis o teorías acerca de las relaciones sociales (Hartwig y Dearing, 1979). Más recientemente, Eugene Horber y Dominique Ladiray que el "razonamiento" exploratorio es un esquema de análisis que enriquece las posibilidades del investigador para hallar nuevas respuestas a los problemas que se plantee (Horber y Ladiray, 1995).



En general, el análisis exploratorio de datos se caracteriza por el uso de herramientas técnicas con mucha carga visual o gráfica, con énfasis en revelar información vital sobre la data examinada. El arsenal correspondiente está compuesto, entre otros, por instrumentos como:

Diagrama de caja y bigotes (Box-and-whisker): un resumen visual de la distribución (comportamiento) de una variable que provee detalles acerca de si uno o ambos extremos de la distribución contienen valores inusualmente grandes o pequeños (ver gráfico Nº 1).
Diagrama de tallos y hojas (Stem-and -leaf): es una muestra visual de la distribución de una variable. Se asemeja a un histograma y "... se usa mucho para mostrar tanto el orden de rangos como la forma de un conjunto de datos en forma simultánea". (Anderson y otros, 1999:40). Cada caso es representado por uno o más dígitos colocados a la derecha de una línea vertical y en la fila correspondiente al primer dígito del valor observado (ver gráfico Nº 2).
Diagrama de dispersión (Scatter plot): gráfico que muestra la relación entre variables. Es útil para examinar la dirección, fuerza y forma de la relación (ver gráfico Nº 3).








El uso de las herramientas para el análisis exploratorio de los datos requiere una mente muy abierta para la búsqueda de información y una actitud muy dispuesta y paciente para él "rastreo" del comportamiento de las variables.

Análisis Confirmatorio de Datos.

Es un modo de análisis de datos que utiliza estadístico numéricos de resumen generados a partir del empleo de un modelo, definido a priori, para confirmar o no una hipótesis. Se caracteriza por el empleo de indicadores como la media, la varianza y los coeficientes de correlación y regresión, así como las pruebas de hipótesis. Es, sin duda, el modelo de análisis de datos más enseñado y, por ende, más empleado en las ciencias sociales, por lo que no se requiere presentar mayores detalles del mismo en este artículo..

No obstante, es importante resaltar que, en muchos casos, la actitud ante los datos que se deriva del esquema de análisis está muy orientada a registrar sólo ciertos indicadores de resumen y a emplear, de manera mecánica, determinadas técnicas de comprobación de hipótesis, sin aprovechar, lo más posible, la riqueza de la información contenida en la data.

Asimismo, puede decirse que este es el modelo de análisis de datos cuya rutina es más sencilla de enseñar y de estandarizar mediante el uso de computadores, como se puede constatar por el desarrollo de programas informáticos como el SPSS, SAS, SPAD y STATGRAPHICS, entre otros. Posiblemente esto ha contribuido, aún más, a reforzar la actitud mencionada en el párrafo anterior acerca del empleo mecánico, casi sin reflexión, del modo de análisis confirmatorio de datos.

A Manera de Comparación.

La mayoría de las veces los análisis estadísticos están diseñados para responder preguntas como: ¿Confirman estos datos en la hipótesis de que la variable X. está relacionada con la variable Y en un contexto definido?. En este esquema confirmatorio de análisis, se ajusta un modelo de relación (a menudo lineal) a los datos, se obtienen estadísticos de resumen de los datos (tales y como las medias y las varianzas explicadas) y estos últimos se prueban contra la probabilidad de que valores tan altos como los obtenidos podían haber ocurrido por azar. Esta manera de analizar los datos no sólo pone demasiada confianza en los estadísticos de resumen, sino que también carece de "apertura", en la medida en que sólo se han considerado dos alternativas para el análisis. Es decir, los datos no se han explorado para observar qué otros patrones de comportamiento puede existir entre ellos.

Un enfoque alternativo consiste en realizar una pregunta diferente: "¿Que pueden decir estos datos acerca de la relación entre las variables X e Y el contexto definido?. En contraste con el modo confirmatorio, este esquema exploratorio de análisis está abierto a un rango más amplio de explicaciones alternativas, que incluyen, entre otras, la aleatorización y algunos modelos teóricos existentes.

El investigador o analista, en consecuencia, debe estar abierto a posibilidades que no espera encontrar, particularmente en el caso de teorías o marcos teóricos muy débiles que no especifican los modelos o tipo de relación entre las variables, sino que sólo plantean que están relacionadas, situación muy común en estos tiempos de caída de paradigmas conceptuales.

Reflexiones Finales.

a. Es recomendable enseñar en las universidades tanto el Análisis Exploratorio de datos como él Confirmatorio, incluso en ese orden.
b. La actitud ante la investigación sería más abierta si se enseñara también el análisis de los datos con la finalidad de encontrar comportamientos inusuales de los mismos y no sólo para juzgar si la data se ajusta a lo planteado por ciertas hipótesis o modelos.
c. En los tiempos actuales, cuando los grandes paradigmas teórico-explicativos han entrado en crisis, la mirada de los científicos sociales debería girar hacia el uso de modelos analíticos que permitan explorar datos, en aras de plantearse nuevas y diferentes relaciones entre las variables, enriqueciendo así el ambiente intelectual y la producción de conocimientos.
d. Lo que se afirma aquí no es que el análisis confirmatorio de datos no tiene lugar en las ciencias sociales, sino que el mismo no debe ser el único y exclusivo modelo enseñar, máxime cuando, en muchos casos hoy día, ni siquiera se cuenta con teorías sólidas para ser confirmadas.

Referencias Bibliográficas.

ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas (1999) Estadística para Administración y Economía. México: International Thomson Editores.

HARTWIG,Frederick y DEARING, Brian (1979)Exploratory Data Analysis , California: Sage Publications.

HORBER, Eugene y LADIRAY, Dominique (1995) Análisis Exploratorio de los datos, II Seminario de Capacitación de docentes en “Producción y tratamientodedatos de Investigación en ciencias humanas”, Caracas, Venezuela.

PARRA, Javier (1999) “Contenidos de Estadística en Universidades de Latinoamérica”. (monografía). Centro de Estadística e Investigación de Operaciones de La Universidad del Zulia, Maracaibo, Venezuela.

TUKEY, John (1980) “We need both Exploratory and Confirmatory” The American Statistician, Vol. 34, No. 1.

Comentarios

Entradas populares de este blog

CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA

Cultura Científica No 2 (2004) CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA Cuadros D. Jaime.* (*) Maestría en Educación, UPN. Esp en Estadística, Universidad Nacional de Colombia. Lic. en Matemática y Estadística, UPTC. Profesor catedrático FUJC. E-mail: cuadros@telecorp.net. RESUMEN Sir Ronald Fisher (1890-1962) fue profesor de genética y muchas de sus innovaciones estadísticas encontraron expresión en el desarrollo de metodología en estadística genética. Sin embargo, mientras sus contribuciones en estadística matemática son fácilmente identificadas, en genética de poblaciones compartió su supremacía con Sewal Wright (1889-1988) y J.S.S. Haldane (1892-1965). Este documento muestra algunas de las mejores contribuciones de Fisher a las bases de la estadística genética, y sus interacciones con Wrigth y Haldane, los cuales contribuyeron al desarrollo del tema. Con la tecnología moderna, tanto la metodología estadística como la información gen

Historia de la Estadística en Venezuela

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD profesores Guillermo Ramírez y Maura Vázquez. Historia de la Estadística. La etimología de la palabra estadística sugiere su origen. Este término se deriva del italiano statista , que a su vez proviene del latín status , vocablo que significa estado en el sentido político de la palabra. Se empleó entonces el término "estadística" para designar a la colección y descripción de datos relativos a la población y riqueza de los pueblos. Se pueden distinguir las siguientes etapas en el desarrollo histórico de la estadística: 1) Edad Antigua (- Siglo V). Como se ha dicho, en sus inicios la estadística constituía el conjunto de datos que describían los recursos más importantes con los que contaban los pueblos: población, tierras y riquezas, y que se uti

Nuevas tendencias de la Estadística en el siglo XXI

Rev. Real Academia de Ciencias. Zaragoza. 61: 87-97, (2006). (Conferencia leída en el Aula Magna de la Facultad de Ciencias de la Universidad de Zaragoza, el 15 de noviembre de 2006, con motivo de la festividad de San Alberto Magno.). José A. Cristóbal. Departamento de Métodos Estadísticos. Facultad de Ciencias, Universidad de Zaragoza, 50009 Zaragoza. La llegada del nuevo milenio ha impulsado un nuevo espíritu en la investigación tanto para científicos como para humanistas. En particular, todo apunta hacia el desarrollo de una nueva cultura intelectual donde el trabajo más profundo de los científicos se hace más accesible al público en general. En palabras de John Brockman, filósofo norteamericano y autor de numerosos libros sobre ciencia de vanguardia: "La aparición de esta nueva cultura es una evidencia de un gran anhelo universal, un deseo para la nueva e importante idea que dirige nuestros tiempos: un desarrollo revolucionario en biología molecular, ingeniería