ANÁLISIS MULTIVARIANTE: CLASIFICACIÓN, ORGANIZACIÓN Y VALIDACIÓN DE RESULTADOS.

Fourth LACCEI International Latin American and Caribbean Conference for Engineering and Technology (LACCET’2006)

”Breaking Frontiers and Barriers in Engineering: Educationl, Research and Practice”

21 - 23 June 2006, Mayagüez, Puerto Rico

ANÁLISIS MULTIVARIANTE: CLASIFICACIÓN, ORGANIZACIÓN Y VALIDACIÓN DE RESULTADOS.

Miriam M. Álvarez Suárez, pH D.

Profesor Titular del Centro de Investigaciones Avanzadas en Ingeniería Industrial, Universidad autónoma del Estado de México, Hidalgo, México.

miriamsu@uaeh.reduaeh.mx

Amaury Caballero, pH D; P.E.

Assistant Profesor, Department of Construction Management, Florida International University, Florida, USA

caballer@fiu.edu

Gilberto Pérez Lechuga, pH D.

Profesor Titular del Centro de Investigaciones Avanzadas en Ingeniería Industrial.

Universidad autónoma del estado de Hidalgo, Hidalgo, México.

glechuga2004@hotmail.com.

Resumen.

Las técnicas estadísticas multivariantes son cada día más utilizadas en diferentes ramas de la ciencia. La ingeniería y administración de empresas no es una excepción a esto. Los métodos exploratorios y los confirmatorios, que en la mayoría de las ocasiones se utilizan de forma combinada, requieren de un conocimiento previo del problema a estudiar y de la información con que se cuenta. El presente trabajo tiene como objetivo relacionar una serie de aspectos importantes para la aplicación de modelos multivariantes a diferentes problemas de investigación. Aunque el análisis multivariante tiene sus raíces en la estadística univariante y bivariante,, la extensión al dominio multivariante introduce conceptos y cuestiones adicionales, que van desde el "valor teórico" hasta las escalas de medida utilizadas, los errores de medición, los resultados estadísticos de las pruebas de significación y los intervalos de confianza. La utilización de un modelo multivariante conlleva la elaboración de un plan de investigación bien definido que incluye los objetivos analíticos en términos conceptuales, la selección de la técnica, la evaluación de los supuestos básicos de dicha técnica, la estimación del modelo y su interpretación, para finalizar con la aplicación de las técnicas de validación para determinar la estabilidad de los resultados obtenidos.

Palabras clave: análisis multivariante, análisis previo, técnicas de validación.

1. Introducción.

Las tareas implícitas en el examen previo de los datos pueden parecer insignificantes y sin consecuencia a primera vista; no obstante, son una parte esencial del análisis multivariante. Si bien estas técnicas suponen un tremendo poder analítico en manos de cualquier investigador, y además, hay que asegurarse de que se mantengan las bases teóricas y estadísticas sobre las que estas se sustentan (Hair, et al., 1999).

En primer lugar, el investigador obtiene un conocimiento básico de los datos y las relaciones entre las variables. Las técnicas multivariantes plantean grandes demandas al analista en cuanto a la comprensión, interpretación y articulación de resultados basados en relaciones cuya complejidad puede llegar a ser muy grande. El conocimiento de algunas interrelaciones importantes o evidentes puede ayudar en la especificación y refinamiento del modelo multivariante a utilizar, así como proporcionar una perspectiva razonable para la interpretación de los resultados.

La naturaleza y distribución de las variables incluidas en el estudio, las representaciones de perfiles multivariantes para una observación, el examen de los datos ausentes y casos atípicos, y la solución a tomar en cada caso, así como la verificación de los supuestos de normalidad, linealidad y homocedasticidad incluyendo el estudio de las posibles transformaciones a realizar para resolver los problemas encontrados, son, de forma general, los aspectos a tener en cuenta antes de emprender la tarea de realizar un análisis multivariante.

Muchos autores han clasificado los métodos multivariantes (leart et al, 1981; Dagneli, 1981; Hair et al, 1999) pero todos coinciden en que los tres aspectos más importantes a tener en cuenta sin orden de prioridad, son: la dependencia o no entre las variables, las escalas de medición utilizadas para cada una de ellas y el objetivo que se persigue en el estudio.

El análisis y la interpretación de cualquier técnica multivariante no conduce a una única respuesta, aunque puede ayudarse por un conjunto general de directrices, no exhaustivas, pero que representan una filosofía del análisis multivariante. Entre ellas podemos citar, la significación estadística y la significación práctica, la discusión de la relación de la potencia estadística con el tamaño muestral y con la significación estadística, procurar la parsimonia del modelo, el análisis de los errores de predicción no como una medida del error, sino como un punto de partida para diagnosticar la validez de los resultados obtenidos y como una indicación de las relaciones que quedan sin explicar, así como la validación de los resultados.

Al discutir las numerosas técnicas multivariantes a disposición del investigador y la gran cantidad de supuestos que implica su aplicación, se hace evidente que finalizar con éxito un análisis multivariante implica algo más que la selección del modelo correcto. Deben resolverse problemas que van desde la definición del problema hasta el diagnóstico crítico de los resultados. Sin intentar proporcionar un conjunto rígido de procedimientos a seguir, utilizaremos una aproximación al análisis multivariante en seis pasos, donde los tres primeros se refieren al análisis previo de los datos, el cuarto se refiere al análisis propiamente dicho y los dos últimos se refieren a la interpretación y posible generalización de los resultados obtenidos (Hair et al, 1999). Ellos son:

1. Definición del problema de investigación, objetivos y técnica multivariante conveniente.

2. Desarrollo del plan de análisis (tamaños demuestran mínimos, tipos de variables permitidas y métodos de estimación).

3. Evaluación de los supuestos básicos de la técnica propuesta.

4. Estimación del modelo multivariante y valoración del ajuste del modelo.

5. Interpretación del valor teórico.

6. Validación del modelo multivariante.

El presente trabajo se realizó con el objetivo de organizar el trabajo a seguir para la aplicación de una técnica multivariante, contar con una clasificación previa de las técnicas y algunas consideraciones sobre las dos etapas olvidadas de la aplicación de una técnica multivariante: el análisis previo de los datos y la validación de los resultados para conocer su posible generalización.

2. Análisis previo de los datos.

El análisis cuidadoso de los datos conduce a una mejor predicción y a una evaluación más precisa de la dimensionalidad. Para ello existen técnicas analíticas y técnicas gráficas que ofrecen al investigador un conjunto de formas simples de examinar, tanto las variables individuales, como las relaciones entre ellas. Más concretamente, se trata de la evaluación de datos faltantes, la identificación de casos atípicos, y la comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes.

Para ello hay que pasar por cuatro fases del examen previo de los datos. Éstas incluyen:

1. Un examen gráfico de la naturaleza de las variables a analizar y sus distribuciones así como de las relaciones que forman las bases del análisis multivariante.

2. Un proceso de evaluación para entender el impacto que pueden tener los datos ausentes sobre el análisis.

3. Las técnicas que mejor se ajustan para la identificación de casos atípicos.

4. Los métodos analíticos necesarios para evaluar adecuadamente la capacidad de los datos para cumplir los supuestos estadísticos específicos de muchas técnicas multivariantes.

2. 1. Examen gráfico de los datos.

Como paso previo se hace necesario realizar un examen de cada una de las variables individualmente. Las técnicas de la Estadística Clásica; distribuciones de frecuencias, histogramas, diagramas de tallo y hojas, diagramas de caja y bigotes y el cálculo del estadígrafos e intervalo de confianza, así como gráficos de dispersión entre variables (para dos y tres dimensiones), nos permitirán tener una idea más clara y simple de los datos, sus distribuciones y sus relaciones.

Para el caso de más de tres variables se utilicen las representaciones gráficas multivariantes (Johnson, 2000) entre las que se encuentran: los perfiles multivariantes, que representan un diagrama de barras de todas las variables para cada observación; los gráficos de rayos o estrellas, que representan la distancia a la que se encuentra cada variable de cero sobre rayos o ejes que irradian de un punto central generándose un rayo para cada variable; las representaciones icónicas, siendo la más utilizada las caras (Chernof, 1973) y en la cual cada cara corresponde a un individuo y cada rasgo de la cara se corresponde con una variable; y por último, las curvas de Andrews,(Andrews, 1972) donde los diferentes parámetros de las curvas son las variables y que conlleva una transformación matemática de los datos originales en una relación que puede ser representada gráficamente. Aunque estas comparaciones para un valor único son más difíciles, esta forma de representación gráfica nos presenta en un solo gráfico una comparación generalizada y la agrupación de observaciónes.

2. 2. Datos ausentes.

Antes de que se pueda instrumentar cualquier solución para la ausencia de datos, el investigador debe diagnosticar los procesos de ausencia de datos que subyacen en este fenómeno. Algunas veces estos procesos se encuentran bajo el control del investigador y pueden ser identificados explícitamente. En tales casos, la ausencia de casos se denomina "prescindibles", lo que significa que no se necesitan soluciones específicas para la ausencia de datos dado que los límites de la ausencia de dichos datos son inherentes a la técnica usada.

Un ejemplo de datos ausentes prescindibles es aquel o aquellas observaciones de una población que no están incluidas en la muestra. La muestra probabilística permite al investigador especificar que los procesos de datos ausentes causantes de las observaciones omitidas son aleatorios y que dichos datos ausentes pueden explicarse como un error muestral en los procedimientos estadísticos. Otro caso de datos ausentes prescindibles tiene lugar cuando los datos están censurados. Estos datos son observaciones incompletas como consecuencia de su etapa en el proceso de toma de datos. Un ejemplo típico es un análisis de las causas de fallecimiento.

La ausencia de datos puede ocurrir por otras muchas razones y en muchas situaciones. Éstos datos ausentes pueden ser causados por errores en la introducción de datos, o problemas de su recolección, o también una no respuesta por parte del encuestado. Los primeros a veces se pueden resolver, pero los últimos no son tan sencillos. Entonces se hace necesario saber si estos datos ausentes están distribuidos aleatoriamente entre las observaciones o se pueden identificar algunas pautas, además de saber en qué medida son relevantes.

El impacto de los datos ausentes es perjudicial no sólo por sus sesgos potenciales sino también por su efecto en el tamaño de la muestra disponible para el análisis. Luego, para decidir si se puede aplicar una solución para dichos datos, el investigador debe averiguar el grado de aleatoriedad presente en ellos, ya que una consideración errónea sobre este aspecto introduciría un sesgo en los resultados. Para dicho diagnóstico existen tres métodos:

1. Valoración de los datos ausentes mediante una única variable Y forman dos grupos (uno con valores ausentes y otro con valores válidos de Y) y comparando ambos grupos, si la diferencia es significativa implica que existe un proceso de pérdida de datos no aleatorio.

2. Utilizando las correlaciones dicotomízadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Para cada variable, se representa por 1 lo valores válidos y por 0 lo valores faltantes. Las correlaciones indican el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables estudiadas y.

3. Se puede hacer un test conjunto de aleatoriedad que determine si los datos ausentes pueden ser clasificados como "completamente aleatorios", analizando el patrón de datos ausentes sobre todas las variables y comparándolas con el patrón esperado para un proceso de datos ausentes aleatorio. Si las diferencias no son significativas, los datos ausentes pueden ser clasificados como "completamente aleatorios" y si son significativas, se debe utilizar alguna de las soluciones anteriores para identificar los procesos específicos de datos ausentes que no son aleatorios.

Las aproximaciones o soluciones que tratan con los datos ausentes están basadas en la aleatoriedad antes descrita. Si se encuentran procesos de datos ausentes "aleatorios" o no aleatorios, el investigador debe aplicar sólo el método diseñado específicamente para este proceso, ya que la aplicación de cualquier otro método, introduciría sesgos en los resultados (Little y Roderick, 1987). Las soluciones que veremos a continuación sólo pueden utilizarse si el investigador determina que el proceso de ausencia de datos puede clasificarse como "completamente aleatorio". Estas son:

1. Utilizar, si es posible, aquellas observaciones con dato completo.

2. Suprimir el caso y/o la variable que peor se comporte con respecto a los datos ausentes.

3. Estimación de valores ausentes basados en valores válidos y otra variables y/o casos de la muestra.

4. Utilizar otras técnicas de imputación (pairwise en el SPSS).

5. Sustitución de caso (media, valor constante, por regresión u otro).

2. 3. Casos atípicos.

Los casos atípicos pueden identificarse desde una perspectiva univariante, bivariante o multivariante. El investigador debe utilizar cuantas perspectivas sean posibles, para buscar una consistencia entre los métodos de identificación de casos atípicos.

No obstante, el detectar los casos atípicos no implica su eliminación inmediata. Una vez identificados y especificados, no se deben eliminar a menos que exista una prueba demostrable de que son verdaderas aberraciones y no son representativos de las observaciones de la población. Pero si representan a un segmento de la población, deben retenerse para asegurar su generalidad al conjunto de la población. Si se eliminan los casos atípicos, el investigador corre el riesgo de mejorar el análisis pero limitar su generalidad. Si los casos atípicos son problemáticos en una técnica particular, muchas veces pueden ser manejados de una forma tal que se ajuste al análisis sin que lo distorsionen significativamente.

2. 3. 1. Detección univariante.

Esta perspectiva se basa en el examen de la distribución de las observaciones, seleccionando como casos atípicos aquellos que caigan fuera de los rangos de la distribución utilizando para ello un diagrama de caja (boxplot) y el cálculo de la variable "z" (o z-scort). La cuestión principal consiste en establecer el umbral para la designación como caso atípico. El enfoque típico convierte los valores de los datos en valores estandarizados, con media 0 y desviación estándar igual a 1. Para menos de 80 muestras, las pautas sugeridas identifican como casos atípicos aquellos con valores estándar mayores o iguales a 2.5 y cuando las muestras son mayores, el valor umbral del estandarizado se sitúa entre 3 y 4.

2. 3. 2. Detección bivariante.

Además de la evaluación univariante, pueden evaluarse conjuntamente pares de variables mediante un gráfico de dispersión. Casos que caigan fuera del rango del resto de las observaciones, pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a identificar el rango esperado de las observaciones, se puede superponer sobre el gráfico de dispersión, una elipse que represente un intervalo de confianza especificado (entre el 50 y el 90% de la distribución) para una distribución normal bivariante. Esto proporciona una representación gráfica de los límites de confianza y facilita la identificación de casos atípicos.

2. 3. 3. Detección multivariante.

La medida D2 (D cuadrada) de Mahalanobis puede usarse para tener una forma objetiva de medición de la posición multidimensional de cada observación relativa a un punto común. Es decir, proporciona una medida común de centralidad multidimensional y además tiene propiedades estadísticas que tienen en cuenta las pruebas de significación. Dada la naturaleza de las pruebas estadísticas, se sugiere un nivel muy conservador (0.001) como valor umbral para la designación como caso atípico.

2. 4. Verificación de los supuestos del análisis multivariante.

La complejidad de las relaciones en el análisis multivariante aumenta la necesidad de comprobar los supuestos estadísticos, ya que la gran cantidad de variables hace que las distorsiones y los sesgos potenciales sean más potentes cuando se incumplen estos. Los supuestos fundamentales que hay que corroborar son los siguientes: normalidad, homocedasticidad, linealidad y ausencia de errores correlacionados.

2. 4. 1. Normalidad.

El test más simple para diagnosticar la normalidad es una comprobación visual del histograma que compare los valores de los datos observados con una distribución aproximada a la distribución normal. Además de examinar el gráfico, se pueden examinar los valores de la simetría y la curtosis y los tests estadísticos específicos como el Shapiro-Wilks y el de Kolmogorov -Smirnov , que aparecen en muchos programas computacionales. La forma de corregir la normalidad es transformando las variables.

2. 4. 2. Homocedasticidad.

La homocedasticidad se refiere al supuesto de que las variables dependientes tengan iguales varianzas a lo largo del rango del predictor de las variables. La prueba de igualdad de varianzas entre dos variables simétricas se puede realizar gráficamente y estadísticamente.

La aplicación más común de la evaluación gráfica se realiza partir de un análisis de regresión múltiple. Dado que el eje del análisis de regresión es el valor teórico, el gráfico de residuos se usa para revelar la presencia de homocedasticidad. Los tests estadísticos de igualdad de varianzas se refieren a la varianza en grupos formados por variables métricas. El test más común es el de Levene, que se utiliza para evaluar si las varianzas de una única variable métrica son iguales a lo largo de cualquier cantidad de grupos. Si se compara más de una variable métrica, implicando la igualdad de las matrices de varianzas y covarianzas, se aplica el test M. de box.

La forma de corregir esta situación es a través de la transformación de datos, similares a las usadas para conseguir la normalidad, ya que en muchos casos, la heterocedasticidad es el resultado de la no normalidad de una de las variables y la corrección de la normalidad, resuelve igualmente la dispersión de la varianza.

2. 4. 3. Linealidad.

La linealidad es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación, incluyendo la regresión múltiple, la logística, el análisis factorial y los modelos de ecuaciones estructurales. La forma más común de evaluar la linealidad es examinar los gráficos de dispersión de las variables e identificar cualquier pauta no lineal en los datos. Otra forma es realizar el análisis de regresión múltiple y realizar el análisis de los residuos. La corrección más directa de la no linealidad, es la transformación de una o ambas variables para conseguir la linealidad.

2. 4. 4. Ausencia de errores correlacionados.

Debemos asegurarnos que cualquiera de los errores de predicción no está correlacionado con el resto. Por ejemplo, si encontráramos un indicio que sugiera que los errores son positivos y negativos alternativamente, debemos entender que hay alguna relación sistemática no explicada de la variable dependiente. Si existe tal situación, no podemos estar seguros de que nuestros errores de predicción sean independientes de los niveles que estamos intentando predecir. Existe otro factor que está afectando los resultados, pero que no está incluido en el análisis. Éste error se debe, en muchos casos, a la recogida de datos. Si esto se hace por grupos, por personas diferentes, etcétera. Pueden haber errores sistemáticos, y hay que analizar las diferencias entre esos grupos; si eso existe, hay que incluir el factor "grupos" en el análisis. Es decir, este error puede ser corregido incluyendo el factor causante omitido en el análisis.

3. Clasificación de los Análisis Multivariadados.

Los métodos estadísticos multivariados se pueden seleccionar teniendo en cuenta varios aspectos pero todos ellos deben incluir: a) la estructura de la matriz de datos, b) el objetivo perseguido, y c) la naturaleza de los datos (Dagneli, 1981).

a). Según la estructura de la matriz de datos, los métodos pueden clasificarse según sean las variables o los individuos de la matriz de datos de base. La estructura se refiere a si las variables o los individuos son diferentes, o si pertenecen a un grupo o más grupos de variables o de individuos:

-Sin ninguna estructura en particular (análisis de componentes principales y análisis factorial, conglomerados)

-una estructura entre variables, (métodos de regresión múltiple o análisis de correlación canónica)

-una estructura entre individuos, (análisis discriminante)

-ambas estructuras, (análisis de correspondencias múltiples)

b) Según el objetivo perseguido, los métodos son muy difíciles de clasificar, pues puede haber muchos y muy diferentes, pero los agruparemos en dos grandes grupos: los descriptivos, y los inferenciales. También pueden clasificarse de la siguiente forma:

-Reducción de datos o simplificación estructural. El problema de estudio se debe representar tan simplemente como se pueda sin sacrificar información valiosa, y esto hará la interpretación más sencilla.

-Selección y agrupamiento. Se crean grupos de individuos o variables "similares" basándose en las características que se midieron. En este caso se requieren reglas para clasificar los individuos en grupos bien definidos.

-Investigación de la dependencia entre variables. Estamos interesados en las relaciones entre variables. No sabemos si todas las variables son mutuamente independientes, o una o más variables dependen de otras. Si ocurre esto, se desea conocer cómo se relacionan.

-Predicción. Las relaciones entre variables deben ser halladas con el propósito de predecir los valores de una o más variables sobre la base de las observaciones de otras variables.

-Construcción de hipótesis y prueba de ellas. Se desean probar algunas hipótesis estadísticas específicas, formuladas en función de los parámetros de poblaciones multivariadas. Esto debe realizarse para validar las suposiciones o para reforzar algunas convicciones previas.

c) Según la naturaleza de los datos.

En el caso de los métodos descriptivos:

-si las "p" variables son cuantitativas (Análisis Factorial Clásico, Análisis de Componentes Principales y Análisis Factorial común)

-si las "p" variables son cualitativas y/o cuantitativas (métodos de conglomerados (cluster) y análisis de correspondencias (simple y múltiple)).

En el caso de los métodos inferenciales:

En este caso, siempre hay dos grupos de variables y casi siempre se reconocen como variables independientes y variables dependientes (tabla 1). Por esto, tenemos que tener en cuenta la naturaleza y la cantidad de variables de cada uno de los grupos:

Tabla 1: métodos multivariantes inferenciales según el número y naturaleza de las variables.

Variables dependientes	Variables Independientes	Método
1 variable cuantitativa	1 o N. variables cuantitativas	Regresión Múltiple
1 variable cualitativa	N. variables cuantitativas	Análisis Discriminante
P. variables cuantitativas	P. variables cuantitativas	Correlación Canónica
P. variables cuantitativas	1 o N. variables cualitativas	MANOVA

4. Validación de los resultados.

Entre los métodos que permiten conocer la estabilidad de los ejes, de las formas o de las clases se encuentran los métodos de validación empíricos, los métodos de validación por re muestreo, el análisis de las zonas de confianza que se pueden trazar alrededor de los puntos en los espacios de visualización y el caso de la clasificación así como el número y la significación de las clases.

4. 1. Métodos de validación empíricos.

Los cálculos de estabilidad y de sensibilidad son probablemente los procedimientos de validación más probatorios. Lo esencial de las operaciones consiste en una verificación de la estabilidad de las configuraciones después de realizadas diversas perturbaciones a la tabla inicial de datos. Desde el punto de vista teórico, la estabilidad de los factores en el análisis de componentes principales y en el análisis de correspondencias se debe acometer, estudiando las variaciones máximas de los factores y de los valores propios cuando se realizan modificaciones bien precisas a los datos de base; entre los que se encuentran: añadir o eliminar elementos a la tabla de datos, reagrupar varios elementos, modificar valores de la tabla, cambiar la métrica y la ponderación (Escofier y Leroux, 1972; Escofier, 1979).

Existen tres elementos de "estabilidad interna" que pueden condicionar la calidad y la estabilidad de los resultados en un análisis factorial: la elección y el peso de las variables, la codificación de las variables y los errores de medición (Greenacre, 1984). Hay un cuarto elemento (Lebart et al., 1995) referido a los pesos de los individuos conjuntamente con las fluctuaciones de muestreo que responde sobre todo a las demandas de "estabilidad externa".

Las cuatro fuentes de perturbación dan lugar a modificaciones de la tabla inicial y permiten verificar la permanencia de la configuración inicial. Además, pueden ser implícitamente estudiadas en la medida en que no se necesite un solo análisis, sino una serie de análisis por etapas, y en cada una de ellas, la tabla de datos es modificada por la incorporación de nuevos individuos o por la selección de nuevas variables, por correcciones de algunos errores eventuales, o por recodificación de algunos datos.. Esta aproximación de la "estructura en escalada" (Mallows y Tukey, 1982), permite un conocimiento progresivo del fenómeno y constituye en sí, un procedimiento de validación de los resultados. Un ejemplo de inestabilidad es el del valor atípico que tiene demasiada influencia sobre el plano principal, y por lo tanto, quitarlo, cambia sustancialmente la orientación de dicho plano (Holmes, 1985).

4. 2. Métodos de validación por remuestreo.

Estos son los métodos de cálculos intensivos que se basan en las técnicas de simulaciones de muestras a partir de una sola muestra y son los únicos procedimientos posibles cuando la complejidad analítica del problema no permite el uso de la inferencia estadística clásica. En general, consiste en la repetición de los análisis para las diferentes muestras simuladas para estudiar las fluctuaciones de los resultados obtenidos (valores propios, factores o cualquier otro parámetro estadístico a estimar). Por esto, se evalúa la variabilidad real de un parámetro mediante la división de su variabilidad para el conjunto de dichas series de datos. Existen varios métodos de validación que permiten obtener, de manera diferente, las muestras artificiales. Los más conocidos son: Jackknife (Quenouille 1949; Tukey, 1958; Miller, 1974), bootstrap (Efron, 1979, Efron y Tibshirani, 1993) y la validación cruzada (Lachenbruch y Mickey, 1968).

4. 3. Zonas de confianza y número de ejes.

Los resultados a los que se llega en un análisis factorial no son afirmaciones, sino representaciones, es decir, objetos complejos a los que se aplican mal las diferentes técnicas de medición de información usuales en estadística. Una forma observada en un plano factorial se puede validar mediante:

1. Procedimientos externos: conocimiento a priori, o posicionamiento de variables suplementarias.

2. Cálculos de estabilidad adaptados (exploración de una vecindad de los datos construida a partir de los errores de medición o de respuesta).

3. Cálculo de las zonas de confianza por las posiciones de los puntos-filas y los puntos-columnas.

Estos cálculos pueden ser analíticos, basados en hipótesis probabilísticas, o por el contrario, basados en las técnicas de re muestreo expuestas anteriormente.

4. 3. 1. Zonas de confianza establecidas por bootstrap.

La técnica bootstrap es idónea para estudiar la estabilidad de las formas, y por lo tanto, después de su aplicación, podemos contar con muchas réplicas del análisis deseado. Como el trabajo de superposición de las estructuras puede ser laborioso, se pueden tener en cuenta las siguientes posibilidades:

1. Analizar las yuxtaposiciones de las tablas de contingencia por filas (para estudiar la variabilidad de las filas) y en columnas (para posicionar las columnas simuladas), o

2. Proyectar como elementos suplementarios, las filas (y las columnas simuladas) en los planos factoriales salidos del análisis de la tabla de contingencia inicial, o

3. Calcular una tabla de contingencia promedio y proyectar las filas o las columnas como en la posibilidad anterior.

Los tres procedimientos dan resultados parecidos para los casos donde efectivamente existe una estructura estable.

4. 4. Número de clases y validación de las clasificaciones.

Existen varios trabajos realizados con vistas a la existencia y la determinación del número de clases. Entre ellos, podemos referirnos al análisis del marco inferencial general donde se puede probar la hipótesis de ausencia de estructura, pero que por ser muy severa, casi siempre es rechazada, también los procedimientos empíricos son ampliamente utilizados, y los cálculos de estabilidad utilizando los métodos de simulación o de re muestreo, permitirán probar la calidad de los resultados y lograr una apreciación de la realidad de las clases producidas por los algoritmos. No se puede descartar el rol importante que juegan, también los criterios externos, sin embargo, los métodos para conocer cuántas clases se deben retener, son procedimientos empíricos en los cuales no interviene ninguna información externa.

5. Referencias.

Andrews, D.F. (1972). Plots of High Dimensional Data, Biometrics, 28, p. 125 - 136.

Chernof, H. (1973). Using Faces to Represent Points in K - Dimensional Space Graphically, Journal of the American Statistical Association, 68, N° 342, p. 361 - 368.

Dagnelie, P. (1981). Principes d’expérimentation. Les Presse Agronomique de Gembloux, Gembloux, Bélgica.

Efron, B. (1979). Bootstraps methods: another look at the Jackknife. Ann. Statist. 7, p. 1 - 26.

Efron, B. y Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman and Hall.

Escofier, B. y Leroux, B. (1972). Etude de trois problèmes de stabilité en analyse factorielle.Publication de l’Ínstitut Statistique de l’ Université de Paris, 11, p. 1 - 48.

Escofier, B. (1979). Stabilité et approximation en analyse factorielle. Thèse d’Etat, Université Pierre et Marie Curie, Paris, Francia.

Greenacre, M. (1984). Theory and applications of correspondence analysis. Academic Press, London.

Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999). Análisis Multivariante, 5° ed. Prentice Hall, IBERIA, Madrid, España.

Holmès, S. (1985). Outils informatiques pour l’évaluation de la pertinence d’un résultat en analyse des données. Thèse USTL, Montpellier, Francia.

Johnson D.E. (2000). Métodos Multivariados aplicados al análisis de datos. International Thomson Editores, S.A.deC.V., México.

Lachenbruch, P.A. y Mickey, M.R. (1968). Estimation of error rate in discriminant analysis. Technometrics, 10, p. 1 - 11.

Little, Roderick, J.A. y Rubin, D.B. (1987). Statistical Analysis with Missing Data. John Wiley and Sons, New York.

Lebart, L., Morineau, A., Fénelon, J.P. (1981). Traitement des données statistiques. DUNOD, París, Francia.

Lebart, L. Morineau, A. y Piron, Marie (1995). Statistique exploratoire multidimensionnelle. DUNOD, París, Francia.

Mallows, C.L. y Tukey, J. W. (1982). An overviews of technique of data analysis emphasizing its exploratory aspects. In: Some recent advances in Statistics. (J. Tiago de Oliveira, ed.), Academic Press, p. 11 - 172.

Miller, R.G. (1974). The Jackknife - a review. Biometrika, 61, p. 1 - 15.

Quenouille, M. (1949). Approximate tests of correlation in time series. J. Royal Statist. Soc., B, 11, p. 18 - 44.

Toussaint, G.T. (1974). Bibliography on estimation of misclassification. IEEE, Trans. Inform. Theory, IT - 20, p. 472 - 479.

Tukey, J. W. (1958). Bias and confidence in not quite large samples. Ann. Math. Statist., (Abstract), 29, p. 614.

Autorización

Los autores autorizan a LACCEI la publicación de este artículo en las memorias de la conferencia. Ni LACCEI ni los editores son responsables del contenido y de las implicaciones que se expresan en este artículo.

Estadistica Amigable

Buscar este blog

ANÁLISIS MULTIVARIANTE: CLASIFICACIÓN, ORGANIZACIÓN Y VALIDACIÓN DE RESULTADOS.

Etiquetas

Comentarios

Entradas populares de este blog

Historia de la Estadística en Venezuela

CONTRIBUCIONES DE SIR RONALD FISHER A LA ESTADISTICA GENÉTICA

Probabilidad, posibilidad, verdad e incertidumbre