Estadística Española, 1974 Jul-Dic; (64-65)
Por J. L. Sánchez-Crespo
Instituto Nacional de Estadística
INTRODUCCIÓN
I. ACURACIDAD
II. PRECISIÓN Y ACURACIDAD DE UN ESTIMADOR
III. FIABILIDAD
Creo que el significado más deseable de esta palabra debería ser “la confianza que puede asignarse a las conclusiones de una naturaleza probabilística”, Morice.
IV. VALOR “VERDADERO” Y VALOR “ÓPTIMO”
Establecida la acuracidad como sinónimo de proximidad al valor verdadero, es decir, lo que debería obtenerse con instrumentos perfectos de medida y sin cometer cualquier error de otro tipo en la recogida de los datos primarios y al realizar operaciones matemáticas con ellos, podemos preguntar: ¿existe siempre este valor?, y suponiendo que exista, ¿podemos encontrarlo?, y, finalmente, ¿tiene algún interés práctico desde el punto de vista de una Oficina Central de Estadística?. Una Oficina Central de Estadística tiene que trabajar bajo las limitaciones de un presupuesto y de algunos recursos que debe utilizar de la mejor manera posible sin sobrepasar el presupuesto. Una sustancial parte de este tendría que utilizarse en lo que Deming llama “técnica de trabajo” y, por otra parte, en lo que el mismo autor denomina “técnica preferente”. “Un procedimiento preferente-para la medida de cualquier característica-se distingue por el hecho de que supuestamente da o daría resultados más próximos que los que son necesarios para un fin particular, y también por el hecho de que es más costoso o requiere más tiempo, o incluso imposible de llevarlo a cabo.”
TERMINOLOGIA PROPUESTA
Acuracidad: proximidad al “valor verdadero”.
Acuracidad del estimador: concentración de la distribución de las estimaciones con respecto al “valor verdadero”.
Precisión de un estimador: concentración de la distribución de las estimaciones con respecto al valor esperado.
Sesgo de un estimador: diferencia entre el valor esperado y el “valor verdadero”.
Valor óptimo: valor realizable lo más próximo posible al verdadero con cierto criterio de eficacia y respecto al cual se estimará la acuracidad.
Fiabilidad: grado de confianza en términos de probabilidad asociado a las conclusiones basadas en un experimento aleatorio.
Fiabilidad en el muestreo: probabilidad de que un intervalo cubra el valor obtenido.
Acuracidad (precisión) de un procedimiento: concentración respecto al valor verdadero (esperado) de los resultados obtenidos, repitiendo la aplicación de un procedimiento en condiciones análogas con las mismas unidades.
Valores obtenidos: datos recogidos por cualquier procedimiento y para cualquier propósito tal como: censos, encuestas por muestreo, directorios, registros administrativos, etc. Pueden referirse a una sola unidad o un conjunto de ellas.
Error de respuesta: diferencia entre el valor obtenido y el valor verdadero.
Desviación de respuesta: diferencia entre el valor obtenido para una unidad y el valor medio sobre las posibles repeticiones hipotéticas bajo las mismas condiciones generales.
Sesgo de respuesta: diferencia entre el valor obtenido medio sobre repeticiones hipotéticas y el valor verdadero. Es un sesgo global como suma algebraica de todos los sesgos provenientes de distintas causas.
Varianza de respuesta: varianza de valores obtenidos sobre repeticiones hipotéticas.
Varianza de respuesta simple: valor medio sobre repeticiones hipotéticas del cuadrado de la desviación de respuesta.
Error medio cuadrático: valor medio sobre las repeticiones hipotéticas del cuadrado del error de respuesta. Puede expresarse como la suma de varianzas, covarianzas y el cuadrado del sesgo de respuesta.
Estimador del sesgo de respuesta: diferencia entre el valor obtenido y el valor óptimo. Se denomina también diferencia neta.
Tasa de diferencia neta: cociente entre la diferencia neta y el número total de unidades consideradas.
Índice de cambio neto: cociente entre la diferencia neta y el valor óptimo.
Diferencia bruta: número de unidades en las que el valor obtenido no coincide con el valor óptimo.
Tasa de diferencia bruta: cociente entre la diferencia bruta y el número de unidades consideradas. Es un estimador de la varianza de respuesta simple si el sesgo es pequeño.
Estimador de la varianza de respuesta: la tasa de diferencia bruta dividido por dos.
Índice de cambio bruto: diferencia bruta dividida por el valor óptimo.
Índice de idénticamente clasificados: número de unidades idénticamente clasificadas dividido por el valor óptimo.
Este artículo, con el título ‘Notes on the accuracy, precisión and reliability of the statistical data’, ha sido presentado por el autor a la 40 sesión del Instituto Internacional de Estadística, que tuvo lugar en Varsovia, septiembre de 1975).
Por J. L. Sánchez-Crespo
Instituto Nacional de Estadística
‘Por lo tanto, parece ser altamente apropiada la importancia que se ha dado en la presente conferencia al problema de la medida de la acuracidad.’ Eckler, 27 Sesión del ISI. Nueva Delhi, 1951.
‘La Conferencia también acordó mantener su programa de trabajo la cuestión de la acuracidad de las estadísticas.’ 22 Sesión Plenaria CES, Ginebra, 1974.
INTRODUCCIÓN
El problema de la medida de la acuracidad en las estadísticas se discutió en la 22 Sesión Plenaria de la Conferencia de Estadísticos Europeos, tomando como base un documento preparado por la Oficina de Estadística del Canadá. A la vista del interés que suscitó, la Conferencia acordó mantenerlo en su programa de trabajo.
La forma en que, durante la discusión, se utilizaron las palabras acuracidad, fiabilidad, precisión, etc., me confirma que todavía no tenemos una terminología uniforme incluso en lengua inglesa. El vacío es todavía más amplio si consideramos los idiomas de trabajo de la conferencia.
En las recomendaciones para la “Preparation of Sample Survey Reports”, Naciones Unidas, 1964, fue claramente establecido el significado de las palabras “acuracidad” y “precisión”. Sin embargo, se hizo patente la necesidad de tipificar estos términos y, por tanto, se formuló la siguiente recomendación: “el sentido en que se utilizan debería por lo tanto ser claramente expuesto”. En este documento no hay una definición de fiabilidad, y parece ser que esta actitud se tomó deliberadamente.
Estoy de acuerdo con Zarkovich que nada se necesita añadir a los conceptos de acuracidad y precisión. Sin embargo, creo que si no se da una definición de fiabilidad podríamos tener divergencias en el uso de estos términos por diferentes autores, lo que de hecho ocurre en la actualidad.
Pienso que el utópico “valor verdadero” da un tinte pesimista al problema de tratar de medir la acuracidad en relación a este valor. No puedo menos de preguntarme si en algunos casos este valor existe realmente y si aún existiendo y siendo accesible sería de interés práctico para una Oficina Central de Estadística.
Desde el punto de vista de la medida, estoy más en línea con Deming cuando establece que no existe “valor verdadero”, y creo que su definición de “procedimiento preferente” es de gran importancia práctica en esta cuestión. Sin embargo, conceptualmente el “valor verdadero” podría ser útil para explicar algunos conceptos básicos.
El objeto de estas notas es, por una parte, contribuir a la uniformidad de la terminología y definiciones, que considero una característica esencial, para que la acuracidad se pueda discutir con éxito en el futuro. Por otra parte, se trata de desarrollar una etapa intermedia, en materia de terminología entre el ideal y lo razonablemente alcanzable. Finalmente, el gran desarrollo sobre los modelos para medir la acuracidad, durante los últimos quince años, ha introducido nuevos términos que creo también necesitarían ser discutidos a fin de establecer una terminología.
En la preparación de esta nota he tenido en cuenta principalmente las estadísticas gubernamentales de características objetivas medibles en alguna escala y la palabra “valor” se utiliza en este sentido.
I. ACURACIDAD
Según Kendall, la palabra inglesa “accuracy” implica “la proximidad de una observación hacia la cantidad que se intenta observar” y también “proximidad de los cálculos o estimaciones muéstrales a los valores exactos o verdaderos”.
La acuracidad como sinónimo de proximidad hacia el valor verdadero ha sido utilizada por casi todos los autores: Cochran, Des Raj, Kalton, Hansen, Hurwitz, Kish, Moser, y otros.
No obstante, creo que hay suficientes divergencias en la manera que los diversos autores expresan la idea de “proximidad” como para originar confusiones.
Así, por ejemplo: “la acuracidad se refiere al tamaño de la desviación a la media verdadera…”, Cochran; “la acuracidad se refiere a la proximidad al valor verdadero”, Des Raj; “la acuracidad es el inverso del error total, incluyendo tanto el sesgo como la varianza”, Kish; “la palabra acuracidad se usa en este libro para designar la acuracidad esperada de un estimador, indicada por su error de muestreo. También, ocasionalmente, se utiliza para designar el error real (generalmente desconocido), pero esto no deberían causar confusión”, Yates; “un valor es acurado si es igual al valor verdadero”, Zarkovich.
Creo que parte de la confusión puede deberse a la falta de distinción entre acuracidad como concepto y medida de la acuracidad. En cuanto a la definición de Yates, parece que su “acuracidad real” corresponde a lo que otros autores llaman “acuracidad”, mientras que la “acuracidad esperada” correspondería a lo que ellos llaman “precisión”.
Creo que parte de la confusión puede deberse a la falta de distinción entre acuracidad como concepto y medida de la acuracidad. En cuanto a la definición de Yates, parece que su “acuracidad real” corresponde a lo que otros autores llaman “acuracidad”, mientras que la “acuracidad esperada” correspondería a lo que ellos llaman “precisión”.
La palabra acuracidad también se utiliza refiriéndose al marco, muestra, encuesta, diseño, procedimiento, etc..
Otra vez aquí no existe un completo acuerdo. Mencionaría un ejemplo: acuracidad, completitud y adecuación del marco: “La acuracidad del marco puede y debería ser contrarrestada y corregida automáticamente en el curso de la encuesta… su completitud y adecuación no pueden ser juzgadas sólo por evidencia interna. Por ello, la omisión completa de una región geográfica o la omisión completa o parcial… no pueden descubrirse por encuesta misma…”, Naciones Unidas. Resulta claro de aquí que la acuracidad y completitud se consideran como diferentes. Sin embargo, en la siguiente cita de Zarkovich parece que la completitud es una parte de la acuracidad del marco. “La composición del marco puede ser acurada o inacurada. El marco se denomina acurado si todas las unidades que resultan de la definición adoptada de la población son listadas una vez y sólo una. Si alguna unidad se lista dos o varias veces o está omitida en las listas, el marco se denomina inacurado”.
II. PRECISIÓN Y ACURACIDAD DE UN ESTIMADOR
Kendall define la precisión como “una cualidad, asociada con una clase de medidas, referente al modo de cómo observaciones repetidas se comportan entre ellas. En un sentido menos amplio, la precisión indica la dispersión de las observaciones o alguna medida de ella, independientemente de que el valor medio, respecto al cual se mide la dispersión, coincida uno o no con el valor verdadero”.
Sobre la idea de la precisión existe, en general, una conformidad con la definición de Kendall; así, por ejemplo, para Cochran, “la acuracidad se refiere al tamaño de las desviaciones respecto a la media verdadera, mientras que la precisión se refiere al tamaño de la desviación respecto a la media obtenida mediante repetidas aplicaciones del procedimiento muestral”. Esta línea siguen Azorín, Kish, Zarkovich y otros.
Des Raj establece “la precisión o medida de proximidad de la estimación muestral a la característica del Censo tomado bajo idénticas condiciones, se juzga en la teoría del muestreo por la varianza de estimador correspondiente”. Creo que esta definición no coincide con la línea anteriormente citada puesto que la característica poblacional puede no coincidir con el valor esperado de los resultados muestrales.
La distinción entre acuracidad y precisión de un estimador no me parece completamente clara según la definición de Hansen, Hurwitz y Madow: “proximidad esperada del estimador al valor verdadero” para la acuracidad y “proximidad esperada del conjunto de posibles estimaciones muestrales, para un diseño muestral particular, al valor que deseamos estimar” para la precisión. Quizá la primera frase podría con más propiedad aplicarse al sesgo de la acuracidad de un estimador, y la diferencia con la segunda expresión no me parece clara, puesto que el valor que deseamos estimar debería ser el valor verdadero.
La internacional Standard Organization (I.S.O) ha adoptado la siguiente definición:
Acuracidad: “proximidad entre el valor verdadero y el resultado medio que se obtendría aplicando el procedimiento experimental un gran número de veces. El procedimiento es más acurado cuando la parte sistemática de los errores experimentales que afectan a los resultados es la más pequeña.”
Tengo dos objeciones fundamentales a esta definición: la primera es que la diferencia entre el valor verdadero y valor medio se acepta como sesgo por la mayoría de los autores. Por ejemplo: “la diferencia entre la esperanza matemática del estimador y el valor verdadero poblacional es el sesgo” (Moser). Mi segunda objeción es que no solamente la parte sistemática del error experimental debería ser la más pequeña a fin de ganar en acuracidad.
Precisión: “Proximidad entre los resultados obtenidos aplicando el procedimiento experimental varias veces bajo las condiciones prescritas. Cuanto más pequeña sea la parte aleatoria de los errores experimentales, tanto más preciso es el procedimiento. No veo claramente en este párrafo el significado “varias veces”.”
III. FIABILIDAD
Creo que el significado más deseable de esta palabra debería ser “la confianza que puede asignarse a las conclusiones de una naturaleza probabilística”, Morice.
Con este significado, ligado a la precisión, este concepto lo utilizan muchos autores: “La precisión o la fiabilidad de los resultados muestrales”(Hansen, Hurwitz y Madow, vol. II); “Aquí la confianza está basada sobre el hecho de que con una pequeña varianza la probabilidad de grandes desviaciones…” (Des Raj); “Algunas veces la palabra fiabilidad se usa con el significado de precisión…” (Azorín); “Bajo condiciones de aleatoriedad, la variabilidad muestral tiene la propiedad o posee un recorrido de tolerancia con un grado asociado de probabilidad” (Deming); “La precisión es generalmente especificada en términos del margen de error permisible en la estimación y el coeficiente de confianza con que uno desea asegurarse que la estimación está dentro del margen de error permisible” (Sukhatme).
Con un significado muy distinto, la palabra fiabilidad es utilizada por Houseman: “La fiabilidad de un estimador es una función de su acuracidad y su importancia, es decir, su efectividad en la predicción para un fin específico.”
Con un significado muy distinto, la palabra fiabilidad es utilizada por Houseman: “La fiabilidad de un estimador es una función de su acuracidad y su importancia, es decir, su efectividad en la predicción para un fin específico.”
La palabra fiabilidad también se utiliza en experimentos biológicos y análisis factorial (ver Azorín y Kendall); y con diferente sentido de algunas aplicaciones industriales de la Estadística.
Una definición que, a nuestro juicio, es confusa o al menos difícil de interpretar puede verse en Paenson: “La fiabilidad de un resultado muestral es aquella parte de él que es debida a efectos permanentes y, por lo tanto, persiste de muestra a muestra (como opuesto a los efectos de los errores que varían de muestra a muestra).”
IV. VALOR “VERDADERO” Y VALOR “ÓPTIMO”
Establecida la acuracidad como sinónimo de proximidad al valor verdadero, es decir, lo que debería obtenerse con instrumentos perfectos de medida y sin cometer cualquier error de otro tipo en la recogida de los datos primarios y al realizar operaciones matemáticas con ellos, podemos preguntar: ¿existe siempre este valor?, y suponiendo que exista, ¿podemos encontrarlo?, y, finalmente, ¿tiene algún interés práctico desde el punto de vista de una Oficina Central de Estadística?. Una Oficina Central de Estadística tiene que trabajar bajo las limitaciones de un presupuesto y de algunos recursos que debe utilizar de la mejor manera posible sin sobrepasar el presupuesto. Una sustancial parte de este tendría que utilizarse en lo que Deming llama “técnica de trabajo” y, por otra parte, en lo que el mismo autor denomina “técnica preferente”. “Un procedimiento preferente-para la medida de cualquier característica-se distingue por el hecho de que supuestamente da o daría resultados más próximos que los que son necesarios para un fin particular, y también por el hecho de que es más costoso o requiere más tiempo, o incluso imposible de llevarlo a cabo.”
Utilizaremos el término “valor óptimo” para los resultados que se obtendrían si la “técnica preferente” se aplicara. Este valor θ0, que solamente puede ser obtenido en la práctica a una pequeña escala, θ0, es el que confiamos no serviría como una referencia cuando tratamos de estimar la acuracidad de las estadísticas.
TERMINOLOGIA PROPUESTA
Acuracidad: proximidad al “valor verdadero”.
Acuracidad del estimador: concentración de la distribución de las estimaciones con respecto al “valor verdadero”.
Precisión de un estimador: concentración de la distribución de las estimaciones con respecto al valor esperado.
Sesgo de un estimador: diferencia entre el valor esperado y el “valor verdadero”.
Valor óptimo: valor realizable lo más próximo posible al verdadero con cierto criterio de eficacia y respecto al cual se estimará la acuracidad.
Fiabilidad: grado de confianza en términos de probabilidad asociado a las conclusiones basadas en un experimento aleatorio.
Fiabilidad en el muestreo: probabilidad de que un intervalo cubra el valor obtenido.
Acuracidad (precisión) de un procedimiento: concentración respecto al valor verdadero (esperado) de los resultados obtenidos, repitiendo la aplicación de un procedimiento en condiciones análogas con las mismas unidades.
Valores obtenidos: datos recogidos por cualquier procedimiento y para cualquier propósito tal como: censos, encuestas por muestreo, directorios, registros administrativos, etc. Pueden referirse a una sola unidad o un conjunto de ellas.
Error de respuesta: diferencia entre el valor obtenido y el valor verdadero.
Desviación de respuesta: diferencia entre el valor obtenido para una unidad y el valor medio sobre las posibles repeticiones hipotéticas bajo las mismas condiciones generales.
Sesgo de respuesta: diferencia entre el valor obtenido medio sobre repeticiones hipotéticas y el valor verdadero. Es un sesgo global como suma algebraica de todos los sesgos provenientes de distintas causas.
Varianza de respuesta: varianza de valores obtenidos sobre repeticiones hipotéticas.
Varianza de respuesta simple: valor medio sobre repeticiones hipotéticas del cuadrado de la desviación de respuesta.
Error medio cuadrático: valor medio sobre las repeticiones hipotéticas del cuadrado del error de respuesta. Puede expresarse como la suma de varianzas, covarianzas y el cuadrado del sesgo de respuesta.
Estimador del sesgo de respuesta: diferencia entre el valor obtenido y el valor óptimo. Se denomina también diferencia neta.
Tasa de diferencia neta: cociente entre la diferencia neta y el número total de unidades consideradas.
Índice de cambio neto: cociente entre la diferencia neta y el valor óptimo.
Diferencia bruta: número de unidades en las que el valor obtenido no coincide con el valor óptimo.
Tasa de diferencia bruta: cociente entre la diferencia bruta y el número de unidades consideradas. Es un estimador de la varianza de respuesta simple si el sesgo es pequeño.
Estimador de la varianza de respuesta: la tasa de diferencia bruta dividido por dos.
Índice de cambio bruto: diferencia bruta dividida por el valor óptimo.
Índice de idénticamente clasificados: número de unidades idénticamente clasificadas dividido por el valor óptimo.
Comentarios
Tal vez si se comunica con el Dr. Sánchez Crespo, autor del artículo, pudiera dárselos. Gracias nuevamente