lunes, 11 de octubre de 2010

LA ARQUITECTURA DEL CONOCIMIENTO COMPLEJO, EL SENTIDO COMÚN Y LA PROBABILIDAD

SIXTO RÍOS GARCÍA Y DAVID RÍOS INSUA

Real Academia de Ciencias

Estrictamente hablando, todo nuestro conocimiento, aparte de las matemáticas y la lógica demostrativa, consiste en conjeturas.

(Polya, 1954)

INTRODUCCIÓN

En su introducción a esta serie de lecturas que la Real Academia ha dedicado al Año Mundial de las Matemáticas, el profesor Etayo, al comparar la imagen de nuestra disciplina con otras actividades del pensamiento, menciona cómo el gran público asocia las matemáticas con el pensamiento más hermético. Nuestro objetivo aquí es desgranar algunas ideas sobre tal pensamiento, motivadas en parte, por la cita introductoria de Polya, intentando relacionar las matemáticas con el pensamiento cotidiano y el sentido común.

Se da en nombre de inferencia al proceso discursivo que, partiendo de una proposición, llega a otra como conclusión, siendo habitual distinguir entre inferencia deductiva e inductiva. La segunda supone incertidumbre, característica de las conclusiones científicas en su espectro inductivo, permite el conocimiento plausible y comprende la evidencia inductiva del físico, la evidencia circunstancial del abogado, la documental del historiador, la estadística del economista o del sociólogo... la diferencia entre ambos tipos de razonamiento se centra en que el primero es seguro, pero no permite con su rígida lógica obtener ningún conocimiento nuevo sobre el mundo que nos rodea. Por contra, el razonamiento plausible, sin alcanzar la fuerza de una demostración lógica estricta, se hace necesario en las conclusiones científicas y de la vida diaria, al pasar de observaciones y datos experimentales a valores no observados.

Por tanto, nuestro interés primordial está en el paso de razonamiento lógico, o determinista, al razonamiento incierto, o plausible, puesto que refleja el estado actual de una clase de conocimientos que va del puro sentido común al lenguaje sofisticado con que se construyen actualmente los conocimientos científicos y humanos, en su impresionante variedad de modelos, que van de la psicología cognitiva y la filosofía a la teoría de la decisión y la investigación operativa y de la inteligencia artificial y los sistemas expertos a la práctica diaria de profesiones como la medicina o la abogacía, en que va siendo urgente un cambio de manera de razonar que incluya el razonamiento plausible o inductivo, manejado en forma rigurosa. Esto es así porque la incertidumbre es un fenómeno casi ubicuo en nuestras vidas: en realidad hay pocas cosas de las que estamos completamente seguros, y en nuestro discurso son habituales locuciónes del tipo "probablemente", "es casi seguro que...", "puede que...". Aunque tales locuciónes son válidas en el lenguaje coloquial, en el razonamiento científico en condiciones de incertidumbre deberemos expresarlas en forma cuantitativa.

Es interesante observar desde el principio que ha sido un matemático, Polya (1954), quien ha influido más decisivamente que cualquier otro probabilista o estadístico en conseguir abrir las puertas de la teoría y aplicaciones de la inducción y la inferencia plausible a un campo de posibilidades de formalización y aplicaciones a las ciencias y humanidades en que no se pueden olvidar nombres tan importantes como los de Laplace, Jeffreys, Shannon, Cox, Jaynes...

Creemos que este enfoque del problema de la inducción como lógica de razonamiento plausible, completado en los últimos años del siglo XX, representa una novedad respecto de la teoría de la probabilidad basada en los axiomas de Kolmogorov y el axioma de Bayes, que ahora se sustituyen por los axiomas de Aristóteles, complementados con los de la lógica inductiva de Polya, que no nace de la idea de aleatoriedad sino de la de información incompleta, y la visión de Cox-Jaynes de medidas de la plausibilidad. Podemos así pasar de una lógica para el razonamiento deductivo a una lógica extendida para el razonamiento inductivo. Estamos convencidos de que este nuevo esquema de acceso al razonamiento inductivo, superada la inercia de los enseñantes, resultará más asequible al estudioso, tanto del campo de las humanidades como del de las ciencias, lo que contribuirá a la caída del gran muro que aún separa las dos culturas e impide colaboraciones que facilitarán progresos fundamentales en los mismos, lo cual debe destacarse en el año 2000 como una importante aportación de las matemáticas a la unidad de ambas culturas.

El resto de esta lectura comienza revisando algunos conceptos básicos del razonamiento lógico. Tras motivar las diferencias con el razonamiento plausible y hacer una introducción histórica al problema de la inducción, revisamos algunas reglas de razonamiento plausible para introducir, después, su modelización mediante plausibilidades. Finalmente, describimos algunas cuestiones relativas a la implementación práctica de estas ideas, con especial referencia a los sistemas inteligentes.

RAZONAMIENTO LÓGICO

Para entender las matemáticas escritas, debemos comprender qué constituye un razonamiento matemático correcto. A grandes rasgos, las matemáticas se describen en términos de teoremas, demostraciones, axiomas, hipótesis y reglas de inferencia. Como sabemos, un teorema es una sentencia que puede demostrarse que es verdadera. Demostramos que un teorema es verdadero con una sucesión de sentencias que forman uno o más argumentos, lo que denominamos demostración. Para construir demostraciones necesitamos derivar nuevas sentencias a partir de sentencias anteriores. Las sentencias empleadas en una demostración pueden incluir axiomas o postulados, que son hipótesis subyacentes sobre las estructuras matemáticas pertinentes, las hipótesis del teorema a probar y teoremas previamente demostrado. Las reglas de inferencia, los medios para derivar conclusiones y otras sentencias, ligan los pasos de una demostración.

Quizá el primer tratamiento científico explícito de razonamiento lógico aparece en el Organon de Aristóteles (siglo IV a. C.). En esta obra fundamental se enuncian dos silogismos fuertes, el modus ponens y el modus tollens, que se han considerado desde entonces la base de todo razonamiento lógico, es decir, que todo razonamiento deductivo debe aparecer como una reiterada composición de los citados silogismos. Recordemos brevemente su expresión.

1. Modus ponens

si A es verdadero, entonces B es verdadero

A es verdadero

por lo tanto, B es verdadero.

Un ejemplo de aplicación sería:

Si leo esta lección, leeré el nombre de Cox

He leído esta lección

Por lo tanto, he leído el nombre de Cox.

2. Modus tollens

Si A es verdadero, entonces B es verdadero

B es falso

Por tanto, A es falso.

Un ejemplo de aplicación sería:

Si leo esta lección, leeré en nombre de Cox

No he leído en nombre de Cox

Por tanto, no he leído esta lección.

Existen muchas otras reglas de inferencia, como la de adición o el silogismo disyuntivo (ver, por ejemplo, Rosen, 1994), pero, como hemos dicho, todas ellas pueden reducirse a los dos silogismos anteriores. En tal sentido, un lógico podría decir a un matemático que en su trabajo está haciendo, simplemente, lógica; estrictamente, sería correcto, pues podría tomar los axiomas de la lógica y la aritmética y reproducir los resultados matemáticos mediante razonamiento lógico. Una visión más útil sería la de que está empleando razonamiento lógico para ser matemáticas: razona sobre conceptos y relaciones matemáticas, con ayuda de la lógica como herramienta.

Así, un argumento basado en reglas de inferencia será válido. Cuando todas las proposiciones empleadas en un argumento válido sean verdaderas, obtendremos una conclusión correcta. Obsérvese, sin embargo, que un argumento válido puede conducir a una conclusión incorrecta si se emplean una o más proposiciones falsas.

También es importante recordar que las reglas de inferencia suele llevar asociadas falacias que en ocasiones aparecen en argumentos inválidos. Y así, a pesar del tiempo que ha pasado desde Aristóteles, se siguen utilizando falacias como la de

Afirmación de la conclusión

si A es verdadero, entonces B es verdadero

B es verdadero

Por tanto, A es verdadero

Como en

Si leo esta lección, leeré en nombre de Cox

He leído el nombre de Cox

Por tanto, he leído esta lección,

que es un razonamiento incorrecto. Observemos que puede haber leído sobre Cox, sin necesidad de haber leído esta lección.


Dado el éxito del razonamiento deductivo, el impresionante desarrollo de las matemáticas y el tiempo pasado desde Aristóteles, no es de extrañar la tendencia natural a querer aplicar los silogismos fuertes anteriores, no sólo en las construcciones matemáticas, sino en situaciones inciertas corrientes en la vida, en el descubrimiento de verdades científicas, en el lenguaje corriente o de sentido común..., pero éste es, más bien, el terreno de las conjeturas, el terreno del razonamiento plausible, que estudiamos a continuación.

RAZONAMIENTO PLAUSIBLE

Cuando nos recreamos recordando los pasos sucesivos por razonamientos lógicos que surgen en la demostración de un teorema matemático y los comparamos con otros procesos inductivos, llamamos plausibles o inciertos, que no son tan fuertes como un razonamiento lógico, pero si completamente necesarios para explicar hechos de la vida real, en la que empleamos los razonamiento de sentido común, o del mundo tecnológico, social..., sentimos la necesidad de clarificar las diferencias.

Consideremos el siguiente párrafo en que un policía describe un suceso que ha observado:

Paseaba por la calle de Valverde la noche del 30 de octubre, a las 2, solitaria y oscura. De pronto, hoy una señal de alarma y, poco después, observe una tienda de instrumentos musicales, con un escaparate forzado. Después vi salir por el escaparate a un individuo con una careta de drácula, con un saco pesado. Decidí que era un ladrón y de perseguí.

Claramente, la conclusión del policía no es una deducción lógica a partir de la evidencia. Podía ser, por ejemplo, que es señor de la careta fuese el dueño de la tienda de instrumentos, que venía de una fiesta de Halloween y pasase cerca de la tienda momentos antes de que unos gamberros hubiesen apedreado el escaparate y un gato hubiese entrado en la tienda. Por no estar trabajando, no llevaría la llave de la tienda y, en un momento, intentó recoger los objetos más valiosos antes de que potenciales ladrones pudiesen darse cuenta de la situación.

De igual forma, podrían darse otras descripciones compatibles con los hechos parcialmente contemplados. Sin embargo, a pesar de no tratarse de una deducción lógica, basada en las reglas antes mencionadas, le daremos, sin duda, cierto grado de validez: la evidencia no confirma que el hombre de la careta sea un ladrón, pero lo hace muy plausible. De hecho, podríamos formalizar el tipo de razonamiento empleado con un silogismo débil del tipo:

3. Si A es verdadero, entonces B es más plausible

B es verdadero

Por tanto, A resulta más plausible

Donde A es "la persona es un ladrón" y B es "la persona sale corriendo de la tienda con una bolsa".


Con mucha frecuencia, se nos plantean situaciones como el del policía en las que, basados en información insuficiente para realizar un razonamiento deductivo, debemos tomar una decisión. En estos casos, resulta conveniente emplear razonamientos plausibles, que tienen cierto grado de validez, sin llegar a la fuerza probatoria de un razonamiento lógico. Y esto afecta no sólo a la vida cotidiana, sino también a la actividad científica (no lógico-matemática), soliéndose hablar de inferencias de la muestra a la población, de los datos a las hipótesis, de los efectos observados a las causas inciertas, del pasado al futuro, aspectos diversos de la inducción con que continuamente nos enfrentamos en nuestras actividades de conocer y decidir.

NOTA HISTÓRICA SOBRE EL PROBLEMA DE LA INDUCCIÓN

De una forma u otra, la humanidad ha estado siempre preocupada por el problema de cómo tratar la ignorancia. Los filósofos y estadísticos han adoptado puntos de vista diferentes para abordar estos problemas. Los primeros proporcionan intentos de identificación de las características universales de las inferencias inductivas para llegar a una teoría magna como justificación de los métodos inductivos. Los estadísticos se restringen a problemas inductivos más concretos, logrando con ayuda de modelos matemáticos apropiados, establecer reglas de inferencia en condiciones bien especificadas.


Refiriéndonos al enfoque filosófico con precursores como Avicena (980-1037), Roger Bacon (1214-1294) y otros posteriores, llegamos a Francis Bacon (1561-1626) que, con su Novum Organum, inicial la ruptura con los métodos aristotélicos deductivos, y a John Stuart Mill (1806-1873), que introduce una metodología cuyo propósito es establecer relaciones de causa a efecto en un proceso dialéctico en que, a partir de un conjunto potencialmente infinito de observaciones, se obtendrían unas primeras afirmaciones inductivas que se someterían a comprobación. De confirmarse por las nuevas experiencias, permitirían llegar a teorías científicas sucesivamente perfeccionadas. Con él, aparecen ya las ideas iniciales de los métodos eliminativos de Popper, más tarde tan en boga, y muy relacionados con los métodos de contrastes de hipótesis.

Es obligado mencionar antes a Hume que, en su Treatise of Human Nature (1739), define por primera vez claramente el problema de la inducción en la siguiente forma:

Cuando se pasa del observado O a lo inobservado I, O e I son lógicamente distintos, a menos en el sentido de que se puede conseguir O como evidente, mientras que I no. En consecuencia, no existe necesidad lógica de que I se siga de O. ¿cuáles podrían ser entonces los fundamentos para afirmar I de O?

En definitiva, plantea el problema de dar una justificación racional a las inferencias inductivas. Su postura empiricista le lleva a negar que tal problema pudiera tener solución. Pero, como dice, muchos años después, Bertrand Russell:

Es necesario elegir entre la inducción, con su irracionalidad relativa, y la iracionalidad absoluta.

Las respuestas filosóficas al problema han sido de dos tipos. Las primeras sugieren que las inferencias inductivas son injustificables y no deben figurar en ningún libro científico. Otros filósofos, como Popper, Kuhn, Feyerabend..., tratan de auxiliar al científico con sus métodos de falsación por refutación, que se relacionan con los métodos estadísticos de contraste de hipótesis (ver, por ejemplo, French y Ríos Insua, 2000) como término de una línea de trabajos, ya mencionados, que se inicia con Bacon y Mill.

Los filósofos del segundo grupo se ocupan de justificar racionalmente las inferencias inductivas, bien tratándolas como argumentos deductivos incompletos, bien añadiendo algún principio de carácter general, como el de uniformidad de la naturaleza. Sin embargo, en esta línea no se avanza mucho en tiempos posteriores, a pesar del enfoque pragmático de Reichenbach (1949) y de las aportaciones de Keynes, que, en su A Treatise on Probability (1921), introduce la probabilidad lógica o necesaria. Hoy se considera fallido ese ambicioso intento de reconstrucción y formalización racional de la realidad científica, a pesar de los importantes trabajos de Carnap (1950), cuyo complicado sistema de axiomas fue pronto abandonado. Carnap, junto con Keynes y Jeffreys, contribuyó en parte a resucitar la antigua línea bayesiana de trabajos que en la actualidad pueden considerarse un primer tratamiento formal exitoso de la inferencia inductiva.

El teorema de Bayes, que Laplace redescubrió y aplicó muchos años después, constituye la base de la inferencia bayesiana, que se desarrolló y utilizó hasta la Primera Guerra Mundial, junto con otras metodologías, que se suelen denominar de estimación y contraste de hipótesis. Después surgieron los importantes trabajos de Fisher, que con su variada gama de técnicas, más fáciles de elaborar, arrinconaron las ideas bayesiana, a lo que contribuyen también los trabajos más formalizados de Neyman-Pearson y Wald, que dominaron a partir de los años treinta entre los estadísticos teóricos y aplicados, hasta el reciente auge de los métodos bayesianos (ver, por ejemplo, French y Ríos Insua, 2000).

Esto lleva a la construcción axiomática de un modelo probabilístico subjetivo mediante axiomas que han ido perfeccionándose con los trabajos de De Finetti, Savage, Anscombe y Aumann.... Con ellos se llega finalmente a las mismas reglas de Kolmogorov, que permiten el cálculo de la probabilidad subjetiva de cada sentencia S, bien construida mediante las reglas de Boole, a partir de un conjunto de proposiciones atómicas A, B, C... en un cierto contexto provisto de una cierta información H. sobre esta construcción axiomático se edifica el formalismo bayesiano para razonar en condiciones de incertidumbre.

Aquí, siguiendo la línea de trabajos de Polya, Cox y Jaynes, mostraremos como la lógica deductiva aristotélica puede extenderse de manera consistente con algunas reglas de razonamiento plausible, de modo que los grados de creencia se representan mediante números reales que satisfacen las propiedades de las probabilidades, con lo que pueda hablarse de probabilidades como lógica extendida.

REGLAS DEL RAZONAMIENTO PLAUSIBLE

En el apartado anterior introdujimos un silogismo débil que recordaba en parte al modus ponens. Otro silogismo débil, que debe compararse con la falacia de afirmación de la conclusión, y habitualmente empleamos en el razonamiento plausible, es:

4. Si A es verdadero, entonces B es verdadero

B es verdadero

Por tanto, A resulta más plausible

Por ejemplo, supongamos que A es Comenzó a llover a las 9 de la mañana y B es El cielo estaba nublado a las 8.55 de la mañana. Si tratamos de aplicar el silogismo modus ponens, nos encontramos que la presencia de nubes a las 8:55 no nos da una certidumbre lógica de que lloverá a las 9. Esto nos lleva a introducir, para el razonamiento plausible, el silogismo débil anterior, que en nuestro contexto se expresaría Si el cielo estaba nublado a las 8:55 de la mañana (B) resulta más plausible que llueva a las 9 (A).

La contribución esencial de Polya fue fijarse en los aspectos cualitativos de extensión de los esquemas clásicos de la lógica aristotélica al planteamiento de nuevos esquemas, que sirven de soporte a los razonamientos inductivos que llamaremos plausibles y desempeñan un papel fundamental en los procesos intuitivos, como hemos visto en el ejemplo del policía. Polya busca formas debilitadas de los esquemas básicos de Aristóteles para efectuar estas construcciones. Otro ejemplo es:

5. Si A es verdadero, entonces B es verdadero

A es falso

Por tanto, B resulta menos plausible,

Como ocurre en el ejemplo anterior de lluvia a las 9 (A) y cielo nublado a las 8:55 (B).

En conjunto, Polya proporciona una tabla de patrones de inferencia plausible que usamos en nuestro razonamiento común, y que los científicos y los matemáticos[1],


en particular, empleamos en el descubrimiento de nuevas verdades, que después deben convertirse en teorías que habrán de desarrollarse mediante silogismos. Por ejemplo, los silogismos débiles 4 y 5 permiten a los científicos rechazar o aceptar teorías. Incluso se emplean para realizar demostraciones en computación aleatorizada.

El razonamiento deductivo anteriormente descrito, tiene la propiedad de que podemos realizar largas cadenas de deducciones modus ponens y modus tollens, preservando las conclusiones la misma certeza que las premisas. Sin embargo, con razonamientos basados en silogismos débiles como los aquí expuestos, la fiabilidad de las conclusiones se debilita si pasamos por varias fases.

Modelización del razonamiento plausible

Hemos indicado que Polya puso el énfasis en los aspectos cualitativos del razonamiento plausible. De hecho, basándonos en los axiomas de Cox (1946), es posible modelizar el razonamiento plausible en términos probabilísticos, con lo que se consigue ver cómo el razonamiento plausible puede considerarse como una extensión del razonamiento lógico.

Partimos de un conjunto de proposiciones elementales, o sentencias que pueden ser verdaderas o falsas, que denotamos por A, B.... Suponemos la estructura básica del álgebra de Boole, con el producto lógico o conjunción que designamos por AB y representa A y B son ambas verdaderas; la suma lógica o disjunción A+B que representa la proposición al menos una de las proposiciones A, B es verdadera y la negación de una proposición, ¬ A. Con ellas creamos el conjunto S de sentencias bien formadas que obedecen las reglas de combinación del álgebra de Boole, como las de doble negación, la de idempotencia, la conmutativa, la asociativa, la de dualidad, la distributiva y la simplificativa. Lógicamente, en un entorno cambiante, iremos descubriendo que la información disponible se va modificando, por lo que es necesario hablar de la proposición A sabiendo que la proposición B es verdad, que designaremos mediante A | B.

Podemos ya enunciar las hipótesis básicas de Cox que permiten representar los grados de creencia mediante números que satisfacen las reglas de combinación de las probabilidades y que, como veremos, permiten modelizar cuantitativamente el razonamiento plausible. Esencialmente, a cada proposición sobre la que razonemos le asignaremos un grado de plausibilidad y cuando recibamos nueva evidencia deberemos modificar tal asignación para tener en cuenta tal información. Las hipótesis de Cox son:

  • Los grados de plausibilidad se representan mediante números reales. Simbólicamente, a cada proposición A|B se le asocia un número p(A|B), que medirá su grado de plausibilidad.
  • El grado de plausibilidad de una inferencia, dada cierta evidencia, determina el grado de plausibilidad de la inferencia contraria, basada en la misma evidencia. Simbólicamente: p(¬A|B) = g(p(¬A|B))
  • El grado de plausibilidad de la conjunción de dos inferencias dada cierta evidencia se determina a partir del grado de plausibilidad de una inferencia, dada la evidencia, y del grado de plausibilidad de la otra inferencia dada la evidencia y que la primera inferencia sea verdadera. Simbólicamente: p(AB|C)=f(p(A|C), p(B|AC))

A partir de ellas se prueba que se pueden asignar números no negativos a las sentencias A|B que satisfacen las reglas básicas del cálculo de probabilidades:

p(AB|C)=p((A|C)p(B|AC)=p(B|Cp(A|BC)

p(A|B) + p(¬A|B)=1

La primera se denomina regla del producto. La segunda, regla de la suma.

Horvitz et al. (1986) proporcionaron una versión del resultado anterior más cercana al lenguaje de la inteligencia artificial. Jaynes (1990), de forma algo más imprecisa, relaciona el resultado de Cox con las reglas, algo más cualitativas:

  • Representación de grados de plausibilidad mediante números reales.
  • Correspondencia cualitativa con el sentido común.
  • Consistencia.

Probabilidades como lógica extendida

A continuación vamos a analizar cómo, una vez obtenida la representación de los grados de plausibilidad mediante probabilidades condicionadas, somos capaces de implementar el razonamiento lógico (deductivo) y las reglas de razonamiento plausible (inductivo) debidas a Polya.

Si designamos por C la proposición «Si A entonces B», vemos que modus ponens y modus tollens se adaptan, respectivamente, a las reglas del producto:

p(B|AC)=p(AB|C)/p(A|C)

p(A |¬BC)=p(A¬B|C)/p(¬B|C)

A partir de modus ponens y modus tollens tenemos, respectivamente,

que

p(AB|C) = p(A|C) y p(A¬B |C) = 0, por lo que:

p(B |AC) = 1

p(A |¬BC) = 0

Podemos, por tanto, modelizar modus ponens y modus tollens con ayuda de las probabilidades, como casos extremos en los que estamos seguros de las conclusiones.

Más aún, podemos dar versiones cuantitativas de las reglas débiles. Así, por ejemplo, el silogismo débil 4 corresponde a la regla del producto en la forma:

p(A|BC)= p(A|C) [p((B|AC)/p(B|C)

Ahora bien, y modus ponens, p(B|AC) = 1 y, como p(B|C <= 1, tenemos:

p(A|BC)>= p(A|C)

Como se indica el silogismo débil 4. El silogismo 5 corresponde a la regla producto en la forma

p(B |¬AC) = p(B |C) [p(¬A |BC)/p(¬A |C)

De la conclusión anterior se sigue:

p(¬A |BC)<= p(¬A |C)

Con lo cual:

p(B |¬AC) <= p(B |C)

como se indica en el silogismo. Respecto a 3, si C designa la información disponible, la primera premisa es

p(B|AC) >= p(B|C);
aplicada a la regla del producto:

p(A|BC)= p(A|C) [p(B|AC)/p(B|C)

Tenemos directamente:

p(A|BC)>= p(A|C)

Vemos, pues, cómo somos capaces de modelizar en términos probabilísticos el razonamiento lógico y los patrones de razonamiento plausible, con lo que, efectivamente, podemos hablar de probabilidades como lógica extendida.

IMPLEMENTACIÓN

Los axiomas antes mencionados de Cox sugieren introducir la probabilidad como una medida de los grados de plausibilidad o creencia que una persona tiene en la verdad de una proposición basada en su información en un momento dado. En presencia de información adicional, las probabilidades se actualizan mediante la fórmula de Bayes:

p(A|B) = [p(B|A) p(A)/p(B)] œ p(B|A)p(A)

Que es una consecuencia inmediata de la regla del producto. No hemos descrito aún cómo implementar tal programa, por lo cual debemos proporcionar, primero, métodos de asignación de probabilidades

Asignación de probabilidades

La ventaja de la concepción adoptada de la probabilidad es que corresponde a un concepto más general que el tradicionalmente considerado y que, por tanto, puede aplicarse a fenómenos en los que no haya simetrías aparentes, ni sean de carácter repetitivo, como ocurre en numerosos campos de la medicina o la abogacía. Nuestro objetivo es proporcionar un modelo probabilístico, que no es otra cosa que una codificación de la información disponible sobre la verdad de las sentencias bien formadas a partir de las proposiciones elementales en términos de una distribución de probabilidad. Para ello describimos tres métodos, siendo el más general y genérico el tercero.

En ocasiones, por razones de simetría física o lógica, encontramos todos los resultados de un experimento igualmente verosímiles y apelamos al concepto clásico de probabilidad que se define mediante el cociente del número de casos favorables, i.e. casos en los que es verdadera la proposición, por el de casos posibles.

Ejemplo 1

Consideremos una urna con ocho bolas numeradas del 1 al 8. Dada la simetría física, encontramos igual de verosímil sacar cualquiera de las bolas en una extracción. Así, por ejemplo, si preguntamos por la probabilidad de sacar una bola con número par tenemos:

Pr(Par) = 4/8 = 0,5

Un concepto más general es el frecuentista. Se aplica en experimentos que se pueden repetir bajo condiciones similares, adoptándose la hipótesis intuitiva de que la frecuencia relativa con la que una proposición es verdad se estabiliza al repetirse un experimento.

Ejemplo 2

La figura muestra la traza de la frecuencia relativa de aparición de cara en n tiradas de una moneda equilibrada.

se interpreta entonces la probabilidad de la proposición como el límite de la frecuencia relativa de aparición de la proposición, cuando el número de ensayos tiende a infinito. Observemos, sin embargo, que no es físicamente posible hablar de una sucesión infinita de repeticiones, por lo que, en la práctica, hablamos de la fracción de veces que una proposición es verdad en una sucesión larga de ensayos.

Ejemplo 3

En un gran hospital que atiende a cierto sector de una ciudad, se han registrado 7.227 ingresos de niños entre 1 y 5 años, de los cuales 536 presentaban amigdalitis aguda. Tenemos entonces que:

pr(niño entre 1 y 5 años de esa población con amigdalitis) = 536/7227 = 0,07

Obsérvese el problema con esta definición, al no ser preciso lo que se entiende por un número grande de ensayos. Así, por ejemplo, si al tirar un dado de seis caras cinco veces, el 4 no aparece ninguna vez, no tiene sentido estimar mediante 0 la probabilidad de que salga 4.

El concepto más general utiliza un experimento de calibración para medir probabilidades. Un experimento es de calibración para un individuo si éste encuentra todos los resultados igualmente verosímiles, utilizándose tal experimento para comparar la verosimilitud de las proposiciones de interés con la verosimilitud de las proposiciones de calibración.

Ejemplo 4

En el ejemplo 1, los autores de este trabajo encuentran igual de preferibles todas las apuestas del tipo Ganar 10.000 pesetas si sale la bola con el número i, 0 pesetas en otro caso para i = 1,..., 8. Nos sirve, por tanto, de instrumento para medir probabilidades con valores en 0, 1/8, 2/8,..., 7/8, 1. Así, por ejemplo, si deseamos encontrar la probabilidad de uno de nosotros (DRI) de que España gane la Copa Davis del año 2000[2], encontramos tan verosímil que saquemos una bola con número menor o igual que 6, como que gane España, por lo que para DRI la probabilidad de que España gane es 3/4.

Además, debe mencionarse que existe la posibilidad de emplear distribuciones «por defecto» o «no informativas», que exigen poco esfuerzo por parte del experto. Un ejemplo de tales distribuciones es el de las basadas en el principio de máxima entropía, ver Jaynes (1996).

Subjetivismo, consenso e imprecisión

Una cuestión llamativa es que hemos introducido las probabilidades como grados de plausibilidad o creencia asociados, por tanto, a una persona. Las probabilidades son propiedades del observador, no del sistema observado. La primera cuestión que surge es si las creencias tienen cabida en la Ciencia y en la Ingeniería. En nuestra opinión, la respuesta es afirmativa: en numerosas fases de la Historia de la Ciencia, y en distintas ramas, ha habido teorías contradictorias que defendían distintas concepciones de un fenómeno. En muchas ocasiones, como la recepción de nueva información, algunas teorías han creado refutadas, mientras que otras han evolucionado y convergido a una teoría mejor.

De hecho, las creencias dependerán de cada persona y de la información que tenga en cada momento de manera que dos personas podrían discutir e intercambiar información hasta que sus creencias convergiesen, con lo que tendríamos una forma de modelizar consenso implícitamente.

Ejemplo 5

Como ilustración, supongamos que dos ingenieros se enfrentan a un problema de control de calidad de una línea de producción. Para ello se fijan en la proporción de piezas defectuosas de la línea. El primero es muy inexperto sobre el proceso de producción y modelizamos

sus creencias sobre la proporción con una distribución βe (1, 1), esto es una distribución uniforme en el intervalo (0,1). El segundo cree saber mucho sobre el proceso y modeliza sus creencias sobre la proporción con una βe (10, 70). Ambos observan tres piezas, siendo una de ellas defectuosa. Las creencias del primer ingeniero pasan a modelizarse mediante una βe (2, 3) cambiando radicalmente; las del segundo pasan a ser βe (11, 72), no sufriendo apenas cambio. Después de observar 380 piezas, con 160 defectuosas, las creencias del primero pasan a ser βe (161, 221) y las del segundo βe (170, 290), las creencias de ambos ingenieros se parecen bastante.

Un problema implícito en el procedimiento de asignación, y en los axiomas de Cox, en concreto en el primero de ellos, es que somos capaces de asignar a cada proposición un grado de plausibilidad. Exigimos, por tanto, un grado de precisión muy grande en la mente del observador, lo cual es aceptable desde un punto de vista normativo, pero quizá no tanto desde un punto de vista descriptivo. Debemos mencionar que, desde una perspectiva normativa, se han desarrollado axiomáticas que no exigen tanta precisión (ver Girón y Ríos, 1980, o Ríos Insua, 1990). Desde un punto de vista prescriptivo se han desarrollado enormemente los métodos del análisis robusto (ver Ríos Insua y Ruggeri, 2000).

RAZONAMIENTO PLAUSIBLE EN SISTEMAS INTELIGENTES

En cierta medida, el resurgir del interés por las cuestiones relativas al razonamiento plausible se debe a la necesidad que los sistemas inteligentes tienen de procesar información incierta y tomar decisiones bajo condiciones de incertidumbre. El objetivo de la inteligencia artificial (IA) es proporcionar un modelo computacional del comportamiento inteligente (Pearl, 1988). Ciertamente, dos tareas asociadas al mismo son el aprendizaje y la toma de decisiones bajo condiciones de incertidumbre. Por consiguiente, cabría esperar la importancia de los conceptos probabilistas en la inteligencia artificial. Sin embargo, hasta muy avanzada la historia de esta disciplina, la IA mostró poco interés por estas teorías. Este desinterés inicial tiene fácil explicación: tales teorías implican utilizar probabilidades y utilidades, que son números, y la IA, en principio, no se interesaba por la manipulación de números, sino por programas con entradas y salidas simbólicas. Este prejuicio contra los números en general, y, en particular, los que utiliza la teoría de la probabilidad, no ha desaparecido de la IA, lo que explicaría la introducción de métodos no numéricos para el tratamiento de incertidumbre, como las lógicas no monótonas o la teoría de la confirmación, dando lugar a la línea logicista del tratamiento de la incertidumbre.

Sin embargo, los factores causantes de este prejuicio han cambiado sustancialmente. La idea de definir la inteligencia artificial por contraposición al procesamiento numérico, ha sido sustituida por la idea de que la inteligencia se produce mediante la complejidad y por acceso a grandes cantidades de conocimiento. Así, se han abierto dos vías para el posible empleo de las probabilidades en IA:

  • El interés por los sistemas expertos, que en ocasiones, se diseñan para interaccionar con personas que proporcionan entradas numéricas. Por tanto, ha desaparecido en algunos casos la prohibición sobre la manipulación de números.
  • Los investigadores de la IA aceptaron las propuestas de Marr (1982) sobre niveles de explicación: la comprensión de un sistema inteligente requiere explicaciones según diversos niveles. Así, incluso si las entradas y salidas fuesen no numéricas, puede ser muy valioso para una inteligencia artificial poder diseñar el tipo de argumentos empleados en el cálculo de probabilidades y generar los juicios numéricos que ésta requiere.

A pesar de ello, las probabilidades se consideraron durante bastante tiempo computacionalmente infactibles y epistemológicamente inadecuadas, lo que motivaría la adopción de métodos neocalculistas para el tratamiento de la incertidumbre, como la lógica difusa por el método de Dempster-Shafer.

Ciertamente, los primeros intentos de emplear probabilidades debieron limitarse a modelos muy sencillos, denominados Bayes naive (ver Warner et al., 1961), muchas veces inadecuados. El enorme potencial de los métodos probabilísticos se debe, en gran medida, al estudio en detalle de la propiedad de independencia condicionada, su relación con las denominadas redes bayesianas y la introducción de algoritmos para el razonamiento probabilístico y estadístico en tales estructuras de conocimien

to, bien descritas en Cowell et al. (1999).

Decimos que los sucesos

A y C son independientes dado B si p(C|B,A) = p(C|B), o, cualitativamente, si, una vez conocido B, A no aporta información sobre C (y recíprocamente). Gráficamente se tiene la representación que se muestra en la figura tres

El interés de este concepto está en que permite la representación modular del conocimiento complejo mediante las denominadas redes bayesianas o causales. Una red bayesiana es un grafo acíclico dirigido G= (N,A), donde N es el conjunto de nodos y A es el conjunto de aristas, que lleva asociado a cada nodo n una variable aleatoria, con una distribución condicionada p(n|pa(n)) donde pa(n) es el conjunto de nodos padre de n, de manera que la distribución conjunta asociada a la red es

Ejemplo 6

Un ejemplo ya clásico es el debido a la Lauritzen y Spiegelhalter (1988):

La disnea puede deberse a tuberculosis, cáncer de pulmón o bronquitis, a ninguna de ellas, o a más de una de ellas. Una visita reciente a Asia aumenta las probabilidades de tener tuberculosis. Sabemos, además, que fumar es un factor de riesgo tanto para el cáncer de pulmón como para la bronquitis. Los resultados de una única radiografía toráxica no discriminan entre el cáncer de pulmón y la tuberculosis, como tampoco lo hace la presencia o ausencia de la disnea.

La estructura cualitativa del problema viene ilustrada en el grafo, mientras que la distribución asociada al problema es: p(f, a, b, t, o, d, r) = p(f) p(a) p(b|f) p(c|f)p(t|a) p(o|c,t) p(d|b,o) p(r|o).

Tal sistema se emplearían en situaciones como la siguiente. Se presenta un paciente con disnea que ha visitado Asia; el médico desearía saber las probabilidades de presencia de algunas de las enfermedades. Además, podría estar interesado en saber cómo afectaría a tales probabilidades el conocer los resultados de la radiografía o de determinar el historial como fumador del paciente, de cara a planificar la exploración. Una vez realizada esta y absorbida la evidencia, puede preguntarse cuál es la información más importante al formarse tales probabilidades.

La ventaja obvia de esta estructura modular del conocimiento es que reduce enormemente el número de probabilidades a asignar. Así, en el ejemplo anterior, supuesto que cada nodo puede tener dos estados (por ejemplo, en Asia podemos haber visitado o no Asia) en lugar de tener que realizar 255 (= 2 ^8 -1) asignaciones, basta con realizar 18 asignaciones. Más aún, se han construido diversos algoritmos, ver Cowell et al. (1999) para una introducción, que posibilitan, de forma eficiente, el razonamiento probabilístico y estadístico en redes bayesianas.

Percepción como inferencia

Hemos indicado cómo la adopción de las hipótesis de Marr permitieron la introducción de conceptos probabilístico en la inteligencia artificial. Es quizá interesante revisar las aportaciones de estos métodos en el campo de la percepción. De forma muy esquemática, intervienen, esencialmente, cuatro elementos:

  • La representación de las propiedades de la escena s.
  • Un modelo de la estructura de las escenas p(s).
  • Un modelo de formación de la imagen pi(s).
  • Un modelo de ruido n, de manera que la imagen es i = pi(s) + n.

Entonces, el objetivo en el problema de percepción sería calcular la distribución sobre las escenas, dada la imagen formada, que se obtiene a través de la fórmula de Bayes mediante:

p(s|i) = [p(i| s) p(s)] /p(i)

Usualmente se emplea la moda de esta distribución, la moda a posteriori, para resumirla. La aplicabilidad de estas ideas se extiende enormemente con la teoría de patrones (Grenander, 1995). Pastor et al. (1998) proporcionan una descripción detallada del problema del reconocimiento de objetos.

DISCUSIÓN

Durante más de dos milenios, la lógica aristotélica ha dominado el pensamiento occidental, conformándose las teorías y modelos científicos a sus principios. Hemos visto aquí cómo, de forma natural, las probabilidades extienden la lógica permitiéndonos tratar situaciones en las que existe incertidumbre, ayudándonos a modelizar figuras del sentido común empleadas en la vida diaria y en el trabajo habitual del científico.

Hemos puesto énfasis en la axiomática de Cox (1946) pero existen otras que, esencialmente, llevan a las mismas conclusiones, lo cual reasegura su sólida fundamentación. Debemos quizá destacar las axiomáticas relacionadas con la teoría de la decisión, como las de Savage o de Anscombe y Aumann (ver French y Ríos Insua, 2000).

También hemos indicado algunas aplicaciones importantes, especialmente, en el campo de inteligencia artificial, la medicina, la biología, la ciencia, la tecnología o la abogacía. Estos métodos «inductivos estocásticos», como dice Mumford «will transfform pure and applied mathematics in the beginning of the third millenium. Probability and statistics will come to be viewed as the

natural tools to use in mathematical as well as scientific modeling. The intellectual world as a whole will come to view logic as a beautiful elegant idealization but to view statistics as the standard way in which we reason and think».

AGRADECIMIENTOS

Este trabajo ha sido financiado por proyectos de la CAM URJC y CICYT-TIC. Agradecemos los comentarios de Jesús Palomo y Juanmi Marín.

BIBLIOGRAFIA

1. Berger, J. (1985) Statistical Decisión Theory and Bayesian Analysis. Ed.: Springer.

2. Carnap, R. (1950) Logical Foundations of Probability. Ed.: U. Chicago Press.

3. Cowell, R., Dawid, P., Lauritzen, S., Spiegelhalter, D. (1999) Probabilistic Networks and Expert Systems. Ed.: Springer.

4. Cox, R. T. (1946) Probability, frequency and reasonable expectation, American Journal of Physics, 14, 1-13.

5. French, S., Ríos Insua, D. (2000) Statistical Decisión Theory. Ed.: Arnold.

6. Girón, E, Ríos, S. (1980) Quasi-Bayesian behaviour: a more realistic approach to decisión making. En Bernardo, DeGroot, Lindley, Smith (eds.) Bayesian Statistics. Ed.: Valencia University Press, 17-38.

7. Grenander, U. (1995) Elements ofPattern Theory. Ed.: Johns Hopkins.

8. Horvitz, É., Heckerman, D., Langlotz, C. (1986) A framework for comparing alternative formalisms for plausible reasoning, Proc. 5th Nat. Conf. on AI, 210-214.

9. Jaynes, E. T. (1996) Probability Theory: The Logic of Science, http://bayes.wustl.edu/etj/prob.html.

10. Keynes, J. M. (1921) A Treatise on Probability, Ed.: MacMillan.

11. Lauritzen, S., Spiegelhalter, D. (1988) Local computations with probabilities on graphical structures and their application to expert systems (with discussion), /. RoyalStat. Soc. B, 50, 157-224.

12. Marr, D. (1982) Vision. Ed.: Freeman.

13. Mumford, D. (2000). The Dawning of the Age of Stochasticity. A. H. S.

14. Pastor, L, Rodriguez, A., Ríos Insua, D. (1998) Wavelets for object representation and recognition in computer visión, en Muller, Vidakovic (eds.) Bayesian Inference in Wavelet-BasedModels. Ed.: Springer.

15. Pearl,J. (1988) Probabilistic Reasoningin IntelligentSystems. Ed.: Morgan Kauffman.

16. Polya, G. (1954) Patterns of Plausible Inference. Ed.: Princeton Univ. Press.

17. Ríos Insua, D. (1990) Sensitivity Analysis in Multiobjective Decisión Making. Ed.: Springer.

18. Ríos Insua, D., Ruggeri, F. (2000) Robust Bayesian Analysis. Ed.: Springer.

19. Rosen, K. (1994) Discrete Mathematics with Applications. Ed.: McGraw Hill.

20. Wainer, H., Toronts, A., Veasey, L, Stephenson, R. (1961) A mathematical approach to medical diagnosis. An application to congenital heart disease. /. Amer. Medical Association, 177, 177-189.




[1] El propio Polya empleó los patrones que descubrió en sus investigaciones en teoría de números.

[2] Escrito unas semanas antes del evento.