ARBOLES DE DECISIÓN

INTEGRANTES:

Rodrigo Cofre

Pablo Guzmán

Erika Torres

DOCENTE: ERWIN S. FISCHER ANGULO

ACI-710 FUNDAMENTOS DE SISTEMAS INTELIGENTES

29 DE JUNIO DE 2013

CONTENIDO

INTRODUCCIÓN

Toma de decisiones. 3
Decisiones programadas. 3
Decisiones no programadas. 3

ARBOLES DE DECISIÓN

HISTORIA

Aprendizaje por inducción.. 8
Arboles de Decisión.. 8

APRENDIZAJE BASADO EN ÁRBOLES DE DECISIÓN

TIPOS DE ARBOLES

Árbol de clasificación.. 13
Árbol de regresión.. 13
Árbol de mejora. 13
Bosques de árboles de decisión.. 14
Árbol de clasificación y regresión.. 14
Agrupamiento de las K medias. 14
Usos generales del análisis de árboles de decisión.. 14

ALGORITMOS

ID3 (Induction Decision Trees) 17
EJEMPLOS AD.. 19

AMBITOS DE APLICACIÓN

Árboles de juego. 22
Sistemas expertos. 22
Búsqueda binaria. 25
Cómo aplicar árboles de decisión en SPSS. 27

CONCLUSIONES

REFERENCIAS BIBLIOGRÁFICAS

INTRODUCCIÓN

Toma de decisiones

Para tomar una decisión, es necesario conocer, comprender y analizar un problema, para así poder darle solución. En algunos casos, por ser tan simples y cotidianos, este proceso se realiza de forma implícita y se soluciona muy rápidamente, pero existen otros casos en los cuales las consecuencias de una mala o buena elección pueden tener repercusiones en la vida y si es en un contexto laboral en el éxito o fracaso de la organización, para los cuales es necesario realizar un proceso más estructurado que puede dar más seguridad e información para resolver el problema.

Las decisiones se pueden clasificar en:

Decisiones programadas

Las decisiones programadas se usan para abordar problemas recurrentes. Sean complejos o simples

Decisiones no programadas

No estructuradas, son decisiones que se toman ante problemas o situaciones que se presentan con poca frecuencia, o aquellas que necesitan de un modelo o proceso específico de solución.

Según situaciones ambientes se pueden clasificar en:

Ambiente de certeza

Se tiene conocimiento total sobre el problema, las opciones de solución que se planteen van a causar siempre resultados conocidos e invariables. Al tomar la decisión sólo se debe pensar en la opción que genere mayor beneficio.

Ambiente de incertidumbre

Se posee información deficiente para tomar la decisión, no se tiene ningún control sobre la situación, no se conoce como puede variar o la interacción de las variables, se pueden plantear diferentes opciones de solución pero no se puede asignar probabilidad a los resultados. (Por esto, se lo llama "incertidumbre sin probabilidad").

ARBOLES DE DECISIÓN

Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Esto es una gran herramienta para la toma de decisiones.

HISTORIA

Durante años la investigación en aprendizaje automático se ha realizado con distinto grado de intensidad, utilizando diferentes técnicas y haciendo énfasis en distintos aspectos y objetivos. Dentro de la relativamente corta historia de esta disciplina, es posible distinguir tres periodos importantes, cada uno de los cuales está centrado en distintos paradigmas:

Técnicas de modelado neuronal y de decisión
Aprendizaje orientado a conceptos simbólicos
Sistemas de aprendizaje de conocimiento con exploración de varias tareas

La característica distintiva del primer paradigma fue el interés de construir sistemas de aprendizaje de propósito general que partan con poco o ningún conocimiento inicial de la estructura. La investigación se orientó a la construcción de máquinas basadas en modelos neuronales, con una estructura inicial aleatoria. Estos sistemas fueron denominados Redes Neuronales o Sistemas Auto-organizativos. El aprendizaje en estos sistemas consiste en la realización de cambios incrementales en las probabilidades de que elementos del tipo neurona (típicamente unidades lógicas con umbral) puedan transmitir una señal.

Debido a la primitiva tecnología computacional de los primeros años, la mayoría de las investigaciones en esta área eran teóricas tal como perceptores [Rosenblatt, 1958], pandemonium [Selfridge, 1959] and adelaine [Widrow, 1962]. El fundamento de estos trabajos fue hecho en la década de los cuarenta por Rashevsky y sus seguidores del área de biofísica [Rashevsky, 1948], y McCulloch y Pitts [1943], quienes descubrieron la aplicabilidad de la lógica simbólica para el modelado de actividades del sistema nervioso. Sobre una gran actividad de investigación en esta área, es posible mencionar los trabajos de [Ashby, 1960; Rosenblatt, 1958, 1962; Minsky y Papert, 1969; Block, 1961; Yovits, 1962; Widrow, 1962; Culberson, 1963; Kazmierczak, 1963].

Otro tipo de investigación relacionada con el área es la concerniente a la simulación de procesos evolutivos, que a través de operaciones aleatorias de mutación y de “selección” natural pueden crear un sistema capaz de realizar un comportamiento inteligente [Friedberg, 1958, 1959; Holland, 1980].

La experiencia adquirida engendro la nueva disciplina de Reconocimiento de Patrones y condujo al desarrollo sistemas de decisión. El aprendizaje es igualado con la adquisición de funciones lineales, polinomiales, o formas relacionadas con funciones discriminantes a partir de un conjunto de ejemplos de entrenamiento [Nilsson, 1965; Koford, 1966; Uhr, 1966; Highleyman, 1967]. Uno de los sistemas más exitosos y conocidos dentro de esta clase fue el programa de juego de damas de Samuel [Samuel, 1959, 1963]. Este programa estaba capacitado para adquirir por medio de aprendizaje, un mejor nivel de performance. Algo diferente, pero relacionado, son las técnicas que utilizan métodos de decisión estadística para el aprendizaje de reglas de reconocimiento de patrones [Sebestyen, 1962; Fu, 1968; Watanabe, 1960; Arkadev, 1971; Fukananga, 1972; Ruspini, 1969, Duda & Hart, 1973, Bezdek, 1973; Kanal, 1974].

En paralelo se realizaron investigaciones relacionadas con teoría de control capaces de ajustar automáticamente sus parámetros con el objetivo de mantener una performance estable en presencia de perturbaciones [Truzal, 1955; Davies, 1970; Mendel, 1970; Tsypkin, 1968; Fu, 1971, 1974]. Algunos resultados teóricos revelaron fuertes limitaciones, como por ejemplo en el aprendizaje del tipo perceptron simple [Minsky y Papert, 1969].

Un segundo paradigma comenzó a emerger en los sesenta, a partir de los trabajos de psicólogos e investigadores en inteligencia artificial, sobre el modelado del aprendizaje humano [Hunt et al., 1963, 1966]. El paradigma utilizaba estructuras lógicas o de grafos en vez de métodos numéricos o estadísticos. Los sistemas aprendían descripciones simbólicas que representaban un mayor nivel de conocimiento de las estructuras y conceptos adquiridos [Hunt & Hovland, 1963; Feigenbaum, 1963; Hunt et al., 1966; Hilgard, 1966; Simon & Lea, 1974; Bongard, 1970; Uhr, 1966; Karpinsky & Michalski, 1966].

Una influencia importante en esta área de trabajo fue el sistema de aprendizaje estructural de Winston [Winston, 1975], incluyendo los programas de aprendizaje basados en lógica inductiva [Michalski, 1972, 1973, 1978; Hayes-Roth 1974; Hayes-Roth & McDermott 1978; Mitchell, 1978].

El tercer paradigma representa el periodo de investigación más reciente, comenzando a partir de mediado de los setenta. Se ha hecho especial énfasis en el uso de conocimiento orientado a tareas y en las restricciones que este provee, que guían el proceso de aprendizaje. Se trabaja en aprendizaje a partir de instrucciones, por analogía y descubrimiento de conceptos y clasificaciones. En contraste con esfuerzos previos, las nuevas investigaciones tienden a incorporar heurísticas, y utilizar ejemplos de entrenamiento para el aprendizaje de conceptos.

Algunos Algoritmos más utilizados en Aprendizaje Automático

Aprendizaje basado en árboles de decisión
Aprendizaje basado en redes neuronales artificiales
Aprendizaje probabilístico y Bayesiano
Aprendizaje basado en instancias
Aprendizaje evolutivo
Aprendizaje lógico inductivo
Aprendizaje por refuerzo

Aprendizaje por inducción

Los árboles de decisión son uno de los métodos de aprendizaje inductivo más usado.

Arboles de Decisión

Pueden ser leídas como conjunto de reglas, en un árbol de decisión cada nodo del árbol es un atributo de los ejemplos, y cada rama representa un posible valor de ese atributo

El árbol es una excelente ayuda para la elección entre varios cursos de acción. Provee una estructura sumamente efectiva dentro de la cual se puede estimar, cuáles son las opciones e investigar las posibles consecuencias de seleccionar cada una de ellas.

También ayuda a construir una imagen balanceada de los riesgos y recompensas asociados con cada posible curso de acción.

Todos los arboles de decisión requieren las siguientes cuatro componentes:

Alternativas de decisión en cada punto de decisión.
Eventos que pueden ocurrir como resultado de cada alternativa de decisión.
Probabilidad de que ocurran eventos posibles como resultado de las decisiones.
Resultados de las posibles interacciones entre las alternativas de decisión y los eventos. (Casi siempre expresados en términos económicos).

Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión más “acertada”, desde un punto de vista probabilístico, ante un abanico de posibles decisiones. Estos árboles permiten examinar los resultados y determinar visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos específicos y relaciones que tal vez no encontraríamos con estadísticos más tradicionales.

Los árboles de decisión son una técnica estadística para la segmentación, la estratificación, la predicción, la reducción de datos y el filtrado de variables, la identificación de interacciones, la fusión de categorías y la discretización de variables continuas.

Los árboles de decisión son una técnica de minería de datos (Data Mining, DM) prepara, sondea y explora los datos para sacar la información oculta en ellos. Se aborda la solución a problemas de predicción, clasificación y segmentación.

Las técnicas de la minería de datos provienen de la Inteligencia Artificial y de la Estadística. Dichas técnicas no son más que algoritmos, más o menos sofisticados, que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son: redes neuronales, regresión lineal, árboles de decisión, modelos estadísticos, agrupamiento o clustering y reglas de asociación.

La clasificación inicial de las técnicas de minería de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse en dependientes e independientes; técnicas descriptivas, en las que todas las variables tienen el mismo estatus y técnicas auxiliares, en las que se realiza un análisis multidimensional de datos.

En la figura 1 se muestra una clasificación de las técnicas de minería de datos donde hallamos los árboles de decisión (Pérez y Santín, 2008).

APRENDIZAJE BASADO EN ÁRBOLES DE DECISIÓN

Es uno de los métodos ampliamente utilizados para inferencias inductivas, método para la aproximación de funciones de valores discretos, robustos frente a datos con ruido y capaz de aprender expresiones disjuntas. Existe una familia de algoritmos de aprendizaje de árboles de decisión que incluye los ampliamente utilizados: ID3, C4.5, y ASSISTANT. Estos métodos buscan un espacio de hipótesis completamente expresivo y de esta manera evitan las dificultades que surgen de espacios de hipótesis restringidos. Su sesgo inductivo es la preferencia de árboles pequeños por sobre los grandes.

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Dada una base de datos se construyen diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema.

Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan más los valores discretos por simplicidad, cuando se utilizan valores discretos en las funciones de una aplicación se denomina clasificación y cuando se utilizan los continuos se denomina regresión.

Un árbol de decisión lleva a cabo un test a medida que este se recorre hacia las hojas para alcanzar así una decisión.

En el diseño de aplicaciones informáticas, un árbol de decisión indica las acciones a realizar en función del valor de una o varias variables. Es una representación en forma de árbol cuyas ramas se bifurcan en función de los valores tomados por las variables y que terminan en una acción concreta. Se suele utilizar cuando el número de condiciones no es muy grande (en tal caso, es mejor utilizar una tabla de decisión).

TIPOS DE ARBOLES

Una herramienta común que se utiliza en diferentes técnicas de resolución de problemas es el árbol de decisión. Para usar esta herramienta debes trazar un árbol de decisión con diferentes ramas y hojas que apunten a todos los factores que rodean una situación en particular. Dependiendo de la situación y del resultado deseado, existen varios tipos de árboles que puedes usar.

Árbol de clasificación

Usa un árbol de clasificación cuando existan diferentes partes de información que hayas calculado para determinar el resultado más predecible. Con el árbol de decisión por clasificación debes usar un proceso binario de categorías y subcategorías para esquematizar las diferentes variables que rodean a un resultado. Este tipo de árbol puede emplearse en probabilidad y estadística.

Árbol de regresión

Este tipo de árbol de decisión se usa cuando tienes diferentes partes de información para determinar un único resultado predeterminado. Durante el proceso de construir este árbol debes dividir las diferentes partes de información en secciones y luego subdividir en varios subgrupos. Este tipo de árbol es usado principalmente en cálculos de bienes raíces.

Árbol de mejora

Este tipo de árbol de decisión se usa cuando quieres incrementar la precisión del proceso de toma de decisiones. Para esto debes tomar una sola variable y luego calcularla y estructurarla de manera que la cantidad de errores se minimicen tanto como sea posible. Este tipo de árbol se usa principalmente en contabilidad y matemáticas.

Bosques de árboles de decisión

Estos se generan cuando creas diferentes árboles de decisión y luego los agrupas entre sí para hacer una determinación precisa de lo que pasará con un resultado en particular. A menudo los bosques de árboles de decisión se usarán para evaluar el resultado global de un evento en particular con base a la dirección que estén tomando los diferentes árboles de decisión.

Árbol de clasificación y regresión

Este tipo de árbol de decisión es usado para predecir el resultado de un evento usando factores dependientes para hacer la asunción más lógica. Para lograrlo puedes usar indicadores atrasados (lo que ha pasado) e indicadores en tiempo real o categorías claras y específicas para examinar el resultado esperado. Esto se usa principalmente en ciencia.

Agrupamiento de las K medias

Éste es considerado como el menos preciso de los árboles de decisión. Cuando usas este árbol de decisión debes combinar todos los factores diferentes que has identificado previamente en los que se presume que todos los grupos son iguales. Esta asunción puede ocasionar que algunos de los resultados esperados sean ampliamente diferentes. Este árbol se usa principalmente en el estudio de la genética.

Usos generales del análisis de árboles de decisión

Los árboles de decisión crean un modelo de clasificación basado en diagramas de flujo. Clasifican casos en grupos o pronostican valores de una variable dependiente (criterio) basada en valores de variables independientes (predictoras).

El desarrollo de árboles de decisión ha beneficiado a analista en dos formas, la necesidad de describir condiciones y acciones llevan a los analistas a identificar de manera formal las decisiones que actualmente deben tomarse. De esta forma, es difícil para ellos pasar por alto cualquier etapa del proceso de decisión, sin importar que este dependa de variables cuantitativas o cualitativas. Los árboles también obligan a los analistas a considerar la consecuencia de las decisiones.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario describir problemas con más de una dimensión o condición. También son útiles para identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir, los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos utilizados en el proceso de decisión, aunque el árbol de decisión no muestra todo los datos.

Si los árboles de decisión se construyen después de completar el análisis de flujo de datos, entonces es posible que los datos críticos se encuentren definidos en el diccionario de datos (el cual describe los datos utilizados por el sistema y donde se emplean). Si únicamente se usan árboles de decisiones, entonces el analista debe tener la certeza de identificar con precisión cada dato necesario para tomar la decisión.

Los árboles de decisión no siempre son la mejor herramienta para el análisis de decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias de pasos y combinaciones de condiciones puede tener un tamaño considerable. El gran número de ramas que pertenecen a varias trayectorias constituye más un problema que una ayuda para el análisis. En estos casos los analistas corren el riesgo de no determinar qué políticas o estrategias de la empresa son la guía para la toma de decisiones específicas. Cuando aparecen estos problemas, entonces es momento de considerar las tablas de decisión.

Ejemplo:

La terminología asociada a la técnica de los árboles de decisión

Nodo de decisión: una decisión necesita tomarse en ese punto del proceso.
Nodo de probabilidad: En ese punto ocurre un evento aleatorio. Probabilidades de que ocurran los eventos posibles como resultado de las decisiones.
Nodo terminal: Todos los casos tienen el mismo valor para la variable dependiente. Es un nodo homogéneo que no requiere ninguna división adicional, ya que es “puro”.
Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisión

ALGORITMOS

ID3 (Induction Decision Trees)

Desarrollado por J. Ross Quinlan en 1983. Pertenece a la familia TDIDT (Top - Down Induction of Decision Trees)

El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su uso se engloba en la búsqueda de hipótesis o reglas en él, dado un conjunto de ejemplos.

El conjunto de ejemplos deberá estar conformado por una serie de tuplas de valores, cada uno de ellos denominados atributos, en el que uno de ellos, (el atributo a clasificar) es el objetivo, el cual es de tipo binario (positivo o negativo, sí o no, válido o inválido, etc.).

De esta forma el algoritmo trata de obtener las hipótesis que clasifiquen ante nuevas instancias, si dicho ejemplo va a ser positivo o negativo.

Id3 (Ejemplos, Atributo-objetivo, Atributos)

Si todos los ejemplos son positivos devolver un nodo positivo

Si todos los ejemplos son negativos devolver un nodo negativo

Si Atributos está vacío devolver el voto mayoritario del valor del atributo objetivo en Ejemplos

En otro caso

Sea A Atributo el MEJOR de atributos

Para cada v valor del atributo hacer

Sea Ejemplos (v) el subconjunto de ejemplos cuyo valor de atributo A es v

Si Ejemplos (v) está vacío devolver un nodo con el voto mayoritario del

Atributo objetivo de Ejemplos

Sino Devolver Id3 (Ejemplos (v), Atributo-objetivo, Atributos/ {A})

ID3 realiza esta labor mediante la construcción de un árbol de decisión.

Los elementos son:

Nodos: Los cuales contendrán atributos.
Arcos: Los cuales contienen valores posibles del nodo padre.
Hojas: Nodos que clasifican el ejemplo como positivo o negativo.

Obsérvese que la construcción del árbol se hace forma recursiva, siendo las tres primeras líneas y la penúltima los casos base que construyen los nodos hojas.

Elección del mejor atributo

La elección del mejor atributo se establece mediante la entropía. Eligiendo aquel que proporcione una mejor ganancia de información. La función elegida puede variar, pero en su forma más sencilla es como esta:

La función de entropía más usada es la binaria. Su expresión es con logaritmos base 2:

Donde p es el conjunto de los ejemplos positivos, n el de los negativos. Se debe establecer si el logaritmo es positivo o negativo.

Entropía: Es la medida de la incertidumbre que hay en un sistema. Es decir, ante una determinada situación, la probabilidad de que ocurra cada uno de los posibles resultados.

Ganancia:

Es la diferencia entre la entropía de un nodo y la de uno de sus descendientes.

En el fondo no es más que una heurística, que como veremos nos servirá para la elección del mejor atributo en cada nodo.

Ganancia(A) = I(p,n) - E(A)

Donde p es el conjunto de los ejemplos positivos, n el de los negativos y del total de ellos. Se debe establecer si el logaritmo es positivo o negativo.

· EJEMPLOS AD

Ej.	Cielo	Temperatura	Humedad	Viento	Jugar tenis
D1	Sol	Alta	Alta	Débil	-
D2	Sol	Alta	Alta	Fuerte	-
D3	Nubes	Alta	Alta	Débil	+
D4	Lluvia	Suave	Alta	Débil	+
D5	Lluvia	Baja	Normal	Débil	+
D6	Lluvia	Baja	Normal	Fuerte	-
D7	Nubes	Baja	Normal	Fuerte	+
D8	Sol	Suave	Alta	Débil	-
D9	Sol	Baja	Normal	Débil	+
D10	Lluvia	Suave	Normal	Débil	+
D11	Sol	Suave	Normal	Fuerte	+
D12	Nubes	Suave	Alta	Fuerte	+
D13	Nubes	Alta	Normal	Débil	+
D14	Lluvia	Suave	Alta	Fuerte	-

En ese caso el árbol finalmente obtenido seria así:

Mejoras de ID3:

Manejo de atributos con valores continuos.
Manejo de valores desconocidos en algunos de los Atributos.
El coste de conocer el valor de un atributo no es cte.
Manejo de atributos de gran número de valores.

La solución a muchas de estas cuestiones la incorpora el algoritmo C4.5 que constituye una extensión del algoritmo ID3.

ÁMBITOS DE APLICACIÓN

Los árboles de decisión se utilizan en cualquier proceso que implique toma de decisiones, ejemplos de estos procesos son:

Árboles de juego

Tipo de árbol de juego es un grafo dirigido en que cada nodo representa una posible elección para uno de los jugadores. Cualquier sucesión de jugadas puede representarse por un camino conexo dentro del árbol de juego. Si el juego acaba siempre después de un número finito de pasos, entonces el árbol tiene un número finito de nodos.

Gráfica de un árbol de juego.

Sistemas expertos

Un sistema experto es un conjunto de programas que, sobre una base de conocimientos, posee información de uno o más expertos en un área específica. Se puede entender como una rama de la inteligencia artificial, donde el poder de resolución de un problema en un programa de computadora viene del conocimiento de un dominio específico. Estos sistemas imitan las actividades de un humano para resolver problemas de distinta índole (no necesariamente tiene que ser de inteligencia artificial). También se dice que un Sistema Experto se basa en el conocimiento declarativo (hechos sobre objetos, situaciones) y el conocimiento de control (información sobre el seguimiento de una acción).

Los árboles de decisión se usan en los sistemas expertos porque son más precisos que el hombre para poder desarrollar un diagnostico con respecto a algo, ya que el hombre puede dejar pasar sin querer un detalle, en cambio la maquina mediante un sistema experto con un árbol de decisión puede dar un resultado exacto.

Los sistemas expertos son llamados así porque emulan el razonamiento de un experto en un dominio concreto y en ocasiones son usados por éstos. Con los sistemas expertos se busca una mejor calidad y rapidez en las respuestas dando así lugar a una mejora de la productividad del experto.

Para que un sistema experto sea herramienta efectiva, los usuarios deben interactuar de una forma fácil, reuniendo dos capacidades para poder cumplirlo:

1. Explicar sus razonamientos o base del conocimiento: los sistemas expertos se deben realizar siguiendo ciertas reglas o pasos comprensibles de manera que se pueda generar la explicación para cada una de estas reglas, que a la vez se basan en hechos.

2. Adquisición de nuevos conocimientos o integrador del sistema: son mecanismos de razonamiento que sirven para modificar los conocimientos anteriores. Sobre la base de lo anterior se puede decir que los sistemas expertos son el producto de investigaciones en el campo de la inteligencia artificial ya que ésta no intenta sustituir a los expertos humanos, sino que se desea ayudarlos a realizar con más rapidez y eficacia todas las tareas que realiza.

Debido a esto en la actualidad se están mezclando diferentes técnicas o aplicaciones aprovechando las ventajas que cada una de estas ofrece para poder tener empresas más seguras. Un ejemplo de estas técnicas sería los agentes que tienen la capacidad de negociar y navegar a través de recursos en línea; y es por eso que en la actualidad juega un papel preponderante en los sistemas expertos.

Estructura básica de un SE está conformado por:

Base de conocimientos (BC): Contiene conocimiento modelado extraído del diálogo con un experto.
Base de hechos (Memoria de trabajo): contiene los hechos sobre un problema que se ha descubierto durante el análisis.
Motor de inferencia: Modela el proceso de razonamiento humano.
Módulos de justificación: Explica el razonamiento utilizado por el sistema para llegar a una determinada conclusión.
Interfaz de usuario: es la interacción entre el SE y el usuario, y se realiza mediante el lenguaje natural.

Tipos de SE principalmente existen tres tipos de sistemas expertos:

Basados en reglas previamente establecidas.
Basados en casos o CBR (Case Based Reasoning).
Basados en redes bayesianas.

En cada uno de ellos, la solución a un problema planteado se obtiene:

Aplicando reglas heurísticas apoyadas generalmente en lógica difusa para su evaluación y aplicación.
Aplicando el razonamiento basado en casos, donde la solución a un problema similar planteado con anterioridad se adapta al nuevo problema.
Aplicando redes bayesianas, basadas en estadística y el teorema de Bayes.

Ejemplos importantes:

Dendral XCon

Dipmeter Advisor Mycin

CADUCEUS R1

CLIPS, Jess Prolog

· Búsqueda binaria

Método en el cual la búsqueda se realiza partiendo al árbol en dos partes. Un árbol binario de búsqueda (ABB) es un árbol binario definido de la siguiente forma:

Un árbol binario no vacío, de raíz R, es un árbol binario de búsqueda si:

En caso de tener subárbol izquierdo, la raíz R debe ser mayor que el valor máximo almacenado en el subárbol izquierdo, y que el subárbol izquierdo sea un árbol binario de búsqueda.

En caso de tener subárbol derecho, la raíz R debe ser menor que el valor mínimo almacenado en el subárbol derecho, y que el subárbol derecho sea un árbol binario de búsqueda.

Un árbol binario de búsqueda de tamaño 9 y profundidad 3, con raíz 8 y hojas 1, 4, 7 y 13

Para una fácil comprensión queda resumido en que es un árbol binario que cumple que el subárbol izquierdo de cualquier nodo (si no está vacío) contiene valores menores que el que contiene dicho nodo, y el subárbol derecho (si no está vacío) contiene valores mayores.

Para estas definiciones se considera que hay una relación de orden establecida entre los elementos de los nodos. Que cierta relación esté definida, o no, depende de cada lenguaje de programación. De aquí se deduce que puede haber distintos árboles binarios de búsqueda para un mismo conjunto de elementos.

La altura h en el peor de los casos siempre el mismo tamaño que el número de elementos disponibles. Y en el mejor de los casos viene dada por la expresión:

Donde ceil indica redondeo por exceso.

El interés de los árboles binarios de búsqueda (ABB) radica en que su recorrido en in orden proporciona los elementos ordenados de forma ascendente y en que la búsqueda de algún elemento suele ser muy eficiente.

Dependiendo de las necesidades del usuario que trate con una estructura de este tipo, se podrá permitir la igualdad estricta en alguno, en ninguno o en ambos de los subárboles que penden de la raíz. Permitir el uso de la igualdad provoca la aparición de valores dobles y hace la búsqueda más compleja.

Un árbol binario de búsqueda no deja de ser un caso particular de árbol binario para que un árbol binario pertenezca al tipo árbol binario de búsqueda debe cumplir la condición.

Todas las operaciones realizadas sobre árboles binarios de búsqueda están basadas en la comparación de los elementos o clave de los mismos

Búsqueda
Inserción
Borrado
Recorridos (profundidad o anchura)

· Cómo aplicar árboles de decisión en SPSS.

La función árboles de decisión (Tree) en SPSS crea árboles de clasificación y de decisión para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros existen cuatro métodos de división para los árboles cuyas características son:

• CHAID (Chi-square automatic interaction detector): algoritmo de árbol estadístico y multidireccional que explora datos de forma rápida y eficaz, y crea segmentos y perfiles con respecto al resultado deseado.

• CHAID exhaustivo: Supone una modificación de CHAID que examina todas las divisiones posibles para cada predictor y trata todas las variables por igual, independientemente del tipo y el número de categorías.

• Árboles de clasificación y regresión (CRT-Classification and regression trees): Un algoritmo de árbol binario completo que hace particiones de los datos y genera subconjuntos precisos y homogéneos. CRT divide los datos en segmentos para que sean lo más homogéneos posible respecto a la variable dependiente.

• QUEST (Quick, unbiased, efficient, statistical tree): algoritmo estadístico que selecciona variables sin sesgo y crea árboles binarios precisos de forma rápida y eficaz. Con cuatro algoritmos tenemos la posibilidad de probar métodos diferentes de crecimiento de los árboles y encontrar el que mejor se adapte a nuestros datos.

El paquete estadístico de SPSS permite las siguientes posibilidades en relación con la técnica de los árboles de decisión:

Identificar grupos, segmentos y patrones de forma altamente visual.
Presentar resultados de forma intuitiva, facilita la interpretación para públicos sin demasiados conocimientos de estadística.
Guardar información de los árboles como nuevas variables en los datos.

El aprendizaje mediante AD constituye uno de los métodos inductivos más empleados en aplicaciones reales.

Ejemplos:

• GASOIL(1986): Diseño de sistemas de separación gas-petróleo en plataformas petrolíferas marinas de BP. Más de 2.500 reglas, 100 días/persona (10 años/persona). Ahorró a BP millones de dólares.

• BMT (1990): Configuración de equipo de protección de incendios en edificios. Más de 30.000 reglas.

• Aprendiendo a volar (1992): En lugar de construir un modelo de la dinámica del sistema (muy complejo), se aprendió un mapeo entre el estado actual y la decisión de control correcta para volar un Cessna en un simulador de vuelo. Resultados: aprendió a volar e incluso mejoraba algunas decisiones de sus “maestros”.

CONCLUSIONES

Resume los ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que sirvieron para su construcción.

Facilita la interpretación de la decisión adoptada y proporciona un alto grado de comprensión del conocimiento utilizado en la toma de decisiones.

Explica el comportamiento respecto a una determinada tarea de decisión, reduce el número de variables independientes. Es una magnifica herramienta para el control de la gestión empresarial.

Ventajas:

La regla de asignación son simples y legibles, por tanto la interpretación de resultados es directa e intuitiva.
Es valida sea cual fuera la naturaleza de las variables explicativas: continuas, binarias nominales u ordinales.
Es una técnica no paramétrica que tiene en cuenta las interacciones que pueden existir entre los datos.
Es computacionalmente rápido.
Plantea muy claramente el problema para que todas las opciones sean analizadas.
Permiten analizar totalmente las posibles consecuencias de tomar una decisión.
Provee un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda.
Nos ayuda a realizar las mejores decisiones sobre la base de la información existente y de las mejores suposiciones.
Facilita la interpretación de la decisión adoptada.
Facilita la comprensión del conocimiento utilizado en la toma de decisiones.
Explica el comportamiento respecto a una determinada decisión.
Reduce el número de variables independientes.

Desventajas:

Las reglas de asignación son bastantes sensibles a pequeñas perturbaciones en los datos
Dificultad para elegir el árbol óptimo.
Ausencia de una función global de las variables y como consecuencia perdida de la representación.
Los arboles de decisión requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos es significativa.

REFERENCIAS BIBLIOGRÁFICAS

http://www.slideshare.net/decisiones/7-arbol-de-dec-g
http://www.nebrija.es/~cmalagon/inco/apuntes_mios/arboles_de_decision.pdf
http://users.dsic.upv.es/asignaturas/facultad/apr/decision.pdf
http://www.utm.mx/~jahdezp/archivos%20estructuras/DESICION.pdf
http://www.slideshare.net/FernandoCaparrini/arboles-decision-id3
http://www.uhu.es/470004009/docs/Tema_3.pdf
http://www.nebrija.es/~cmalagon/inco/apuntes_mios/arboles_de_decision.pdf
http://www.lsi.upc.edu/~bejar/ia/transpas/teoria/6-AP-aprendizaje.pdf
http://www.plg.inf.uc3m.es/~ias/transpas/aa.pdf
http://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n
http://www.ehowenespanol.com/tipos-arboles-decision-sobre_97878/
Heger, Dominique A. (2004), «A Disquisition on The Performance Behavior of Binary Search Tree Data Structures», European Journal for the Informatics Professional 5 (5)
Berlanga Silvente, V., Rubio Hurtado, M. J., Vilà Baños, R. (2013). Cómo aplicar árboles de decisión en SPSS. [En línea]
REIRE, Revista d’Innovació i Recerca en Educació, 6 (1), 65-79. Accesible en: http://www.ub.edu/ice/reire.htm
Hernández, J.; Ramírez, M.J. y Ferri, C. (2004). Introducción a la minería de datos. Madrid: Pearson educación.
Lind, D.A; Marchal, W.G. y Wathen, S.A. (2012). Estadística aplicada a los negocios y la economía. México D.F.: MCGraw Hill.
Pérez, C. (2011). Técnicas de segmentación. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial.
Pérez, C. (2004). Técnicas de análisis multivariante de datos. Aplicaciones con SPSS. Madrid: Pearson educación.
Pérez, C. y Santín, D. (2007). Minería de Datos: Técnicas y Herramientas. Madrid: Ediciones Paraninfo, S.A.
Vilà, R. (2012). Arboles de decisión SPSS. octubre de 2012, en Depósito digital de la UB: http://hdl.handle.net/2445/22282.

Enlaces
Informe: https://docs.google.com/file/d/0B-JbFQ35ASr-QXlSV1czOElWZFU/edit?usp=sharing
Presentación: https://docs.google.com/file/d/0B-JbFQ35ASr-YTVtQlhSVC1uU0E/edit?usp=sharing

aci710-2013

sábado, 29 de junio de 2013

Arboles de Decisión

INTRODUCCIÓN

ARBOLES DE DECISIÓN

HISTORIA

APRENDIZAJE BASADO EN ÁRBOLES DE DECISIÓN

TIPOS DE ARBOLES

ALGORITMOS

ÁMBITOS DE APLICACIÓN

CONCLUSIONES

REFERENCIAS BIBLIOGRÁFICAS