ARBOLES DE DECISIÓN
INTEGRANTES:
Rodrigo Cofre
Pablo Guzmán
Erika Torres
DOCENTE: ERWIN S. FISCHER ANGULO
ACI-710 FUNDAMENTOS DE SISTEMAS INTELIGENTES
29 DE JUNIO DE 2013
CONTENIDO
INTRODUCCIÓN
- Toma de decisiones
- Decisiones programadas
- Decisiones no programadas
ARBOLES DE DECISIÓN
HISTORIA
- Aprendizaje por inducción
- Arboles de Decisión
APRENDIZAJE BASADO EN
ÁRBOLES DE DECISIÓN
TIPOS DE ARBOLES
- Árbol de clasificación
- Árbol de regresión
- Árbol de mejora
- Bosques de árboles de decisión
- Árbol de clasificación y regresión
- Agrupamiento de las K medias
- Usos generales del análisis de árboles de decisión
ALGORITMOS
- ID3 (Induction Decision Trees)
- EJEMPLOS AD
AMBITOS DE APLICACIÓN
- Árboles de juego
- Sistemas expertos
- Búsqueda binaria
- Cómo aplicar árboles de decisión en SPSS.
CONCLUSIONES
REFERENCIAS
BIBLIOGRÁFICAS
INTRODUCCIÓN
- Toma de decisiones
Para tomar una decisión, es
necesario conocer, comprender y analizar un problema, para así poder darle
solución. En algunos casos, por ser tan simples y cotidianos, este proceso se
realiza de forma implícita y se soluciona muy rápidamente, pero existen otros
casos en los cuales las consecuencias de una mala o buena elección pueden tener
repercusiones en la vida y si es en un contexto laboral en el éxito o fracaso
de la organización, para los cuales es necesario realizar un proceso más
estructurado que puede dar más seguridad e información para resolver el
problema.
Las decisiones se pueden
clasificar en:
- Decisiones programadas
Las decisiones programadas
se usan para abordar problemas recurrentes. Sean complejos o simples
- Decisiones no programadas
No estructuradas, son
decisiones que se toman ante problemas o situaciones que se presentan con poca
frecuencia, o aquellas que necesitan de un modelo o proceso específico de
solución.
Según situaciones ambientes se pueden clasificar en:
- Ambiente de certeza
Se tiene conocimiento total sobre el problema, las opciones de solución
que se planteen van a causar siempre resultados conocidos e invariables. Al
tomar la decisión sólo se debe pensar en la opción que genere mayor beneficio.
- Ambiente de incertidumbre
Se posee información deficiente para tomar la decisión, no se tiene
ningún control sobre la situación, no se conoce como puede variar o la
interacción de las variables, se pueden plantear diferentes opciones de
solución pero no se puede asignar probabilidad a los resultados. (Por esto, se
lo llama "incertidumbre sin probabilidad").
ARBOLES DE DECISIÓN
Un árbol de decisión es una
forma gráfica y analítica de representar todos los eventos (sucesos) que pueden
surgir a partir de una decisión asumida en cierto momento. Esto es una gran
herramienta para la toma de decisiones.
HISTORIA
Durante años la investigación en
aprendizaje automático se ha realizado con distinto grado de intensidad,
utilizando diferentes técnicas y haciendo énfasis en distintos aspectos y objetivos. Dentro de la
relativamente corta historia de esta disciplina, es posible distinguir tres
periodos importantes, cada uno de los cuales está centrado en distintos
paradigmas:
- Técnicas de modelado neuronal y de decisión
- Aprendizaje orientado a conceptos simbólicos
- Sistemas de aprendizaje de conocimiento con exploración de varias tareas
La característica distintiva del primer
paradigma fue el interés de construir sistemas de aprendizaje de propósito
general que partan con poco o ningún conocimiento inicial de la estructura. La
investigación se orientó a la construcción de máquinas basadas en modelos neuronales, con una estructura inicial
aleatoria. Estos sistemas fueron denominados Redes Neuronales o Sistemas
Auto-organizativos. El aprendizaje en estos sistemas consiste en la realización
de cambios incrementales en las probabilidades de que elementos del tipo
neurona (típicamente unidades lógicas con umbral) puedan transmitir una
señal.
Debido a la primitiva tecnología
computacional de los primeros años, la mayoría de las investigaciones en esta
área eran teóricas tal como perceptores [Rosenblatt, 1958], pandemonium [Selfridge, 1959] and adelaine
[Widrow, 1962]. El fundamento de estos trabajos fue hecho en la década de los
cuarenta por Rashevsky y sus seguidores del área de biofísica [Rashevsky, 1948],
y McCulloch y Pitts [1943], quienes descubrieron la aplicabilidad de la lógica
simbólica para el modelado de actividades del sistema nervioso. Sobre una gran
actividad de investigación en esta área, es posible mencionar los trabajos de
[Ashby, 1960; Rosenblatt, 1958, 1962; Minsky y Papert, 1969; Block, 1961; Yovits, 1962; Widrow, 1962; Culberson, 1963;
Kazmierczak, 1963].
Otro tipo de investigación relacionada con
el área es la concerniente a la simulación de procesos evolutivos, que a través
de operaciones aleatorias de mutación
y de “selección” natural pueden
crear un sistema capaz de realizar un comportamiento inteligente [Friedberg,
1958, 1959; Holland, 1980].
La experiencia adquirida engendro la nueva
disciplina de Reconocimiento de Patrones y condujo al desarrollo sistemas de
decisión. El aprendizaje es igualado con
la adquisición de funciones lineales, polinomiales, o formas relacionadas con
funciones discriminantes a partir de un conjunto de ejemplos de entrenamiento
[Nilsson, 1965; Koford, 1966; Uhr, 1966; Highleyman, 1967]. Uno de los sistemas
más exitosos y conocidos dentro de esta clase fue el programa de juego de damas
de Samuel [Samuel, 1959, 1963]. Este
programa estaba capacitado para adquirir por medio de aprendizaje, un mejor nivel
de performance. Algo diferente, pero relacionado, son las técnicas que utilizan métodos de
decisión estadística para el aprendizaje de reglas de reconocimiento de
patrones [Sebestyen, 1962; Fu, 1968; Watanabe, 1960; Arkadev, 1971; Fukananga,
1972; Ruspini, 1969, Duda & Hart, 1973, Bezdek, 1973; Kanal, 1974].
En paralelo se realizaron investigaciones
relacionadas con teoría de control capaces de ajustar automáticamente sus
parámetros con el objetivo de mantener una performance estable en presencia de
perturbaciones [Truzal, 1955; Davies, 1970; Mendel, 1970; Tsypkin, 1968; Fu,
1971, 1974]. Algunos resultados teóricos
revelaron fuertes limitaciones, como por ejemplo en el aprendizaje del tipo
perceptron simple [Minsky y Papert, 1969].
Un segundo paradigma comenzó a emerger en
los sesenta, a partir de los trabajos de psicólogos e investigadores en
inteligencia artificial, sobre el modelado del aprendizaje humano [Hunt et al.,
1963, 1966]. El paradigma utilizaba estructuras lógicas o de grafos en vez de
métodos numéricos o estadísticos. Los sistemas aprendían descripciones
simbólicas que representaban un mayor nivel de conocimiento de las estructuras
y conceptos adquiridos [Hunt & Hovland, 1963; Feigenbaum, 1963; Hunt et
al., 1966; Hilgard, 1966; Simon & Lea, 1974; Bongard, 1970; Uhr, 1966;
Karpinsky & Michalski, 1966].
Una influencia importante en esta área de
trabajo fue el sistema de aprendizaje estructural de Winston [Winston, 1975],
incluyendo los programas de aprendizaje basados en lógica inductiva [Michalski,
1972, 1973, 1978; Hayes-Roth 1974; Hayes-Roth & McDermott 1978; Mitchell,
1978].
El tercer paradigma representa el periodo
de investigación más reciente, comenzando a partir de mediado de los
setenta. Se ha hecho especial énfasis en
el uso de conocimiento orientado a tareas y en las restricciones que este
provee, que guían el proceso de aprendizaje. Se trabaja en aprendizaje a partir
de instrucciones, por analogía y descubrimiento de conceptos y clasificaciones.
En contraste con esfuerzos previos, las nuevas investigaciones tienden a
incorporar heurísticas, y utilizar ejemplos de entrenamiento para el
aprendizaje de conceptos.
Algunos Algoritmos más utilizados en
Aprendizaje Automático
- Aprendizaje basado en árboles de decisión
- Aprendizaje basado en redes neuronales artificiales
- Aprendizaje probabilístico y Bayesiano
- Aprendizaje basado en instancias
- Aprendizaje evolutivo
- Aprendizaje lógico inductivo
- Aprendizaje por refuerzo
- Aprendizaje por inducción
Los árboles de decisión son uno de los
métodos de aprendizaje inductivo más usado.
- Arboles de Decisión
Pueden ser leídas como conjunto de reglas, en un
árbol de decisión cada nodo del
árbol es un atributo de los ejemplos, y cada rama representa un posible valor
de ese atributo
También
ayuda a construir una imagen balanceada de los riesgos y recompensas asociados
con cada posible curso de acción.
Todos
los arboles de decisión requieren las siguientes cuatro componentes:
- Alternativas de decisión en cada punto de decisión.
- Eventos que pueden ocurrir como resultado de cada alternativa de decisión.
- Probabilidad de que ocurran eventos posibles como resultado de las decisiones.
- Resultados de las posibles interacciones entre las alternativas de decisión y los eventos. (Casi siempre expresados en términos económicos).
Un árbol de decisión es una forma gráfica y analítica
de representar todos los eventos (sucesos) que pueden surgir a partir de una
decisión asumida en cierto momento. Nos ayudan a tomar la decisión más
“acertada”, desde un punto de vista probabilístico, ante un abanico de posibles
decisiones. Estos árboles permiten examinar los resultados y determinar
visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar
subgrupos específicos y relaciones que tal vez no encontraríamos con
estadísticos más tradicionales.
Los árboles de decisión son una técnica estadística
para la segmentación, la estratificación, la predicción, la reducción de datos
y el filtrado de variables, la identificación de interacciones, la fusión de
categorías y la discretización de variables continuas.
Los árboles de decisión son una técnica de minería de
datos (Data Mining, DM) prepara, sondea y explora los datos para sacar la
información oculta en ellos. Se aborda la solución a problemas de predicción,
clasificación y segmentación.
Las técnicas de la minería de datos provienen de la
Inteligencia Artificial y de la Estadística. Dichas técnicas no son más que
algoritmos, más o menos sofisticados, que se aplican sobre un conjunto de datos
para obtener unos resultados. Las técnicas más representativas son: redes
neuronales, regresión lineal, árboles de decisión, modelos estadísticos,
agrupamiento o clustering y reglas de asociación.
La clasificación inicial de las técnicas de minería de
datos distingue entre técnicas predictivas, en las que las variables pueden
clasificarse en dependientes e independientes; técnicas descriptivas, en las
que todas las variables tienen el mismo estatus y técnicas auxiliares, en las
que se realiza un análisis multidimensional de datos.
En la figura 1 se muestra una clasificación de las
técnicas de minería de datos donde hallamos los árboles de decisión (Pérez y
Santín, 2008).
APRENDIZAJE BASADO EN ÁRBOLES DE DECISIÓN
Es uno de los métodos ampliamente utilizados para
inferencias inductivas, método para la
aproximación de funciones de valores discretos, robustos frente a datos con
ruido y capaz de aprender expresiones disjuntas. Existe una familia de algoritmos de aprendizaje
de árboles de decisión que incluye los ampliamente utilizados: ID3, C4.5, y
ASSISTANT. Estos métodos buscan un espacio de hipótesis completamente expresivo
y de esta manera evitan las dificultades que surgen de espacios de hipótesis
restringidos. Su sesgo inductivo es la preferencia de árboles pequeños por sobre
los grandes.
Un árbol de decisión es un modelo de predicción utilizado en el
ámbito de la inteligencia artificial. Dada una base de datos se construyen diagramas de construcciones lógicas, muy similares a
los sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que ocurren de forma sucesiva, para la
resolución de un problema.
Un árbol de decisión tiene
unas entradas las cuales pueden ser un objeto o una situación descrita por
medio de un conjunto de atributos y a partir de esto devuelve una respuesta la
cual en últimas es una decisión que es tomada a partir de las entradas. Los
valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos. Se utilizan más los valores discretos por simplicidad, cuando se
utilizan valores discretos en las funciones de una aplicación se denomina
clasificación y cuando se utilizan los continuos se denomina regresión.
Un árbol de decisión lleva a
cabo un test a medida que este se recorre hacia las hojas para alcanzar así una
decisión.
En el diseño de
aplicaciones informáticas, un árbol de decisión indica las acciones a realizar
en función del valor de una o varias variables. Es una representación en forma
de árbol cuyas ramas se bifurcan en función de los valores tomados por las
variables y que terminan en una acción concreta. Se suele utilizar cuando el
número de condiciones no es muy grande (en tal caso, es mejor utilizar una tabla
de decisión).
TIPOS DE ARBOLES
Una herramienta común
que se utiliza en diferentes técnicas de resolución de problemas es el árbol de
decisión. Para usar esta herramienta debes trazar un árbol de decisión con
diferentes ramas y hojas que apunten a todos los factores que rodean una
situación en particular. Dependiendo de la situación y del
resultado deseado, existen varios tipos de árboles que puedes usar.
- Árbol de clasificación
Usa un árbol de
clasificación cuando existan diferentes partes de información que hayas
calculado para determinar el resultado más predecible. Con el árbol de
decisión por clasificación debes usar un proceso binario de categorías y
subcategorías para esquematizar las diferentes variables que rodean a
un resultado. Este tipo de árbol puede emplearse en probabilidad y
estadística.
- Árbol de regresión
Este tipo de árbol de
decisión se usa cuando tienes diferentes partes de información para determinar
un único resultado predeterminado. Durante el proceso de
construir este árbol debes dividir las diferentes partes de información en
secciones y luego subdividir en varios subgrupos. Este tipo de árbol es usado
principalmente en cálculos de bienes raíces.
- Árbol de mejora
Este tipo de árbol de
decisión se usa cuando quieres incrementar la precisión del proceso de toma de
decisiones. Para esto debes tomar una sola variable y luego calcularla y
estructurarla de manera que la cantidad de errores se minimicen tanto como sea
posible. Este tipo de árbol se usa principalmente en contabilidad y
matemáticas.
- Bosques de árboles de decisión
Estos se generan cuando
creas diferentes árboles de decisión y luego los agrupas entre sí para hacer
una determinación precisa de lo que pasará con un resultado en
particular. A menudo los bosques de árboles de decisión se usarán para evaluar
el resultado global de un evento en particular con base a la
dirección que estén tomando los diferentes árboles de decisión.
- Árbol de clasificación y regresión
Este tipo de árbol de
decisión es usado para predecir el resultado de un evento usando
factores dependientes para hacer la asunción más lógica. Para lograrlo puedes
usar indicadores atrasados (lo que ha pasado) e indicadores en tiempo real o
categorías claras y específicas para examinar el resultado esperado.
Esto se usa principalmente en ciencia.
- Agrupamiento de las K medias
Éste es considerado como el
menos preciso de los árboles de decisión. Cuando usas este árbol de decisión
debes combinar todos los factores diferentes que has identificado previamente en
los que se presume que todos los grupos son iguales. Esta asunción puede
ocasionar que algunos de los resultados esperados sean ampliamente diferentes.
Este árbol se usa principalmente en el estudio de la genética.
- Usos generales del análisis de árboles de decisión
Los árboles de decisión crean un modelo de
clasificación basado en diagramas de flujo. Clasifican casos en grupos o
pronostican valores de una variable dependiente (criterio) basada en valores de
variables independientes (predictoras).
El desarrollo de árboles de decisión ha
beneficiado a analista en dos formas, la necesidad de describir condiciones y
acciones llevan a los analistas a identificar de manera formal las decisiones
que actualmente deben tomarse. De esta forma, es difícil para ellos pasar por
alto cualquier etapa del proceso de decisión, sin importar que este dependa de
variables cuantitativas o cualitativas. Los árboles también obligan a los
analistas a considerar la consecuencia de las decisiones.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario describir problemas con más de una dimensión o condición. También son útiles para identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir, los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos utilizados en el proceso de decisión, aunque el árbol de decisión no muestra todo los datos.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario describir problemas con más de una dimensión o condición. También son útiles para identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir, los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos utilizados en el proceso de decisión, aunque el árbol de decisión no muestra todo los datos.
Si los árboles de decisión se construyen
después de completar el análisis de flujo de datos, entonces es posible que los
datos críticos se encuentren definidos en el diccionario de datos (el cual
describe los datos utilizados por el sistema y donde se emplean). Si únicamente
se usan árboles de decisiones, entonces el analista debe tener la certeza de
identificar con precisión cada dato necesario para tomar la decisión.
Los árboles de decisión no siempre son la
mejor herramienta para el análisis de decisiones. El árbol de decisiones de un
sistema complejo con muchas secuencias de pasos y combinaciones de condiciones
puede tener un tamaño considerable. El gran número de ramas que pertenecen a
varias trayectorias constituye más un problema que una ayuda para el análisis.
En estos casos los analistas corren el riesgo de no determinar qué políticas o
estrategias de la empresa son la guía para la toma de decisiones específicas.
Cuando aparecen estos problemas, entonces es momento de considerar las tablas
de decisión.
Ejemplo:
La terminología asociada a la técnica de
los árboles de decisión
- Nodo de decisión: una decisión necesita tomarse en ese punto del proceso.
- Nodo de probabilidad: En ese punto ocurre un evento aleatorio. Probabilidades de que ocurran los eventos posibles como resultado de las decisiones.
- Nodo terminal: Todos los casos tienen el mismo valor para la variable dependiente. Es un nodo homogéneo que no requiere ninguna división adicional, ya que es “puro”.
- Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisión
ALGORITMOS
- ID3 (Induction Decision Trees)
Desarrollado por J. Ross Quinlan en 1983. Pertenece a la familia TDIDT
(Top - Down Induction of Decision Trees)
El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su uso se engloba en la
búsqueda de hipótesis o reglas en él, dado
un conjunto de ejemplos.
El conjunto de ejemplos deberá estar conformado por una serie de tuplas
de valores, cada uno de ellos denominados atributos, en el que uno de ellos,
(el atributo a clasificar) es el objetivo, el cual es de tipo binario (positivo o negativo, sí o no, válido o inválido, etc.).
De esta forma el algoritmo trata de obtener las
hipótesis que clasifiquen ante nuevas instancias, si dicho ejemplo va a ser
positivo o negativo.
Id3 (Ejemplos,
Atributo-objetivo, Atributos)
Si todos los ejemplos son positivos
devolver un nodo positivo
Si todos los ejemplos son negativos
devolver un nodo negativo
Si Atributos está vacío devolver el
voto mayoritario del valor del atributo objetivo en Ejemplos
En otro caso
Sea A Atributo el MEJOR de atributos
Para cada v valor del atributo hacer
Sea Ejemplos (v) el subconjunto de
ejemplos cuyo valor de atributo A es v
Si Ejemplos (v) está vacío devolver
un nodo con el voto mayoritario del
Atributo objetivo de Ejemplos
Sino Devolver Id3 (Ejemplos (v),
Atributo-objetivo, Atributos/ {A})
ID3 realiza esta labor
mediante la construcción de un árbol de decisión.
Los elementos
son:
- Nodos: Los cuales contendrán atributos.
- Arcos: Los cuales contienen valores posibles del nodo padre.
- Hojas: Nodos que clasifican el ejemplo como positivo o negativo.
Obsérvese que la
construcción del árbol se hace forma recursiva, siendo las tres primeras líneas
y la penúltima los casos base que construyen los nodos hojas.
Elección del mejor atributo
La elección del mejor
atributo se establece mediante la entropía. Eligiendo aquel que proporcione una mejor ganancia de información. La
función elegida puede variar, pero en su forma más sencilla es como esta:
La función de entropía más
usada es la binaria. Su expresión es con logaritmos base 2:
Donde p es el
conjunto de los ejemplos positivos, n el de los negativos. Se debe
establecer si el logaritmo es positivo o negativo.
Entropía: Es la medida de la incertidumbre que hay en un sistema. Es decir, ante
una determinada situación, la probabilidad de que ocurra cada uno de los
posibles resultados.
Ganancia:
Es la diferencia entre la
entropía de un nodo y la de uno de sus descendientes.
En el fondo no es más que
una heurística, que como veremos nos servirá para la elección del mejor
atributo en cada nodo.
Ganancia(A)
= I(p,n) - E(A)
Donde p es el
conjunto de los ejemplos positivos, n el de los negativos y del
total de ellos. Se debe establecer si el logaritmo es positivo o negativo.
Ej.
|
Cielo
|
Temperatura
|
Humedad
|
Viento
|
Jugar tenis
|
D1
|
Sol
|
Alta
|
Alta
|
Débil
|
-
|
D2
|
Sol
|
Alta
|
Alta
|
Fuerte
|
-
|
D3
|
Nubes
|
Alta
|
Alta
|
Débil
|
+
|
D4
|
Lluvia
|
Suave
|
Alta
|
Débil
|
+
|
D5
|
Lluvia
|
Baja
|
Normal
|
Débil
|
+
|
D6
|
Lluvia
|
Baja
|
Normal
|
Fuerte
|
-
|
D7
|
Nubes
|
Baja
|
Normal
|
Fuerte
|
+
|
D8
|
Sol
|
Suave
|
Alta
|
Débil
|
-
|
D9
|
Sol
|
Baja
|
Normal
|
Débil
|
+
|
D10
|
Lluvia
|
Suave
|
Normal
|
Débil
|
+
|
D11
|
Sol
|
Suave
|
Normal
|
Fuerte
|
+
|
D12
|
Nubes
|
Suave
|
Alta
|
Fuerte
|
+
|
D13
|
Nubes
|
Alta
|
Normal
|
Débil
|
+
|
D14
|
Lluvia
|
Suave
|
Alta
|
Fuerte
|
-
|
En ese caso el
árbol finalmente obtenido seria así:
Mejoras de ID3:
- Manejo de atributos con valores continuos.
- Manejo de valores desconocidos en algunos de los Atributos.
- El coste de conocer el valor de un atributo no es cte.
- Manejo de atributos de gran número de valores.
La
solución a muchas de estas cuestiones la incorpora el algoritmo C4.5 que
constituye una extensión del algoritmo ID3.
ÁMBITOS DE APLICACIÓN
Los árboles de decisión se utilizan en cualquier
proceso que implique toma de decisiones, ejemplos de estos procesos son:
- Árboles de juego
Tipo de árbol de juego es un grafo
dirigido en que cada nodo
representa una posible elección para uno de los jugadores. Cualquier sucesión
de jugadas puede representarse por un camino conexo dentro del árbol de juego.
Si el juego acaba siempre después de un número finito de pasos, entonces el
árbol tiene un número finito de nodos.
Gráfica de un árbol de juego.
- Sistemas expertos
Un sistema experto es un conjunto de programas que, sobre una base de
conocimientos, posee información de uno o más expertos en un área
específica. Se puede entender como una rama de la inteligencia artificial, donde el poder de resolución de un problema en un
programa de computadora viene del conocimiento de un dominio específico. Estos
sistemas imitan las actividades de un humano para resolver problemas de
distinta índole (no necesariamente tiene que ser de inteligencia artificial).
También se dice que un Sistema Experto se basa en el conocimiento declarativo
(hechos sobre objetos, situaciones) y el conocimiento de control (información
sobre el seguimiento de una acción).
Los árboles de decisión se usan en los sistemas
expertos porque son más precisos que el hombre para poder desarrollar un
diagnostico con respecto a algo, ya que el hombre puede dejar pasar sin querer
un detalle, en cambio la maquina mediante un sistema experto con un árbol de
decisión puede dar un resultado exacto.
Los sistemas expertos son llamados
así porque emulan el razonamiento de un experto en un dominio concreto y en
ocasiones son usados por éstos. Con los sistemas expertos se busca una mejor
calidad y rapidez en las respuestas dando así lugar a una mejora de la
productividad del experto.
Para que un
sistema experto sea herramienta efectiva, los usuarios
deben interactuar de una forma
fácil, reuniendo dos capacidades para poder cumplirlo:
1.
Explicar sus
razonamientos o base del conocimiento: los sistemas expertos se deben realizar
siguiendo ciertas reglas o pasos comprensibles de manera que se pueda generar
la explicación para cada una de estas reglas, que a la vez se basan en hechos.
2. Adquisición de nuevos conocimientos o integrador
del sistema: son mecanismos de razonamiento que sirven para modificar los
conocimientos anteriores. Sobre la base de lo anterior se puede decir que los
sistemas expertos son el producto de investigaciones en el campo de la
inteligencia artificial ya que ésta no intenta sustituir a los expertos
humanos, sino que se desea ayudarlos a realizar con más rapidez y eficacia
todas las tareas que realiza.
Debido a esto
en la actualidad se están mezclando diferentes técnicas o aplicaciones
aprovechando las ventajas que cada una de estas ofrece para poder tener
empresas más seguras. Un ejemplo de estas técnicas sería los agentes que tienen
la capacidad de negociar y navegar a través de recursos en línea; y es por eso
que en la actualidad juega un papel preponderante en los sistemas expertos.
Estructura básica de un SE está conformado por:
- Base de conocimientos (BC): Contiene conocimiento modelado extraído del diálogo con un experto.
- Base de hechos (Memoria de trabajo): contiene los hechos sobre un problema que se ha descubierto durante el análisis.
- Motor de inferencia: Modela el proceso de razonamiento humano.
- Módulos de justificación: Explica el razonamiento utilizado por el sistema para llegar a una determinada conclusión.
- Interfaz de usuario: es la interacción entre el SE y el usuario, y se realiza mediante el lenguaje natural.
Tipos de SE principalmente
existen tres tipos de sistemas expertos:
- Basados en reglas previamente establecidas.
- Basados en casos o CBR (Case Based Reasoning).
- Basados en redes bayesianas.
En cada
uno de ellos, la solución a un problema planteado se obtiene:
- Aplicando reglas heurísticas apoyadas generalmente en lógica difusa para su evaluación y aplicación.
- Aplicando el razonamiento basado en casos, donde la solución a un problema similar planteado con anterioridad se adapta al nuevo problema.
- Aplicando redes bayesianas, basadas en estadística y el teorema de Bayes.
Ejemplos importantes:
·
Búsqueda binaria
Método en el
cual la búsqueda se realiza partiendo al árbol en dos partes. Un árbol binario
de búsqueda (ABB) es un árbol binario definido de la siguiente forma:
Un árbol binario no vacío, de raíz R, es un árbol binario de búsqueda
si:
- En caso de tener subárbol izquierdo, la raíz R debe ser mayor que el valor máximo almacenado en el subárbol izquierdo, y que el subárbol izquierdo sea un árbol binario de búsqueda.
- En caso de tener subárbol derecho, la raíz R debe ser menor que el valor mínimo almacenado en el subárbol derecho, y que el subárbol derecho sea un árbol binario de búsqueda.
Un árbol binario de búsqueda de tamaño 9 y
profundidad 3, con raíz 8 y hojas 1, 4, 7 y 13
Para una fácil comprensión queda resumido en que es un árbol binario que
cumple que el subárbol izquierdo de cualquier nodo (si no está vacío) contiene
valores menores que el que contiene dicho nodo, y el subárbol derecho (si no
está vacío) contiene valores mayores.
Para estas definiciones se considera que hay una relación de orden
establecida entre los elementos de los nodos. Que cierta relación esté
definida, o no, depende de cada lenguaje
de programación. De aquí se deduce que
puede haber distintos árboles binarios de búsqueda para un mismo conjunto de
elementos.
La altura h en el peor de los casos siempre el mismo tamaño que el
número de elementos disponibles. Y en el mejor
de los casos viene dada por la expresión:
Donde ceil indica
redondeo por exceso.
El interés de los árboles binarios de búsqueda (ABB) radica en que
su recorrido
en in orden proporciona los
elementos ordenados de forma ascendente y en que la búsqueda de algún elemento
suele ser muy eficiente.
Dependiendo de las necesidades del usuario que trate con una estructura
de este tipo, se podrá permitir la igualdad estricta en alguno, en ninguno o en
ambos de los subárboles que penden de la raíz. Permitir el uso de la igualdad
provoca la aparición de valores dobles y hace la búsqueda más compleja.
Un árbol binario de búsqueda no deja de ser un caso particular de árbol binario para que un árbol binario
pertenezca al tipo árbol binario de búsqueda debe cumplir la condición.
Todas las operaciones realizadas sobre árboles binarios de búsqueda
están basadas en la comparación de los elementos o clave de los mismos
- Búsqueda
- Inserción
- Borrado
- Recorridos (profundidad o anchura)
·
Cómo aplicar árboles de decisión en SPSS.
La función
árboles de decisión (Tree) en SPSS crea árboles de clasificación y de decisión
para identificar grupos, descubrir las relaciones entre grupos y predecir
eventos futuros existen cuatro métodos de división para los árboles cuyas
características son:
• CHAID
(Chi-square automatic interaction detector): algoritmo de árbol estadístico y
multidireccional que explora datos de forma rápida y eficaz, y crea segmentos y
perfiles con respecto al resultado deseado.
• CHAID
exhaustivo: Supone una modificación de CHAID que examina todas las divisiones
posibles para cada predictor y trata todas las variables por igual,
independientemente del tipo y el número de categorías.
• Árboles
de clasificación y regresión (CRT-Classification and regression trees): Un
algoritmo de árbol binario completo que hace particiones de los datos y genera
subconjuntos precisos y homogéneos. CRT divide los datos en segmentos para que
sean lo más homogéneos posible respecto a la variable dependiente.
• QUEST
(Quick, unbiased, efficient, statistical tree): algoritmo estadístico que
selecciona variables sin sesgo y crea árboles binarios precisos de forma rápida
y eficaz. Con cuatro algoritmos tenemos la posibilidad de probar métodos
diferentes de crecimiento de los árboles y encontrar el que mejor se adapte a
nuestros datos.
El paquete estadístico de SPSS permite las siguientes posibilidades en
relación con la técnica de los árboles de decisión:
- Identificar grupos, segmentos y patrones de forma altamente visual.
- Presentar resultados de forma intuitiva, facilita la interpretación para públicos sin demasiados conocimientos de estadística.
- Guardar información de los árboles como nuevas variables en los datos.
El
aprendizaje mediante AD constituye uno de los métodos inductivos más empleados
en aplicaciones reales.
Ejemplos:
• GASOIL(1986): Diseño de sistemas de separación
gas-petróleo en plataformas petrolíferas marinas de BP. Más de 2.500 reglas,
100 días/persona (10 años/persona). Ahorró a BP millones de dólares.
• BMT
(1990): Configuración de equipo de protección de incendios en edificios. Más de
30.000 reglas.
• Aprendiendo a volar (1992): En lugar de
construir un modelo de la dinámica del sistema (muy complejo), se aprendió un
mapeo entre el estado actual y la decisión de control correcta para volar un
Cessna en un simulador de vuelo. Resultados: aprendió a volar e incluso
mejoraba algunas decisiones de sus “maestros”.
CONCLUSIONES
Resume los
ejemplos de partida, permitiendo la clasificación de nuevos casos siempre y
cuando no existan modificaciones sustanciales en las condiciones bajo las
cuales se generaron los ejemplos que sirvieron para su construcción.
Facilita
la interpretación de la decisión adoptada y proporciona un alto grado de
comprensión del conocimiento utilizado en la toma de decisiones.
Explica el
comportamiento respecto a una determinada tarea de decisión, reduce el número
de variables independientes. Es una magnifica herramienta para el control de la
gestión empresarial.
Ventajas:
- La regla de asignación son simples y legibles, por tanto la interpretación de resultados es directa e intuitiva.
- Es valida sea cual fuera la naturaleza de las variables explicativas: continuas, binarias nominales u ordinales.
- Es una técnica no paramétrica que tiene en cuenta las interacciones que pueden existir entre los datos.
- Es computacionalmente rápido.
- Plantea muy claramente el problema para que todas las opciones sean analizadas.
- Permiten analizar totalmente las posibles consecuencias de tomar una decisión.
- Provee un esquema para cuantificar el costo de un resultado y la probabilidad de que suceda.
- Nos ayuda a realizar las mejores decisiones sobre la base de la información existente y de las mejores suposiciones.
- Facilita la interpretación de la decisión adoptada.
- Facilita la comprensión del conocimiento utilizado en la toma de decisiones.
- Explica el comportamiento respecto a una determinada decisión.
- Reduce el número de variables independientes.
Desventajas:
- Las reglas de asignación son bastantes sensibles a pequeñas perturbaciones en los datos
- Dificultad para elegir el árbol óptimo.
- Ausencia de una función global de las variables y como consecuencia perdida de la representación.
- Los arboles de decisión requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos es significativa.
REFERENCIAS BIBLIOGRÁFICAS
- http://www.slideshare.net/decisiones/7-arbol-de-dec-g
- http://www.nebrija.es/~cmalagon/inco/apuntes_mios/arboles_de_decision.pdf
- http://users.dsic.upv.es/asignaturas/facultad/apr/decision.pdf
- http://www.utm.mx/~jahdezp/archivos%20estructuras/DESICION.pdf
- http://www.slideshare.net/FernandoCaparrini/arboles-decision-id3
- http://www.uhu.es/470004009/docs/Tema_3.pdf
- http://www.nebrija.es/~cmalagon/inco/apuntes_mios/arboles_de_decision.pdf
- http://www.lsi.upc.edu/~bejar/ia/transpas/teoria/6-AP-aprendizaje.pdf
- http://www.plg.inf.uc3m.es/~ias/transpas/aa.pdf
- http://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n
- http://www.ehowenespanol.com/tipos-arboles-decision-sobre_97878/
- Heger, Dominique A. (2004), «A Disquisition on The Performance Behavior of Binary Search Tree Data Structures», European Journal for the Informatics Professional 5 (5)
- Berlanga Silvente, V., Rubio Hurtado, M. J., Vilà Baños, R. (2013). Cómo aplicar árboles de decisión en SPSS. [En línea]
- REIRE, Revista d’Innovació i Recerca en Educació, 6 (1), 65-79. Accesible en: http://www.ub.edu/ice/reire.htm
- Hernández, J.; Ramírez, M.J. y Ferri, C. (2004). Introducción a la minería de datos. Madrid: Pearson educación.
- Lind, D.A; Marchal, W.G. y Wathen, S.A. (2012). Estadística aplicada a los negocios y la economía. México D.F.: MCGraw Hill.
- Pérez, C. (2011). Técnicas de segmentación. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial.
- Pérez, C. (2004). Técnicas de análisis multivariante de datos. Aplicaciones con SPSS. Madrid: Pearson educación.
- Pérez, C. y Santín, D. (2007). Minería de Datos: Técnicas y Herramientas. Madrid: Ediciones Paraninfo, S.A.
- Vilà, R. (2012). Arboles de decisión SPSS. octubre de 2012, en Depósito digital de la UB: http://hdl.handle.net/2445/22282.
Enlaces
Informe: https://docs.google.com/file/d/0B-JbFQ35ASr-QXlSV1czOElWZFU/edit?usp=sharing
Presentación: https://docs.google.com/file/d/0B-JbFQ35ASr-YTVtQlhSVC1uU0E/edit?usp=sharing