De qu se trata?
La fecundacin humana in vitro consiste en recoger varios vulos
de los ovarios de una mujer, que, despus de la fertilizacin con
pareja o donante de esperma, producen varios embriones. Algunos de
ellos son seleccionados y transferidos al tero de la mujer. El
desafo es para seleccionar los "mejores" embriones para
utilizar-los que tienen ms probabilidades de sobrevivir. Seleccin
se basa en alrededor de 60 caractersticas registradas de los
embriones-caracterizando su morfologa, ovocito, y el folculo, y la
muestra de esperma. El nmero de caractersticas es lo
suficientemente grande como para que sea difcil para un embrilogo
para evaluar todos de forma simultnea y correlacionar los datos
histricos con el resultado crucial de si ese embrin se produjo o no
dar lugar a un nio vivo. En un proyecto de investigacin en
Inglaterra, la mquina de aprendizaje ha sido investigada como una
tcnica para hacer la seleccin, utilizando histrica registros de los
embriones y su resultado como datos de entrenamiento. Cada ao, los
productores de leche en Nueva Zelanda tienen que tomar una decisin
empresarial difcil: que las vacas para retener en su rebao y que
para vender a un matadero. Tpicamente, una quinta parte de las
vacas en un hato lechero son sacrificados cada ao cerca del final
del ordeo temporada como reserva de alimentacin se reducen. La cra
y la produccin de leche La historia de cada vaca influye en esa
decisin. Otros factores incluyen la edad (una vaca se acerca al
final de su productiva vida a los ocho aos), problemas de salud,
antecedentes de un parto difcil, indeseable rasgos de temperamento
(patadas o saltando vallas), y no estar embarazada con el becerro
para la temporada siguiente. Cerca de 700 atributos para cada uno
de varios millones de vacas tienen ha registrado en los ltimos aos.
El aprendizaje automtico se ha investigado como una forma de la
determinacin de lo que se tienen en cuenta los factores de xito de
los agricultores-no automatizar la decisin, pero para propagar sus
conocimientos y experiencia a los dems. La vida y la muerte. De
Europa a las Antpodas. La familia y los negocios. Mquina el
aprendizaje es una nueva tecnologa emergente para el conocimiento
de la minera de datos, una tecnologa que mucha gente est empezando
a tomar en serio.1.1 MINERA DE DATOS Y EL APRENDIZAJE DE LA MQUINA
Estamos abrumados con datos. La cantidad de datos en el mundo y en
nuestras vidas Parece cada vez ms-y no hay final a la vista.
Computadoras omnipresentes hacen demasiado fcil para guardar cosas
que antes nos hubiera papelera. discos econmicos y almacenamiento
en lnea que sea muy fcil posponer las decisiones sobre qu hacer con
todo esto-simplemente obtenemos ms memoria y guardamos todo.
Electrnica ubicua grabar nuestras decisiones, nuestras opciones en
el supermercado, nuestros hbitos financieros, nuestro idas y
venidas. Acercamos nuestro camino a travs del mundo, cada golpetazo
un registro en una base de datos. El (WWW) World Wide Web nos
abruma con la informacin; Mientras tanto, cada eleccin que hacemos
se graba. Y todas estas son opciones, slo personales que tienen un
sinnmero de contrapartes en el mundo del comercio y la industria.
Podramos todos dan testimonio de la creciente brecha entre la
generacin de los datos y el conocimiento de la misma. Como el
volumen de datos aumenta, inexorablemente, la proporcin de que la
gente entender disminuye alarmantemente. Mentir escondido en todos
estos datos es la informacin- potencialmente til la informacin-que
rara vez se hace explcito o aprovechado. Este libro trata de buscar
patrones en los datos. No hay nada nuevo en esto. La gente ha
estado buscando patrones en los datos desde que comenz la vida
humana. Los cazadores buscan patrones en el comportamiento de la
migracin animal, los agricultores buscan patrones en el crecimiento
de los cultivos, los polticos buscar patrones en opinin de los
votantes, y los amantes buscan patrones en sus socios ' respuestas.
El trabajo de un cientfico (como la de un beb) es de dar sentido a
los datos, para descubrir la patrones que rigen la forma en que
funciona el mundo fsico y los encapsula en las teoras que se puede
utilizar para predecir lo que suceder en las nuevas situaciones.
Del empresario trabajo es identificar las oportunidades-es decir,
los patrones de comportamiento que se pueden convertir en un
negocio rentable y explotarlos. En la minera de datos, los datos se
almacenan electrnicamente y la bsqueda se automatiza-o al menos
aumentada por ordenador. Incluso esto no es particularmente nueva.
Economistas, estadsticos, los meteorlogos e ingenieros de la
comunicacin han trabajado durante mucho tiempo con el idea de que
los patrones en los datos se pueden buscar de forma automtica,
identificadas, validadas y utilizadas para la prediccin. Lo que es
nuevo es el espectacular aumento de las oportunidades para la
bsqueda de patrones en los datos. El crecimiento desenfrenado de
las bases de datos en los ltimos aos, las bases de datos para
actividades tales cotidianos como las opciones del cliente, aporta
la minera de datos a la vanguardia de la nuevas tecnologas
empresariales. Se ha estimado que la cantidad de datos almacenados
en las bases de datos del mundo se duplica cada 20 meses, y aunque
seguramente sera difcil justificar esta cifra en un sentido
cuantitativo, todos podemos relacionar con el ritmo de crecimiento
cualitativamente. A medida que el flujo de datos se hincha y
mquinas que pueden llevar a cabo la bsqueda convertido en algo
comn, las oportunidades para el aumento de la minera de datos. Como
el mundo crece en complejidad, abrumarnos con los datos que genera,
datos la minera se convierte en nuestra nica esperanza para
elucidar patrones ocultos. Inteligentemente analizado datos es un
recurso valioso. Puede conducir a nuevos conocimientos, y, en los
entornos comerciales, de ventajas competitivas. La minera de datos
se trata de resolver los problemas mediante el anlisis de los datos
ya presentes en bases de datos. Supongamos, para tomar un ejemplo
muy usado, el problema es del cliente voluble lealtad en un mercado
altamente competitivo. Una base de datos de opciones del cliente, a
lo largo de con perfiles de clientes, es la clave para este
problema. Los patrones de comportamiento de los ex los clientes
pueden ser analizados para identificar las caractersticas
distintivas de las que es probable para cambiar los productos y las
que puedan permanecer fieles. Una vez que tales caractersticas son
encontrados, se pueden poner a trabajar para identificar a los
clientes actuales que tienen probabilidades de saltar nave. Este
grupo puede ser objeto de un tratamiento especial, el tratamiento
demasiado costoso para aplicar a la base de clientes en su
conjunto. Ms positivamente, las mismas tcnicas se pueden utilizar
para identificar clientes que podran ser atrados a otro servicio de
la empresa ofrece, uno que no estn actualmente disfrutando, de
dirigirse a ellos para las ofertas especiales que promover este
servicio. En el actual altamente competitivo, centrado en el
cliente, serviceoriented economa, los datos son la materia prima
que alimenta el crecimiento del negocio, aunque slo se puede ser
extrado. La minera de datos se define como el proceso de
descubrimiento de patrones en los datos. El proceso debe ser
automtico o (ms habitualmente) semiautomtica. Los patrones
descubiertos deben sentido en que conducen a alguna ventaja, por lo
general de carcter econmico. La datos es invariablemente presentes
en cantidades sustanciales. Y cmo se expresan los patrones?
Patrones tiles nos permiten hacer trivial predicciones sobre los
nuevos datos. Hay dos extremos para la expresin de un patrn: como
una caja de negro cuyas entraas son efectivamente incomprensible, y
como transparente cuadro cuya construccin revela la estructura del
patrn. Tanto, estamos asumiendo, hacer buenas predicciones. La
diferencia es si los patrones que se extraen se representan en
trminos de una estructura que puede ser examinada, razonada acerca,
y utilizado para informar las decisiones futuras. Tales patrones
que llamamos estructural porque capturar la estructura de decisin
de manera explcita. En otras palabras, que ayudan a explicar algo
acerca de los datos. Ahora, una vez ms, se puede decir lo que trata
este libro: Se trata de tcnicas para la bsqueda de y describir los
patrones estructurales en los datos. La mayora de las tcnicas que
cubrimos tiene desarrollado dentro de un campo conocido como el
aprendizaje de mquina. Pero primero echemos un vistazo a lo que
patrones estructurales son.
Describiendo los Patrones EstructuralesQu se quiere decir con
patrones estructurales? Cmo describes ellos? Y qu forma toma la
entrada? Vamos a responder a estas preguntas a modo de ilustracin y
no que por intentar definiciones formales, y en ltima instancia,
estriles,. Habr un montn de ejemplos ms adelante en este captulo,
pero vamos a examinar uno ahora mismo para hacerse una idea por lo
que estamos hablando. Observe los datos de lentes de contacto en la
Tabla 1.1. Se da las condiciones bajo las cuales un ptico podra
querer prescribir lentes blandas de contacto, lentes de contacto
duras, o no lentes de contacto en absoluto; diremos ms sobre cules
son las caractersticas individuales significan ms tarde. Cada lnea
de la tabla es uno de los ejemplos. Parte de una descripcin
estructural de este informacin podra ser la siguiente:Va tablaSi la
tasa de produccin de lgrimas = despus se redujo recomendacin =
ningunoDe lo contrario, si la edad = joven y astigmtica = no
despusrecomendacin = suaveIf tear production rate = reduced then
recommendation = noneOtherwise, if age = young and astigmatic = no
thenrecommendation = softDescripciones estructurales no necesitan
necesariamente ser expresada como reglas de este tipo. Decisin
rboles, que especifican las secuencias de decisiones que necesitan
ser hecho junto con la recomendacin resultante, son otra forma
popular de expresin. Este ejemplo es muy simplista. Para empezar,
todas las combinaciones de posibles los valores estn representados
en la tabla. Hay 24 filas, que representan tres posibles valores de
edad y dos valores de cada uno para la prescripcin espectculo, el
astigmatismo, y el desgaste tasa de produccin (3 2 2 2 = 24). Las
reglas realmente no generalizar a partir de la datos; se limitan a
resumir. En la mayora de situaciones de aprendizaje, teniendo en
cuenta el conjunto de ejemplos como entrada est lejos de ser
completa, y parte del trabajo consiste en generalizar a otros,
nuevo ejemplos. Usted puede imaginar omitiendo algunas de las filas
en la tabla para que la lgrima tasa de produccin se reduzca y sigue
subiendo con la regla Si la tasa de produccin de lgrimas = despus
se redujo recomendacin = ninguno If tear production rate = reduced
then recommendation = noneEsto sera generalizar a las filas que
faltan y rellenarlos correctamente. En segundo lugar, los valores
se especifican para todas las caractersticas en todos los ejemplos.
Conjuntos de datos de la vida real, invariablemente contener
ejemplos en los que los valores de algunas de las caractersticas,
por alguna razn u otra, Se desconocen, por ejemplo, las mediciones
no se tomaron o se perdieron. En tercer lugar, la reglas anteriores
se clasifican los ejemplos correctamente, mientras que a menudo, a
causa de los errores o ruido en los datos, errores de clasificacin
se producen incluso en los datos que se utiliza para crear la
clasificador.Aprendizaje AutomticoAhora que tenemos una idea de las
entradas y salidas, demos vuelta a la mquina de aprendizaje. Qu es
el aprendizaje, de todos modos? Qu es el aprendizaje de las
mquinas? Estos son filosficas preguntas, y no vamos a estar
demasiado preocupado con la filosofa de este libro; nuestro nfasis
est firmemente en la prctica. Sin embargo, vale la pena dedicar
unos momentos desde el principio en las cuestiones fundamentales,
slo para ver lo difcil que son, antes de rodar las mangas y mirando
a la mquina de aprendizaje en la prctica.Nuestro diccionario define
"a aprender" como Para obtener el conocimiento de algo por medio
del estudio, la experiencia, o que se ensea. Tomar conciencia de la
informacin o de la observacin Comprometer a la memoria Ser
informado de o para determinar Para recibir una instruccinEstos
significados tienen algunas deficiencias cuando se trata de hablar
acerca de las computadoras. Para los dos primeros, es prcticamente
imposible para probar si el aprendizaje se ha logrado o no. Cmo se
sabe si una mquina tiene conocimiento de algo? Usted Probablemente
no slo puede hacerle preguntas; incluso si pudiera, no estara
probando su capacidad de aprender, pero su capacidad para responder
a las preguntas. Cmo saber si tiene tomar conciencia de algo? Toda
la cuestin de si las computadoras pueden ser consciente o
consciente, es una cuestin filosfica en llamas. En cuanto a los
ltimos tres significados, aunque podemos ver lo que denotan en
humanos trminos, ms que aprender de memoria y recibir instruccin
parece ser muy corto para de lo que podramos decir con aprendizaje
automtico. Son demasiado pasivo, y sabemos que las computadoras se
encuentran estas tareas triviales. En su lugar, estamos interesados
en las mejoras en el rendimiento, o al menos en el potencial de
rendimiento, en nuevas situaciones. Usted puede memorizar algo o
ser informado de algo por el aprendizaje de memoria sin ser capaz
de aplicar los nuevos conocimientos a nuevas situaciones. En otras
palabras, puedes recibir instruccin sin beneficiarse de ella en
absoluto. Anteriormente se ha definido la minera de datos
operacional, como el proceso de descubrimiento de patrones, de
forma automtica o semiautomtica, en grandes cantidades de datos-y
los patrones debe ser til. Una definicin operacional se puede
formular de la misma manera para el aprendizaje: Actividades
aprenden cuando cambian su comportamiento de una manera que los
hace un mejor desempeo en el futuro Esto vincula el aprendizaje con
el rendimiento ms que el conocimiento. Usted puede probar el
aprendizaje por observar el comportamiento actual y compararlo con
el comportamiento pasado. Esta es una forma mucho ms tipo objetivo
de definicin y parece ser mucho ms satisfactoria.Pero todava hay un
problema. El aprendizaje es un concepto bastante resbaladiza. Un
montn de cosas cambiar su comportamiento en formas que hacen a
obtener mejores resultados en el futuro, sin embargo, no querra
decir que, efectivamente, han aprendido. Un buen ejemplo es un
confortable zapatilla. Se ha aprendido la forma de su pie? Sin
duda, ha cambiado su comportamiento para que realice mejor como una
zapatilla! Sin embargo, queremos apenas desee llamar este
aprendizaje. En el lenguaje cotidiano, a menudo utilizamos la
palabra para referirse a una formacin tipo sin sentido de
aprendizaje. Formamos a los animales e incluso plantas, aunque sera
estirando la palabra un poco para hablar de los objetos de
formacin, tales como zapatillas, que no son en cualquier sentido
vivo. Pero el aprendizaje es diferente. Aprendizaje implica
pensamiento y propsito. Algo que aprende tiene que hacerlo
intencionalmente. Es por eso que no diramos que una vida ha
aprendido a crecer alrededor de un enrejado en un viedo-we'd decir
que ha sido entrenado. Aprender sin finalidad es meramente
entrenando. O, mejor dicho, en aprender el propsito es que el
alumno de, mientras que en la formacin es el maestro de. Por lo
tanto, en un examen ms la segunda definicin de aprendizaje, en
funcionamiento, trminos orientados al rendimiento, tiene sus
propios problemas cuando se trata de hablar de computadoras. Para
decidir si algo ha aprendido en realidad, tiene que ver si se
pretende que, si haba algn propsito en cuestin. Eso hace que el
concepto discutible cuando se aplica a las mquinas, porque si los
artefactos pueden comportarse a propsito no est claro. Las
discusiones filosficas de lo que realmente se entiende por
aprendizaje, como las discusiones sobre lo que realmente se quiere
decir con la intencin o el propsito, estn cargadas de dificultad.
Incluso los tribunales de justicia se encuentran intencin difcil de
resolver.Data MiningAfortunadamente, el tipo de tcnicas de
aprendizaje se explica en este libro no presentan estos
problemas-que se llaman conceptuales aprendizaje automtico sin
realmente presuponiendo cualquier posicin filosfica particular,
acerca de lo que el aprendizaje es en realidad. Datos la minera es
un tema que involucra el aprendizaje en un sentido prctico, no
terico. Somos interesado en tcnicas para encontrar y describir
patrones estructurales en los datos, como herramienta para ayudar a
explicar que los datos y hacer predicciones a partir de ella. Los
datos se llevar a la forma de un conjunto de ejemplos, tales como
los clientes que han cambiado lealtades, para instancia o
situaciones en las que ciertos tipos de lentes de contacto pueden
ser prescritos. La salida toma la forma de predicciones sobre
nuevos ejemplos-una prediccin de si un cliente en particular
cambiar o una prediccin de qu tipo de lente prescribir, en
determinadas circunstancias. Pero debido a que este libro es sobre
la bsqueda y describir patrones en los datos, la salida tambin
puede incluir una descripcin real de una estructura que se puede
utilizar para clasificar ejemplos desconocidos. As como el
rendimiento, es til para suministrar una representacin explcita del
conocimiento que se adquiere. En esencia, esto refleja ambas
definiciones de aprendizaje considerado anteriormente: la
adquisicin de los conocimientos y la capacidad de utilizarlo.
Muchas de las tcnicas de aprendizaje buscan descripciones
estructurales de lo que se aprende- descripciones que pueden llegar
a ser bastante complejo y se expresan normalmente como conjuntos de
normas, tales como los descritos anteriormente o los rboles de
decisin que se describen ms adelante en este captulo. Debido a que
pueden ser entendidos por las personas, estas descripciones sirven
para explicar lo que se ha aprendido en otras palabras, para
explicar la base para nuevas predicciones. La experiencia demuestra
que en muchas aplicaciones de aprendizaje automtico a los datos
minera, las estructuras explcitas del conocimiento que se
adquieren, las descripciones estructurales, son por lo menos tan
importante como la capacidad de realizar bien en nuevos ejemplos.
personas frecuente utilizar la minera de datos para obtener
conocimiento, no slo predicciones. Obtener conocimiento a partir de
datos ciertamente suena como una buena idea si usted puede hacerlo.
Para averiguar cmo hacerlo, siga leyendo!1.2 Ejemplos sencillos: El
tiempoY OTROS PROBLEMASVamos a utilizar una gran cantidad de
ejemplos en este libro, que parece particularmente apropiado
teniendo en cuenta que el libro se trata de aprender a partir de
ejemplos! Hay varios conjuntos de datos estndar que vamos a volver
a repetidamente. Diferentes conjuntos de datos tienden a exponer a
nuevos problemas y desafos, y es interesante e instructivo tener en
la mente una serie de problemas cuando se consideran los mtodos de
aprendizaje. De hecho, la necesidad de trabajar con diferentes
conjuntos de datos es tan importante que un corpus que contiene
alrededor de 100 problemas de ejemplo se ha reunido de manera que
diferentes algoritmos pueden ser probado y comparado con el mismo
conjunto de problemas. El conjunto de problemas de esta seccin son
todos irreales simple. Aplicacin Serious de la minera de datos
consiste en miles, cientos de miles, o incluso millones de los
casos individuales. Pero la hora de explicar lo que los algoritmos
hacen y cmo funcionan, necesitamos ejemplos simples que capturan la
esencia del problema, pero somos pequeos lo suficiente como para
ser comprensible por todos los detalles. Vamos a trabajar con las
bases de datos en esta seccin a lo largo del libro, y que estn
destinados a ser "acadmico" en el sentido de que nos ayudarn a
entender lo que est pasando. Algunos real con campos aplicaciones
de las tcnicas de aprendizaje se discuten en la Seccin 1.3, y
muchos ms se tratan en los libros mencionados en la Seccin 1.7,
Lectura adicional, al final del el captulo. Otro problema con los
datos reales de la vida real es que a menudo son propietarios.
Nadie va a compartir su base de datos de la eleccin del cliente y
el producto con usted para que se pueden entender los detalles de
su aplicacin de minera de datos y cmo funciona. Los datos de las
empresas es un activo valioso, cuyo valor ha aumentado enormemente
con el desarrollo de tcnicas de minera de datos, tales como los que
se describen en este libro. Sin embargo, nos preocupa aqu con la
comprensin de cmo los mtodos utilizados para los datos minar el
trabajo, y la comprensin de los detalles de estos mtodos para que
podamos rastrear su funcionamiento en los datos reales. Es por eso
que nuestros conjuntos de datos ilustrativos son los simples. Pero
ellos no son simplistas: Presentan las caractersticas de los
conjuntos de datos reales.El problema del tiempo El problema del
tiempo es un pequeo conjunto de datos que vamos a utilizar varias
veces para ilustrar mtodos de aprendizaje automtico. Totalmente
ficticios, que supuestamente se refiere a las condiciones que son
adecuados para jugar algn juego no especificado. En general, los
casos en un conjunto de datos se caracterizan por los valores de
caractersticas o atributos, que miden diferentes aspectos de la
instancia. En este caso hay cuatro atributos: la perspectiva, la
temperatura, humedad y viento. El resultado es si jugar o no. En su
forma ms simple, que se muestra en la Tabla 1.2, los cuatro
atributos tienen valores que son categoras simblicas en lugar de
nmeros. Outlook puede ser soleado, nublado o lluvioso; la
emperatura puede ser caliente, templado, o fro; La humedad puede
ser alta o normal; y ventoso puede ser verdadera o falsa. Esto crea
36 combinaciones posibles (3 3 2 2 = 36), de cuales 14 estn
presentes en el conjunto de ejemplos de entrada. Un conjunto de
reglas aprendidas de esta informacin, no necesariamente uno muy
bueno- podra tener este aspecto:Va tablaSi perspectivas = soleado y
humedad = Alta luego jugar = noSi perspectivas = lluvioso y ventoso
= true entonces juegan = noSi perspectivas = encapotado luego jugar
= sSi la humedad = normal luego jugar = sSi nada de lo anterior y
luego jugar = sIf outlook = sunny and humidity = high then play =
noIf outlook = rainy and windy = true then play = noIf outlook =
overcast then play = yesIf humidity = normal then play = yesIf none
of the above then play = yesEstas reglas son para ser interpretados
en orden: La primera de ellas; a continuacin, si no lo hace
aplicar, el segundo; y as sucesivamente. Un conjunto de reglas que
se tiene que interpretar en secuencia se llama una lista de
decisiones. Se interpreta como una lista de decisiones, las reglas
correctamente clasificar todos los ejemplos de la tabla, mientras
que tomados individualmente, fuera de contexto, algunas de las
reglas son incorrectas. Por ejemplo, la regla si la humedad =
normal luego jugar = Si se pone uno de los ejemplos incorrecto
(compruebe cul). El significado de un conjunto de normas depende de
cmo se interprete-como era de esperar! En la forma ligeramente ms
complejo se muestra en la Tabla 1.3, dos de los atributos-
temperatura y humedad-tienen valores numricos. Esto significa que
cualquier aprendizaje rgimen debe crear desigualdades que implican
estos atributos en lugar de simples pruebas de igualdad como en el
caso anterior. Esto se llama un atributo numrico de problemas en
este caso, un problema-atributo mezclado ya que no todos los
atributos son numricos. Ahora, la primera regla dada anteriormente
puede tomar la forma Si perspectivas = soleado y humedad> 83
entonces el juego = no Se requiere un proceso un poco ms complejo
para llegar a normas que implican pruebas numricas. Las reglas que
hemos visto hasta ahora son las reglas de clasificacin: Predicen la
clasificacin del ejemplo en trminos de si jugar o no. Es igualmente
posible caso omiso de la clasificacin y slo tiene que buscar
cualquier regla que se asocian fuertemente diferente valores de los
atributos. Estos se llaman reglas de asociacin. Muchas reglas de
asociacin pueden ser derivada de los datos meteorolgicos de la
Tabla 1.2. Algunos buenos son Si la temperatura = fra luego Humedad
= normal Si la humedad = normal y con viento = false entonces el
juego = s Si perspectivas = soleado y jugar = no, entonces la
humedad = Alta Si ventoso = false y el juego = no, entonces las
perspectivas = soleado y Humedad = Alta If temperature = cool then
humidity = normalIf humidity = normal and windy = false then play =
yesIf outlook = sunny and play = no then humidity = highIf windy =
false and play = no then outlook = sunny andhumidity = highTodas
estas reglas son 100% correcto de los datos dado; que no hacen
predicciones falsas. Las dos primeras se aplican a los cuatro
ejemplos en el conjunto de datos, el tercero a tres ejemplos, y el
cuarto a dos ejemplos. Y hay muchas otras reglas. De hecho, casi el
60 por reglas de asociacin se puede encontrar lo que corresponda a
dos o ms ejemplos de que el clima datos y son completamente
correctas en estos datos. Y si nos fijamos en las normas que sean
menos de 100% correcto, entonces usted va a encontrar muchos ms.
Hay tantos, ya que, a diferencia de reglas de clasificacin, reglas
de asociacin pueden "predecir" cualquiera de los atributos, no slo
un clase especificada, y puede incluso predecir ms de una cosa. Por
ejemplo, la cuarta regla predice tanto que la perspectiva ser
soleado y que la humedad ser alta. Lentes de contacto: Un Problema
idealizadoLos datos de la lente de contacto introducidas
anteriormente le indica el tipo de lentes de contacto para
prescribir, dada cierta informacin sobre un paciente. Tenga en
cuenta que este ejemplo est destinado a ilustracin solamente: Se
simplifica enormemente el problema y ciertamente no debera ser
utilizado para propsitos de diagnstico! La primera columna de la
Tabla 1.1 da la edad del paciente. En caso de que usted se est
preguntando, la presbicia es una forma de hipermetropa que acompaa
a la aparicin de la mitad edad. El segundo da la receta espectculo:
miope significa miope y hipermtrope significa longsighted. La
tercera muestra si el paciente es astigmtico, mientras que la
cuarta se refiere a la tasa de la produccin de lgrimas, que es
importante en este contexto porque las lgrimas lubrican las lentes
de contacto. La ltima columna muestra qu tipo de las lentes de
prescribir, ya sea duro, blando, o ninguno. Todas las posibles
combinaciones de los valores de los atributos estn representadas en
la tabla. Un conjunto de muestras de las reglas aprendidas de esta
informacin se muestra en la Figura 1.1. Este es un lugar amplio
conjunto de reglas, pero no clasifican correctamente todos los
ejemplos. Estos reglas son completas y determinista: Le dan una
receta nica para cada ejemplo concebible. Generalmente, este no es
el caso. A veces hay situaciones en el que no se aplica ninguna
regla; otras veces ms de una regla puede aplicarse, lo que resulta
en Si la tasa de produccin de lgrimas = despus se redujo la
recomendacin = ninguno. Si la edad = joven y astigmtica = no y tasa
de produccin de lgrimas = normal entonces la recomendacin = suave
Si la edad = pre-presbicia y astigmatismo = no y la produccin de
lgrimas = tasa recomendacin de lo normal = suave Si la edad =
prescripcin presbicia y el espectculo = miope y astigmtica = no,
entonces la recomendacin = ninguno Si la prescripcin espectculo =
hipermtrope y astigmtica = no y romper la velocidad de produccin =
recomendacin de lo normal = suave Si la prescripcin espectculo =
miope y astigmtica = s y tasa de produccin de lgrimas =
recomendacin de lo normal = duro Si la edad = joven y astigmtica =
s y desgaste tasa de produccin = normal entonces la recomendacin =
duro Si la edad = y prescripcin espectculo pre-presbicia =
hipermtrope y astigmtica = s, entonces la recomendacin = ninguno Si
la edad = prescripcin presbicia y el espectculo = hipermtrope y
astigmtica = s, entonces la recomendacin = ningunoIf tear
production rate = reduced then recommendation = none.If age = young
and astigmatic = no and tear production rate = normalthen
recommendation = softIf age = pre-presbyopic and astigmatic = no
and tear productionrate = normal then recommendation = softIf age =
presbyopic and spectacle prescription = myope andastigmatic = no
then recommendation = noneIf spectacle prescription = hypermetrope
and astigmatic = no andtear production rate = normal then
recommendation = softIf spectacle prescription = myope and
astigmatic = yes andtear production rate = normal then
recommendation = hardIf age = young and astigmatic = yes and tear
production rate = normalthen recommendation = hardIf age =
pre-presbyopic and spectacle prescription = hypermetropeand
astigmatic = yes then recommendation = noneIf age = presbyopic and
spectacle prescription = hypermetropeand astigmatic = yes then
recommendation = nonerecomendaciones contradictorias. A veces las
probabilidades o pesos pueden estar asociados con las propias
reglas para indicar que algunos son ms importantes, o bien ms
fiables, que otros. Tal vez se pregunte si hay un conjunto de
reglas ms pequea que funciona tan bien. Si es as, sera mejor usar
el conjunto de reglas ms pequeo, y si es as, por qu? Estos son
exactamente el tipo de preguntas que nos ocuparn en este libro.
Debido a que los ejemplos forman un conjunto completo para el
espacio del problema, las normas no hacen ms que resumir todo la
informacin que se le da, expresando de una manera diferente y ms
concisa. Incluso aunque se trata de ninguna generalizacin, esto es
a menudo una cosa muy til que hacer! Personas con frecuencia el uso
de tcnicas de aprendizaje automtico que permite conocer mejor la
estructura de su datos en lugar de hacer predicciones para los
nuevos casos. De hecho, un prominente y exitoso lnea de
investigacin en el aprendizaje de mquina comenz como un intento de
comprimir una gran base de datos de posibles finales de juego de
ajedrez y sus resultados en una estructura de datos de tamao
razonable. La estructura de datos elegida para esta empresa no era
un conjunto de reglas pero un rbol de decisin. La Figura 1.2
muestra una descripcin estructural de los datos de la lente de
contacto en el formulario de un rbol de decisiones, lo que para
muchos propsitos es una representacin ms conciso y perspicaz de las
normas y tiene la ventaja de que puede ser visualizado ms
fcilmente. (Sin embargo, este rbol de decisiones, en contraste con
el conjunto de reglas dado en la Figura 1.1, clasifica dos ejemplos
incorrectamente.) El rbol de llama primero para una prueba de la
tasa de la produccin de lgrimas, y las dos primeras ramas
corresponden a los dos resultados posibles. Si el desgarro tasa de
produccin se reduce (la rama de la izquierda), el resultado es
ninguno. Si es normal (La rama derecha), se hace una segunda
prueba, esta vez sobre el astigmatismo. Eventualmente, cualquiera
que sea el resultado de las pruebas, se llega a una hoja del rbol
que dicta el recomendacin de lentes de contacto para ese caso. La
cuestin de cul es la ms natural y de fcil comprensin para el
formato la salida de una mquina de aprendizaje esquema es el que
vamos a volver en las recomendaciones del Captulo 3.conflicting. A
veces las probabilidades o pesos pueden estar asociados con las
propias reglas para indicar que algunos son ms importantes, o bien
ms fiables, que otros.Tal vez se pregunte si hay un conjunto de
reglas ms pequea que funciona tan bien. Si es as, sera mejor usar
el conjunto de reglas ms pequeo, y si es as, por qu? Estos son
exactamente el tipo de preguntas que nos ocuparn en este libro.
Debido a que los ejemplos forman un conjunto completo para el
espacio del problema, las normas no hacen ms que resumir todo la
informacin que se le da, expresando de una manera diferente y ms
concisa. Incluso aunque se trata de ninguna generalizacin, esto es
a menudo una cosa muy til que hacer! Personas con frecuencia el uso
de tcnicas de aprendizaje automtico que permite conocer mejor la
estructura de su datos en lugar de hacer predicciones para los
nuevos casos. De hecho, un prominente y exitoso lnea de
investigacin en el aprendizaje de mquina comenz como un intento de
comprimir una gran base de datos de posibles finales de juego de
ajedrez y sus resultados en una estructura de datos de tamao
razonable. La estructura de datos elegida para esta empresa no era
un conjunto de reglas pero un rbol de decisin. La Figura 1.2
muestra una descripcin estructural de los datos de la lente de
contacto en el formulario de un rbol de decisiones, lo que para
muchos propsitos es una representacin ms conciso y perspicaz de las
normas y tiene la ventaja de que puede ser visualizado ms
fcilmente. (Sin embargo, este rbol de decisiones, en contraste con
el conjunto de reglas dado en la Figura 1.1, clasifica dos ejemplos
incorrectamente.) El rbol de llama primero para una prueba de la
tasa de la produccin de lgrimas, y las dos primeras ramas
corresponden a los dos resultados posibles. Si el desgarro tasa de
produccin se reduce (la rama de la izquierda), el resultado es
ninguno. Si es normal (La rama derecha), se hace una segunda
prueba, esta vez sobre el astigmatismo. Eventualmente, cualquiera
que sea el resultado de las pruebas, se llega a una hoja del rbol
que dicta el recomendacin de lentes de contacto para ese caso. La
cuestin de cul es la ms natural y de fcil comprensin para el
formato la salida de una mquina de aprendizaje esquema es el que
vamos a volver en el captulo 3.Iris: A Classic Conjunto de datos
numricos El conjunto de datos del iris, que se remonta al trabajo
seminal por el eminente estadstico R. A. Fisher en el mid- 1930 y
es sin duda el ms famoso conjunto de datos utilizados en la minera
de datos, contiene 50 ejemplos de cada uno de tres tipos de
plantas: Iris setosa, Iris versicolor, e Iris virginica. Esto es un
extracto en la Tabla 1.4. hay cuatro atributos: longitud spalo,
anchura del spalo, ptalo de longitud, y la anchura de ptalos (todo
medido en centmetros). desemejante los conjuntos de datos
anteriores, todos los atributos tienen valores que son numrico. El
siguiente conjunto de reglas podra aprender de este conjunto de
datos:Si la longitud de ptalos