Page 1
UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS
FACULTAD DE MATEMÁTICA, FÍSICA Y COMPUTACIÓN
Licenciatura en Ciencia de la Computación
Tesis de Diploma
Título: “Medidas de bondad de ajuste para
análisis de regresión borrosa”
Autor:
Luis Miguel Bermúdez Pérez – Borroto
Tutores:
Lic. Lisset Denoda Pérez
Dra. Gladys Casas Cardoso
Santa Clara, Cuba, 2014
Page 2
i
El que suscribe, Luis Miguel Bermúdez Pérez-Borroto, hago constar que el trabajo titulado
―Medidas de bondad y ajuste para análisis de regresión borrosa‖ fue realizado en la
Universidad Central ―Marta Abreu‖ de Las Villas como parte de la culminación de los
estudios de la especialidad de Ciencia de la Computación, autorizando a que el mismo sea
utilizado por la institución, para los fines que estime conveniente, tanto de forma parcial como
total y que además no podrá ser presentado en eventos ni publicado sin la autorización de la
Universidad.
Firma del autor
Los abajo firmantes, certificamos que el presente trabajo ha sido realizado según acuerdos de
la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo
de esta envergadura referido a la temática señalada.
Firma del tutor Firma del jefe del Laboratorio
Fecha
Page 3
AGRADECIMIENTOS
ii
AGRADECIMIENTOS
A mi mamá, por ser mi sostén, por su dedicación, amor y constante sacrificio
durante toda mi vida, por ser una madre tan especial y por ser guía esencial en mi
formación como persona.
A mi papá, por estar siempre preocupado por mi carrera, por mí y por mi
bienestar.
A mi abuela, una persona muy importante en mi vida, por su sacrificio y
preocupación, por estar siempre presente en mi vida.
A mi hermana, por su apoyo y amor incondicional.
A mi tía Grey y a Feli, por su cariño, interés y preocupación por mi formación.
A Janet, que es como mi hermana, por estar siempre presente, por ser mi gran
amiga y por su apoyo en mi formación profesional.
A Liset, por ser una gran amiga, y por su gran apoyo en momentos difíciles de mi
carrera.
A todos mis amigos de la carrera: Luis Javier, Salvador, Sady, Dueñas, Víctor, por
ser personas tan importantes y especiales.
A Daynel, por ser un gran amigo, y por estar siempre presente.
A mis magníficas tutoras: Lisset y Gladyta, por su apoyo, confianza y ayuda
incondicional.
Y a todos mis compañeros de la carrera que durante cinco años compartimos
grandes momentos.
Luis Miguel
Page 4
RESUMEN
iii
RESUMEN
En este trabajo de diploma se presentan algunos conceptos de la teoría de conjuntos borrosos.
Se definen los números borrosos triangulares y se exponen los elementos fundamentales de la
regresión borrosa haciendo especial énfasis en las Medidas de bondad de ajuste.
Se presentan los aspectos principales del análisis, diseño e implementación del software
experimental ―GOF 1.0‖.
Se muestran la forma en que se realizaron los experimentos para llevar a cabo un análisis más
profundo sobre los resultados obtenidos a través de pruebas no paramétricas, procedimientos
estadísticos y diferentes gráficos.
Page 5
ABSTRACT
iv
ABSTRACT
Some concepts of the Fuzzy Set Theory are presented in this diploma work. Triangular fuzzy
numbers are defined, and the fundamental elements of fuzzy regression with particular
emphasis on goodness of fit measures are presented.
The main aspects of analysis, design and implementation of experimental software "GOF 1.0"
are presented.
Through all this work is explained how the experiments were performed to carry out a deeper
analysis of the results obtained through nonparametric tests, different statistical procedures
and graphics.
Page 6
TABLA DE CONTENIDO
v
TABLA DE CONTENIDOS
AGRADECIMIENTOS ................................................................................................................ i
RESUMEN ................................................................................................................................... i
ABSTRACT ................................................................................................................................. i
TABLA DE CONTENIDOS ...................................................................................................... ii
LISTA DE FIG URAS ................................................................................................................ 1
INTRODUCCIÓN ....................................................................................................................... 1
Capítulo 1 Regresión borrosa. Medidas de bondad de ajuste ...................................................... 5
1.1 Conjuntos borrosos .......................................................................................................... 5
1.2 Números borrosos ............................................................................................................ 6
1.2.1Números borrosos triangulares..................................................................................... 9
1.3 Regresión lineal múltiple ................................................................................................. 10
1.4 Análisis de regresión borrosa ........................................................................................ 13
1.4.1 Regresión borrosa ...................................................................................................... 13
1.4.2 Regresión borrosa posibilística introducida por Hideo Tanaka ................................ 15
1.4.3 Modelo de Regresión Borrosa introducido por Shakouri y Nadimi.......................... 16
1.4.4 Modelo de Savic y Pedrycs ....................................................................................... 17
1.5 Comparación entre la Regresión Clásica y la Regresión Borrosa ................................... 18
1.6Medidas de bondad de ajuste en la regresión lineal múltiple ........................................... 19
1.6.1Coeficiente de determinación ............................................................................... 19
1.6.2 Coeficiente de determinación ajustado ................................................................ 20
1.6.3 Criterio de Akaike (AIC) y criterio Bayesiano de Schwarz (SBC) .......................... 20
Page 7
TABLA DE CONTENIDO
vi
1.7 Medidas de bondad de ajuste en la regresión borrosa ..................................................... 21
1.7.1 Medidas de ajuste de tendencia central ..................................................................... 23
1.7.2 Índice de Bondad del Ajuste SIM1 ............................................................................ 24
1.7.3 Índice de Bondad del Ajuste SIM2 ............................................................................ 25
1.7.4 Índice de bondad del ajuste SIM3 .............................................................................. 25
1.7.5 Índice de Bondad del Ajuste SIM4 ............................................................................ 26
1.7.6 Índice de Bondad del Ajuste SIM5 ............................................................................ 26
1.7.7 Índice integrado ......................................................................................................... 27
1.8 Procesamiento estadístico ................................................................................................ 27
1.8.1 Análisis descriptivo de datos ..................................................................................... 27
1.8.2 Gráficos de cajas y bigotes ........................................................................................ 28
1.8.3 Gráficos de máximo, mínimo y cierre ....................................................................... 30
1.8.4 Pruebas no paramétricas ............................................................................................ 30
Prueba de Mann Whitney ............................................................................................... 30
1.9 Consideraciones finales ................................................................................................... 32
Capítulo 2 Análisis e implementación del Software ―GOF 1.0‖. Diseño de experimentos ...... 33
2.1 Análisis de la herramienta ............................................................................................... 33
2.2 Diagrama de casos de uso ................................................................................................ 34
2.3 Diagrama de clases .......................................................................................................... 34
2.4 Diagrama de Actividades ................................................................................................. 36
2.5 Implementación del software ........................................................................................... 37
2.6 Diseño de los experimentos ............................................................................................. 38
2.6.1 Experimento 1 ―Buen y Mal Ajuste‖ ........................................................................ 38
Page 8
TABLA DE CONTENIDO
vii
Una variable independiente (Regresión lineal simple) ................................................... 38
Dos variables independientes (Regresión lineal múltiple) ............................................. 40
2.6.2 Experimento 2 ―Extensiones cercanas y alejadas‖ .................................................... 41
Una variable independiente (Regresión lineal simple) ................................................... 41
Dos variables independientes (Regresión lineal múltiple) ............................................. 42
2.7 Consideraciones finales ................................................................................................... 43
Capítulo 3 Manual de usuario y Análisis de los Resultados...................................................... 44
3.1 Manual de Usuario ........................................................................................................... 44
3.1.1 Requerimientos del sistema ....................................................................................... 44
3.1.2 Ficheros de entrada.................................................................................................... 44
3.1.3Ventana Inicial del Software ...................................................................................... 45
3.1.4 Ventana Principal ...................................................................................................... 46
3.1.4.1 Menú Ficheros (ver Fig ura 3.4) ......................................................................... 46
3.1.4.2 Abrir ................................................................................................................... 46
3.1.4.2 Ver Datos ............................................................................................................ 47
3.1.4.4 Guardar ............................................................................................................... 48
3.1.4.5 Botón Ayuda ....................................................................................................... 49
3.2 Análisis de los Resultados ............................................................................................. 49
3.2.1 Experimento 1 ―Valores con buen y mal ajuste‖ ...................................................... 49
Una variable independiente ............................................................................................ 49
Dos variables independientes ......................................................................................... 57
3.2.2 Experimento 2‖Extensiones cercanas y alejadas‖ ..................................................... 67
Una variable independiente ............................................................................................ 67
Page 9
TABLA DE CONTENIDO
viii
Dos variables independientes ......................................................................................... 74
3.3 Aplicación a la tasa de cambio del Euro .......................................................................... 84
3.4 Consideraciones finales del capítulo ............................................................................... 86
CONCLUSIONES ..................................................................................................................... 87
RECOMENDACIONES ........................................................................................................... 88
BIBLIOGRAFÍA ....................................................................................................................... 89
ANEXOS ................................................................................................................................... 93
Page 10
LISTA DE FIGURAS
ix
LISTA DE FIGURAS
Fig 1.1 Número borroso .............................................................................................................. 7
Fig 1.2 Forma general de un número borroso ............................................................................. 8
Fig 1.3 Número borroso triangular .............................................................................................. 9
Fig 1.4 Gráfico de vajas y bigotes ............................................................................................. 29
Fig 1.5 Gráfico de máximo, mínimo y cierre ........................................................................... 30
Fig 2.1 Diagrama de UML ........................................................................................................ 33
Fig 2.2 Diagrama de casos de uso ............................................................................................. 34
Fig 2.3 Diagrama de clases ........................................................................................................ 35
Fig 2.4 Diagrama de Actividad.................................................................................................. 37
Fig 3.1 Fichero de entrada al sistema ........................................................................................ 45
Fig 3.2 Interfaz principal de la aplicación ................................................................................. 45
Fig 3.3 Ventana principal del software ...................................................................................... 46
Fig 3.4 Menú Ficheros ............................................................................................................... 46
Fig 3.5 Botón Abrir en el Menú Ficheros .................................................................................. 47
Fig 3.6 Acceso directo del botón Abrir ..................................................................................... 47
Fig 3.7 Seleccionar Ver Datos ................................................................................................... 47
Fig 3.8 Acceso directo del botón Ver Datos .............................................................................. 48
Fig 3.9 Ejemplo de resultados calculados ................................................................................ 48
Fig 3.10 Botón Guardar en el Menú Ficheros ........................................................................... 48
Fig 3.11 Manual de usuario ....................................................................................................... 49
Fig 3.12 Gráfico de cajas y bigotes del SIM2 por cantidad de datos ......................................... 50
Page 11
LISTA DE FIG URAS
x
Fig 3.13 Gráfico de cajas y bigotes de Sim3 por cantidad de datos ........................................... 50
Fig 3.14 Gráfico de cajas y bigotes de Sim4por cantidad de datos ............................................ 51
Fig 3.15 Gráfico de cajas y bigotes para el R2Borroso por cantidad de datos........................... 51
Fig 3.16 Gráfico de cajas y bigotes para la Correlación híbrido por cantidad de datos ............ 52
Fig 3.17 Gráfico de máximo, mínimo y cierre para MSIM23 .................................................... 53
Fig 3.18 Gráfico de máximo, mínimo y cierre para MSIM24 .................................................... 54
Fig 3.19 Gráfico de máximo, mínimo y cierre para MSIM34 .................................................... 54
Fig 3.20 Gráfico de máximo, mínimo y cierre para MaxSIM ................................................... 55
Fig 3.21 Gráfico de máximo, mínimo y cierre para MinSIM ................................................... 55
Fig 3.22 Gráfico de máximo, mínimo y cierre para MSIM234 ................................................... 56
Fig 3.23 Gráfico de máximo, mínimo y cierre para SumSIM .................................................. 56
Fig 3.24 Gráfico de cajas y bigotes para el índice SIM2 por cantidad de datos ........................ 57
Fig 3.25 Gráfico de cajas y bigotes para el índice SIM3 por cantidad de datos ........................ 58
Fig 3.26 Gráfico de cajas y bigotes para el índice SIM4 por cantidad de datos ........................ 58
Fig 3.27 Gráfico de cajas y bigotes para el índice R2Borroso por cantidad de datos ................ 59
Fig 3.28 Gráfico de cajas y bigotes para la Correlación Híbrida por cantidad de datos ........... 59
Fig 3.29 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto
M23 ............................................................................................................................................. 61
Fig 3.30 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto
M24 ............................................................................................................................................. 61
Fig 3.31 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto
M34 ............................................................................................................................................. 62
Fig 3.32 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto
MaxSim ..................................................................................................................................... 62
Page 12
LISTA DE FIG URAS
xi
Fig 3.33 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto
MinSim ...................................................................................................................................... 63
Fig 3.34 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2
Borroso y Correlación Hibrido .................................................................................................. 64
Fig 3.36 Gráfico de barras para las medidas propuestas filtrado por buen ajuste ..................... 66
Fig 3.38 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 67
Fig 3.39 Gráfico de cajas y bigotes para el índice SIM3teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 68
Fig 3.40 Gráfico de cajas para el índice SIM4teniendo en cuenta extensiones cercanas y lejanas
................................................................................................................................................... 68
Fig 3.41 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas
y lejanas ..................................................................................................................................... 69
Fig 3.42 Gráfico de cajas y bigotes para la Correlación híbrido teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 69
Fig 3.43 Gráfico de cajas para la Correlación híbrido teniendo en cuenta extensiones cercanas
y alejadas ................................................................................................................................... 74
Fig 3.44 Gráfico de máximo, mínimo y cierre para MaxSIM con extensiones cercanas y
alejadas. ..................................................................................................................................... 71
Fig 3.45 Gráfico de máximo, mínimo y cierre para la M23con extensiones cercanas y alejadas
................................................................................................................................................... 70
Fig 3.46 Gráfico de máximo, mínimo y cierre para MinSIM con extensiones cercanas y
alejadas. ..................................................................................................................................... 72
Fig 3.47 Gráfico de máximo, mínimo y cierre para M24 con extensiones cercanas y alejadas.
................................................................................................................................................... 70
Page 13
LISTA DE FIG URAS
xii
Fig 3.48 Gráfico de máximo, mínimo y cierre para M34 con extensiones cercanas y alejadas.
................................................................................................................................................... 71
Fig 3.49 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y
alejadas. ..................................................................................................................................... 72
Fig 3.50 Gráfico de máximo, mínimo y cierre para SumSIM con extensiones cercanas y
alejadas. ..................................................................................................................................... 73
Fig 3.51 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 75
Fig 3.52 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 75
Fig 3.53 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta extensiones
cercanas y lejanas ...................................................................................................................... 76
Fig 3.54 Gráfico de cajas y bigotes para elR2
Borroso teniendo en cuenta extensiones cercanas
y lejanas ..................................................................................................................................... 76
Fig 3.55 Gráfico de cajas y bigotes para la medida Correlación híbrido teniendo en cuenta
extensiones cercanas y lejanas ................................................................................................... 77
Fig 3.56 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y
alejadas. ..................................................................................................................................... 79
Fig 3.57 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y
alejadas ...................................................................................................................................... 80
Fig 3.58 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y
alejadas ...................................................................................................................................... 80
Fig 3.59 Gráfico de máximo, mínimo y cierre para la M23 con extensiones cercanas y alejadas
................................................................................................................................................... 78
Fig 3.60 Gráfico de máximo, mínimo y cierre para la M24 con extensiones cercanas y alejadas
................................................................................................................................................... 78
Page 14
LISTA DE FIG URAS
xiii
Fig 3.61 Gráfico de máximo, mínimo y cierre para la M34 con extensiones cercanas y alejadas
................................................................................................................................................... 79
Fig 3.62 Gráfico de máximo, mínimo y cierre para la MSIM con extensiones cercanas y
alejadas ...................................................................................................................................... 81
Fig 3.63 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y
alejadas ..................................................................................... ¡Error! Marcador no definido.
Fig 3.64 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y
alejadas ...................................................................................................................................... 81
Fig 3.65 Gráfico de máximo, mínimo y cierre para la SumSIM con extensiones cercanas y
alejadas ...................................................................................................................................... 82
Fig 3.66 Gráfico de barras correspondiente a las mediadas clásicas para el experimento 2 con
dos variables .............................................................................................................................. 83
Fig 3.67 Gráfico de barras correspondiente a las mediadas propuestas para el experimento 2
con dos variables ....................................................................................................................... 84
Page 15
INTRODUCCIÓN
1
INTRODUCCIÓN
La Regresión Borrosa aparece en la historia de los análisis de regresión en 1982 (Tanaka et al.,
1982), gracias a Hideo Tanaka y sus colaboradores. El análisis de regresión borrosa se
fundamenta en el análisis de regresión tradicional de la estadística e intenta extender su
aplicación a datos que pueden modelarse a través de subconjuntos borrosos.
El análisis de regresión borrosa ha sido estudiado y aplicado en diferentes áreas tal como la
modelación de datos económicos o financieros (Aguilera Cuevas and Rodríguez Betancourt,
1999), la ingeniería de software (Conte et al., 1986), el reconocimiento de un patrón de
estimación humana (Romero Cortés and Aguilar Vázquez, 1999).
La lógica borrosa estudia elementos de la lógica tradicional aplicados a valores borrosos. Los
elementos de un conjunto borroso son pares ordenados que indican el valor del elemento y su
grado de pertenencia a dicho conjunto. De esta manera, la lógica borrosa maneja la
incertidumbre presente en la estructura de un conjunto de datos. Los conjuntos borrosos fueron
introducidos por primera vez en 1965, por Zadeh (Zadeh, 1965), pero sus orígenes se
remontan hasta 2,500 años.
La lógica borrosa (Morales Martínes, 2010) puede ser vista como un ―lenguaje‖ que permite
trasladar sentencias del lenguaje natural a un lenguaje matemático formal. Mientras la
motivación original fue ayudar a manejar aspectos imprecisos del mundo real, la práctica
temprana de la lógica borrosa permitió el desarrollo de aplicaciones prácticas. Aparecieron
numerosas publicaciones que presentaban los fundamentos básicos con aplicaciones
potenciales. Esta fase marcó la fuerte necesidad de distinguir la lógica borrosa de la poderosa
teoría de las probabilidades.
Por su parte, la bondad de ajuste (GOF por sus siglas en inglés) de un modelo estadístico
describe la calidad con la que se ajusta una serie de observaciones a un modelo. Las medidas
de bondad no son más que las discrepancias entre los valores observados y los valores
estimados en virtud de un modelo estadístico. Las medidas de bondad son frecuentemente
Page 16
INTRODUCCIÓN
índices con contribuciones muestrales conocidas, generalmente obtenidas utilizando métodos
asintóticos, que se utilizan en las pruebas de hipótesis estadísticas. Una gran cantidad de
investigaciones mediante estudios de simulación se han dedicado a investigar en qué
condiciones los p-valores asintóticos de las medidas de bondad estadísticas son exactas (es
decir, el tamaño de la muestra debe ser para los modelos de diferentes tamaños).
La evaluación del ajuste de un modelo absoluto (es decir, la discrepancia entre un modelo y
los datos) es crítica en las aplicaciones. Los investigadores deben examinar no sólo el ajuste
global de sus modelos, sino que también debe formar una evaluación a trozos. Es muy posible
que un modelo se ajuste bien en general, pero que se ajuste mal en algunas partes de los datos,
lo que sugiere el uso de un modelo alternativo. La evaluación de bondad de ajuste puede
también revelar la fuente de los modelos mal ajustados.
Por lo tanto, podemos clasificar la evaluación de medidas de bondad de ajuste utilizando dos
útiles dicotomías: índices de bondad de ajuste frente a índices de bondad estadísticos y ajuste
absoluto frente a forma relativa. A su vez, los índices y medidas de bondad estadísticas pueden
ser clasificados como globales o por partes (García, 2010).
Este constituye en esencia el problema científico que le da origen a la presente tesis.
Como objetivo general se plantea: ―Determinar las medidas de bondad de ajuste que mejor
caractericen los modelos de regresión borrosa‖.
Para lograr dicho objetivo general, se proponen los objetivos específicos siguientes:
1. Seleccionar las medidas de bondad de ajuste más importantes reportadas en la
literatura.
2. Proponer, a partir de las medidas estudiadas, otras nuevas para calcular la bondad
del ajuste de los modelos de regresión borrosa posibilística.
3. Diseñar e implementar un sistema informático que permita calcular las medidas
seleccionadas.
4. Realizar experimentos con datos simulados para caracterizar las medidas
implementadas.
Page 17
INTRODUCCIÓN
5. Mostrar un ejemplo real.
Además, se formularon las siguientes preguntas de investigación:
1. ¿Cuáles son las medidas de bondad de ajuste para modelos de regresión borrosa
más relevante existente en la literatura?
2. ¿Cuáles son sus ventajas y desventajas?
3. ¿Cómo diseñar experimentos con datos simulados de manera que se seleccionen las
mejores medidas para comparar modelos de regresión borrosa?
Justificación de la investigación
Los métodos de regresión borrosa son una alternativa más para solucionar problemas de
regresión. Ellos manejan adecuadamente la incertidumbre presente en los problemas reales por
lo que sus aplicaciones aumentan cada día. Se hace necesario contar con medidas de bondad
de ajuste que permitan comparar modelos de manera certera, con el propósito de seleccionar
los mejores.
Las medidas que se han utilizado con estos fines en el laboratorio de Bioinformática son el
SIM3 y el Borroso, este último no siempre ofrece resultados buenos. Existen muchas otras
medidas reportadas en la literatura que no se han estudiado aún, lo que justifica realizar una
investigación en este campo.
El primer paso para la realización de este trabajo fue la confección del marco teórico. Para ello
se realizó una amplia revisión de la literatura consultando libros, artículos y páginas de
internet, entre otras fuentes. Sus elementos esenciales se encuentran expuestos de manera
resumida en el primer capítulo de la presente tesis. Como conclusión de la elaboración del
marco teórico se enuncia la siguiente hipótesis de investigación:
H1: ―No todas las medidas de bondad de ajuste reportadas en la literatura miden la calidad del
ajuste de los modelos de regresión borrosa‖
H2: ―A partir de las mejores medidas, se construyen otras que caracterizan la bondad del ajuste
de los modelos de regresión borrosa.‖
Page 18
INTRODUCCIÓN
El trabajo está formado por tres capítulos. El primer capítulo está enmarcado sobre el estudio
de la lógica borrosa, los números borrosos triangulares, se realiza un breve introducción
referente a las Medidas de bondad de ajuste en la regresión múltiple y un especial énfasis en
las Medidas de bondad de ajuste para la regresión borrosa, así como un estudio sobre
procedimientos estadísticos: análisis descriptivos de datos, gráficos de cajas y gráficos de
máximos, mínimos y cierre; así como pruebas no paramétricas. El segundo capítulo aborda lo
relacionado con el diseño, análisis e implementación del software GOF 1.0, y como se
realizaron los diseños de los experimentos para una y dos variables. Por su parte el capítulo
tercero muestra el manual de usuario de la aplicación y un análisis de los experimentos
realizados con datos simulados y finalmente con datos de una aplicación real. Los capítulos
finalizan con una conclusión parcial de los aspectos más importantes abordados. El trabajo
finaliza con las conclusiones generales y las recomendaciones para trabajos posteriores, así
como la relación con la bibliografía.
Page 19
CAPÍTULO 1
Capítulo 1 Regresión borrosa. Medidas de bondad de ajuste
En este capítulo se expone una breve teoría de los conjuntos borrosos; se analiza la regresión
lineal múltiple así como la regresión lineal borrosa posibilística. Se hace énfasis en las
medidas de bondad de ajuste para ambos tipos de regresión. Se menciona las herramientas
estadísticas de análisis descriptivo y pruebas no paramétricas utilizadas en el presente trabajo.
1.1 Conjuntos borrosos
La matemática de conjuntos borrosos que podría denominarse como clásica, se basa en la
lógica aristotélica fundamentada en el principio que muestra que una proposición únicamente
puede ser verdadera o falsa (1,0 respectivamente), pero no ambas cosas a la vez, es decir no
existiendo ningún grado de verdad intermedio. Como consecuencia de dicho principio, en la
teoría de conjuntos, para un subconjunto A definido sobre un conjunto universo o referencial
X, un elemento del universo pertenece o no pertenece a dicho conjunto A, es decir, no existe
ningún tipo de ambigüedad sobre su pertenencia.
Matemáticamente la pertenencia a un conjunto se expresa a través de una función
característica )(xA que asigna valores a todos los elementos de A en el conjunto
discreto(Aranguren and Muzachiodi, 2003). Dicho valor es 0 cuando el elemento no pertenece
al conjunto y 1 cuando el elemento pertenece totalmente. Es decir, matemáticamente la
función característica viene dada por:
Ax
AxxXx
X
A
A
0
1)(
}1,0{:
(1.1)
Del principio del tercero excluido se deriva el principio de exclusión. Este indica que si un
elemento x del universo X pertenece a un conjunto A, no pertenece a su complemento, cA y
viceversa. Matemáticamente podemos expresar el principio de exclusión como:
0)(1)(, xxsiXx cAA (1.2)
Page 20
CAPÍTULO 1
Un conjunto borroso es un conjunto para el cual la pertenencia de un elemento está definida de
forma borrosa. Así, si se denomina X como al universo o conjunto referencial, un subconjunto
borroso, que se denotará de la siguiente manera A , es aquel en el que la pertenencia de un
elemento Xx tiene asignado un nivel de verdad que puede tomar valores en el conjunto
continuo [0,1]. El nivel de pertenencia de un elemento x vendrá dado por su función de
pertenencia o función característica )(xA . Así, se puede definir a un subconjunto borroso
como }|))(,{( XxxxAA
siendo la función de pertenencia:
]1,0[)(
]1,0[:
xXx
X
A
A
(1.3)
Donde 0 indica la no pertenencia al conjunto A y 1 la pertenencia absoluta. Evidentemente,
existe una degradación del nivel de pertenencia de forma que si ( ) , el nivel de
pertenencia del elemento x es muy elevado, y si ( ) el nivel de pertenencia de x es
muy bajo. Así puede interpretarse como el grado en que un elemento particular que se
considera cumple con las especificaciones que definen a los elementos del conjunto en
cuestión y no debe interpretarse como la probabilidad de pertenencia. Si la probabilidad de
que un elemento x pertenece al conjunto A es de 0.9 y se afirma que x pertenece al conjunto
A , tenemos un 90 % de probabilidad de acertar, pero el elemento intrínsecamente pertenece o
no pertenece a A . Cuando se dice que la función de pertenencia de x es 0.9 se quiere decir
que cumple en nuestro criterio con el 90% de las características que definen los elementos del
conjunto A . En resumen, la probabilidad indica incertidumbre estadística mientras que la
función de pertenencia indica vaguedad y subjetividad. Además, se puede observar que un
conjunto ordinario o ―crisp‖ es un caso particular de un conjunto borroso, para el cual
únicamente se diferencian dos niveles de pertenencia: la pertenencia absoluta y la no
pertenencia.
1.2 Números borrosos
Un número borroso es expresado como un conjunto borroso definiendo un intervalo borroso
en los números reales . Como la frontera de este intervalo es ambigua, el intervalo es
Page 21
CAPÍTULO 1
además un conjunto borroso. Generalmente un intervalo borroso se representa por dos puntos
extremos 1a y 3a , y un punto central 2a que es el punto en donde se alcanza el valor máximo
como ],,[ 321 aaa . (Figura 1.1)
Fig 1.1 Número borroso
Un número borroso es un subconjunto borroso N definido sobre la recta real y que cumple
además las siguientes propiedades.
1. Es normal, es decir, que el núcleo de N es no vacío o lo que es lo mismo, existe al
menos un elemento x de tal que 1)( xN
2. Es convexo, geométricamente quiere decir que los α-cortes de N son intervalos
cerrados y acotados.
3. El soporte de N está acotado.
4. La función de pertenencia es seccionalmente continua.
Los números borrosos constituyen una herramienta valiosa para representar cantidades
estimadas u observadas en el contexto de la lógica borrosa. Varios autores diferencian dentro
del concepto de número borroso de acuerdo a si su núcleo es un valor real o si el núcleo es un
intervalo de confianza. En nuestro caso no distinguimos a los números borrosos por la forma
que se utilice para representar su núcleo.
Son muchos los ejemplos prácticos en los que el grado de pertenencia de un determinado
elemento del universo X se puede expresar como una función de una característica
medible del mismo. El valor que toma un elemento x en la función de pertenencia de N ,
Page 22
CAPÍTULO 1
)(xN es interpretado por muchos autores como una ―medida‖ de la posibilidad de ocurrencia
de x, así el número borroso N es interpretado como una distribución de posibilidad.
De forma general la función de pertenencia de un número borroso N puede escribirse como:
casootroen
axaxg
axa
axaxf
xN
0
)(
1
)(
)(43
32
21
(1.4)
El intervalo de confianza ],[ 41 aa es el soporte del número borroso y ],[ 32 aa es el núcleo del
número borroso. Asimismo f(x) es creciente en el intervalo ],[ 21 aa y g(x) es decreciente en el
intervalo ],[ 43 aa (ver Fig ura 1.2)
Fig 1.2 Forma general de un número borroso
Sin embargo, en muchas ocasiones será más práctico operar con su representación a través de
sus conjuntos de nivel o α-cortes. Estos son intervalos de confianza que se pueden representar
como:
)](),([)](),([})(|{ 21
11 nngfxxNN
(1.5)
Donde ))(()( 21 nn serán funciones crecientes (decrecientes de ) con )()( 21 nn
Page 23
CAPÍTULO 1
1.2.1 Números borrosos triangulares
Los números borrosos triangulares son los más usados en la práctica por su relativa comodidad
de manipulación. Sin embargo muchos autores han cuestionado su utilización indiscriminada.
Un número borroso triangular (NBT) tiene, como su nombre lo indica, la forma triangular
mostrada en la Figura 1.3.
Fig 1.3 Número borroso triangular
La función de pertenencia para este número borroso triangular viene dada por:
casootroen
axasiaa
xa
axasiaa
ax
xA
0
)( 32
23
3
21
12
1
(1.6)
donde el soporte viene dado por ],[ 31 aa , su extensión izquierda es 12 aap y su extensión
derecha es 23 aaq .Por tanto sus - cortes vienen dados por:
)](),([])(,)([ 21233121 aaaaaaaaA (1.7)
donde en este caso se sabe que A es un intervalo cerrado y acotado para 10 donde:
1. )(1 a será una función monótona creciente de en el intervalo [0,1]
2. )(2 a será una función monótona decreciente de para 10
Page 24
CAPÍTULO 1
3. )1()1( 21 aa
La monotonía creciente (decreciente) se demuestra, como es usual, probando que se cumple la
relación )0
)((0
)( 21
d
da
d
da
(Buckley, 2006) (1.8)
Un número borroso triangular se denota mediante su centro y sus extensiones en la forma
, o alternativamente mediante una terna de confianza donde los valores que la
componen son el valor más pequeño posible, el valor de mayor pertenencia o el valor central y
el valor más elevado posible, es decir ],,[ 321 aaaA .
Como se puede observar la función de pertenencia de un número borroso triangular es lineal.
La extensión izquierda es la recta que pasa por )0,( 1a y )1,( 2a y la extensión derecha es la
recta que toma valores en )1,( 2a y )0,( 3a .
1.3 Regresión lineal múltiple
En el análisis de regresión múltiple, la ecuación de regresión define un hiperplano en un
espacio multidimensional, si se dispone de una muestra:
{( ) ( ) ( ) ( ) , la ecuación con m variables independientes tendría
la siguiente forma:
0 1 1 2 2 m mY x x x (1.9)
Donde representa el error de estimación.
Esta ecuación de regresión mínimo-cuadrática se construye estimando los valores de los
coeficientes , del modelo de regresión. Estas estimaciones se obtienen
intentando hacer que las diferencias al cuadrado entre los valores observados y los
pronosticados sean mínimas.(Herrera Pallares, 2012)
Este modelo se basa en una serie de supuestos como:
Linealidad. La ecuación de regresión adopta la forma de un modelo lineal El incumplimiento
del supuesto de linealidad suele denominarse error de especificación. Algunos ejemplos son:
omisión de variables independientes importantes, inclusión de variables independientes
Page 25
CAPÍTULO 1
irrelevantes, no linealidad (la relación entre las variables independientes y la dependiente no es
lineal), entre otros.
1. Independencia. Los residuos son independientes entre sí.
2. Homocedasticidad. Para cada valor de la variable independiente (o combinación de
valores de las variables independientes), la varianza de los residuos es constante.
3. Normalidad. Para cada valor de la variable independiente (o combinación de valores
de las variables independientes), los residuos se distribuyen normalmente con media cero.
4. No-colinealidad. No existe relación lineal exacta entre ninguna de las variables
independientes. El incumplimiento de este supuesto da origen a colinealidad o
multicolinealidad.
Para probar normalidad, existe una amplia variedad de pruebas estadísticas. Entre las más
utilizadas se pueden mencionar:
1. Prueba de Shapiro –Wilks si 503 n (Shapiro and Wilk, 1965)
2. Prueba de Kolmogorov-Smirnov( )(Stephens, 1974)
3. Prueba de Jarque – Bera( )(Jarque and Bera, 1980, Jarque and Bera, 1981)
4. Prueba de Anderson - Darling (Anderson and Darling, 1952)
A continuación se explican brevemente todos ellos.
Prueba de Shapiro- WilksW
Se calcula el estadígrafo:
2
2
2
1
1
*
*
Spn
a
W
n
i
iini
(1.10)
donde los valores de ia dependen de n y se determinan mediante tablas y la suma se extiende
sólo hasta la parte entera inferior de 2
n debido a la simetría de la tabla.
Si WW se rechaza la hipótesis de normalidad a un nivel de confianza de 1 . Los
valores de W están también tabulados en la literatura.(Shapiro and Wilk, 1965)
Page 26
CAPÍTULO 1
Prueba de Kolmogorov - Smirnov
Se calculan los valores
y definidos cómo:
(( )
( ))
( ( )
)
(
) (1.11)
Asumiendo que las observaciones están ordenadas ascendentemente. Los valores calculados
(distribución empírica) son comparados con los valores de la distribución normal teórica. El
valor de la significación se obtiene a partir de tablas simuladas. (L’Ecuyer, 2012)
Prueba de Jarque-Bera
Jarque-Bera es un test de bondad de ajuste específicamente creado para probar normalidad.
Utiliza un estadístico en prueba que involucra la curtosis (K) y la asimetría (S) (Jarque and
Bera, 2006). Se calcula el estadígrafo JB:
(
( )
) (1.12)
Donde n es el tamaño de la muestra.
Es un test de bondad de ajuste específicamente usado para probar normalidad. Utiliza un
estadístico en prueba que involucra la curtosis y la asimetría(Jarque and Bera, 2006).
Prueba de Anderson - Darling
Se calcula el estadístico Anderson-Darling como:
∑ {( ) ( ( )) ( ) ( ( ))}
(1.13)
Asumiendo que los datos están ordenados ascendentemente y ( ) es laprobabilidad de
la función de distribución teórica para la observación j.(L'Ecuyer and Simard, 2002,
D'Agostino and Stephens, 1987)
Para poder crear un modelo de regresión válido, es necesario que se cumplan dichos
supuestos. En muchas ocasiones ellos son difíciles de verificar o se pasan por alto, ya sea
porque se cuenta con una pequeña cantidad de observaciones o porque éstas ni siquiera son
soportables por el tipo de problema y/o escalas de medición utilizadas. Si se tiene una muestra
pequeña, que ya puede contener cierto ruido, con función de probabilidad desconocida
Page 27
CAPÍTULO 1
(además es casi imposible el considerar todas las variables que son importantes o indicativas
para cualquier modelo), resultaría interesante suponer un modelamiento de tipo borroso (de-
los-Cobos-Silva et al., 2011)
1.4 Análisis de regresión borrosa
El uso de las técnicas de regresión sobre las observaciones experimentales ha permitido el
estudio de numerosos fenómenos en diversos campos de la ciencia como la Agricultura,
Química, Medicina, Medio Ambiente, Psicología, Biología, Economía lo que ha supuesto un
gran avance, no solo por los desarrollos matemáticos alcanzados sino también por su
aplicación en situaciones reales. Dichas técnicas requieren de un número suficiente de
observaciones ―precisas‖ y ―fiables‖. Sin embargo no siempre es posible obtener el conjunto
de observaciones requerido, o éstas contienen algún tipo de imperfección a consecuencia de la
imprecisión o vaguedad de los datos. En cualquier caso, los modelos obtenidos a partir de
datos reales (suficientes o no, con imperfecciones o no) deberían proveer de capacidades
predictivas y descriptivas (Crespo, 2002). En los modelos en donde los datos sean
insuficientes o imperfectos, originados por la imprecisión o vaguedad, se ha demostrado que
es útil el uso de un tratamiento difuso o borroso (Sugeno, 1985, B.M.Ayyub, 2001,
B.Izyumov, 2001, Folger, 1988, Nadipuram R, 1999, Boris, R.C. Tsaur, 1999).
El análisis de regresión borrosa ha sido estudiado y aplicado en diferentes áreas tal como la
modelación de datos económicos o financieros (Aguilera Cuevas, 1999), la ingeniería de
software (S. Conte, 1986), el reconocimiento de un patrón de estimación humana (José C
1999).
1.4.1 Regresión borrosa
En la regresión borrosa se asume que la relación entre la variable explicada y las explicativas
es lineal, pero en este caso si se dispone de una muestra 1 1 2 2{( , ),( , ),..., ( , ),...., ( , )}j j n nX Y X Y X Y X Y ,
las posibles divergencias que pudieran surgir entre la j-ésima observación de la variable
dependiente jY y su estimación ˆjY , se expresa mediante una relación borrosa del tipo:
mm xAxAxAAY ...22110 (1.14)
Page 28
CAPÍTULO 1
En (1.11), los coeficientes 0 1 2, , ,..., mA A A A , son números borrosos, por lo que el i-ésimo queda
caracterizado por
}10|)](),([{)}(,{ 21 iiiAi AAAxxAi
(1.15)
Es decir, las divergencias que se producen respecto a la teórica relación lineal no tiene
naturaleza aleatoria, sino borrosa. Así mismo se puede comprobar que el término de error no
queda introducido como sumando en el hiperplano, sino que es incorporado en los coeficientes
miAi ,...,2,1,0, , al asumirse que son números borrosos.
De forma análoga a la técnica de mínimos cuadrados, una vez que se disponga de la muestra,
nuestro objetivo debe ser ajustar los coeficientes iA .
Esta forma de modelación ofrece ciertas ventajas sobre la tradicional técnica de regresión:
1. Las estimaciones que se obtienen después de ajustar los coeficientes borrosos, no serán
variables aleatorias de difícil tratamiento numérico, sino que son números borrosos cuyo
tratamiento es más sencillo.
2. Si el fenómeno de estudio es de carácter económico o social, las observaciones que del
mismo se obtienen son consecuencia de la interacción entre las creencias, expectativas,
etc., entre los agentes que participan en dicho fenómeno y por tanto no es del todo
adecuado modelar dicho fenómeno utilizando la teoría probabilística.
En muchas circunstancias las observaciones de la variable dependiente, de la variable
independiente o de ambas no vienen dadas por un número cierto, sino por un intervalo. Por
ejemplo, el precio que se negocia en los mercados financieros durante una sesión para la venta
de barriles de petróleo o de un determinado activo difícilmente es único, sino que este suele
negociarse dentro de una banda delimitada por un precio máximo y por un precio mínimo.
Para utilizar las técnicas de mínimos cuadrados o la más sofisticada de máximo verosimilitud
deben cuantificarse las observaciones de la variable explicada (y explicativa) a través de un
único número, utilizándose por ejemplo el precio medio negociado, el más asequible o el
último precio en el modelo que se vaya a implementar. Es evidente que este proceder implica
una importante pérdida de información. Para efectuar los métodos de regresión borrosa no
Page 29
CAPÍTULO 1
hace falta reducir el valor de las variables observadas a un número real, cuando son
observados como intervalos, así podremos ajustar la relación funcional que busquemos
trabajando con todos los valores observados siendo posible entonces utilizar toda la
información disponible.
1.4.2 Regresión borrosa posibilística introducida por Hideo Tanaka
Nos ajustaremos a la formulación de Hideo Tanaka(Hideo, 1987, Tanaka Hideo, 1992).
En la relación niparaAxfy ii ,...,1),( se define el problema de regresión general. A partir
de dicha formulación se puede introducir un modelo de regresión borrosa sustituyendo el
número por el número borroso:
( ) (1.16)
Se supone que se tiene un conjunto inicial de n observaciones, donde los valores de entrada
son precisos y están representados en la matriz de valores reales (con i=1...n y j=1...m) y la
variable de salida es imprecisa siendo sus valores sujetos a funciones de pertenencia
triangulares con parámetros
El objetivo principal de la regresión borrosa es encontrar el o los coeficientes representados
por que tengan la menor incertidumbre posible.
En términos más generales, la relación general de regresión niparaAxfy ii ,...,1),( debe
cumplirse en términos borrosos, no sólo para el número borroso sino para sus niveles de h
.
En este estudio la función objetivo f será una función lineal definida por:
m
j
jj xAAAxf1
0 .),(
(1.17)
tendrá una función de pertenencia no simétrica . Las restricciones posibilísticas en
el caso general son:
Page 30
CAPÍTULO 1
niparaphLyXclhLXa ii
m
j
jij
m
j
jij ,...,1)()( 1
0
1
0
(1.18)
niparaqhRyXcrhRXa ii
m
j
jij
m
j
jij ,...,1)()( 1
0
1
0
(1.19)
mjparacrcl jj ,...,00;0 (1.20)
Si se consideran funciones de pertenencia triangulares (no necesariamente simétricas), por
ejemplo, funciones LR, las restricciones posibilísticas (1.17)-(1.18) se reducen a:
niparaphyXclhXa ii
m
j
jij
m
j
jij ,...,1)1())1(00
(1.21)
niparaqhyXcrhXa ii
m
j
jij
m
j
jij ,...,1)1())1(00
(1.22)
Esta última forma es la más habitual de plantear las restricciones posibilísticas de la regresión
borrosa.
1.4.3 Modelo de Regresión Borrosa introducido por Shakouri y Nadimi
En este nuevo enfoque posibilístico se propone una nueva función objetivo que minimiza la
suma de las distancias absolutas entre los centros observados y los valores estimados, en un
óptimo nivel de h. En este enfoque, h está incluido en la función objetivo y se estima de
manera óptima con alta exactitud. De esta manera, se estiman los coeficientes y h al mismo
tiempo.
Para reducir el error global del modelo de salida, se propone la siguiente función objetivo,
basado en una medida de igualdad, al intentar optimizar toda la incertidumbre del modelo
mediante la búsqueda de un valor óptimo para h:
∑ | ( ) | | ( ( ) )| | ( ) | | ( ( ) )| (1.23)
sujeto a:
∑ | ( )|∑ | | | ( )|
, i = 1,2,…, m (1.24)
Page 31
CAPÍTULO 1
∑ | ( )|∑ | | | ( )|
, i = 1,2,…,m (1.25)
;
| | ; a, c R; c 0
En comparación con el enfoque de Tanaka, la formulación del problema es mucho más
compleja(Shakouri and Nadimi, 2009), en el modelo de Tanaka el valor de h es introducido
por el investigador mientras que en este modelo se estiman simultáneamente los coeficientes y
el valor de h. Como la formulación es mucho más compleja puede requerir un mayor tiempo
de solución pero si se utilizan adecuados software de optimización (LINGO, GAMS) la
solución sólo requiere algunos segundos en una computadora moderna.
1.4.4 Modelo de Savic y Pedrycs
El planteamiento de la regresión borrosa de Tanaka está orientado a minimizar la
incertidumbre, no se preocupa por el comportamiento de la estimación de los valores
centrales. Sin embargo en la literatura se puede encontrar un modelo que incorpora una
estimación específica de la tendencia central desarrollado por Savic y Pedrycs (Savic and
Pedrycz, 1992)
Sakawa y Yano (Sakawa and Yano, 1992) propusieron cuatro modelos de regresión
posibilística.
Por otra parte en diversos trabajos se han tomado en consideración los índices de posibilidad y
necesidad de Dubois y Prade al comparar dos números borrosos (Dubois D, 1983).
1. Sakawa y Yano(Sakawa M. Yano, 1992) propusieron cuatro modelos de regresión
posibilística. Considerando la minimización de la siguiente función objetivo
∑ ∑ ( ) | |
, se definen las siguientes restricciones con el índice de
posibilidad
( ) (1.26)
2. Considerando la minimización de la misma función objetivo se definen las
restricciones con el índice de necesidad
Page 32
CAPÍTULO 1
( ) (1.27)
3. Considerando la maximización de la función objetivo ∑ ∑ ( ) | |
, se
definen las restricciones:
( ) (1.28)
4. Considerando la minimización de la misma función objetivo bajo los conjuntos de
restricciones:
∑ ( )∑ | |
(1.29)
∑ ( )∑ | |
(1.30)
Los autores plantean un modelo multi-objetivo para abordar estos cuatro problemas, puesto
que junto a la función objetivo indicada, plantean maximizar el valor de h. Sin embargo este
modelo ha sido muy criticado(Redden and Woodall, 1996) por ser muy sensible a los puntos
extremos y por producir en ciertas condiciones todos los estimadores como números
precisos(Modarres et al., 2004).
1.5 Comparación entre la Regresión Clásica y la Regresión Borrosa
La regresión borrosa permite el manejo de cantidades afectadas por imprecisión e
incertidumbre que no son manejables usando la regresión probabilística. Cuando se dispone de
pocas observaciones para hacer una regresión probabilística se añade a este problema la
dificultad de poder verificar los supuestos. En esta situación una alternativa de modelación
ventajosa es un modelo borroso que pueda incorporar un nivel de confianza posibilístico
(Chang and Ayyub, 2001, Izyumov et al., 2001, Kim et al., 1996, Klir and Folger, 1988,
Nadipuram, 1999, Sugeno, 1985, Tsaur and Wang, 1999).
La presencia de la incertidumbre en la regresión probabilística queda plasmada en los
intervalos de confianza, generalmente con un nivel del 95%, lo que es atribuido a factores
aleatorios. Esta es la única forma de incertidumbre que maneja la teoría de probabilidades.
Page 33
CAPÍTULO 1
La información que se dispone a priori de los problemas, generalmente se traduce en
restricciones a los modelos, éstas ayudan a obtener estimaciones más ajustadas a la realidad.
Estas restricciones también se pueden incorporar en algunos modelos de regresión
probabilística, pero con consecuencias para los supuestos de la fundamentación teórica de
tales modelos. Esto no ocurre en la regresión borrosa, donde la presencia de restricciones es
consustancial a su formulación por no estar limitada su formulación a tantos supuestos como
los de la regresión probabilística.
En el análisis de regresión borrosa, las desviaciones entre los valores de pertenencia
observados y los valores de pertenencia estimados se asume que dependen de la incertidumbre
de la estructura del modelo. En cambio en el análisis de regresión lineal clásica, las
desviaciones se suponen causadas por errores, de origen aleatorio, en las observaciones.
1.6 Medidas de bondad de ajuste en la regresión lineal múltiple
La regresión probabilística utiliza como principal indicador el coeficiente de determinación R2
(R-cuadrado) para indicar el porcentaje de la varianza de la variable dependiente que es
explicado por la regresión y el valor t para cada coeficiente estimado como una medida de la
significancia de la variable correspondiente.
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de
una medida que mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es
suficiente o se deben buscar modelos alternativos. Como medidas de bondad del ajuste se
utilizan: el ya mencionado , el ajustado y los criterios de Akaike y criterio Bayesiano de
Schwarz, entre otros. A continuación se brinda una breve explicación de cada uno de ellos.
1.6.1Coeficiente de determinación
El coeficiente de determinación representa la proporción de la varianza total que es explicada
por la regresión.
(1.31)
Donde es la cantidad de variables predictoras, SCE es la suma de cuadrados del error y SCT
es la suma cuadrada total.
Page 34
CAPÍTULO 1
El es una medida que puede utilizar se para determinar si se ha hecho un buen ajuste de X e
Y. Este valor varía entre 0 y 1. Por ejemplo, si puede afirmarse que el 90% de la
varianza total es explicada por la suma de cuadrados de la regresión, por lo tanto existe una
fuerte relación entre X e Y.
El valor del aumenta en la medida en que se incrementan las variables en el modelo. Por
tanto, no es correcto comparar el valor del de dos regresiones con un número de variables
explicativas diferentes.
1.6.2 Coeficiente de determinación ajustado
Elimina las desventajas del criterio anterior debido que el valor del coeficiente no
necesariamente aumenta con el número de variables en el modelo.
( )
( )
(1.32)
Donde n es la cantidad de observaciones.
Este criterio penaliza modelos con muchas variables predictoras por lo que es una opción
mejor que el para problemas bioinformáticos y quimioinformáticos que se caracterizan por
tener un gran número de variables predictoras.
1.6.3 Criterio de Akaike (AIC) y criterio Bayesiano de Schwarz (SBC)
Estos criterios también penalizan los modelos con muchas variables. Las medidas están dadas
por las ecuaciones:
( ) ( ) (1.33)
( ) ( ) ( ) (1.34)
Notar que para estos dos criterios el primer término es ( ). Este término decrece en
la medida en la que el número de variables en el modelo se incrementa.
Page 35
CAPÍTULO 1
1.7 Medidas de bondad de ajuste en la regresión borrosa
Para dimensionar la calidad del ajuste de cualquier regresión borrosa, se deben definir medidas
que muestren la similitud o divergencia entre los números observados y los números difusos
estimados.
En el contexto de regresión posibilística, se han desarrollado muy pocas medidas de bondad de
ajuste siendo la más conocidas la medida de divergencia de Kim y Bishu, que tiene el grave
inconveniente, de que no está normalizada, puesto que el numerador es independiente del
denominador. La otra medida propuesta en la literatura, el R2 híbrido sigue sin estar
normalizado, puesto que no es posible determinar su valor máximo. Tampoco el R2 tradicional
probabilístico esta normalizado en el ámbito difuso.
No son muchos los estudios de regresión borrosa que incorporan un estudio de bondad y ajuste
de los métodos propuestos. Incluso un extenso estudio comparativo (B.M.Ayyub, 2001), no
utiliza ningún índice de evaluación.
En este apartado, vamos a presentar un conjunto de medidas de bondad de ajuste, que controlan
diversos aspectos de la similitud entre dos números difusos y que nos van a servir para evaluar
la calidad de una estimación de regresión difusa. Luego de haberlas definido, se realizará a una
calificación de tales medidas para saber hasta qué punto cumplen con su objetivo.
Para considerar, en el ámbito de las comparaciones entre números difusos, medidas de ajuste
entre los datos originales y los datos estimados por la regresión difusa, los indicadores que se
definen parten de medidas de similitud (o divergencia) generales entre números (Zwick et al.,
1987)
La medida de Kim y Bishu (Kim B, 1998), empleada también por Kao y Chyu (Kao C, 2002 )
y Kao y Lin(Kao C, 2005) tiene en cuenta la divergencia entre el valor observado y el valor
estimado:
dxxxD
ii
ii
YSopYSop
YYi
ˆ
ˆ |)()(| (1.35)
También se considera una medida de divergencia relativa para cada una de las observaciones
estimadas:
Page 36
CAPÍTULO 1
dxx
DE
YSop Y
i
i
i
)( (1.36)
En(Chang Y, 2001b) se tiene como objetivo de la investigación construir índices de bondad de
ajuste. Estos índices son aplicados en (Mogilenko A, 2003). En esta propuesta se define un
coeficiente de Correlación híbrido como:
( ) ∑ ( )
∑ ( )
(1.37)
Donde representa el valor central de los datos estimados, yi los valores centrales observados
y la media de los centro de los datos observados.
Este indicador es idéntico al coeficiente de determinación de la regresión probabilística (R2),
con la diferencia que aquí se construye con la aritmética borrosa ponderada. Sin embargo el
índice puede tomar valores mayores que 1 (Chang Y, 2001a, Mogilenko A, 2003) lo que lo
hace menos atractivo que otros índices que fluctúan entre 0 y 1.
En (Hojati M., 2005) se pueden encontrar tres medidas de bondad y ajuste:
1. El porcentaje promedio de intervalos contenidos en los intervalos estimados.
2. El porcentaje promedio de los intervalos estimados contenidos en los intervalos
observados.
3. Una medida de similitud definida gráficamente como la proporción entre la
intersección de la función de pertenencia del dato estimado y del dato observado y la
unión de dichos números.
En (Sergio Donoso, 2006) se pueden encontrar seis medidas de bondad y ajuste normalizadas
(varían entre 0 y 1) que controlan diversos aspectos de la similitud entre dos números borrosos
y que evalúan la calidad de una estimación de regresión borrosa. Además se realiza una
calificación para saber hasta qué punto cumplen con su objetivo:
1. R2 Borroso mide las diferencias cuadráticas del valor central observado con el
valor central estimado.
Page 37
CAPÍTULO 1
2. SIM1 pondera las diferencias entre las distribuciones de posibilidad de iY e iY
incluyendo la totalidad de las funciones de pertenencia.
3. SIM2 mide las diferencias en el soporte, tanto del punto central como sus dos
extensiones, entre los valores de salida y sus respectivas estimaciones.
4. SIM3 mide las diferencias tanto de las extensiones como de la tendencia central.
5. SIM4 mide la diferencia máxima de las extensiones de los datos de entrada con sus
respectivas estimaciones.
6. SIM5 mide la proximidad de las funciones de pertenencia con un solo punto, el
supremo de la intersección.
Se considera a la representación del número borroso estimado ( ), a Yi a la
representación del número borroso observado (p, y, q).
1.7.1 Medidas de ajuste de tendencia central
Para medir la calidad del ajuste de la tendencia central, se conoce de la regresión probabilística
el coeficiente de determinación, llamado también R-cuadrado, que varía entre 0 y 1.
Esta medida parte del concepto de que la varianza total de las observaciones de la variable
dependiente se puede descomponer en la suma de la varianza explicada más la no explicada,
interpretándose el coeficiente de determinación como la proporción de la varianza total que la
ecuación de regresión puede explicar. Formalmente se tiene que:
n
i
i
n
i
i
yy
yy
totalVarianza
plicadaexVarianzaR
1
2
1
2
2
)(
)(
(1.38)
En el caso borroso se propone un indicador R2 de tendencia central, cuya principal
característica es que, a medida que las diferencias cuadráticas entre el valor observado y el
valor central estimado tiende a cero, el indicador tenderá a uno:
Page 38
CAPÍTULO 1
)
)(
)(
1,0max(
1
2
1
2
2
n
i
i
n
i
ii
yy
yy
BorrosoR (1.39)
Donde es el promedio de los números borrosos observados iy .
Este indicador toma valores entre 0 y 1. Como el denominador que aparece en la expresión es
el mismo que el denominador del coeficiente de determinación probabilístico, se puede
mantener la interpretación de éste, en el sentido de que es una medida de
proporción de la parte de la variación cuadrática de los iy que es explicada por la regresión.
Por ejemplo, si resulta 0,80, lo interpretamos como que la regresión explica el
80% de la variación de los datos centrales iy .
1.7.2 Índice de Bondad del Ajuste SIM1
Si se considera el cardinal escalar de un conjunto borroso A como:
| | ∫ ( ) (1.40)
Se puede definir el indicador de similitud iS entre Yi, de la siguiente forma:
{
| |
| | (1.41)
Este indicador varía entre 0 (cuando las funciones de pertenencia son disjuntas) y 1 (cuando
las funciones de pertenencia son idénticas) y se denomina de manera general ),( BAS para
dos números borrosos A y B .
Para el conjunto de los n datos de la regresión, se calcula la medida de similitud SIM1 con el
siguiente promedio:
n
S
SIM
n
i
i 1
1 (1.42)
Page 39
CAPÍTULO 1
que también varía entre 0 y 1.
1.7.3 Índice de Bondad del Ajuste SIM2
Otras medidas de bondad de ajuste es la SIM2y se define:
{| ( )| | ( )| (| | | |)
( )
(1.43)
donde
( ) (1.44)
( ) (1.45)
Para el conjunto de todos los datos de una regresión se define el indicador de bondad de ajuste
global:
∑ ( )
(1.46)
1.7.4 Índice de bondad del ajuste SIM3
Este índice mide las diferencias tanto de las extensiones como de la tendencia central. Por lo
tanto de esta manera se define:
( ) | ( )| | ( )| | |
( ) (1.47)
donde (
) (1.48)
(
) (1.49)
Con esta definición de se construye el índice de bondad de ajuste Sim3 que varía entre 0 y
1:
n
R
SIM
n
i
i
1
3
)1(
(1.50)
Page 40
CAPÍTULO 1
1.7.5 Índice de Bondad del Ajuste SIM4
Otra medida de similitud basada en la métrica de Hausdorff está dada por la relación
{ (| ( )| | ( )|)
( )
(1.51)
La no simetría de las funciones de pertenencia puede producir algunas inconsistencias en la
medición del indicador Ui ya que en un contexto en que el ajuste o proximidad entre Yi y
mejora, porque un extremo de la función de pertenencia se acerca al valor central de ambas
funciones de pertenencia, el indicador muestra una mayor divergencia.
Considerando Ui para el conjunto de n observaciones, se crea otro índice de bondad de ajuste
entre 0, cuando los n números observados se encuentran muy distantes de los n números
estimados, y 1, cuando las funciones de pertenencia de las n parejas de números difusos son
iguales. Su formulación es la siguiente:
∑ ( )
(1.52)
1.7.6 Índice de Bondad del Ajuste SIM5
Es una medida basada sólo en un punto de las funciones de pertenencia: el supremo de la
intersección. Esta medida se define:
( ( )) (1.53)
y calcula un valor de pertenencia (entre 0 y 1) para el dato i. Dados dos conjuntos difusos
se tiene que el valor de ellos es 1, por los que las propiedades del indicador de
bondad del ajuste son aplicables a este índice.
La determinación de como cruce de las funciones de pertenencia se ubica entre los dos
puntos centrales del número observado y del número borroso estimado, por lo que tiene una
directa relación con dichos dos puntos y es, por lo tanto, un indicador aproximado del ajuste
de la tendencia central.
Page 41
CAPÍTULO 1
Por lo general, el comportamiento de los extremos no afecta a especialmente si
consideramos funciones de pertenencia no simétricas. Por este motivo, en un contexto de
estimación posibilística, puede resultar distinto a los índices de bondad de ajuste definidos
anteriormente.
Sin embargo, en una estimación no posibilística en que las extensiones estimadas son más
pequeñas puede ocurrir que el sea menor que el producido en la estimación posibilística,
dado que ante soportes mucho más pequeños, el supremos de la intersección de las funciones
de pertenencia no garantiza ser alto aunque los puntos centrales estén próximos.
Tomando la definición de puede extenderse para el conjunto de los datos de la regresión, a
otra medida de bondad de ajuste que varía entre 0 y 1:
∑ ( )
(1.54)
1.7.7 Índice integrado
Se propone un indicador integrado de similitud entre los índices SIM1, SIM2, quedando
definido por:
(1.55)
1.8 Procesamiento estadístico
A continuación se describen los procesamientos estadísticos que se utilizaron en la
investigación.
1.8.1 Análisis descriptivo de datos
El primer paso en una investigación estadística consiste en explorar o describir los datos
recolectados. Este proceso puede ser útil incluso para depurar errores. A los datos recolectados
se les llama datos primarios. Ellos aún no han pasado por ningún tipo de procesamiento.
Medidas de tendencia central
media: es el promedio clásico que todos conocemos desde la primaria.
Page 42
CAPÍTULO 1
n
x
x
n
i
i 1
(1.56)
La media es susceptible a observaciones extremas, puede verse altamente afectada por ellas.
mediana: valor que divide a la muestra en dos partes iguales.
moda: valor que más se repite, (valor de mayor frecuencia).
cuartiles: son tres valores que dividen a la muestra en 4 partes iguales
percentiles: valores que dividen a la muestra en 100 partes iguales
Medidas de dispersión
varianza: medida cuadrática de variabilidad. Es la media de las desviaciones al cuadrado
de cada valor xi con respecto a la media aritmética del conjunto.
n
i
i xxn
XV1
21
0XV (1.57)
desviación típica: medida de variabilidad. XVs
0s (1.58)
coeficiente de variación: medida de dispersión relativa
(1.59)
Rango o amplitud: medida de variabilidad rango = máximo – mínimo
1.8.2 Gráficos de cajas y bigotes
El diagrama de caja es una presentación visual que describe al mismo tiempo varias
características importantes de un conjunto de datos, tales como el centro, la dispersión, la
simetría o asimetría y la identificación de observaciones atípicas. El diagrama de caja
representa los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo
(caja), alineado horizontal o verticalmente.
Construcción:
Page 43
CAPÍTULO 1
1. El rectángulo delimita el rango intercuartílico con la arista izquierda (o inferior)
ubicada en el primer cuartil Q1, y la arista derecha (o superior) en el tercer cuartil Q3.
2. Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo
cuartil (que es igual al percentil 50 o a la mediana), Q2 = Md.
3. De cualquiera de las aristas del rectángulo se extiende una línea, o bigote, que va
hacia los valores extremos (valor mínimo y valor máximo). Estas son observaciones
que se encuentran entre cero y 1.5 veces el rango intercuartílico a partir de las aristas
del rectángulo.
4. Las observaciones que están entre 1.5 y 3 veces el rango intercuartílico a partir de las
aristas del rectángulo reciben el nombre de valores atípicos. Las observaciones que
están más allá de tres veces el rango intercuartílico a partir de las aristas del
rectángulo se conocen como valores atípicos extremos. En ocasiones se emplean
diferentes símbolos (como círculos vacíos o llenos), para identificar los dos tipos de
valores atípicos.(R., 2012)
También los diagramas de caja reciben el nombre de diagramas de caja y bigotes. (Figura 1.4)
Fig 1.4 Gráfico de cajas y bigotes
Page 44
CAPÍTULO 1
1.8.3 Gráficos de máximo, mínimo y cierre
La categoría de gráficos de máximos y mínimos abarca a todos los gráficos para los que se
muestra el intervalo de datos comprendido entre dos valores: el mínimo y el máximo de una
variable. En un gráfico de máximo-mínimo-cierre, se muestra un valor adicional —el cierre—.
El valor de cierre es siempre opcional, en esta investigación siempre se consideró como cierre
el valor promedio. (ver Figura 1.5)
Fig 1.5 Gráfico de máximo, mínimo y cierre
1.8.4 Pruebas no paramétricas
Las pruebas no paramétricas son análisis estadísticos libres de distribución. La estadística no
paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya
distribución no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser
definida a priori, pues son los datos observados los que la determinan. Son ampliamente
utilizadas en numerosas ramas de las ciencias.(Capote Pacareu and Borrego Clavero, 2013)
Prueba de Mann Whitney
Existen varias pruebas no paramétricas para comparar las distribuciones en grupos
independientes o en momentos diferentes. Se dice que tales test son alternativas no
paramétricas de los test paramétricos de Student.
Page 45
CAPÍTULO 1
La alternativa no paramétrica generalmente usada del test de Student para la comparación de
muestras independientes es el test de Mann-Whitney (denominado también test de suma de
rango de Wilcoxon).
Sean X1 y X2 variables ordinales independientes con distribución cualquiera desconocida.
Supongamos que queremos verificar la hipótesis de que sus dos distribuciones son
coincidentes, en el sentido de que los rangos de los valores que aparecen en las respectivas
muestras no difieren significativamente.
La hipótesis de nulidad supondrá que X1 y X2 han sido tomadas de la misma población, o sea
que tienen la misma distribución. La hipótesis alternativa enuncia lo contrario.
El test se basa en el ranqueo de los datos de la muestra total (compuesta de dos grupos) y la
observación de sí estos valores ranqueados de un grupo y del otro se intercalan adecuadamente
como una medida de que las distribuciones no difieren.
El criterio de Mann - Whitney parte de determinar el número de veces que un valor del grupo
más pequeño precede a un valor del grupo más grande. Si los volúmenes de las muestras son
iguales analiza las dos orientaciones y toma la menor.
Para muestras pequeñas se puede determinar la distribución del estadístico U condicionada a
la hipótesis fundamental y construir un test con probabilidad exacta. Para muestras grandes, a
partir de U se construye el estadígrafo:
√ ( )
(1.60)
donde n1 es el volumen de la muestra más pequeña y n2 el de la más grande y se demuestra
que Z tiene aproximadamente distribución normal normalizada si la hipótesis fundamental es
cierta.
El criterio de la suma de rango de Wilcoxon consiste en calcular la suma W de los rangos para
el grupo de volumen menor (o para el primer grupo, si las dos muestras tienen igual volumen).
Si la hipótesis fundamental es cierta, esta suma W debería ser aproximadamente la mitad de la
suma total de los rangos en la muestra completa.
Page 46
CAPÍTULO 1
Para muestras pequeñas, la distribución de W se determina con precisión y se pude construir
un test exacto. Para muestras grandes, se construye el estadístico.
( )
√ ( )
(1.61)
que tiene también aproximadamente distribución normal normalizada cuando la hipótesis
fundamental es cierta.
Se demuestra que ambos criterios conducen a la misma significación y por ello se habla
indistintamente del Test de Rangos de Mann-Whitney o del Test de Suma de Rangos de
Wilcoxon. La mayoría de los paquetes estadísticos lo conocen como el test de Mann-Whitney
para distinguirlo del test de Wilcoxon de diferencias ranqueadas.
1.9 Consideraciones finales
En el capítulo se ha mostrado, de una manera resumida, definiciones y conceptos principales
de la teoría de conjuntos borrosos, regresión y principales medidas de bondad de ajuste
reportadas en la literatura especializada.
Además se muestra una breve panorámica de los procedimientos estadísticos que se utilizarán
posteriormente. Entre ellos se encuentran: análisis descriptivo de datos, algunos tipos de
gráficos como diagramas de cajas y bigotes y gráficos de máximo, mínimo y cierre, así como
pruebas no paramétricas de comparación de grupos independientes.
Page 47
CAPÍTULO 2
Capítulo 2 Análisis e implementación del Software “GOF 1.0”. Diseño
de experimentos
Este capítulo aborda las generalidades del análisis, diseño e implementación del software
―GOF 1.0‖. Se expone la plataforma de desarrollo y los diagramas creados para las fases de
análisis y diseño de la herramienta.
2.1 Análisis de la herramienta
El lenguaje UML (Unified Modeling Language) (Hung T. Nguyen 2006) se utilizó para el
diseño de la herramienta GOF versión 1.0, este tiene como objetivos principales la
especificación, visualización, construcción y documentación de los productos de un sistema de
software. Este lenguaje es usado por el RUP (Rational Unified Process) (Redden D, 1996)
como lenguaje de modelado para lo cual se basa en todos sus tipos de diagramas, que
constituyen diferentes vistas del modelo del producto. La Figura 2.1ilustra los diagramas que
componen la estructura de un producto escrito por el lenguaje UML:
Fig 2.1 Diagrama de UML
Page 48
CAPÍTULO 2
De los diagramas UML que muestra la Figura anterior, se emplean: Diagrama de Casos de
Uso, Diagrama de Clases y Diagrama de Actividad.
La herramienta empleada para el modelado de todos los diagramas correspondientes a las
fases de análisis y diseño fue Visual Paradigm versión 9.0 para UML.
2.2 Diagrama de casos de uso
Los modelos de casos de uso proporcionan un medio sistemático e intuitivo de capturar
requisitos funcionales del sistema basándose en los requerimientos de los usuarios. Ellos
dirigen todo el proceso de desarrollo de un software ya que constituyen el punto de partida
para llevar a cabo la mayoría de las actividades: el análisis, diseño y prueba del software
(Redden D, 1996). Este modelo se realiza identificando cada actor del sistema como los
posibles usuarios para los cuales está realizado el mismo.
La herramienta ―GOF 1.0‖ puede ser utilizado por cualquier tipo de usuario, ya sea estudiante
o especialista en computación o matemáticas. En la Figura 2.2 se nombra a este actor como
usuario.
Fig 2.2 Diagrama de casos de uso
Este software tiene un solo caso de uso, es aquel en que el usuario (actor del sistema) puede
calcular las diferentes medidas de bondad de ajuste (SIM2, SIM3, SIM4, Borroso,
Correlación híbrido y un índice integrado) para su posterior análisis.
2.3 Diagrama de clases
La técnica del diagrama de clase se ha vuelto medular en los métodos orientados a objetos. El
diagrama de clase describe los tipos de objetos que hay en un sistema y las diversas clases
Page 49
CAPÍTULO 2
derelaciones estáticas (asociaciones, subtipos) que existen entre ellos. También muestra los
atributos y operaciones de una clase y las restricciones a que se ven sujetos, según la forma en
que se conecten los objetos (Modarres M., 2004)
En la Figura 2.3 se ilustra la jerarquía de clases, con sus atributos y métodos más relevantes
mediante un diagrama de clases en UML.
Fig 2.3 Diagrama de clases
Se diseñaron cuatro clases (Procedimientos, Resultados, TrabajoFicheros, nbt).
En la clase Procedimientos se implementaron las diferentes medidas de bondad de ajuste
como (SIM2, SIM3, SIM4, Borroso, Correlación híbrido y una Media aritmética entre los
índices).
La clase Resultados se implementó con el objetivo de almacenar todos los resultados que
fuesen obteniéndose a medida que se calculan las diferentes medidas.
Page 50
CAPÍTULO 2
Por su parte la clase TrabajoFichero, tiene como objetivo el manejo y la manipulación de
todos los ficheros que son utilizados en el software tanto para cuando se carga un fichero
como para cuando se carga una dirección donde haya un lote de varios ficheros.
Para mostrar los resultados de los cálculos hechos por el usuario, primeramente, debemos
guardar los valores originales que son entrados al sistema, pues estos son modificados en la
lectura del fichero por el constructor de la clase nbt, para no perder esta información y
podérsela ofrecer al usuario en la salida del software, se crea la variable cad que es una lista de
tipo String que se encuentra dentro del método leerFichero, la cual almacena línea por línea
los valores original, estos son agregados posteriormente a datos, que es un arreglo de tipo
String que va a contener todos los números originales de todos los ficheros procesados.
Y por último, está la clase nbt, que no es más que la encargada de tener la representación de
los que es un número borroso triangular, así como su transformación para poder utilizarlo en el
software.
2.4 Diagrama de Actividades
Los Diagramas de Actividad son uno de los tres diagramas de UML (Unified Modeling
Language), junto con los Diagramas de Estado y los Diagramas de Secuencia, utilizados para
la descripción del comportamiento dinámico de un sistema. Estos diagramas utilizan clases del
metamodelo de UML que se encuentran en los paquetes de la especificación dedicados a la
descripción de comportamientos.
El objetivo de estos diagramas es ―describir lógica procedural, flujos de trabajo y procesos de
negocio‖(Pérez, 2010).
En la Figura 2.4 se muestra el diagrama de actividad para el software.
Page 51
CAPÍTULO 2
Fig 2.4Diagrama de Actividad
2.5 Implementación del software
La programación Orientada a Objetos (POO) es el método de implementación en el que los
programas se organizan como colección corporativas de objetos, cada uno de los cuales
representa una instancia de una clase (Zadech, 1968).
El enfoque orientado a objetos ha sido un paso evolutivo en el análisis, diseño e
implementación de software. Se utiliza por sus características para lograr sistemas poco
resistentes a los cambios y fácilmente mantenible, lo cual constituye una valiosa característica
en cualquier sistema.
Usando un enfoque de programación orientado a objetos se implementó ―GOF 1.0‖.
Plataforma de desarrollo del software
Se utilizó el lenguaje de programación Java desarrollado por la empresa Sun Microsystems
para la implementación del software ―GOF1.0‖. Java es en la actualidad software libre, lo que
garantiza el desarrollo de aplicaciones en los países menos desarrollados. Este lenguaje fue
creado para trabajar con objetos e independiente de la plataforma. Al compilar un programa,
Java genera un pseudocódigo para una máquina genérica, que corre indistintamente en
cualquiera de los ordenadores disponibles en el mercado, así funcionen sobre Windows,
Linux, Mac u otro sistema operativo. (Denoda Pérez, 2011) Es un lenguaje robusto justamente
por la forma en que está diseñado, no permite el manejo directo del hardware ni de la
Page 52
CAPÍTULO 2
memoria, implementa mecanismos de seguridad que limitan el acceso a recursos de las
máquinas donde se ejecuta. Además, con el JDK (Java Development Kit) vienen incorporadas
muchas herramientas, entre ellas un generador automático de documentación.
Entorno de desarrollo
Existen muchos Entornos de Desarrollo Integrado (IDE, por sus siglas en inglés) que permiten
el desarrollo de proyectos en Java. De los IDE disponibles para Java se seleccionó el NetBeans
versión 7.1.2 pues presenta un ambiente de programación cómodo, que compila en tiempo real
y es fácil de usar para depurar un programa.
2.6 Diseño de los experimentos
En esta investigación se diseñan varios experimentos que permitirán determinar el
comportamiento de los índices de bondad de ajuste de la regresión borrosa. Se conforman dos
tipos de experimentos, el primero denominado Experimento 1se corresponderá con datos
simulados que presentan un buen y mal ajuste de la regresión clásica; y Experimento 2, es
una variante de mantener el mismo centro para todos los números generados pero haciendo un
cambio en las extensiones para determinar si esto afecta la bondad del ajuste.
A continuación se explica cómo se diseñaron estos experimentos para una y dos variables
independientes y la variable dependiente borrosa triangular.
2.6.1 Experimento 1 “Buen y Mal Ajuste”
Una variable independiente (Regresión lineal simple)
Se generó aleatoriamente una serie de números borrosos triangulares de una variable con buen
ajuste de la siguiente manera (ver Tabla 2.1)
Tabla 2.1 Generación del experimento 1, para una variable con buen ajuste
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
Page 53
CAPÍTULO 2
Y
Variable dependiente
número borroso triangular
observado
En la forma Y=a1, a2, a3
a2=x1+2*Valor_aleatorio
a1= a2-2*Valor_aleatorio
a3=a2+2*Valor_aleatorio
Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el
objetivo de corroborar que el valor de R2 brindara buenos valores (Tabla 2.2)
Tabla 2.2 Regresión clásica para buen ajuste
Obsérvese que el valor de R2=0,954 es muy elevado. Esto indica que el modelo hallado es
muy bueno. El R2
ajustado=0,953 que también está muy cercano a la unidad.
Se generó aleatoriamente una serie de números borrosos triangulares de una variable con mal
ajuste de la siguiente manera (Tabla 2.3)
Tabla 2.3 Generación del experimento 1, para una variable con mal ajuste
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
Y
Variable dependiente
número borroso triangular
observado
En la forma Y=a1, a2, a3
a2=x1+2*Valor_aleatorio
a1= a2-2*Valor_aleatorio
a3=a2+2*Valor_aleatorio
Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el
objetivo de confirmar que el valor de R2 ofreciera malos resultados. (Tabla 2.4)
Tabla 2.4 Regresión clásica para mal ajuste
Page 54
CAPÍTULO 2
Obsérvese que el R2=0,001 está muy cerca de 0, Esto es un indicador de que el modelo lineal
hallado no es bueno.
Dos variables independientes (Regresión lineal múltiple)
Se generan dos variables independientes X1, X2, y luego para formar los números borrosos
triangulares se utilizó la siguiente fórmula (ver Tabla 2.5)
Tabla 2.5 Generación del experimento 1 para 2 variables con buen ajuste
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
X2 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
Y
Variable dependiente, número
borroso observado
En la forma Y=a1, a2, a3
a2=X1+X2+Valor_aleatorio
a1=a2-2*Valor_aleatorio
a3=a2+2-Valor_aleatorio
Se tomó el valor central de la variable dependiente a2 se aplicó una regresión clásica con el
objetivo de garantizar que el valor de R2 brindara buenos valores (Tabla 2.6)
Tabla 2.6 Regresión lineal clásica para buen ajuste con 2 variables
Obsérvese que el valor de R2=0,996 está muy cercano a la unidad. Esto indica que el modelo
hallado es muy bueno. El R2
ajustado=0,992 es igualmente bueno.
Se generó aleatoriamente una serie de números borrosos triangulares de dos variables con mal
ajuste de la siguiente manera (ver Tabla 2.7)
Page 55
CAPÍTULO 2
Tabla 2.7Generación del experimento 1 para 2 variables con mal ajuste
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
X2 Variable independiente Generado aleatoriamente
siguiendo una distribución
uniforme
Y
Variable dependiente, número
borroso observado
En la forma Y=a1, a2, a3
a2= 2*cos X1*sen X2+13+ Valor
aleatorio
a1=a2-2*Valor_aleatorio
a3=a2+2-Valor_aleatorio
Se tomó el valor central de la variable dependiente a2 se utilizó una regresión clásica con el
objetivo de certificar que el valor de R2ofreciera malos resultados. (Tabla 2.8)
Tabla 2.8 Regresión lineal clásica para mal ajuste con 2 variables
En esta ocasión el R2=0,087 está muy cercano a cero. Esto indica que el modelo hallado no es
adecuado, evidenciando un mal ajuste.
2.6.2 Experimento 2 “Extensiones cercanas y alejadas”
Se generaron aleatoriamente números borrosos triangulares de una y dos variables de la
siguiente manera:
Una variable independiente (Regresión lineal simple)
Se creó una variable independiente X1, y luego para formar los números borrosos triangulares
se utilizó la siguiente fórmula (ver Tabla 2.9):
Page 56
CAPÍTULO 2
Tabla 2.9 Generación de experimento 1 con una variable con extensiones cercanas y alejadas
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
Y
Variable dependiente número
borroso observado
En la forma Y=a1, a2, a3
a2= X1+valor
aleatorio+3*Valor aleatorio
a1= a2-2*Valor aleatorio
a3=a2+2*Valor aleatorio
Se tomó el valor central de la variable dependiente a2 se utilizó una regresión clásica con el
propósito de verificar que el valor de R2 ofreciera buenos valores (Tabla 2.10).
Tabla 2.10 Regresión lineal clásica
El valor de R2=0,977 está muy cercano a la unidad, lo que pone de manifiesto la calidad del
modelo hallado. El R2
ajustado=0,954 es igualmente bueno.
Dos variables independientes (Regresión lineal múltiple)
Se crearon dos variables independientes X1, X2, y luego para formar los números borrosos
triangulares se utilizó la siguiente fórmula (ver Tabla 2.11):
Tabla 2.11 Generación del experimento 2 con dos variables con extensiones cercanas y alejadas
Variable Nombre Forma de cálculo
X1 Variable independiente Generado aleatoriamente
X2 Variable independiente Generado aleatoriamente
Y
Variable dependiente,
número borroso observado
En la forma Y=a1, a2, a3
a2=2*X1+3*X2+Valor_aleatorio
a1=a2-2*Valor_aleatorio
a3=a2+2-Valor_aleatorio
Se muestra en la Tabla 2.12 la regresión lineal múltiple para el resumen del modelo con dos
variables.
Page 57
CAPÍTULO 2
Tabla 2.12 Regresión múltiple
Al igual que en las otras ocasiones, el valor del R2=0,996 es alto, lo que evidencia la buena
calidad del modelo.
Posteriormente se procedió a crear varios ficheros con dichos números y se procesaron
utilizando el software efuzzy 1.0 mediante una Regresión Lineal Borrosa Posibilística.
Tomamos los datos obtenidos y lo pasamos como ficheros de entrada al software GOF 1.0,
para finalizar se analizan dichos resultados con varios test (pruebas) no paramétricos y
mediante gráficos de cajas y de barras para un mejor entendimiento.
2.7 Consideraciones finales
En este capítulo se mostraron las principales generalidades del diseño, implementación y
análisis del software ―GOF 1.0‖. Se mostraron los diagramas creados para las fases de análisis
y diseño de la herramienta que son diagrama de casos de uso, diagrama de clases y diagrama
de actividad. Se explicó brevemente cada uno de ellos.
Además se presenta en detalle el diseño de los dos grupos de experimentos realizados en la
investigación:
Experimento 1: Datos generados con ―buen‖ y ―mal ajuste‖ para una y dos variables
independientes.
Experimento 2: Datos generados con extensiones cercanas y alejadas para una y dos
variables independientes.
Page 58
CAPÍTULO 3
Capítulo 3 Manual de usuario y Análisis de los Resultados
En el presente capítulo se realiza una presentación al usuario de las facilidades y
funcionalidades del software ―GOF 1.0‖. Se efectúa un análisis de las opciones y modo de uso
de cada una de ellas, lo cual constituye una guía para el trabajo con el software. Se efectúa un
estudio acerca de los experimentos realizados utilizando diversos procesamientos estadísticos.
3.1 Manual de Usuario
El software GOF versión 1.0 es un sistema que permite calcular medidas de bondad de ajuste
para la regresión borrosa. El usuario puede obtener, después de haber cargado correctamente
el fichero o los ficheros con los valores observados y estimados proporcionado por el software
efuzzy v1.0 mediante una regresión borrosa posibilística, diferentes medidas de bondad de
ajuste: Borroso, SIM2, SIM3, SIM4, Correlación híbrido, y una Media de los índices para su
posterior análisis estadístico. Esta herramienta está desarrollada completamente en Java.
3.1.1 Requerimientos del sistema
La Máquina Virtual de Java (32 Bits) Java Runtime Environment (jre).
3.1.2 Ficheros de entrada
El fichero de entrada al programa (ver Figura 3.1) tiene que tener una extensión ".txt", y este
fichero se obtiene al realizar una regresión lineal borrosa posibilística a través del software
efuzzy 1.0. Este fichero posee los valores observados y valores estimados que son necesarios a
la hora de calcular las medidas de bondad de ajuste. Estos deben estar entre corchetes ([]),
separados los lugares decimales por un punto (.); y por comas (,) los números entre sí. Los
números observados y estimados deben estar separados por una tabulación.
Page 59
CAPÍTULO 3
3.1.3Ventana Inicial del Software
Al ejecutar el software ―GOF 1.0‖ primeramente se muestra el splash durante algunos pocos
segundos (Figura 3.2).
Fig 3.2 Interfaz principal de la aplicación
Fig 3.1Fichero de entrada al sistema
Page 60
CAPÍTULO 3
3.1.4 Ventana Principal
Se muestra a continuación la ventana principal del software (Figuras 3.3)
3.1.4.1 Menú Ficheros (Figura 3.4)
Fichero: Se encuentran las opciones de Abrir, Cerrar, Ver Datos y Guardar.
3.1.4.2 Abrir
Abre el fichero o los ficheros que se desean cargar para el análisis (Figura 3.5). Tiene un
acceso directo en la ventana principal (Figura 3.6).
Fig 3.3 Ventana principal del software
Fig 3.4 Menú Ficheros
Page 61
CAPÍTULO 3
Fig 3.5 Botón Abrir en el Menú Ficheros
Fig 3.6 Acceso directo del botón Abrir
3.1.4.2 Ver Datos
Después de haber calculado las medidas de bondad de ajuste para un fichero, o para un lote de
ficheros, si se desean ver los resultados de inmediato, se puede observar mediante el Menú
Ficheros/ Ver Datos o a través de su correspondiente acceso directo en la ventana principal.
(Figuras 3.7 y 3.8), además se muestra un ejemplo de un fichero de resultado (Figura 3.9)
Fig 3.7 Seleccionar Ver Datos
Page 62
CAPÍTULO 3
Fig 3.8 Acceso directo del botón Ver Datos
Fig 3.9 Ejemplo de resultados calculados
3.1.4.4 Guardar
Nos brinda la posibilidad de guardar los resultados de un fichero o de varios, que se hayan
calculado, en un documento "yyy".txt, donde yyy es el nombre del documento. También existe
un acceso directo en la ventana principal. (Figura 3.10)
Fig 3.10 Botón Guardar en el Menú Ficheros
Page 63
CAPÍTULO 3
3.1.4.5 Botón Ayuda
La opción ―Ayuda‖ brinda una descripción sencilla y detallada de cada una de las
funcionalidades del sistema, así como una breve descripción (Figura 3.11)
Fig 3.11 Manual de usuario
3.2 Análisis de los Resultados
3.2.1 Experimento 1 “Valores con buen y mal ajuste”
Se muestra a continuación los resultados de los diferentes experimentos realizados con el
objetivo de determinar cuál de los índices de bondad de ajuste utilizados en el presente trabajo
presenta mejores resultados.
Una variable independiente
A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta: el ―buen‖ y
―mal ajuste‖ y la cantidad de datos que van desde muy pocos valores (5) hasta ficheros algo
mayores: (50 casos). Recuérdese que para calcular un modelo de regresión borrosa
posibilística es necesario resolver un problema de programación lineal, que incrementa su
complejidad con el aumento de la cantidad de datos. Es por ello que estos métodos se utilizan
frecuentemente para resolver problemas con pocos casos. Se calcularon los índices SIM2,
SIM3, SIM4, el y el coeficiente de Correlación híbrido (Figuras 3.12-3.16)
Page 64
CAPÍTULO 3
Fig 3.12 Gráfico de cajas y bigotes del SIM2 por cantidad de datos
En este gráfico se aprecia que, con independencia de la cantidad de datos analizados, el índice
SIM2 no es una buena medida, pues sus valores nunca sobrepasan el valor de 0,5, a pesar de
que las cajas del ―buen ajuste‖ están por encima de las correspondientes al ―mal ajuste‖.
Fig 3.13 Gráfico de cajas y bigotes de Sim3 por cantidad de datos
En este gráfico se observa que para un ―buen ajuste‖ los valores obtenidos por este índice son
buenos, superando los 0,70; cuando se analizaron grupos de cinco valores mostró resultados
cercanos a 0,70 con cantidad de datos de 20 valores, vale destacar que con un ―mal ajuste‖ la
gran mayoría de los resultados están por encima de 0,50.
Page 65
CAPÍTULO 3
Fig 3.14 Gráfico de cajas y bigotes de Sim4por cantidad de datos
En este gráfico se observa que para un buen ajuste con poca cantidad de casos (cinco valores)
da un valor superior a 0,8, por lo que es un buen resultado, para el resto de las cantidades de
datos analizados los valores oscilan entre 0,5 y 0,8. Sin embargo para ―mal ajuste‖ los
resultados decaen mucho pues apenas se acercan a los 0,5.
Fig 3.15 Gráfico de cajas y bigotes para el R2 Borroso por cantidad de datos
En el gráfico para el R2
Borroso todos los resultados dan cero para todas las cantidades de
datos que fueron analizadas. Esta no es una buena medida.
Page 66
CAPÍTULO 3
Fig 3.16 Gráfico de cajas y bigotes para la Correlación híbrido por cantidad de datos
La Correlación híbrido no es una medida estandarizada como las anteriores. Sus valores
pueden sobrepasar la unidad (1). Obsérvese en la Figura3.16 los gráficos correspondientes al
―buen ajuste‖ están muy por encima a los del ―mal ajuste‖.
Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no
paramétricas. En la Tabla 3.1 se muestran los resultados del test de Mann Whitney entre el
―buen‖ y ―mal ajuste‖ por medidas y por cantidad de datos.
Tabla 3.1 Test no paramétrico de Mann Whitney para las medidas clásicas
Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2borroso Sig.cHib
5 0,012 0,002 0,001 0,317 0,015
10 0,000 0,000 0,000 1,000 0,000
20 0,031 0,016 0,001 1,000 0,000
50 0,149 0,564 0,021 1,000 0,021
En la mayoría de los casos las diferencias encontradas son significativas. Se exceptúan el
porque todos sus valores fueron 0 y la SIM2 y SIM3 con 50 datos. Debe
recordarse del análisis gráfico que el índice SIM2 no era una buena medida.
A partir de estas medidas, se decidió proponer otras y estudiar su comportamiento con los
mismos ficheros de datos generados.
Page 67
CAPÍTULO 3
Medidas propuestas derivadas de las primeras:
MSIM234= Mean (SIM2, SIM3, SIM4)
MaxSIM=Max (SIM2, SIM3, SIM4)
MinSIM= Min (SIM2, SIM3, SIM4)
SumSIM= (SIM2 + SIM3 + SIM4)
Todas las medidas varían entre 0 y 1 con excepción de la última cuyo máximo valor posible es
tres.
A continuación se muestran gráficos de máximo, mínimo y cierre para estos nuevos índices
teniendo en cuenta: el ―buen‖ y ―mal ajuste‖ y la cantidad de datos (Figuras 3.17-3.22)
Fig 3.17 Gráfico de máximo, mínimo y cierre para MSIM23
Se observan en la Figura 3.17 valores superiores a 0,75 con un ―buen ajuste‖, pero teniendo en
cuenta la cantidad de datos (50 valores) el resultado cae considerablemente incluso por debajo
de 0,45. Esta medida se recomienda entonces cuando la cantidad de datos es pequeña.
Page 68
CAPÍTULO 3
Fig 3.18 Gráfico de máximo, mínimo y cierre para MSIM24
Se aprecia que el valor medio entre estos dos índices es inferior al anterior, su máximo valor
no supera los 0,75, aunque con un mal ajuste sus valores dan ligeramente superiores a los de
su similar con la media entre los índices MSIM24.
Fig 3.19 Gráfico de máximo, mínimo y cierre para MSIM34
Entre estos dos índice siempre nos brinda una media superior a los 0,5 para los ficheros de
―buen ajuste‖ y con algunos valores superiores a los 0,8. Los ficheros de ―mal ajuste‖
muestran resultados mucho peores.
Page 69
CAPÍTULO 3
Fig 3.20 Gráfico de máximo, mínimo y cierre para MaxSIM
Con esta medida que se propone se aprecia que con un ―buen ajuste‖ los resultados son muy
buenos pues los valores oscilan entre 0,55 y 0,95. No obstante, puede apreciarse en la Figura
3.20 que las barras de ―buen‖ y ―mal ajuste‖ se solapan en algunos intervalos.
Fig 3.21 Gráfico de máximo, mínimo y cierre para MinSIM
Analizando el mínimo de las SIM (MinSIM), se puede concluir que los resultados no son
alentadores. Anteriormente se demostró que la SIM2 no era una buena medida en la
diferenciación de modelos con‖ buen‖ y ―mal ajuste‖. Resulta lógico pensar que el mínimo de
las SIM tampoco lo sea, tal y como se muestra en el gráfico anterior.
Page 70
CAPÍTULO 3
Fig 3.22 Gráfico de máximo, mínimo y cierre para MSIM234
La media entre los tres índices SIM calculados muestra un rango entre 0,40 y 0,80 para un
buen ajuste, por su parte para un mal ajuste los valores apenas se acercan a 0,5. Obsérvese que
a partir de 10 datos, las barras no se solapan, lo que evidencia que las diferencias entre los
modelos con buen y mal ajuste son mayores.
Fig 3.23 Gráfico de máximo, mínimo y cierre para SumSIM
La media de la suma de los índices calculado muestra valores superiores a 1,50 para el caso de
los valores que fueron filtrados por ―buen ajuste‖, para el caso del ―mal ajuste‖ los resultados
están cercanos a 1,20.
Page 71
CAPÍTULO 3
A continuación se muestran los resultados del test no paramétrico de Mann Whitney entre el
―buen‖ y ―mal ajuste‖ por medidas y por cantidad de datos (ver Tabla 3.2)
Tabla 3.2 Test no paramétrico de Mann Whitney para las medidas propuestas
Cantidad
de datos
MSIM234 MaxSIM MinSIM SumSIM
SIM234
5 0,000 0,002 0,012 0,000 0,002 0,000 0,000
10 0,000 0,000 0,000 0,000 0,000 0,000 0,000
20 0,000 0,016 0,031 0,000 0,001 0,001 0,000
50 0,021 0,564 0,149 0,021 0,059 0,020 0,021
De manera general las medidas propuestas son capaces de diferenciar los modelos con ―buen‖
y ―mal ajuste‖ cuando la cantidad de datos es relativamente pequeña (hasta 20 datos). Con 50
valores no todos los índices detectan las diferencias.
Debido a que se había mostrado previamente que la medida SIM2 no ofrece siempre buenos
resultados, se sugiere la utilización de M34. Obsérvese que MSIM234 y SumSIM pudieran ser
también medidas válidas.
Dos variables independientes
A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta: el ―buen‖ y
―mal ajuste‖ y la cantidad de datos, para los índices SIM2, SIM3, SIM4, y el
coeficiente de Correlación híbrido. (Figuras 3.24-3.28)
Fig 3.24 Gráfico de cajas y bigotes para el índice SIM2 teniendo en cuenta: el ajuste y la cantidad de datos
Page 72
CAPÍTULO 3
A través de este gráfico se aprecia que el índice SIM2 nos da para todos los casos analizados
valores inferiores a 0,60, lo cual indica que no son buenos resultados.
Fig 3.25 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta: el ajuste y la cantidad de datos
Este gráfico muestra que el índice SIM3 tanto como para un buen ajuste, como para un mal
ajuste nos da valores siempre por encima de 0,60. Se tiene incluso en el caso de buen ajuste,
para el análisis de 10 datos un valor cercano a 0,80.
Fig 3.26 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta: el ajuste y la cantidad de datos
Este gráfico tiene como finalidad la posibilidad de apreciar una gran diferencia entre un
―buen‖ y un ―mal ajuste‖. Los valores de un ―buen ajuste‖ siempre están por encima de 0,70 y
Page 73
CAPÍTULO 3
brinda un buen resultado para cantidad de datos pequeña bastante bueno (valores superiores a
0,80). En la medida en la que aumenta la cantidad de datos analizados los resultados van
decayendo ligeramente y la diferencia entre sus medianas se va incrementando.
Fig 3.27 Gráfico de cajas y bigotes para el índice R2 Borroso teniendo en cuenta: el ajuste y la cantidad de datos
En este gráfico se observa que solamente el buen ajuste muestra valores diferentes de cero (0),
pero que fluctúan en un gran rango de valores, prácticamente desde 0, hasta 0,75
aproximadamente, aunque sus valores medios nunca sobrepasan los 0,60. Para el caso de mal
ajuste el valor del R2
Borroso es de cero (0), al igual que en casos detallados con anterioridad.
Fig 3.28 Gráfico de cajas y bigotes para la Correlación Híbrida teniendo en cuenta: el ajuste y la cantidad de datos
Page 74
CAPÍTULO 3
El coeficiente de Correlación híbrido no es una medida estandarizada como las anteriores.
Obsérvese en la Figura 3.28 que los gráficos correspondientes al ―buen ajuste‖ están muy por
encima a los del ―mal ajuste‖, a excepción de cuando es utilizada una cantidad de datos igual a
10.
La tabla 3.3 muestran los resultados del test no paramétrico de Mann Whitney entre el ―buen‖
y ―mal ajuste‖ por medidas y por cantidad de datos (Tabla 3.3).
Tabla 3.2 Test no paramétrico de Mann Whitney para las medidas clásicas
Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2B Sig.cHib
5 0,290 0,705 0,290 0,013 0,059
10 0,499 0,070 0,000 0,000 0,083
20 0,028 0,019 0,000 0,001 0,006
50 0,248 0,564 0,021 0,047 0,021
Para el caso de dos variables, los resultados son inferiores a los encontrados en los
experimentos anteriores. La cantidad de diferencias significativas es menor. Recuérdese que el
R2
Borroso ofrece las mejores diferencias porque para el mal ajuste, sus valores fueron
siempre de cero.
A continuación se muestran los gráficos de máximos, mínimos y cierre teniendo en cuenta: el
―buen‖ y ―mal ajuste‖ y la cantidad de datos para el MaxSIM, el MSIM y para la comparación
entre los valores medios de los SIM2-SIM3 (M23), SIM2-SIM4 (M24) y SIM3-SIM4 (M34).
(Figuras 3.29-3.33)
Page 75
CAPÍTULO 3
Fig 3.29 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto M23
Se observan en la mayoría de los casos, rangos muy parejos, valores que se encuentran
aproximadamente entre 0,35 y superiores a 0,80, pero no se diferencian los modelos por la
calidad de su ajuste.
Fig 3.30 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto M24
Este gráfico es muy similar al anterior con rangos igualmente entre los valores 0,35 y en este
caso, cercanos a 0,80, pero siempre por debajo de este valor. Tampoco aquí se muestran
grandes diferencias por ajuste.
Page 76
CAPÍTULO 3
Fig 3.31 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto M34
Se observan en este gráfico resultados bastante buenos, pues el rango de variación de los
valores se encuentra por encima de 0,60 y en varias ocasiones superior a 0,80, incluso en los
casos que se analizan valores con mal ajuste. Cuando la cantidad de datos a analizar es mayor
(50), las barras prácticamente no se solapan, lo que hace que los resultados sean mucho
mejores.
Fig 3.32 Gráfico de máximos, mínimos y cierre con buen y mal ajuste para el índice propuesto MaxSim
Esta propuesta de análisis, nos muestra un rango de soluciones muy bueno desde el punto de
vista de los resultados que se alcanza, pues sus valores más bajos con buen ajuste, siempre
están por encima de 0,70 y muy próximos a 1. Los valores para el mal ajuste son también
altos, lo que impide a esta medida hacer una correcta discriminación entre ambos.
Page 77
CAPÍTULO 3
Fig 3.33 Gráfico de máximo, mínimos y cierre con buen y mal ajuste para el índice propuesto MinSim
La Figura 3.33 muestra un gráfico con rangos de soluciones muy amplias, en el mejor de los
casos se tiene valores próximos a 0,80, pero posee muchos valores inferiores a 0,50.
De manera general, los índice SIM2 y no presenta buenos resultados tanto con una
como para dos variables.
Fig 3.34 Grafico de máximos, mínimos y cierre para SumSIM con dos variables.
La media de la suma de los índices calculado muestra valores superiores a 2,50 para el caso de
los valores que fueron filtrados por buen ajuste, para el caso del mal ajuste los resultados están
cercanos a 2,20.
Page 78
CAPÍTULO 3
Fig 3.35 Grafico de máximos, mínimos y cierre para MSIM con dos variables.
La media entre los tres índices SIM calculados muestra un rango entre 0,50 y 0,80 para un
buen ajuste, por su parte para un mal ajuste a partir de 10 datos las barras no se solapan, lo que
evidencia que las diferencias entre los modelos con buen y mal ajuste son mayores.
Los experimentos con dos variables independientes mostraron mejores resultados que al
considerar sólo una variable. Con el propósito de comparar las medidas, se realizaron dos
gráficos de barras considerando solamente el buen ajuste para las medidas clásicas (Figuras
3.36 – 3.37):
Fig 3.36 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2 Borroso y Correlación
híbrido para una variable
Page 79
CAPÍTULO 3
Se observa en este gráfico que los valores medios del índice SIM3 siempre están por encima
que los valores medios de las demás medidas. Anteriormente se había demostrado que la
medida SIM2 y el no ofrecían siempre resultados buenos. Este gráfico reafirma
que la SIM3 da valores superiores.
Fig 3.37 Gráfico de Barras filtrado con buen ajuste para el análisis del SIM2, SIM3, SIM4, R2 Borroso y Correlación
híbrido para dos variables
Se muestra en este gráfico que los valores medios del índice SIM4 presentan valores que se
encuentran por encima de los valores medios de las demás medidas, aunque se destaca que el
SIM3 que para casi todos los experimentos ha mostrados buenos resultados, en este gráfico se
encuentra bien próximo a los resultados obtenidos por el SIM4.
De las medidas propuestas también mostraremos cuál de ellas presentan mejores resultados a
través de dos gráficos de barras.
Page 80
CAPÍTULO 3
Fig 3.38 Gráfico de barras para las medidas propuestas filtrado por buen ajuste para una variable
En este gráfico de barras observamos que la medida propuesta MaxSim es la que presenta los
mejores resultados.
Fig 3.39 Gráfico de barras para las medidas propuestas filtrado por buen ajuste para dos variables
Al igual que el gráfico 3.38 que representa a las medidas propuestas para una variable, la
Figura 3.39 coincide en que la medida MaxSIM es la que presenta los mejores resultados.
Page 81
CAPÍTULO 3
3.2.2 Experimento 2”Extensiones cercanas y alejadas”
Se muestra a continuación los resultados de los diferentes experimentos elaborados con el
objetivo de comprobar cuál de los índices de bondad de ajuste manejados en el presente
trabajo exhibe mejores resultados.
Una variable independiente
A continuación se muestran los gráficos de cajas y bigotes con una variable teniendo en cuenta
centros iguales y cambiando las extensiones izquierda y derecha para las medidas: SIM2,
SIM3, SIM4, y Correlación híbrido. (Figuras 3.40-3.44)
Fig 3.40 Gráfico de cajas y bigotes para el índice SIM2 teniendo en cuenta extensiones cercanas y lejanas
Se observa en este gráfico que cuando fueron modificados los valores con extensiones lejanas
este índice mejoró con respecto a los valores con extensiones cercanas, pero el mejor resultado
apenas sobrepasa los 0,70.
Page 82
CAPÍTULO 3
Fig 3.41 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones cercanas y lejanas
Este gráfico muestra que generalmente este índice para todos los experimentos brinda buenos
resultados, superando en varias ocasiones los 0,80.
Fig 3.42 Gráfico de cajas para el índice SIM4 teniendo en cuenta extensiones cercanas y lejanas
El gráfico 3.42 muestra excelente resultados para la mayoría de los valores analizados,
mostrando valores cercanos en su totalidad a 0,8 y en varias ocasiones por encima de dicho
valor en el caso de las extensiones lejanas.
Page 83
CAPÍTULO 3
Fig 3.43 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas y lejanas
A través de este gráfico se puede observar que el R2 Borroso muestra excelentes resultados
con valores muy próximos a la unidad, aunque sus valores medios presentan muchas
fluctuaciones.
Fig 3.44 Gráfico de cajas y bigotes para la Correlación híbrido teniendo en cuenta extensiones cercanas y lejanas
Una vez más este gráfico muestra excelentes resultados pero teniendo en cuando que dicha
medida no está estandarizada y sus valores sobrepasan la unidad. Todos los valores con
extensiones alejadas brindan resultados ligeramente superiores.
Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no
paramétricas. En la Tabla 3.3 se muestran los resultados del test de Mann Whitney entre los
valores con extensiones cercanas y alejadas para una variable
Page 84
CAPÍTULO 3
Tabla 3.3 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para una variable
Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2Borroso Sig.cHib
10 0,017 0,013 0,001 0,871 0,028
20 0,159 0,058 0,006 0,025 0,045
Sólo la SIM4 y la correlación híbrida muestran diferencias para los dos tamaños de muestra
estudiados, aunque la SIM3presenta resultados medianamente significativos para 20.
A continuación se muestran gráficos de máximo, mínimo y cierre para las medidas propuestas:
MSIM234, MaxSIM, MinSIM, SumSIM.
Fig 3.45 Gráfico de máximo, mínimo y cierre para la M23con extensiones cercanas y alejadas
Se observan rangos de resultados que fluctúan entre 0,25 y 0,85 con ligeras mejoras para el
caso de 10 valores.
Fig 3.46 Gráfico de máximo, mínimo y cierre para M24 con extensiones cercanas y alejadas.
Page 85
CAPÍTULO 3
Se observa que los valores son muy similares al del gráfico anterior, con valores ligeramente
superiores, pero de forma general no muy significativa que oscilan entre 0,20 y 0,85.
Fig 3.47 Gráfico de máximo, mínimo y cierre para M34 con extensiones cercanas y alejadas.
Se aprecia en el gráfico de la Figura 3.47 que al estar involucrados los dos mejores índices
simulados los resultados son mejores que los que involucraban al índice SIM2, resultados
obtenidos entre 0,45 y 0,90.
Fig 3.48 Gráfico de máximo, mínimo y cierre para MaxSIM con extensiones cercanas y alejadas.
Muestra este gráfico valores entre 0,55 y 0,90, para el caso de 10 valores las extensiones
lejanas presentan mejores resultados, pero para el caso de 20 valores ambos resultados son
similares.
Page 86
CAPÍTULO 3
Fig 3.49 Gráfico de máximo, mínimo y cierre para MinSIM con extensiones cercanas y alejadas.
La Figura 3.49 correspondiente al gráfico de máximo, mínimo y cierre para MinSIM con
extensiones cercanas y alejadas presenta resultados desde valores inferiores a 0,20 hasta
valores próximos a 0,80.
Fig 3.50 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y alejadas.
La media entre los tres índices SIM calculados muestra un rango entre 0,35 y 0,85 tanto para
extensiones cercanas como lejanas.
Page 87
CAPÍTULO 3
Fig 3.51 Gráfico de máximo, mínimo y cierre para SumSIM con extensiones cercanas y alejadas.
La media de la suma de los índices calculado muestra valores superiores a 2,50 para la gran
mayoría de los valores tanto para extensiones cercanas, como para extensiones alejadas.
Además del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no
paramétricas. En la Tabla 3.4 se muestran los resultados del test de Mann Whitney entre los
valores con extensiones cercanas y alejadas para una variable.
Tabla 3.4 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para una variable
Cantidad
de datos
MSIM234 MaxSIM MinSIM SumSIM SIM234
10 0,005 0,003 0,017 0,008 0,014 0,005 0,004
20 0,045 0,023 0,159 0,045 0,048 0,088 0,037
La tabla muestra resultados significativos prácticamente para todos los casos. Ello pone de
manifiesto que la ―forma‖ del número borroso (extensiones cercanas o lejanas) influye en el
modelo de regresión.
Para el caso de las medidas clásicas una vez más el índice de bondad de ajuste SIM3 es el que
mejores resultados ofrece como se muestra a continuación. (Figura 3.52)
Page 88
CAPÍTULO 3
Fig 3.52 Gráfico de barras con las medidas clásicas para extensiones cercanas y alejadas
Se observa que una vez más la medida MaxSIM ofrece los mejores valores, pero vale destacar
los buenos resultados obtenidos por la medida M34. (Figura 3.53)
Fig 3.53 Gráfico de barras con las medidas propuestas para extensiones cercanas y alejadas
Dos variables independientes
A continuación se muestran los gráficos de cajas y bigotes teniendo en cuenta centros iguales
y cambiando las extensiones izquierda y derecha con dos variables para las medidas: SIM2,
SIM3, SIM4, y Correlación híbrido.
Page 89
CAPÍTULO 3
Fig 3.54 Gráfico de cajas y bigotes para el índice SIM2teniendo en cuenta extensiones cercanas y lejanas
Se ilustra en este gráfico que cuando fueron modificados los valores con extensiones lejanas
este índice mejoró con respecto a los valores con extensiones cercanas, los resultados
obtenidos no son muy buenos, solo con 20 valores con extensión lejana se logra obtener
valores próximos a 0,80.
Fig 3.55 Gráfico de cajas y bigotes para el índice SIM3 teniendo en cuenta extensiones cercanas y lejanas
Este gráfico muestra que habitualmente este índice en la totalidad de los experimentos ofrece
buenos resultados, superando todos los 0,80.
Page 90
CAPÍTULO 3
Fig 3.56 Gráfico de cajas y bigotes para el índice SIM4 teniendo en cuenta extensiones cercanas y lejanas
Se observa que para el índice SIM4, los resultados son buenos pues oscilan entre 0,50 y 0,85,
una vez más las extensiones lejanas ofrecen mejores resultados.
Fig 3.57 Gráfico de cajas y bigotes para el R2 Borroso teniendo en cuenta extensiones cercanas y lejanas
A través de este gráfico se puede observar que el R2 Borroso muestra excelentes resultados
con valores muy cercanos a 1, resaltando el resultado para 20 valores con extensión lejana que
tiene un rango muy bueno entre 0,90 y 1.
Page 91
CAPÍTULO 3
Fig 3.58 Gráfico de cajas y bigotes para la medida Correlación híbrido teniendo en cuenta extensiones cercanas y
lejanas
Este gráfico muestra la gran mayoría de los resultados cercanos a 1 y en ocasiones por encima
de 1, pero esto teniendo en cuenta que dicha medida no está estandarizada.
A parte del análisis descriptivo, se decidió establecer comparaciones utilizando pruebas no
paramétricas. En la Tabla 3.5 se muestran los resultados del test de Mann Whitney entre los
valores con extensiones cercanas y alejadas para dos variables con las medidas clásicas.
Tabla 3.5 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para dos variables
Cant. Datos Sig. SIM2 Sig.SIM3 Sig.SIM4 Sig.R2Borroso Sig.cHib
10 0,017 0,008 0,004 0,872 0,021
20 0,159 0,042 0,012 0,019 0,018
Al igual que en el caso anterior, existen diferencias significativas para casi todos los
experimentos realizados.
A continuación se muestran gráficos de máximo, mínimo y cierre para las medidas propuestas:
MSIM234, MaxSIM, MinSIM, SumSIM.
Page 92
CAPÍTULO 3
Fig 3.59 Gráfico de máximo, mínimo y cierre para la M23 con extensiones cercanas y alejadas
Se observa en la Figura 3.59 que corresponde al gráfico de la M23 que las extensiones lejanas
para ambos casos analizados presenta mejores resultados con valores muy próximos a 1.
Fig 3.60 Gráfico de máximo, mínimo y cierre para la M24 con extensiones cercanas y alejadas
Se observa en la ilustración que la medida M24, presenta un rango amplio de resultados que va
desde 0,20 aproximadamente hasta valores ligeramente superiores a 0,80, como en la gran
mayoría de los gráficos en el cuales está involucrada la medida SIM2 hace que los valores
máximos decaigan y aumenten los valores mínimos.
Page 93
CAPÍTULO 3
Fig 3.61 Gráfico de máximo, mínimo y cierre para la M34 con extensiones cercanas y alejadas
La Figura 3.61 representa la medida propuesta M34 la cual presenta resultados bastantes
buenos pues la totalidad de los resultados fluctúan entre 0,60 y 0,85.
Fig 3.62 Gráfico de máximo, mínimo y cierre para MSIM con extensiones cercanas y alejadas.
El gráfico 3.62 muestra resultados muy similares al gráfico de la Media de los SIM para una
variable, aunque los valores medios de cada conjunto de datos están ligeramente por encima
de su similar de una variable.
Page 94
CAPÍTULO 3
Fig 3.63 Gráfico de máximo, mínimo y cierre para el MaxSIM con extensiones cercanas y alejadas
Se observa en la Figura 3.60 valores muy buenos cercanos a 1, en el caso de 20 valores ambas
extensiones brindan idénticos resultados.
Fig 3.64 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y alejadas
La Figura 3.61 correspondiente al gráfico de máximo, mínimo y cierre para MinSIM con
extensiones cercanas y alejadas presenta resultados desde valores inferiores a 0,15 hasta
valores ligeramente superiores a 0,80; para el caso de 20 valores los resultados máximos son
prácticamente iguales pero para extensiones lejanas presenta valores mínimos más pequeños.
Page 95
CAPÍTULO 3
Fig 3.65 Gráfico de máximo, mínimo y cierre para la MSIM con extensiones cercanas y alejadas
El gráfico 3.65 muestra resultados muy similares al gráfico de la Media de los SIM para una
variable, aunque los valores medios de cada conjunto de datos están ligeramente por encima
de su similar de una variable.
Fig 3.66 Gráfico de máximo, mínimo y cierre para el MinSIM con extensiones cercanas y alejadas
La Figura 3.66 representada por los valores mínimos de los índices presenta valores entre 0,10
y 0,80, pero con los valores medios sobre 0,50, por lo que no presenta buenos resultados.
Page 96
CAPÍTULO 3
Fig 3.67 Gráfico de máximo, mínimo y cierre para la SumSIM con extensiones cercanas y alejadas
La suma de los SIM (SumSIM) que puede tener valores máximos próximos a 3, se encuentran
entre 1 y 2,80 con ligeros resultados superiores los datos representados por extensiones
lejanas.
Se decidió establecer comparaciones utilizando pruebas no paramétricas y en la Tabla 3.6 se
muestran los resultados del test de Mann Whitney entre los valores con extensiones cercanas y
alejadas para dos variables con las medidas propuestas.
Tabla 3.6 Test de Mann Whitney entre los valores con extensiones cercanas y alejadas para dos variables con las
medidas propuestas
Cantidad
de datos
MSIM234 MaxSIM MinSIM SumSIM SIM234
10 0,005 0,003 0,016 0,003 0,011 0,005 0,001
20 0,050 0,021 0,155 0,048 0,042 0,151 0,030
Page 97
CAPÍTULO 3
Los resultados del testde Mann Whitney son similares a los encontrados con anterioridad.
A continuación se muestran dos gráficos de barra: uno correpondiente a las medidas clásicas
y el otro a las medidas propuestas para determinar con mayor presición cual de estas medidas
presenta mejores resultados.
Fig 3.68 Gráfico de barras correspondiente a las mediadas clásicas para el experimento 2 con dos variables
En la Figura 3.68 una vez más el índice de similitud SIM3 presenta los mejores resultados con
valores muy próximos a 0,80, por su parte el índice SIM2 posee resultados inferiores a 0,45,
mientras que el R2 Borroso presenta inestabilidad con valores por debajo de 0,45 par
cantidades de datos igual a 10 y próximos a 0,70 para cantidades de datos igual a 20.
La SIM2 no es una buena medida. Sus valores están bastante por debajo de las demás para
ambos tamaños de muestra. Los índices SIM3 y SIM4 son los que ofrecen las mejores
puntuaciones.
Page 98
CAPÍTULO 3
Fig 3.69 Gráfico de barras correspondiente a las medidas propuestas para el experimento 2 con dos variables
Para el caso que ilustra la media para las medidas propuestas, la medida MaxSIM y la M34
ofrecen los mejores resultados.
3.3 Aplicación a la tasa de cambio del Euro
La siguiente aplicación real fue tomada de la tesis de opción al título de maestría del Lic. Jorge
Luis Morales Martínez.
La tasa o tipo de cambio, relaciona a dos monedas y expresa la magnitud en que se
intercambian entre sí.
Factores determinantes de la tasa de cambio
Las fluctuaciones de la tasa de cambio del euro de acuerdo a las variaciones de los precios de
diferentes productos exportables e importables como metales básicos, metales preciosos,
alimentos, azúcar, energía y las tasas de interés de euro en el primer mes. Para ello los datos
que se utilizan fueron adquiridos del Banco Central de Cuba a través del sitio Web
www.interbancario.co.cu durante el período mayo – junio del 2009. La información recogida
presenta como variable dependiente la tasa de cambio del Euro frente al CUC y como
variables independientes los diferentes productos exportables e importables mencionados. Para
poder obtener las variaciones en la variable dependiente se mide las observaciones cada cinco
días y en cuanto a las variables independientes se calcula la media de los valores en esos 5
días. Las variables más importante fueron: (precio del estaño (metal básico), precio del oro y
del paladio (metales preciosos), harina de trigo y leche en polvo entera (alimentos), jet-fuel del
Page 99
CAPÍTULO 3
mediterráneo (energía), precio del petróleo crudo ligero en la bolsa de Nueva York) (Morales
Martínez, 2010)
Posteriormente se realiza la regresión borrosa para cada mes, así como para el bimestre
correspondiente, obteniéndose para cada uno de ellos resultados satisfactorios que se muestran
a continuación:
Solo se cuenta con 5 observaciones, por cada mes.
Mayo
El Modelo de regresión Borrosa obtenido es:
( ) ( )
( )
( )
( )
( ) ( )
Para este mes se tiene que SIM2= 0.2822, SIM3= 0.7364, SIM4= 0.6033, la Correlación
híbrido= 0.9263, la M234= 0.5406 y el Borroso resultó ser 0.9782, por lo que se puede
interpretar que el modelo de regresión borrosa explica el 97 % de la variación presente en los
datos centrales .
Obsérvese que la medida SIM2 tiene un valor relativamente bajo, no ocurre así con los índices
SIM3 y SIM4. Estos dos últimos valores son indicadores mejores de la calidad del modelo
hallado.
Junio
El Modelo de regresión Borrosa obtenido es:
( ) ( )
( ) ( )
( ) (0,0,0) et Fuel (0,0,0)
Para este mes se obtuvo que SIM2= 0.4203, SIM3= 0.7024, SIM4= 0.6153, la Correlación
híbrido= 0.9145, la M234= 0.5793 y el Borroso resultó ser 0.9635. De la misma manera
Page 100
CAPÍTULO 3
se puede hacer la interpretación de que el modelo hallado es capaz de explicar el 96 % de la
variación presente en los datos centrales .
La medida SIM2 tiene un valor inferior a los índices SIM3 y SIM4, también en este ejemplo.
3.4 Consideraciones finales del capítulo
En este capítulo se mostró todas las funcionalidades del software GOF 1.0 a través de su
manual de usuario. También se presentaron los resultados obtenidos de todos los experimentos
que fueron realizados, mediante gráficos de caja y de barras, así como de test no paramétricos
los cuales fueron determinantes para corroborar que las mejores medidas de bondad de ajuste.
Tanto las medidas reportadas en la literatura como las propuestas, tuvieron buenos resultados
para algunas bases de datos. La complejidad computacional de ellas es sumamente simple, así
que se puede recomendar calcularlas todas y a partir de sus valores, tomar una decisión. No
obstante, los experimentos demostraron que:
De todas las medidas reportadas en la literatura que se estudiaron, las mejores
resultaron ser: el índice SIM3 y el SIM4.
De las medidas propuestas, las mejores fueron el MaxSIM y MSIM34. Debido a que
SIM2 siempre ofreció resultados bajos, el índice MaxSIM siempre elegirá un valor
entre SIM3 y SIM4. Es por ello que en este trabajo se recomienda la utilización de
MSIM34.
Page 101
CONCLUSIONES
87
CONCLUSIONES
En el presente trabajo se realiza una investigación acerca de las medidas de bondad de ajuste
en la regresión borroso posibilística. A manera de conclusiones:
1. Fueron seleccionadas las medidas de bondad de ajuste reportadas en la literatura:
SIM2, SIM3, SIM4, R2 Borroso y Correlación híbrido.
2. A partir de ellas, se propusieron las medidas: MSIM234,
MaxSIM, MinSIM, SumSIM.
3. Se diseñó e implementó un software capaz de calcular dichas medidas. con el objetivo
de realizar experimentos para analizar su comportamiento.
4. El sistema implementado está basado en la tecnología de software libre.
Page 102
RECOMENDACIONES
88
RECOMENDACIONES
Las medidas de bondad de ajuste es una temática muy interesante y novedosa en la actualidad.
Existen algunas medidas no abordadas en el presente trabajo, que sería muy útil analizarlas.
1. Además se proponen medidas como MSIM234,
MaxSIM, MinSIM, SumSIM, que se recomienda añadirlas al software efuzzy.
Page 103
BIBLIOGRAFÍA
89
BIBLIOGRAFÍA
AGUILERA CUEVAS, S. & RODRÍGUEZ BETANCOURT, R. 1999. Aplicación de la
regresión lineal borrosa para la planificación presupuestaria en el Hotel Meliá Santiago
de Cuba.
AGUILERA CUEVAS, S. R. B., RAMÓN 1999. Aplicación de la regresión lineal borrosa
para la planificación presupuestaria en el Hotel Meliá Santiago de Cuba.
ANDERSON, T. W. & DARLING, D. A. 1952. Asymptotic theory of certain goodness of fit
criteria based on stochastic processes. Annals of Mathematical Statistics.
ARANGUREN, S. M. & MUZACHIODI, S. L. 2003. Logica Difusa o matemática Borrosa.
Implicaciones del Data Mining [Online].
B.IZYUMOV, E. K., AND M. WAGENKNECHT. 2001. Software tool for regression analysis
of fuzzy data. In 9th Zittau Fuzzy Colloquium [Online].
B.M.AYYUB, Y. O. C. A. 2001. Fuzzy regression methods- a comparative assessment. Fuzzy
Sets and Systems.
BORIS, I. Aplication of f-regression method to fuzzy classification problem.
BUCKLEY, J. J. 2006. Fuzzy Probability and Statistics.
CAPOTE PACAREU, M. & BORREGO CLAVERO, R. 2013. Sistema informático para el
procesamiento de encuestas de satisfacción estudiantil.
CONTE, S., DUNSMORE, H. & SHEN, V. 1986. Software Engineering Metrics and Models.
In: COMPANY, B. C. P. (ed.).
CRESPO, J. 2002. Modelo Paramétrico Matemático Difuso para la estimación de Esfuerzo
de Desarrollo del Software. Tesis Doctoral.
CHANG Y, -. H. O. 2001a. Hybrid fuzzy least- squares regression anaysis and its reliability
measures. Fuzzy Sets and Systems, 119, 225-246.
CHANG Y, -. H. O. 2001b. RE: Hybrid regression anaysis with reliability and uncertainty
measures.
CHANG, Y. O. & AYYUB, B. M. 2001. Fuzzy regression methods- a comparative
assessment. Fuzzy Sets and Systems.
D'AGOSTINO, R. B. & STEPHENS, M. S. (eds.) 1987. Tests for the uniform distribution,
New York and Basel.
DE-LOS-COBOS-SILVA, S. G., GODDARD–CLOSE, J. & ANDRADE, M. A. G. 2011.
Regresión borrosa vs. Regresión por mínimos cuadrados ordinarios:caso de estudio.
Revista de Matemática: Teoría y Aplicaciones, 18, 37.
Page 104
BIBLIOGRAFÍA
DENODA PÉREZ, L. 2011. Sistema para el análisis de técnicas descriptivas y regresión
borrosa. Aplicaciones.
DUBOIS D, Y. P. H. 1983. Ranking fuzzy numbers in setting of possibility theroy.
Information Science, 30, 183-224.
FOLGER, G. K. A. T. A. 1988. Fuzzy Sets, Uncertainly, and Information.
GARCÍA, M. O. Y. C. 2010. Pruebas de bondad y ajuste
HERRERA PALLARES, S. 2012. PAQUETE ESTADÍSTICO PARA ANÁLISIS DE
REGRESIÓN.
HIDEO, T. 1987. Possibilistic regression analysis based on linear programin24.
HOJATI M., B. C. Y. S. K. 2005. A simple method for computation of fuzzy linear regression.
European Journal of Operational research, 166, 172-184.
HUNG T. NGUYEN , B. W. 2006. Fundamentals of Statistics with Fuzzy Data, Netherlands.
IZYUMOV, B., KALININA, E. & WAGENKNECHT, M. 2001. Software tool for regression
analysis of fuzzy data. In 9th Zittau Fuzzy Colloquium.
JARQUE, C. & BERA, A. 1980. Efficient tests for normality, homoscedasticity and serial
independence of regression residuals. Economics Letters.
JARQUE, C. & BERA, A. 1981. Efficient tests for normality, homoscedasticity and serial
independence of regression residuals: Monte Carlo evidence". Economics Letters 313–
318. .
JARQUE, C. & BERA, A. 2006. A Test for Normality of Observations and Regression
Residuals.
JOSÉ C , R. C. A. A. V. 1999. Reconocimiento de un Patrón de Estimación Humana
Aplicando el Modelo de Regresión Lineal Borrosa. Computación y Sitemas, 3 No. 2,
105-114.
KAO C, Y. C. C.-L. 2002 A fuzzy linear regression model with better explanatory power.
Fuzzy Sets And Systems, 126, 401-409.
KAO C, Y. L. P.-H. 2005. Entropy for fuzzy regression analysis. International journal of
Systems Science, 36 No 14, 869-876.
KIM B, Y. B. R. R. 1998. Evaluation of fuzzy linear regressin models by comparison
membership function. Fuzzy Sets And Systems, 100, 343-352.
KIM, K. J., MOSKOWITZ, H. & KOKSALAN 1996. Fuzzy versus statistical lineal
regression. European Journal of Operational research, 92, 417-434.
KLIR, G. & FOLGER, T. A. 1988. Fuzzy Sets, Uncertainly, and Information.
L'ECUYER, P. & SIMARD, R. 2002. TestU01: A Software Library in ANSI C for Empirical
Testing of Random Number Generators.
L’ECUYER, P. 2012. SS User's Guide Package gof Goodness-of-fit test Statistics.
Page 105
BIBLIOGRAFÍA
MODARRES, M., NASRABADI, E. & NASRABADI, M. M. 2004. Fuzzy linear regression
analysis from the point of view risk. International journal of Uncertainty, Fuzziness
and Knowledge-based Systems, 12 No. 5, 635-649.
MODARRES M., N. E. Y. N. M. M. 2004. Fuzzy linear regression analysis from the point of
view risk. International journal of Uncertainty, Fuzziness and Knowledge-based
Systems, 12 No. 5, 635-649.
MOGILENKO A, Y. P. D. 2003. Development of fuzzy regression model using genetic
algorithms. International journal of Uncertainty, Fuzziness and Knowledge-based
Systems, 11 No. 4, 429-444.
MORALES MARTÍNES, J. L. 2010. Análisis de Probabilidades Borrosas y de Regresión
Borrosa. Aplicaciones. Tesis en Opción al Título de Master en Matemática Aplicada.,
Universidad Central de Las Villas.
MORALES MARTÍNEZ, J. 2010. Análisis de Probabilidades Borrosas y de Regresión
Borrosa. Aplicaciones.
NADIPURAM, P. 1999. Fuzzy Modeling and Control: Selected Works of Sugeno.
NADIPURAM R, P. (ed.) 1999. Fuzzy Modeling and Control: Selected Works of Sugeno.
PÉREZ, J. D. 2010. Notaciones y lenguajes de procesos. Una visión global., 100.
R., G. J. L. 2012. Apuntes de Métodos Estadísticos I.
R.C. TSAUR, H. F. W. 1999. Outliers in Fuzzy Regression Analysis. In International Journal
of Fuzzy Sistems, 1. No.2, 113-119.
REDDEN D, T. Y. W. W. H. 1996. Further examination of fuzzy linear regression. Fuzzy Sets
And Systems, 79, 203-211.
REDDEN, D. T. & WOODALL, W. H. 1996. Further examination of fuzzy linear regression.
Fuzzy Sets And Systems, 79, 203-211.
ROMERO CORTÉS, J. C. & AGUILAR VÁZQUEZ, A. 1999. Reconocimiento de un Patrón
de Estimación Humana Aplicando el Modelo de Regresión Lineal Borrosa.
Computación y Sitemas, 3 No. 2, 105-114.
S. CONTE, H. D., AND V. SHEN. 1986. Software Engineering Metrics and Models. In:
COMPANY, B. C. P. (ed.).
SAKAWA, M. & YANO, H. 1992. Fuzzy linear regression and its applications. Fuzzy
regression Analysis. En Kacprzyk j. y Fedrizzi M ed.
SAKAWA M. YANO, H. 1992. Fuzzy linear regression and its applications. Fuzzy regression
Analysis. En Kacprzyk j. y Fedrizzi M ed.
SAVIC, D. A. & PEDRYCZ, W. (eds.) 1992. Fuzzy lineal regression models: construction
and evaluation.: Kacprzyk J. y Fedrizzi M.
SERGIO DONOSO, S. 2006. Análisis de Regresión Difusa: Nuevos Enfoques y Aplicaciones.
Doctor en Informatica Doctoral, Universidad de Granada.
Page 106
BIBLIOGRAFÍA
SHAKOURI, H. & NADIMI, R. 2009. A novel fuzzy linear regression model based on a non-
equality possibility index and optimum uncertainty. Applied Soft Computing 9, 590–
598.
SHAPIRO, S. & WILK, M. 1965. An analysis of variance test for normality (complete
samples). Biometrika, 591–611.
STEPHENS, M. 1974. "EDF Statistics for Goodness of Fit and Some Comparisons". Journal
of the American Statistical
SUGENO, M. 1985. Industrial Aplications of Fuzzy Control. North Holland.
TANAKA, H., UEJIMA, S. & ASAI, K. 1982. Linear regression analysis with fuzzy model.
IEEE Trans. On Systems, Man, and Cybernetics, 12, 903-907.
TANAKA HIDEO, I. H. 1992. Posibilistic regression analysis based on linear programing. En
Kacprzyk J. y Fedrizzi M. Fuzzy regression Analysis ed.
TSAUR, R. C. & WANG, H. F. 1999. Outliers in Fuzzy Regression Analysis. In International
Journal of Fuzzy Sistems, 1. No.2, 113-119.
ZADECH, L. A. 1968. Fuzzy algorithms. Information and Control, 12, 8.
ZADEH, L. A. 1965. Fuzzy Sets. Information and Control, 8, 15.
ZWICK, R., CARLSTEIN, E. & BUDESCU, D. V. 1987. Measures of similarity among fuzzy
concepts: A comparative analysis. . International Journal of Aproximate Reasoning 1,
221-242.
Page 107
ANEXOS
93
ANEXOS