Características de Calidad de Datos de los Almacenes de Datos Asignatura: Calidad y Medición de Sistemas de Información Autor: Arnulfo Napoleón Hernández González [email protected]Tutor: Manuel Ángel Serrano Martin 1. Introducción Los almacenes de datos se definen [1] como sujetos orientados, integrados, variantes en el tiempo, colección de datos no volátiles, que su uso primario en las organizaciones es para la toma de decisiones. Razón por la cual, [2-5] se espera que presenten información correcta en el lugar correcto en un tiempo exacto y un costo adecuado para un fácil, rápida y correcta decisión. Los almacenes de datos han llegado a ser una estrategia importante de negocios donde se integra información heterogénea de las diferentes fuentes de la organización, lo cual permite realizar un proceso analítico en línea (OLAP), sobre la información que realmente necesitan los tomadores de decisiones. Los almacenes de datos han incursionado en varios ámbitos industriales incluso en la medicina [9-11] donde la calidad de los datos en todos sus componentes debe ser alta, por el impacto de la decisión que se toma en base a esta, ya que la falta de calidad puede lleva a que los usuarios finales tomen un decisión incorrecta que puede llevar a consecuencias fatales, especialmente en el ámbito del cuidado del corazón. Es por esto que la calidad de los datos en los almacenes de datos es importante, [12] ya que el potencial de los negocios depende de la calidad de las decisiones que giran alrededor de la calidad de los datos utilizados para la toma de estás. Por su parte la ISO 25012 [15] define la calidad de datos “como el grado en que las características de los datos guardan las condiciones y sugiere las necesidades cuando es usado bajo condiciones específicas”.
30
Embed
Características de Calidad de Datos de los Almacenes de … · Características de Calidad de Datos de los Almacenes de Datos Asignatura: Calidad y Medición de Sistemas de Información
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Características de Calidad de Datos de los Almacenes de Datos
Asignatura: Calidad y Medición de Sistemas de InformaciónAutor: Arnulfo Napoleón Hernández González
En otra publicación de este mismo proyecto, “Data Warehouse Process Managment”, [5]
cuyo objetivo fue definir un modelo que capture los componentes estáticos a lo largo de la
arquitectura los almacenes de datos, con información de diferentes características de
calidad además de los componentes, en esta publicación adoptaron el estándar ISO 9126
[6] de la calidad del producto software por las características y subcaracterísticas de la
calidad interna y externa; sin embargo, como no todas las características y
subcaracterísticas se acoplan a las características propias de la calidad de datos, se
consideraron únicamente las siguientes:
En la característica de funcionalidad, las subcaracterísticas:
Exactitud (Accuracy): que tiene relación con completitud (completeness), exactitud (accuracy), consistencia (consistency) de los datos (vistos estos como producto final).
Conformidad (Compliance): Los datos son conformes con la aplicación de estándares o
convenios o regulaciones en ley y prescripciones similares.
Seguridad (Security): Los datos son disponibles con una autorización de acceso, por sí
accidentalmente o deliberadamente alguien no autorizado quisiera hacer uso de ellos.
En la característica de fiabilidad, la subcaracterística de recuperabilidad (recoverability): Las ocasiones en que los datos están inhabilitados para ser recuperados
y el nivel de desempeño se ve afectado en caso de fallo.
En la característica de usabilidad, la subcaracterística de entendibilidad (understandibility): Porcentaje en que los datos son entendidos y aceptados por los
usuarios.
Amit Rudra y Emilie Yeo publicaron el artículo “Key Issues in Achieving Data Quality and
Consistency in Data Warehousing among Large Organisations in Australia”, [7] cuyo
objetivo fue definir los temas claves que logran la calidad de datos en los ambientes de
almacenes de datos, relacionando la consistencia con la calidad de datos.
Indica que la calidad de datos se refiere a lo relevante (relevant), precisa (precise), útil (useful), entendible (understandable) y datos oportunos (timely data), exacto
Define a su vez el problema de la inconsistencia de los datos, como la ocurrencia de estos
cuando existen diferentes versiones en la misma base de datos, esto puede ser causado
por varias estados de actualización o cuando se cambia algo que ha sido tratado en un
archivo. La inconsistencia de los datos almacenados son unos de los más comunes de los
errores de las fuentes en los sistemas de cómputo. Se puede llegar a obtener la
consistencia de los datos controlando o eliminando la redundancia, conjuntamente con la
buena administración que puede llegar a promover un alto nivel de integridad de los
datos.
En otra publicación escrito por Amit Rudra y Emilie Yeo “Issues in user perceptions of
data quality and satisfaction in using a data warehouse-an Australian experience”, [8] en el
que su objetivo fue identificar la percepción de la calidad de datos entre los usuarios de
los almacenes de datos, y las tasas de satisfacción de los usuarios de los almacenes de
datos.
En esta publicación definen nuevamente las mismas características de calidad de datos
en la publicación pasada. También comentan el problema de la inconsistencia de datos tal
como lo hicieron en el anterior.
Además comentan de un mini estudio en que realizaron donde por medio de un
cuestionario que enviaron a 16 personas vía correo, de los cuales solo 10 contestaron y
así lograron identificar varios factores de la percepción de la calidad de los datos a su vez
indican la media y desviación estándar, así:
Preguntas Media
Desviación
EstándarUsted piensa que las salidas son de utilidad 4.86 1.46¿La información es clara? 4.33 1.22¿La información contiene lo que usted necesita? 3.86 1.68¿Usted obtiene la información que necesita en tiempo? 3.83 2.14¿El sistema le proporciona información al día? 3.67 2.35¿El sistema es exacto? 3.63 1.6¿El sistema le proporciona la información precisa que usted necesita? 3.57 1.72¿El sistema le proporciona información suficiente? 3.43 1.4¿Está usted satisfecho con la exactitud del sistema? 3.38 1.69
Donde se puede identificar que estas preguntas se orientan hacia las características de
calidad definidas: relevante (relevant), precisa (precise), útil (useful), en contexto (in context), entendible (understandable) y datos oportunos (timely data), exacto (accuracy), salidas oportunas (output timeliness), fiabilidad (reliability), completitud (completeness), relevancia (relevance), precisión (precision).
Robert L. Leitheiser en su publicación “Data quality in health care data warehouse
environments” [9] donde su objetivo es definir un modelo conceptual genérico para
almacenes de datos en el ámbito de la medicina, que tenga en cuenta un aproximación de
un modelo de calidad, pero no así la definición de un modelo de calidad como tal, sino
que utiliza las características de calidad del modelo de Wang y Strong, sin embargo no se
realizó bajo ningún método de investigación sino por pura especulación.
Definió el terminó de calidad como apto para el uso, lo cual sugiere que el concepto de
calidad de datos es relativo. Además que la calidad de datos es considerada para cada
uno de los usuarios, puede tratarse como una necesidad que está direccionada a las
necesidades de cada uno de estos, con las características de calidad de datos siguientes:
Contextual (Contextual) Relevancia (Relevancy)Valor añadido (Value-added)Oportunidad (Timeliness)Completitud (Completeness)Cantidad de datos (Amount of data)
Representation)Las cuales se definirán en el apartado del marco conceptual de calidad de datos de Wang
y Strong.
En la publicación “Medical Diagnostic and Data Quality” [10] definen la calidad de los
datos como la limitación los componentes sintácticos y semánticos, y de la disponibilidad
es extremadamente de alto impacto en el proceso de diagnostico y de toma de decisiones
correctas, la cuales puede tener consecuencias fatales, especialmente en el cuidado del
corazón.
Definen las siguientes características de calidad como los criterios que deben de validarse
antes de grabar los datos en los almacenes de datos.
Relevancia (Relevance): datos que son necesarios para la aplicación deben ser incluidos
en el almacén de datos.
Claridad de definición (Clarity of definition): Todos los términos usados para los
atributos deben ser claramente definidos.
Homogeneidad, consistencia estructural (Homogeneity, structural consistency): Habilitar a nivel de uniformidad de conceptos grabados.
Redundancia mínima (Minimun redundancy): Incluidos solamente los datos
necesarios.
Consistencia semántica (Semantic consistency): Los datos son claros y organizados
acorde al dominio de la aplicación.
Robustez, Flexibilidad (Robustness, flexibility)): Son cumplidas ambas características
a través de reutilizar los datos.
Siempre en el ámbito de la medicina en la publicación “Healthcare data warehousing and
quality assurance” [11] donde indica el reto que es para la amplia industria médica, ya que
al utilizar esquemas que no son compatibles con la codificación y los estándares médicos,
puede producir la muerte de un paciente por una toma de decisión realizada con los datos
incorrectos, es por ello que es importante la calidad de datos que son enviados a los
diversos stakeholders, incluyendo reguladores de cuidados del corazón, administradores
de hospitales, consumidores, activistas comunitarios.
La calidad de datos la define como “los datos son adecuados para el uso de los
consumidores de datos”. La idoneidad del uso o calidad de datos en los almacenes de
datos, se refiere a la fidelidad que se observa en los patrones de comportamientos en
éstos, del comportamiento actual en el mundo real.
Esta publicación en general trata la calidad de datos desde el punto de vista del
tratamiento de los errores en los almacenes de datos, tales como la incompatibilidad de
unidades, mezclar la granularidad de los datos, precisión, ámbito, profundidad,
coherencia.
Otros problemas de datos son por la adecuación de los datos en las otras fuentes que
inicialmente capturan y guardan la información. Registros de valores incorrectos, registros
mezclados, datos de campos de baja, unidades incorrectas, estándares incorrectos,
prácticas prematuras de colección de datos que pueden contaminar los datos
evidenciando errores.
De estos errores se pueden deducir las características de calidad de exactitud (accuracy), interpretabilidad (interpretability), coherencia (coherence), precisión (precision), consistencia (consistency).
En la publicación de “Enhacing Data Quality in Data Wharehouse Enviroments”,[12] que
tiene como objetivo definir la importancia de aumentar la calidad de los datos en los
ambientes de almacenes de datos, explorando los factores que deben ser considerados
para obtener un nivel necesario de decisión relevante en los procesos o un beneficio
potencial para el aumentar la calidad de los datos.
En esta publicación mencionan únicamente las características de exactitud (accuracy), completitud (completeness), consistencia (consistency) y oportunidad (timeliness); sin embargo no las define.
La publicación “A Data Quality Metamodel Extension to CWM” [13] cuyo objetivo es crear
una extensión al meta modelo de CWM para añadir características de calidad a los datos
que son almacenados, a partir de este meta modelo.
Indican que la calidad de datos se logra siempre y cuando los datos sean exactos y se
consideran exactos si cumplen con las propiedades: correctitud, sin ambigüedad,
consistencia, completitud y oportunidad que se definen a continuación.
Correctitud (Correctness): Los datos son correctos si transmiten declaraciones
léxicamente, sintácticamente y semánticamente correctas.
Sin ambigüedad (Unambiguity): Los datos no son ambiguos si permiten una sola
interpretación.
Consistencia (Consistency): Los datos son consistentes si no transmiten
heterogeneidad, en el contenido ni en la forma.
Completitud (Completeness): Los datos son completos si no les falta una pieza o parte
de información.
Oportunidad (Timeliness): Los datos son exactos si están a la fecha.
Adicionalmente se encontraron características de datos generales para sistemas de
información en la publicación “Data Quality Assessment” [14], en donde se definen la
calidad como un concepto multidimensional que depende fundamentalmente de los
principios necesarios que definen cada uno de las empresas. La subjetividad de la
evaluación de la calidad de los datos refleja la necesidad y experiencia de los
stakeholders: colectores, administradores y consumidores de datos. Identifica las
siguientes características de calidad:
Accesibilidad (Accessibility): El grado en que los datos están disponibles, o son fácil y
rápido recuperables.
Cantidad apropiada de datos (Appropriate Amount of Data): El grado que el volumen
de datos es apropiado para la tarea a mano.
Credibilidad (Believability): El grado en que los datos se consideran como verdaderos o
creíbles.
Completitud (Completeness): El grado en que los datos no son faltantes y son suficiente
amplios y profundos para la tarea a mano.
Representación Concisa (Concise Representation): El grado en que los datos son
representados concisamente.
Representación Consistente (Consistent Representation): El grado en que el dato es
representado en el mismo formato.
Facilidad de manipulación (Ease of Manipulation): El grado en que el dato es fácil de
manipular y añadir a tareas diferentes.
Libre de error (Free-of-error): El grado en que el dato es correcto y fiable
Interpretabilidad (Interpretability): El grado en que el datos esta en un lenguaje
apropiado, símbolos, y unidades, y una clara definición.
Objetividad (Objectivity): El grado en que el dato es objetivo, sin perjuicios e imparcial.
Relevancia (Relevancy): El grado que el dato se aplica y es útil a la tarea a mano.
Reputación (Reputation): El grado en que el dato es muy bien considerado en términos
del contenido de la fuente.
Seguridad (Security): El grado en que el acceso al dato es apropiadamente restringido
para mantener su seguridad.
Oportunidad (Timeliness): El grado en que el dato está lo suficientemente al día para la
tarea a mano.
Entendibilidad (Understandability): El grado en que el dato es fácil de comprender.
Valor añadido (Value-added): El grado en que el dato es beneficioso y proporciona
ventajas para su uso.
También se tomó en cuenta el estándar ISO 25012: Ingeniería del Software –Requerimientos y evaluación de la calidad del producto software – Modelo de calidad de datos ISO/IEC FDIS 25012 [15]
Este es un estándar internacional que define un modelo general de calidad de datos para
mantener un formato estructurado dentro de los sistemas de cómputo. Este estándar se
enfoca en la calidad de los datos como parte de los sistemas de cómputo y define
características de calidad con objetivo en el uso de los datos por humanos y por sistemas.
Este estándar toma en cuenta todos los tipos de datos, para asignar valores y relaciones
entre los datos, no está definido para una organización específica de los datos, todos los
procesos y envíos de datos relacionados cuentan con los beneficios al aplicar el estándar.
El estándar define la calidad de datos, como el grado en que las características de los
datos guardan las condiciones y sugiere las necesidades cuando es usado bajo
condiciones específicas.
Indica también que las características de calidad de datos son las categorías de los
atributos de calidad de datos que llevan a la calidad de datos; y que el modelo de calidad
de datos es el conjunto de características de calidad que proveen un marco de trabajo con
requerimientos específicos de calidad de datos y su evaluación.
Este modelo define un conjunto de características de calidad que son consideradas desde
dos puntos de vista: inherente y dependiente del sistema.
La calidad de datos inherente se refiere al grado en el cual las características de calidad
de datos tienen el potencial intrínseco para satisfacer las necesidades implicadas cuando
el dato es usado bajo condiciones específicas.
Por otra parte, la calidad de datos dependiente del sistema se refiere al grado en el cual
la calidad de los datos es enriquecida y preservada dentro de un sistema de cómputo
cuando el dato es usado bajo condiciones específicas.
Características de calidad InherenteDependiente del
sistemaExactitud (Accuracy) X
Completitud (Completeness) XConsistencia (Consistency) X
Credibilidad (Credibility) XActualidad (Currentness) X
Accesibilidad (Accesibility) X XConformidad (Compliace) X X
Confidencialidad (Confidentiality) X XEficiencia (Efficiency) X XPrecisión (Precision) X X
Trazabilidad (Traceability) X XEntendibilidad (Understandability) X X
Disponibilidad (Availability) XPortabilidad (Portability) X
Recuperabilidad (Recoverability) X
Exactitud (Accuracy): El grado en el que el dato tiene atributos que representan
correctamente el valor verdadero del atributo instanciado en un concepto o evento en un
contexto específico de uso.
Completitud (Completeness): El grado en el que el dato asociado a un sujeto con una
entidad tiene todos los valores esperados para el atributo y para las instancias de la
entidad relacionadas en un contexto específico de uso.
Consistencia (Consistency): El grado en el que el dato tiene atributos que son libres de
contradicción y son coherente con otros datos en un contexto específico de uso.
Credibilidad (Credibility): El grado en el que el dato tiene atributos que son
considerados como verdaderos y creíbles por usuarios en un contexto específico de uso.
Actualidad (Currentness): El grado en el que el dato tiene atributos que son de la edad
correcta en un contexto específico de uso.
Accesibilidad (Accessibility): El grado en el que el dato puede ser accesados en un
contexto específico de uso, particularmente por la gente que necesita el soporte de
tecnología o una configuración especial porque tiene alguna indisponibilidad.
Conformidad (Compliace): El grado en el que el dato tiene atributos que se adhieren a
las normas, convenciones o regulaciones vigentes y reglas similares relacionadas con la
calidad de datos en un contexto específico de uso.
Confidencialidad (Confidentiality): El grado en el que el dato tiene atributos que
aseguran que éste es sólo accesible e interpretable por usuarios autorizados en un
contexto específico de uso.
Eficiencia (Efficiency): El grado en el que el dato tiene atributos que pueden ser
procesados y proporciona los niveles esperados de desempeño al utilizar las cantidades y
los tipos de recursos apropiados en un contexto específico de uso.
Precisión (Precision): El grado en el que el dato tiene atributos que son exactos o que
proporcionan la discriminación en un contexto específico de uso.
Trazabilidad (Traceability): El grado en el que el dato tiene atributos que proporcionan
un rastro de auditoría al acceso a los datos y de cualquier cambio realizado a los datos en
un contexto específico de uso.
Entendibilidad (Understandability): El grado en el que el dato tiene atributos que le
permiten ser leído e interpretado por usuarios, y es expresado en lenguajes apropiados,
símbolos y unidades en un contexto específico de uso.
Disponibilidad (Availability): El grado en el que el dato tiene atributos que le permiten
ser recuperados por usuarios autorizados y/o aplicaciones en un contexto específico de
uso.
Portabilidad (Portability): El grado en el que el dato tiene los atributos que le permiten
ser instalado, substituido o movido de un sistema a otro conservando la calidad existente
en un contexto específico de uso.
Recuperabilidad (Recoverability): El grado en el que el dato tiene atributos que le
permiten mantener y conservar un nivel especificado de operaciones y calidad, aún en
caso de falla, en un contexto específico de uso.
Para complementar el trabajo de las características de calidad de datos, se analizó el
marco de Wang y Strong, que será de utilidad para agrupar las características de calidad
que se encontraron, en este estado del arte.
Marco conceptual de calidad de datos de Wang y Strong,[16] para la definición de este
marco de calidad se analizaron varios atributos de calidad de datos desde la perspectiva
de las personas que utilizan los datos. Ellos identificaron un conjunto completo de
características de calidad de datos, se adicionaron varias características tales como
credibilidad, valor añadido, interpretabilidad, accesibilidad, y otras más. Estas
características fueron agrupadas en cuatro amplías categorías: intrínsecas, contextuales,
representacionales y accesibilidad; esto dio como resultado dicho marco de calidad de
datos.
Definiendo la calidad de datos intrínseca como la que denota que los datos tienen calidad
por ellos mismo, es decir, calidad inherente a ellos mismos.
La calidad de datos contextual como los requerimientos destacados de la calidad de datos
que deben ser considerados dentro del contexto de la tarea actual, es decir, los datos
deben ser relevantes, oportunos, completos y apropiados en términos de cantidad así
como de valor añadido.
La calidad de datos representacional y de accesibilidad hacen énfasis en la importancia
del rol del sistema, es decir, el sistema debe ser accesible pero seguro, y el sistema debe
presentar los datos de una manera que sean interpretables, fácil de entender,
representarlos concisos y consistentemente.
CALIDA DE DATOS INTRÍNSECAS:
• Credibilidad (Believability): El hecho que los datos sean aceptados por considerarse
como verdaderos, reales y creíbles.
• Exactitud (Accuracy): El hecho que los datos son correctos, fiables y certificados
libres de errores.
• Objetividad (Objectivity): El hecho que los datos no tiene sesgos (sin prejuicios) e
imparcialidades.
• Reputación (Reputation): El hecho que los datos son verdaderos o considerados
altamente creíbles en términos de las fuentes o contenidos de origen.
CALIDAD DE DATOS CONTEXTUAL:
• Valor añadido (Value-added): El hecho que los datos son beneficiados y
proporcionan ventajas en su propio uso.
• Relevancia (Relevancy): El hecho que los datos son aplicable y útiles para la tarea
actual.
• Oportunidad (Timeliness): El hecho que la edad de los datos es apropiada para la
tarea actual.
• Completitud (Completeness): El hecho que los datos son suficientemente amplios,
profundos y están en el ámbito para la tarea actual.
• Cantidad apropiada de datos (Appropriate amount of data): El hecho en que la
calidad y el volumen habilitado para los datos es apropiado.
CALIDAD DE DATOS REPRESENTACIONAL:
• Interpretabilidad (Interpretability): El hecho que los datos son expandibles,
adaptables y fácil adición para otras necesidades.
• Fácil entendimiento (Ease of understanding): El hecho que los datos son limpios sin
ambigüedad y fácil comprensión.
• Consistencia representacional (Representational consistency): El hecho que los
datos son siempre presentados en el mismo formato y son compatibles con los datos
previos.
• Representación concisa (Concise representation): El hecho que los datos son
representados compactamente sin ser imprecisos (es decir, breve en la representación,
completa y al punto)
CALIDAD DE DATOS DE ACCESIBILIDAD:
• Accesibilidad (Accessibility): El hecho que los datos son disponibles o fácil y rápido
recuperables.
• Acceso seguro (Access security): El hecho que el acceso a los datos pueda ser
restringido y además mantenga la seguridad.
3. Crítica y Valoración
A pesar de la escasez de estudios encontrados referentes a características de calidad de
datos para los almacenes de datos se realizó un cuadro resumen con las características
encontradas, así:
ISO
250
12
Wan
g y
Stro
ng
Leo
L. P
ipin
o, e
t. al
DW
Q P
roje
ct
Rud
ra y
Yeo
Leit
heis
er R
.
Bre
ndt D
. J, e
t. al
.
Tatj
a W
.,et.
al.
Pedr
o G
omes
et.
al.
Bal
lou
y K
umar
Credibilidad (Credibility, Believability)
ISO
250
12
Wan
g y
Stro
ng
Leo
L. P
ipin
o, e
t. al
DW
Q P
roje
ct
Rud
ra y
Yeo
Leit
heis
er R
.
Bre
ndt D
. J, e
t. al
.
Tatj
a W
.,et.
al.
Pedr
o G
omes
et.
al.
Bal
lou
y K
umar
Exactitud (Accuracy)
Objetividad (Objectivity)
Reputación (Reputation)
Valor añadido (Value-added)
Relevancia (Relevancy, relevance)
Oportunidad (Timeliness)
Completitud (Completeness)
Cantidad apropiada de datos (Appropriate amount of data)
Valor añadido (Value-added)Relevancia (Relevancy)Oportunidad (Timeliness)Actualidad (Currency)Volatilidad (Volatility)Completitud (Completeness)Cantidad apropiada de datos (Appropriate amount of data)Conformidad (compliace)Eficiencia (Efficiency)Trazabilidad (Traceability)Portabilidad (Portability)
Representacional(Representational)
Consistencia (Consistency)Interpretabilidad (Interpretability)Interpretabilidad de los datos (Data interpretability)Interpretabilidad del modelo (Interpretability of model)Entendibilidad (Understandability)
Consistencia representacional (Representational consistency)Representación concisa (Concise representation)Facilidad de manipulación (Ease of manipulation)Consistencia semántica (Semantic consistency)
Accesibilidad(Accesibility)
Accesibilidad (Accesibility)Confidencialidad (Confidentiality)Disponibilidad (Availability)Disponibilidad del sistema (System availability)Disponibilidad transaccional (Transactional availability)Acceso seguro (Access security)Recuperabilidad (Recoverability)
4. Conclusiones
Los almacenes de datos se han convertido en una de las principales estrategias e
inversiones de negocios para la toma de decisiones. Ya que estos centralizan y organizan
la información que provienen de las bases de datos transaccionales que soportan la
operatoria de las empresas.
La medicina también hace uso de los almacenes de datos, por lo que la calidad de los
datos en este ámbito es muy importante, ya que las decisiones tomadas con datos
erróneos pueden llevar a desenlaces fatales.
La calidad de datos ha sido definida por varios autores, y la mayoría de estos concuerda
en la definición que proporciona el estándar ISO 25012, como el grado en que las
características de los datos guardan las condiciones y sugiere las necesidades cuando es
usado bajo condiciones específicas, y que las características de calidad de datos son las
categorías de los atributos de calidad de datos que llevan a la calidad de datos.
En este trabajo se analizaron las diferentes publicaciones encontradas que tenían relación
con características de calidad de datos, se identificaron 111 características, a las cuales
se les realizó un proceso de análisis para identificar definiciones similares; luego de
realizar este proceso dio como resultado 32 características.
Las características de calidad de datos más relevantes para la mayoría de los autores
La agrupación de las 32 características de calidad de datos en las dimensiones
(intrínsecas, contextual, representacional, accesibilidad) que propone el modelo de
calidad de datos de Wang y Strong, proporciona un nuevo modelo conceptual de calidad
de datos orientado a los almacenes de datos.
5. Tendencias Futuras
Como ya se ha mencionado con anterioridad, las características de calidad de datos para
los almacenes de datos es un tema poco estudiado, por lo cual este análisis debe ser
complementado con otras características de calidad que se orienten a bases de datos o
sistemas de información, para robustecer el modelo conceptual de calidad obtenido.
Deben definirse medidas para cada una de las características de calidad de datos en el
entorno de los almacenes de datos.
Con las características encontradas identificar las relaciones y la implicación de una
característica con otra, para definir una red bayesiana que conjuntamente con las
medidas definidas, de cómo resultados la calidad de datos que tienen un almacén de
datos.
6. Referencias
1. Vassiliadis, P., Data Warehouse Modeling and Quality Issues, in Department of Electrical and Computer Engineering. 2000, National Technical University of Athens: Athens, GREECE.
2. Matthias Jarke, Y.V., Data Warehouse Quality: A review of the DWQ Project, in Conference of Information Quality. 1997: Massachusetts Institute of Technology, Cambridge.
3. Matthias Jarke, M.a.J., Christoph Quix, and Panos Vassiliadis, Architecture and quality in Data Warehouses: an extended repository approach, in Science Direct. 1999. p. 229-253.
4. Panos Vassiliadis, M.B., Christoph Quix, Towards quality-oriented data warehouse usage and evolution. Information Systems, 2000. 25(2): p. 89-115.
5. Panos Vassiliadis, C.Q., Yannis Vassiliou, Matthias Jarke, Data warehouse process management, in Science Direct Information Systems. 2001. p. 205-236.
7. Rudra, A.Y., E., Key Issues in Achieving Data Quality and Consistency in Data Warehousingamong Large Organisations in Australia, in Proceedings of the 32nd Annual Hawaii International Conference on 1999, System Sciences, 1999. HICSS-32.: Hawaii, EEUU.
8. Rudra, A.Y., E.;, Issues in user perceptions of data quality and satisfaction in using a data warehouse-an Australian experience, in System Sciences, 2000. Proceedings of the 33rd Annual Hawaii International Conference on. 2000: Hawaii United State.
9. Leitheiser, R.L., Data Quality in Health Care Data Warehouse Environments, in Proceedings of the 34th Hawaii International Conference on System Sciences - 2001. 2001.
10. Tatjana Welzer, B.B., Izidor Golob, Marjan Druzovec, Medical Diagnostic and Data Quality, in IEEE Computer Society. 2002.
11. Berndt Donald J., F.J.W., Hevner Alan R. , Studnicki James, Healthcare data warehousing and quality assurance. Computer, 2002. 34(12): p. 56-65.
12. Donald P. Ballou, G.K.T., Enhancing DataQuality in DataWarehouse Environments, in COMMUNICATIONS OF THE ACM. 1999. p. 73-78.
13. Pedro Gomes, J.F., Maria José Trigueiros, A Data Quality Metamodel Extension to CWM, in 4th Asia-Pacific Conference on Conceptual Modelling (APCCM 2007). 2007: Australian.
14. Leo L. Pipino, Y.W.L., and Richard Y. Wang, Data Quality Assessment, in COMMUNICATIONS OF THE ACM. 2002. p. 211 - 218
16. Richard Y. Wang, D.M.S., Beyond accuracy: what data quality means to data consumers. Journal of Management Information Systems, 1996. 12(4): p. 5-33.