Resolviendo problemas de calidad de datos con Data Quality Services
Post on 30-Jul-2015
106 Views
Preview:
Transcript
Resolviendo problemas de Calidad de Datos con
Data Quality Services
17 de Junio 2015 (12 pm GMT -5)Mary Arcia
Resumen:El aseguramiento de la calidad de datos es el proceso que más demanda tiempo, gente y dinero dentro de nuestros proyectos de BI. Entendiendo el efecto clave en el proceso de la toma de decisiones que genera el” business intelligence”, no puede tratarse la calidad de los datos como un proceso tardío. En esta sesión vamos a conocer cómo tras una metodología de calidad de datos, los servicios de Data Quality Services ahorrar tiempo y garantizar datos sanos y correctos para nuestros sistemas.
Está por comenzar: Próximos Eventos
Moderador: José L. Rivera
Minería de Datos - Machine Learning - HD Insight
24 de JunioFreddy Angarita
Manténgase conectado a nosotros!
Visítenos en http://globalspanish.sqlpass.org
/SpanishPASSVC
lnkd.in/dtYBzev
/user/SpanishPASSVC
/SpanishPASSVC
3
4
Oportunidades de Voluntariado
PASS no pudiera existir sin personas apasionadas y dedicadas de todas partes del
mundo que dan de su tiempo como voluntarios.
Se un voluntario ahora!!
Para identificar oportunidades locales visita volunteer.sqlpass.org
Recuerda actualizar tu perfil en las secciones de “MyVolunteering” y MyPASS para mas
detalles.
Sigan Participando!
• Obtén tu membresía gratuita en sqlpass.org
• Linked In: http://www.sqlpass.org/linkedin• Facebook: http://www.sqlpass.org/facebook• Twitter: @SQLPASS• PASS: http://www.sqlpass.org
Resolviendo problemas de Calidad de Datos con Data Quality Services
17 de Junio de 2015
Mary ArciaMCTS Microsoft SQL Server Especialista de BI/Grupo de Desarrollo GDSQL PASS Venezuela
Moderador: José L. Rivera
AGENDA
• QUÉ ES CALIDAD DE DATOS.• IMPORTANCIA DE LA CALIDAD DE DATOS EN NUESTRAS ORGANIZACIONES.• IMPACTO EN LOS PROYECTOS (Implementaciones de sistemas, Migraciones, Proyectos
de BI).
• DIMENSIONES Y MÉTRICAS DE CALIDAD DE LOS DATOS.• PROCESOS PARA EL ASEGURAMIENTO DE LA CALIDAD DEL DATO.• Ciclo de Vida de un proyecto sin calidad de datos• Ciclo de Vida de un proyecto con calidad de datos
• DATA QUALITY SERVICES• ARQUITECTURA DE DATA QUALITY SERVICES• PROYECTOS DE DATA QUALITY SERVICES• PREGUNTAS
QUÉ ES CALIDAD DE DATOS
ALGUNOS PROBLEMAS DE MALA CALIDAD….
• “Los datos de ventas no me cuadran”.• “Las direcciones están mal”.• “No hay manera de cuadrar la información”.• “La campañas de marketing no tienen una segmentación correcta”.• “El sistema está malo”.
• !Qué buena es la información…. ….cuándo y cómo la necesito!
IMPORTANCIA DE LA CALIDAD DE DATOS
o Imprescindible para tener una toma de decisiones correcta:• Información no correcta decisiones no correctas.• Debe basarse en la realidad.
o Pieza básica en la gestión de información corporativa: Aplicaciones CRM, ERP, BI realmente útiles.
o ROI inmediato:• Mejora de la rentabilidad por incremento de ingresos y disminución de costos.
o Impacto directo en el negocio:• Mejor control y rendimiento de las aplicaciones informáticas
IMPACTO DE LA MALA CALIDAD DE LOS DATOS
IMPACTO EN LOS PROYECTOS DE BI
o Datos accesibles, agregados y racionalizados para el consumo de BI.o Precisión y verificabilidad de los datos en los informes.o Incremento de la confianza en el datawarehouse:
• Mejores relaciones usuarios de BI y Equipo de IT • Directivos con decisiones más precisas
o Reconocimiento de nuevos patrones y tendenciaso Identificación de sobrecostes y ahorro de gastoso Reducción del Time To Market de los proyectos
DIMENSIONES Y MÉTRICAS DE LA CALIDAD DE LOS DATOS
Nombre Descripción Ejemplo
Formato Tenemos un formateo consistente en los estándares?
Nro de teléfono: (xxx)-xxx-xxxx,58+ xxx.xxx.xx.xx, xxx-xxxx
Estandarización Son los elementos de dato definidos y se comprenden sus valores?
Código de Género: M, F, U, 0, 1, 2
Consistencia Representan los valores lo mismo? Tienen el mismo significado?
Consumos representados en Bs, Pesos argentinos, pesos colombianos, dólares, etc
Completitud Se encuentra completa toda la data que necesitamos?
20% de los apellidos de los clientes están en blanco, 50% de las direcciones no tienen código postal
DIMENSIONES Y MÉTRICAS DE LA CALIDAD DE LOS DATOS
Nombre Descripción Ejemplo
Exactitud Representa la data la realidad exacta? Son las fuentes verificables?
Los clientes no se encuentran en las direcciones registradas. Los proveedores listados como activos no lo están desde hace 6 años
Validez Se encuentran los valores entre los rangos aceptables?
Los límites de crédito de los clientes no corresponden a su perfil
Duplicidad Los datos aparecen varias veces?
Los clientes Maria Alejandra Pérez y Marialejandra Pérez son lo mismo
PROCESOS PARA EL ASEGURAMIENTO DE LA CALIDAD DEL DATO
1. Descubrir
2. Perfilar
3. Limpiar
4. Match
5. Consolida
r
6. Monitoriza
r
Identificar y medir la calidad de los datos
Definir reglas y objetivos de la calidad de los datos
Diseñar los procesos de mejora de la calidad de los datos
Matcheo de información y estadísticas
Implementar los procesos de mejora de calidad
Monitorear la calidad de los datos vs los objetivos
CICLO DE VIDA DE UN PROYECTO SIN CALIDAD DE DATOS
Detectar
Orígenes
Pruebas de
Carga de
Datos
Desarrollo de
Informes
Pruebas y
cuadresUATAceptaci
ón Final
CICLO DE VIDA DE UN PROYECTO CON CALIDAD DE DATOS
Detectar
Orígenes
Análisis de
Perfilado de Datos
Procesos de
Carga
Enriquecimiento y
MatchingUATAceptaci
ón Final
Monitorear DQ
Pruebas y
cuadres
Desarrollo de
Informes
QUÉ ES DATA QUALITY SERVICES
Data Quality Services (DQS) es una solución basada en el conocimiento de la calidad de datos que permite a
los administradores de datos y profesionales de IT la mejora de la
calidad de sus datos fácilmente.
BENEFICIOS DE DATA QUALITY SERVICES
Conocimiento
Limpieza
Consolidación
Aporte de Valor
ARQUITECTURA DE DATA QUALITY SERVICES
CLIENTE
Data Quality Services Client
Componente Integration Services
SERVIDOR
DQS_MAIN
DQS_PROJECT
DQS_STAGING
ARQUITECTURA DE DATA QUALITY SERVICES
Dominios Reglas de matching
Dominios Compuesto
s
Bases de Conocimiento
Reglas y Relacione
sValores
Referencias Externas
Construyendo una Base de Conocimiento
ENTIDAD
Tarjetahabientes
Apellidos y Nombres
Nacionalidad Nro. Tarjeta Tipo Producto Limite de Crédito
Atributos
DQKB_Tarjetahabiente
Dominios
Tipo de Producto
Límite de Crédito
Nacionalidad
DEMO
CONSTRUYENDO UNA BASE DE CONOCIMIENTO
PROYECTOS DE DQS
o PROYECTOS DE CLEANSING
o PROYECTOS DE MATCHING
PROYECTOS DE DQSProyectos de Limpieza de Datos
Limpieza de Datos
Partiendo de la Base de Conocimiento
Información Extra
Sobre las decisiones que toma
Base de Conocimiento en la nube
Consumir datos
DEMO
PROYECTOS DE CLEANSING
PROYECTOS DE DATA QUALITY SERVICESProyectos de Matching
Creación de Reglas
Política de comportamiento del motor DQS
Matching
Lógica DifusaAgrega Metadatos
Exportación
Datos que quedan en el modelo
SQL Server, Excel, DQS
DEMO
PROYECTOS DE MATCHING
RECURSOS
o Data Quality Services - MSDN - Microsoft• https://msdn.microsoft.com/es-ve/library/ff877925.aspx
o SQL Server Data Quality Services - TechNet – Microsoft• https://technet.microsoft.com/es-es/sqlserver/hh780961.aspx
o Data Quality Services (DQS) - Site Home - MSDN Blogs• http://blogs.msdn.com/b/dqs/
o PASS Global Spanish Virtual Chapter• https://globalspanish.sqlpass.org/
PREGUNTAS
maryarcia@hotmail.com
geeks.ms/blogs/marcia/
@maryarcia
SQL PASS Venezuela
Mary Arcia
Minería de Datos - Machine Learning - HD Insight
24 de Junio (12 pm GMT -5)Freddy Angarita
Resúmen:Demostración del uso de tecnologías predictivas de Microsoft.
Próximo Evento
top related