DATOS ESTRUCTURADOS DATOS NO ESTRUCTURADOS
El 80% de la información relevante de una organización se origina en formato no estructurado, primariamente texto
Fuentes de DatosEstructurada No Estructurada
FUENTES INTERNAS FUENTES EXTERNAS
ERP: GL, AP, AR, PO
Marketting
Policies and procedure
Employee travel & entertainment
Email, instant messages, mobile
devices
CRM, KYC Contracts
Samples, inventory
Grants, sponsorships
CPI, GDP
Transparency index
Regulator enforcement
Social media, product / brand
websites
Business directories
Registered charities
Watch lists
Adverse media
VOLUMENBIG DATA
1021
1021
1018
1015
1012
109
Byte
103
1
Kilobyte
106 Megabyte Gigabyte
Terabyte
PetabyteExabyte
Yottabyte Zettabyte
InformaciónTransactions, SWIFT messages, Trade Finance, Foreign Exchange, Watch Lists, Emails, Files
InvestigaciónBack-up tapes, Emails, Financial information
1 email = 50 kilobytes
20,000 Terabytes de datos procesados pordía)
1 CD = 700 Megabytes
2.5 Exabyte de datos se producen por día
1 Yottabyte de datos es la capacidad del datacentre de la NSA
DatosGenerados por
Maquinas
DatosAbiertos y TercerasPartes
Mobile apps
Ventas y Facturación
RedesSociale
s
Uso de SitiosWeb
SistemasCRM
ERPs
Producción de Datos
5.000 milllones debúsquedas en Google
20 horas de videos subidos a YouTubepor minuto
50 millones de tweetspor día
2.9 Millones de emailsenviados por segundo
1.3 Exabytes de datosenviados y recibidospor usuariosmóviles d einternet
Revisión de Caso
Revisión de Management
Findings &Recommendations
DatosTransaccionales
Datos de ReferenciaMaestros
Datos de Inteligencia de Negocios
Datos de MediosSociales
Pruebasbasadas en
reglasText mining &
search
Plataforma de Procesamiento Big Data
Anomalías Estadísticas y Predictivas
Herramientas de InvestigaciónHerramientas y Técnicas de Monitoreo
y DetecciónDescubrimiento y Preparación
VI
SU
AL
IZ
AC
IÓ
N
$ $
Scoring de Transaccione
s
Conceptos de Clustering
Análisis de Red
FacebookTwitter
Pintrest…
Testear datos contra patrones y comportamientos conocidos
Analytics Basado en
Reglas
► Apropiado para procesos bien definidos► Ideal para testeo de anomálías► Utilizado para encontrar datos que no concuerdan con el
comportamiento esperado
Usar modelos de scoring para identificar y determiner áreas de
riesgo más alto
Scoring de Riesgo
► Usar pruebas basadas en regls con scoring► Combinar scores de diferentes datasets para determiner áreas de
alto riesgo
Análisis de texto de lenguajenatural:
► Matcheo de palabras clave► Análisis de Concepto
► Análisis de sentimiento
Minería de Texto
► Búsqueda de palabras clave. Por ejemplo, fraude, corrupción, blacklists, bribery
► Analizar texto para determiner concetos► Analizar emails para determinar el sentimiento
Usar dashboards interactivos para reportar y hacer análisis de
tendencias incluyendo redessociales
AnálisisVisual
► La visualización facilita el entendimiento► Hace el análisis comparative más simple► Ayuda en encontrar tendencias ocultas
Utilizar datos existentes para entender tendencias y predecir el
comportamiento futuro
AnálisisPredictivo
► Desarrolar modelos basados en datos existentes► Machine learning
Técnica ¿ Qué es ? ¿ Cómo Ayuda ?
CLUSTERS = 3
72% De las empresas creen que Big Data puede jugar un rol clave en temas vinculados a compliance
3% Utilizan tecnologías de Big Data
2% Hacen Búsqueda y Analytics sobre voz
9% Usan análisis estadístico y predictivo
23% Monitorean redes sociales
Base: 655 personas que respondieron
¿ Cual cree que son los mayores beneficios de utilizar data analytics en temas de compliance / riesgos ?Base: 655 personas que respondieron
42%
64%
66%
71%
78%
79%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
Reducir costos
Lograr mayor responsabilidad del negocio en la implementación depolíticas de compliance
Incremento en la transparencia del negocio
Respuesta más rápida en investigaciones
Mejor velocidad de detección
Habilidad de detectar incidentes que no hemos descubierto antes
¿ Cuáles son los beneficios de utilizar Big Data & Data Analytics avanzado ?
Base: 655 personas que respondieron
Los encuestados que utilizan tecnologías de análisis de datos más allá de hojas de cálculo y bases de datos han observado:
•Mejores resultados y recuperaciones, un 11% más que otros.
•Una detección más temprana de las conductas inapropiadas, un 15% más que otros.
•Resultados de costo más efectivos, un 14% más que otros.
•Mayor visibilidad para el consejo, un 12% más que otros.
Base: 655 personas que respondieron
Base: 655 personas que respondieron
Usan tecnología de avanzadaMás allá de la planilla de cálculo
Redes socialesMonitoreo de la webBúsqueda en voz
Herramientas de análisis predictivo
Analizan más datosHay una correlación entre el uso de grandes volúmenes de datos (por encima de los 10
millones de registros) y el logro de resultados positivos
Invierten más en AnalyticsInvierten más de un tercio del presupuesto destinado a compliance en temas de Análisis de datos
1
2
3
Quienes obtienen mejores resultados…
Reportes y pruebas descriptivas basadas en Reglas
• Utiliza datos históricos• Se realizan pruebas en general• Se generan alertas cuando se cumple una
condición específica• Se basa en condiciones y políticas predefinidas• Es la técnica más utilizada
Búsqueda de palabras claves
• Este proceso puede escanear texto libre y datos no estructurados para identificar lenguaje sospechoso o de alto riesgo.
• Las empresas desarrollan su bilbioteca de términos de alto riesgo con acrónimos y jerga de la empresa y términos de la industria.
• Las palabras sospechosas puede taggearse y escalarse para revisión posterior.
Modelado de tópicos y análisis lingüístico
• Utilizan text analytics para identificar palabras sospechosas, temas de alto riesgo o patrones inusuales de comportamiento.
• Utilizan modelos predictivos para clusterizar, cuantificar y agrupar sustantivos o frases en los datos para entender el intento de corrupción de ciertas actividades.
• Se utiliza análisis linguistico para entender en tono emotivo de la comunicación (enojo, frustración, secretismo, acoso, etc)
Análisis estadístico y machine learning
• Se apoya en hechos históricos en los datos y aprendizaje automático para hacer predicciones sobre el futuro.
• Incrementa la confianza en elementos calificados como outliers que deben revisarse, limitando la cantidad de falsos positivos, incremantando la eficiencia del proceso de revisión.
Dashboards de visualización de datos
• Los dashboards permiten la identificación de eventos desconocidos.
• Ejemplos: mapas de calor, análisis geoespacial, análisis de series de tiempo, nubes de palabras, estratificación, y técnicas de drill.
• Permiten priorizar las revisiones
Análisis de patrones y análisis de links
• Proporcionan cononocimiento, patrones ocultos, y relaciones de grandes fuentes de datos no estructurados.
• Los datos, tanto estructurados como no estructurados se proporcionan en una variedad visual y formatos de links