Talend ETL Talend Open Studio www.chileforma.cl Introducción
Jun 14, 2015
Que podemos hacer?Manejo de Big Data
Procesos BPM
Data Integration
Data Quality
ESB
Algunos Usos Data Integration
Extracto, Transformación, Carga (ETL)
Desde un Excel/CSV/txt a una BD
Desde un MySQL/MsSQL a un Oracle y viceversa
Volcados/Transformaciones Programados
Cientos de opciones y tecnologías
Conexiones con multiples DBMS
Manejos de archivos y data automatizados
Tecnologia en que esta desarrolladoJAVA
Con esto podremos correrlo en la JVM ganando toda la potencia de esta maquina virtual Lo podemos ejecutar en un Linux/Mac/Window Genera un .JAR con lo desarrollado Este jar lo podemos poner dentro de una tarea programada, para ser ejecutado Puede estar parametrizado para distintas conexiones
Entorno (IDE) Basado en Eclipse
Ejemplo de un Flujo con Talend
xls
csv
Mysqljoin
1. Tenemos un archivo excel.
2. Tenemos un archivo cdv con información complementaria.
3. Unimos la información y obtenemos un resultado.
4. Ese resultado temporal lo llevamos a un motor de BD MySQL.
5. Podríamos como opción llevarlo a otro motor, a un excel, en un txt, etc.
Arquitectura de un ETL
Input se refiere la fuente de datos, de donde estamos extrayendo información, puede ser desde una BD, un Excel, un CSV, un txt con nuestro propio patrón, es decir cualquier fuente de información válida.
input OutputTransformación
Este item es el más importante, ya que solo volcar información no es algo muy complejo, lo que lo hace algo complejo es la capacidad de transformar esta información, agregarle nueva, borrar otra, etc. Con esto podremos manipular a gusto nuestros datos.
Output es la salida general de nuestros datos, estos pueden ser a alguna BD, un excel, CSV, un archivo creado en el mismo proceso, incluso pasado via FTP.
Razones para elegir Talend?Optimiza Tiempo, Costo, Funcionalidades y Performance Cantidad enorme de conectores
WS DBMS FILES CRMS
Una gran comunidad Ayuda, Wiki, Foros, Blogs, BugTracker Rápida Curva de Aprendizaje Levantamiento de ambiente sencillo
Versiones
PlataformasWindows
Versión portable o instalable Requisitos JDK (Variable de entorno JAVA_HOME)
Linux/Mac Version Portable JDK Instalado (Variable de entorno JAVA_HOME)
http://www.talend.com/download
Hola Mundo!Ejecutamos
Creamos
ComponentesNos sirve para obtener un
archivo que este delimitado por algún tipo de patrón, en este caso usaremos un csv
Nos sirve para ir depurando, o mostrando la información obtenida, o transformada
Cada job se maneja de forma separada y cumple un
objetivo, la clave es ir abstrayendo y no tener todo
en 1 solo job, se pueden comunicar y orquestar entre
sí.
Esta row nos sirve para conectar los componentes, es la parte vital que sostiene la forma de trabajo de talen
ConfigurandoCreamos un Job
Creamos un csv
De la paleta de componentes arrastramos tFileInputDelimeted y tLogRow
Ingresamos el archivo csv al componente
Schemas!
Editamos el Schema
Settings del componente
Agregamos las columnas del CSV
por orden
ConectandoClick derecho
en el componente
Arrastramos hasta tLog
En tLog damos click en Sync Columns
Seleccionamos mode table, para que lo muestre en orden
Ejecutando
Vemos la consola con el resultado
RUN!
Ya tenemos los datos Para volcarlos a una BD
otra fuente de datos!