Top Banner
Talend Open Studio DQ Tutorial pro kurz 4IZ562 Ing. David Pejčoch KIZI / FIS VŠE Praha david @ pejcoch.com 2013-05-26
29

Talend Open Studio DQ

Jun 21, 2015

Download

Education

dpejcoch

Tutorial for 4iz562 (Data Quality Management) course at UEP
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Talend Open Studio DQ

Talend Open Studio DQ

Tutorial pro kurz 4IZ562Ing. David Pejčoch

KIZI / FIS VŠE [email protected]

2013-05-26

Page 2: Talend Open Studio DQ

Příklady používají Common Data

Model pro vertikálu Insurance

publikovaný na www.dataquality.

cz/kbase/

Page 3: Talend Open Studio DQ

Instalace a spuštění

1. Stáhněte zip soubor z webu Talend.com (velikost cca 240 MB)2. Rozzipujte na disk3. Spusťte TOS_DQ-win32-x86.exe4. Při spuštění můžete přeskočit registraci kliknutím na „Register Later“

Page 4: Talend Open Studio DQ
Page 5: Talend Open Studio DQ

Sem se budou otevírat jednotlivé

záložky

Sem se budou ukládat jednotlivé analýzy

Knihovna jednotlivých komponent. Exchange složka představuje sdílené

komponenty v rámci komunity

Nadefinované datové zdroje

Page 6: Talend Open Studio DQ

Integrovaný help „for Dummies“

Help se zobrazuje v záložce v pravé části úvodního okna. Neumožňuje přímé spouštění wizardů, pouze odkazuje na jednotlivé kroky.

Page 7: Talend Open Studio DQ

Vytvoření připojení k databázi

Page 8: Talend Open Studio DQ

Připojení k MySQL

Vyplňte příslušný login, heslo, adresu serveru a název databáze.

Page 9: Talend Open Studio DQ
Page 10: Talend Open Studio DQ

Vytvoření nového validačního pravidla

Page 11: Talend Open Studio DQ
Page 12: Talend Open Studio DQ
Page 13: Talend Open Studio DQ
Page 14: Talend Open Studio DQ
Page 15: Talend Open Studio DQ

Validace pomocí regex

Page 16: Talend Open Studio DQ
Page 17: Talend Open Studio DQ
Page 18: Talend Open Studio DQ
Page 19: Talend Open Studio DQ
Page 20: Talend Open Studio DQ

Analýza frekvencí vzorů

Page 21: Talend Open Studio DQ
Page 22: Talend Open Studio DQ
Page 23: Talend Open Studio DQ

Dotaz nad tabulkou

Page 24: Talend Open Studio DQ
Page 25: Talend Open Studio DQ

Definice uloženého dotazu

Page 26: Talend Open Studio DQ
Page 27: Talend Open Studio DQ

Popis základních funkčních prvků

• Rules = pouze WHERE klauzule• Patterns = vzory pro validaci

– pomocí regulárních výrazů (nástroj obsahuje předpřipravené regulární výrazy v různých složkách podle domén)

– pomocí SQL LIKE klauzule specifické pro různá RDBMS• Source files = SQL příkazy, které lze spustit pomocí Data Expoloreru (v rámci

existujícího připojení na databázi)• Indicators = SQL příkazy s využitím sady předdefinovaných templatů

– Pattern Matching: počet záznamů, které vyhovují regulárnímu výrazu; počet záznamů, které vyhovují SQL LIKE klauzuli

– Pattern Finder = hledání četností vzorů– Soundex: tabulka četností Soundex hodnot– ...

Page 28: Talend Open Studio DQ

Popis funkcionalit v rámci DB Connection

• Na úrovni připojení: porovnání databází, overview analýza (počty tabulek, řádků, indexů v tabulkách)

• Na úrovni databáze: overview analýza• Na úrovni seznamu tabulek: porovnání tabulek• Na úrovni tabulek:

– analýza tabulky pomocí SQL rules, – column analysis (na základě výběru datového typu, vzoru, indikátoru, sloupců

a where podmínky provede analýzu s grafickým výstupem),– pattern frequency analysis (viz. předchozí, ale zkoumá četnosti vzorů; z

výsledků lze vidět záznamy odpovídající jednotlivým vzorům, generovat ze vzorů regulární výrazy)

– preview table (přehodí do módu s konzolí pro SQL)

Page 29: Talend Open Studio DQ

Popis funkcionalit v rámci DB Connection

• Na úrovni sloupce:– Analýza hodnot z množiny sloupců– Analýza korelace mezi sloupci– Analýza kategorií nominální proměnné– Pattern frequency analysis + další viz na úrovni tabulek