Top Banner

Click here to load reader

BI mit Apache Hadoop (CDH)

Jun 14, 2015

ReportDownload

Business

  • 1. Business Integration mitCDH 4(including Apache Hadoop)Alexander Alten-Lorenz Customer Operations Engineer, Cloudera INC Muenchen, 18. September 2012

2. HerausforderungenGre Vernderungen Struktur 3. Business Integration CRM Rechnungsdaten Analysen Risikomanagement Social Networks Universaler Datenzugriff Marketing Data Governance Dokumente SAP / Salesforce Such-Indices Artikelmanagement 4. Anwendungsbeispiele 5. Risiko Management Problem: Bewertung von Kunden undProjekten Lsung: Finanzhistorie, Kommunikation,Mustererkennung Anwender: Banken,Versicherungen 6. Empfehlungen Problem: Passende Produkte fr Kundenempfehlen Lsung: Geschmack durch Verhalten allerKunden ermitteln, Muster erkennen,Statistische Analyse Anwender: eCommerce, Advertising 7. Graph-Analyse Problem: Trends und Meinungsbildung inNetzwerken im Voraus erkennen Lsung: Social Media Trafc auswerten undstatistisch aufbereiten Anwender: Unternehmen, Behrden, NGO 8. Gefahrenerkennung Problem: Spam, Kreditkartenmissbrauch Lsung: Mustererkennung, Klassizierung,heuristische Analyse Anwender: Retailer, Banken, Einzelhandel 9. Textanalysen Problem: Bedeutung von Text erkennen Lsung: Schlsselworte, Zusammenhngeerkennen Anwender: eCommerce, Social MediaDienstleister, Meinungsforschung 10. Datenmengen Ebay: 5 PB, Search Optimization Facebook: 30 PB, Logs, Reports Walmart, 2.5 PB, Customer Transactionshttp://wiki.apache.org/hadoop/PoweredBy http://en.wikipedia.org/wiki/Big_data 11. Apache Hadoop Software Framework fr grosse Mengen anunstrukturierten Daten Apache-Lizenz Zwei Kern-Komponenten HDFS: Verteilte Datenspeicherung MapReduce:Verteilte Datenverarbeitung 12. Hadoop ClusterData Node Data Node Data NodeData NodeData Node Data Node Data NodeData NodeData Node Data Node Data NodeData NodeData Node Data Node Data NodeData NodeData Node Data Node Data NodeData NodeData Node Data Node Data NodeData NodeData Node Data Node Data NodeData Node Data Node: 4-16 Cores, 4-16 Disks,8-64 GB RAM, 1-10GB Network 13. Hadoop DistributedFile System DateiBlockBlock Block Block Block BlockBlockData NodeData NodeData Node 14. MapReduce DatenRDBMSQuery DatenHadoop Query 15. EigenschaftenHDFS MapReduce VerteilungAusfallsicherheit Skalierbarkeit 16. Hadoop-kosystem SQL ScriptsHBaseWhirr Hive Pig Oozie MapReduceAvroJava API HDFS eeper Zook Sqoop Flume ConnectorsHue RDBMSLogs...Mahout 17. Beispiel einer Integration 18. Aufgabenstellung Auswerten von vorhandenen Daten ausunterschiedlichen Datenbanken / CRMSystemen Realtime und Lifetime Statisken perProdukt Wiederkehrende Analysen Re-Import CRM Einzelabfragen per Enduser (Analyst) 19. Lsungsweg Sqoop als Connector zu CRM / DB Terradata, Oracle, Postgres, MySQL Hive - HBase Integration Hive, gesteuert durch Oozie WorkloadOrchestrator Hue Shell, Cluster gesichert durchKerberos (Authentizierung) 20. CRM Park Integration CDHAuthentikation SqoopKerberos (AD, MITv5)Real TimeHBase Hive OozieAutomation Enduser HUE 21. Cloudera 2009 in Palo Alto gegrndet Clouderas Distribution Including Hadoop CDH4 / Cloudera Manager4 > 280 Angestellte weltweit Training, Consulting, Support, Development Enterprise Tools 22. Cloudera Manager Automated Deployment Reporting Monitoring Support Integration Service Management Log Management Events and Alerts 23. Danke! [email protected] Twitter: @mapredit Blog: mapredit.blogspot.com http://www.cloudera.com/ http://hadoop. apache.org/

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.