Algorithmus Torben Brodt plista GmbH 23. Januar 2013 Camp Digital, Good School
Algorithmus
Torben Brodtplista GmbH
23. Januar 2013Camp Digital, Good School
Inhalt Algorithmus
1. Vorstellung
2. Das Spiel
3. Definition Algorithmus
4. Welche Aufgaben?
5. Welche Daten?
6. Welche Konzepte?
7. Grenzen?
8. Fragen
Vorstellung
● plista GmbH○ Empfehlungs- & Werbenetzwerk○ 2008 Gründung, Sitz in Berlin○ ~3k Recommendations/Sekunde
● Torben Brodt, Head of Data Engineering○ 2003 Black Hat SEO○ 2004 Programmier Forum○ 2005 Studium Informatik○ 2008 plista○ 2010 Buch „Collaborative Filtering“○ TV + Radio „Macht der Algorithmen“
Algorithmus das Spiel
● Es gibt 18 Streichhölzer● Der erste Spieler nimmt 1, 2 oder 3, der auf
dem Tisch liegenden Streichhölzer● Danach nimmt der zweite Spieler entweder
1, 2 oder 3 der verbleibenden Hölzer... usw.● Verloren hat der Spieler, der das letzte
Streichholz vom Tisch nimmt● Bitte jetzt Paare bilden für Runde 1,
danach treten die Gewinner gegeneinander an
Algorithmus das Spiel
● Wie lautet die Gewinnformel?● Intuition?
Algorithmus das Spiel
● Wie lautet die Gewinnformel?● Intuition? Logik?
Quelle: http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo14.phpAlgorithmus der Woche, Jochen Könemann, University of Waterloo
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
G N J J J N J J J N J J J N J J J N J
i Streichhölzer
G Gewinn möglich
Sequenz wiederholt sich
Definition Algorithmus
● Wortherkunft: arabisches Lehrbuch, lateinisch übersetzt: „dixit Algorismi“
● Schritt für Schritt Abfolge zur Lösung eines Problems
● Algorithmus = Gewinnformel● Simples Beispiel: „Kochrezept“● „Big Data“: komplexe Probleme mit
großen Datenmengen
Algorithmus
Big Data: Welche Aufgaben?
● Bekannte Nutzer von Big Data Algorithmen○ Google○ Facebook○ Amazon○ ... uvm
● Konfrontiert mit gigantischer Datenmenge● Berechnung nach individuellen Bedürfnissen
Big Data: Welche Daten?
● Was wissen "die" eigentlich über euch?● Context der Anfrage / Parameter der Anfrage● CRM: Demographie, Kaufkraft, uvm.● Anonyme Daten: URL, Geolocation, Uhrzeit,
Wochentag, Suchanfrage, Gerät, Betriebssystem, uvm
● Social Daten: Alter, Geschlecht, Hobbies, etc○ z.B. „Nach Facebook Login“
● Alle diese Daten werden gesammelt
Big Data: Welche Konzepte?
● Modelle und Herangehensweisen um Daten nutzbar zu machena) Logikb) Clusteringc) Neighborhoodd) Ausprobierene) Mittelwerte
● Das sind Grundlagen, aber es gibt noch konkretere Algorithmen
Konzept a) Logik & Mathematik
● Wir verlassen uns auf Zahlen, wir nutzen unser Wissen○ Welche Relevanz hat eine Website bei Google?○ 75% 3 von 4 Wörter Suchanfrage zu Text○ 50% Pagerank 5 von 10
Konzept a) Logik & Mathematik
● Wissensdatenbank○ Matching zwischen Person und Gegenstand○ "Frauen besuchen Brigitte.de"
● Parameter berechnen○ Kreditvergabe:
■ Höhe des Kredits■ Höhe des Einkommens■ ...
○ Suchmaschinen Ergebnis○ Herzinfarkt-Risiko○ ...
Konzept b) Clustering
● Alle Möglichkeiten abzuwägen wäre kompliziert
● also fassen wir "Dinge" zu "Clustern" zusammen
● Vorteil 1: Weniger Komplexität bei Entscheidungen!
● Vorteil 2: Mehr Datendichte
Konzept b) Clustering
A B
C D
Konzept c) Neighborhood
Konzept c) Neighborhood
Konzept c) Neighborhood
● Gemeinsamkeiten suchen (ähnlich Clustering)● Bekanntes auf Unbekanntes übertragen● Allgemeiner Ansatz für Finanz-
Entscheidung, Werbe-Empfehlung, Herzinfarkt-Risiko
● "Kollektive Intelligenz" - Mit neuen Daten werden die Empfehlungen automatisch besser
Konzept d) Ausprobieren
● "Trial and Error"○ ausprobieren, scheitern, verbessern
● Man sollte fortlaufend beobachten○ „Live Training“, denn alles ändert sich○ Dazu technisches System um Erfolge zu
kontrollieren● A/B Testing
○ Beispiel Telefonmarketing○ Variable: Ruft eine Frau oder ein Mann an?
● Multivariante A/B Tests○ Mehr als eine Variable
Konzept e) Mittelwert
Konzept e) Mittelwert
● Wir haben Statistiken für alle Eingabe-Parameter○ Wir orientieren uns am Durchschnittswert○ Wir empfehlen das, was der Mainstream mag
● Kombination verschiedener Mittelwerte je nach Eingabeparameter
● Welcher Wert für Gender=Frau● Welche Empfehlung für Publisher=fussball.
de
Wo sind die Grenzen?
● Es gibt keine Grenzen● Datenmengen bis in Petabyte Dimensionen
○ Das sind viele Otto-Normal-Festplatten ;)● Auswertungen in Echtzeit
○ Keine Lochkarten Maschinen mehr● Integration überall dort wo man es braucht
○ Keine Blackboxen mehr, der Mensch will verstehen● Mehr im "Data Unser"
Fazit
● „Das Spiel“ hat gezeigt, dass Algorithmen auch mit Intuition gestützt werden können
● Es gibt verschiedene Konzepte, diese sind auch intuitiv
● Konzepte lassen sich miteinander kombinieren
● Es gibt viele Daten und alle Daten bieten Mehrwert,
● Eure Daten sind wertvollMehr Informationen: http://cra.org/ccc/docs/init/bigdatawhitepaper.pdfChallenges and Opportunities with Big Data, From leading researchers across the United States
Fragen?
www.plista.com
@torbenbrodt
xing.com/profile/Torben_Brodt
http://goo.gl/pvXm5