09.09.11 A NOSQL SUMMER THE YEAR AFTER Christian Gügi, MeMo News AG @chrisgugi
Jul 13, 2015
09.09.11
A NOSQL SUMMER THE YEAR AFTER
Christian Gügi, MeMo News AG @chrisgugi
Agenda
• About me & MeMo News AG • NoSQL
• Was, warum und wie?
• Hadoop in a nutshell • NoSQL-basiertes CMS
09.09.11
2
MEMO NEWS AG About
09.09.11
About MeMo News AG
09.09.11
Data Crawling 1
Information Processing 2
Analyse und Personalisierung 3
Ausgabe und Weiterverarbeitung 4
Veröffentlichungen in etablierten und sozialen Medien werden laufend geladen und von Spam gereinigt.
Die Rohdaten werden kategorisiert und indiziert.
Individuelle Suchagenten filtern in Echtzeit die für den Kunden relevanten Treffer heraus.
Der Kunde greift auf die Ergebnisse zu, um sie weiter zu analysieren und zu verarbeiten.
Referenzen
09.09.11
Germany / Japan
5
NOSQL Zum Thema
09.09.11
NOSQL Zum Thema
09.09.11
Was ist NoSQL?
• Term „NoSQL“ ist erst 2 Jahre alt • kein Mainstream
• Kein Produkt, keine Firma, keine Technologie • Ist eine Bewegung, eine neu Art Datenbanken
voranzutreiben • Basiert auf nicht-relationale Ansätzen
09.09.11
Warum NoSQL?
• Als Ansatz zur Lösung von (ungelösten) web scale* Problemen im Umgang mit unstrukturierten, massiven Datenmengen
• Hauptsächlich motiviert durch Web 2.0
• Es geht hauptsächlich um Scaling, Distribution und BigData
09.09.11
* Web Scale: Highly Available, Reliable, Transparent, High Performance, Scalable, Accessible, Secure, Usable, and Inexpensive
http://community.oclc.org/engineering/2009/05/what-is-web-scale.html
Ansätze von NoSQL?
• Von Generalisierung zur Spezialisierung • Keine Tabellenschemas • Keine Relationen, um JOINs zu vermeiden • Horizontal skalieren
• à weg von ACID, hin zu CAP
09.09.11
Spezifische Probleme mit spezialisierten Lösungen angehen
FROM ACID TO CAP Theorem
09.09.11
ACID
Eigenschaften von RDMS : Atomicity – ganz oder gar nicht Consistency – gewährleistet Integrität Isolation – Kapselung gleichzeitiger T. Durability – Persistenz aller Änderungen
Skalieren vertikal -> grosse Datenbanken -> teuer
CAP Theorem
3 neue NoSQL Kategorien
Kategorien
09.09.11
Key value Store
• MemcacheDB • Redis • Casandra • Dynamo • Riak
Wide column Store
• BigTable • HBase • Hypertable
Graph Oriented Store
• Neo4j • Sones • Trinity • DEX
Document Store
• Jackrabbit • couchDB • MongoDB • Lotus Notes
Relational Store
• MySQL • PostgreSQL • Oracle • MS Server
Object oriented Store
• db4o • Versant • Objectivity
...
NoSQL Relational
NoSQL – Future?
• Noch immer ungelöst • (Fulltext) Search & Find • Distributed Index Storage • (Structured) Query Language
09.09.11
In Zukunft gibt’s kein NoSQL mehr, nur noch spezialisierte Datenbanken.
HADOOP In a nutshell
09.09.11
Apache™ Hadoop™
• Apache Projekt, open-source • Software für reliable, scalable, distributed
computing • Basiert auf Google Papers /2006
• Implementiert BigTable, Chubby, GFS
• Beinhaltet NoSQL Datenbank(en)
09.09.11
„Apache Hadoop takes top prize at Media Guardian Innovation Awards. Data management software described by judges as 'Swiss army knife of the 21st century' wins innovator of the year award“ Marie Winckler, guardian.co.uk, Friday 25 March 2011
Apache™ Hadoop™
09.09.11
Commodity Hardware
Operating System - Linux
JVM
Data Storage Framework Data Processing Framework
Bac
kup
& R
ecov
ery
Dep
loym
ent
Secu
rity
Man
agem
ent
MapReduce HDFS
Orchestration Framework
Zookeeper Chukwa
Data Mining Framework
Mahout
NoSQL Databases
Cassandra HBase
Data Accessing Framework
Pig Hive Avro
Powered by Hadoop™
09.09.11
• Adobe • Ebay • Facebook • IBM • Joost • Last.fm • LinkedIn • Markt24 • NYT • Powerset/Microsoft • Rackspace • StumbleUpon • Twitter • Yahoo uvm.
http://wiki.apache.org/hadoop/PoweredBy
MADE FOR THE AGE OF DATA Lily CMS
09.09.11
The Age of Data
• Mehr & mehr Firmen adaptieren NoSQL (meist interne Verwendung)
• Vielzahl an Produkten / Distributionen • NoSQL wird Enterprise‘e ... Aber noch kein Mainstream
• Wie würde man Wikipedia im Jahr 2011 implementieren?
09.09.11
Lily
• „Lily is Smart Data, at Scale, made Easy“ • Content und Data Repository • Architektur ausgelegt für BigData
• Basiert auf NoSQL Ansätzen
• Core • Store, Index und Search
• Add-On • Data usage tracking, user profiling, analytics and
audience recommendations
09.09.11 http://outaerthought.org/site/products/lily.html
Hybrid Lösung • Solr • Hadoop • Lily Komponenten
Lily Architektur
09.09.11
Hadoop
MapReduce HDFS
HBase Solr
Lily CMS Core CMS Funktionaliäten: Store, Index & Serach
Add-on‘s: Data usage tracking, user profiling, analytics and audience recommendations
Lily Architektur2
Hadoop
MapReduce HDFS
HBase Solr
Lily CMS
09.09.11
Powered by Lily
09.09.11
• BBC • BBC Live Services: powering social web
applications (tagging, commenting, ranking, voting) for BBC websites
• Groupe Adeo • large e-commerce and web project for global
retail
• Canadian Coast Guard • e-Learning Material management system (LMS),
Competency-based Learning
http://outerthought.org/site/about/customers.html
FRAGEN? FAQ
09.09.11
Quellen/Links
• Web scale • http://community.oclc.org/engineering/2009/05/
what-is-web-scale.html
• NoSQL • http://nosqlsummer.org/ • http://nosql-database.org/
• Präsentation • http://www.memonews.com/blog
09.09.11