Top Banner
Γιάννης Κωτίδης #1 Προσεγγιστική Αποτίμηση Ερωτήσεων Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας Κλίμακας Γιάννης Κωτίδης Γιάννης Κωτίδης AT&T Labs-Research http://www.research.att.com/info/kotidis
50

Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Jan 03, 2016

Download

Documents

Philip Kidd

Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας. Γιάννης Κωτίδης AT&T Labs-Research http://www.research.att.com/info/kotidis. Outline. Εισαγωγή εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων ορισμός του προβλήματος Haar Wavelets ορισμός, παραδείγματα - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #1

Προσεγγιστική Αποτίμηση Ερωτήσεων σε Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Υπολογιστικά Συστήματα Μεγάλης

ΚλίμακαςΚλίμακας

Γιάννης ΚωτίδηςΓιάννης ΚωτίδηςAT&T Labs-Research

http://www.research.att.com/info/kotidis

Page 2: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #2

OutlineOutline

• Εισαγωγή

– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων

– ορισμός του προβλήματος

• Haar Wavelets

– ορισμός, παραδείγματα

– ένας απλός on-line αλγόριθμος

• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)

– JL-embeddings, sketches

– υπολογισμός wavelets μέσω sketches

• Εφαρμογές με πραγματικά δεδομένα

• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)

• Συμπεράσματα

Page 3: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #3

Δεδομένα Δεδομένα Ανάλυση ΑνάλυσηΓνώσηΓνώση• Συγκέντρωση και ανάλυση πληροφορίας προσφέρει

στρατηγικό πλεονέκτημα για επιχειρήσεις– ανάλυση μεριδίου αγοράς, ανάλυση αγορών πελατών– συσχέτιση με πληθυσμιακά χαρακτηριστικά, κατευθυνόμενο

μάρκετινγκ

• Διαχειρίσιμες ποσότητες, σχετικά αργοί ρυθμοί διακίνησης

• Η ευρεία ανάπτυξη του τομέα των τηλεπικοινωνιών έχει επιφέρει επανάσταση στο ρυθμό δημιουργίας και διακίνησης δεδομένων– συχνά υπερβαίνει τις αποθηκευτικές δυνατότητες των

υπαρχόντων συστημάτων

Page 4: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #4

Τηλεφωνικό δίκτυο (Τηλεφωνικό δίκτυο (AT&T)AT&T)• Κεντρικό σύστημα ελέγχου, ανάλυσης

– 200-300 εκατομμύρια κλήσεις την ημέρα (>60GB)– ~200 δισεκατομμύρια εγγραφές (~50ΤΒ)

• Η αποτίμηση ερωτήσεων είναι χρονοβόρα– “Communities Of Interest”: ποια είναι τα 10 νούμερα με

τη μεγαλύτερη συχνότητα κλήσεων από το 9733340865?

– ποια ήταν η κατανομή των υπεραστικών κλήσεων ανά γεωγραφική περιοχή τους τελευταίους έξι μήνες?

– ποία είναι η μέση διάρκεια ενός τηλεφωνήματος στις 10 μεγαλύτερες πόλεις της χώρας?

Page 5: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #5

IP-IP-δίκτυοδίκτυο

• Περισσότερα δεδομένα• Ταχύτεροι ρυθμοί

διακίνησης• Π.χ. CISCO NetFlow: 150

records/day/router– η αποστολή των δεδομένων

είναι ασύμφορη/αδύνατη– μέχρι και 97% των

δεδομένων χάνονται στη μεταφορά

Backbone router

Gateway router

Access router

Page 6: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #6

Προσεγγιστική αποτίμηση Προσεγγιστική αποτίμηση ερωτήσεωνερωτήσεων

• Ακριβείς απαντήσεις δεν είναι πάντοτε απαραίτητες! – για αρχική ανάλυση μας ενδιαφέρουν κυρίων οι ισχυρές

“τάσεις”– σε ερωτήσεις ομαδοποίησης ακρίβεια στα πρώτα

σημαντικά ψηφία είναι αρκετή• “Ποιο ποσοστό από τα συνολικά τηλεφωνήματα γίνονται στην

Αττική?”

GB/TB

Ερώτηση

Ακριβής απάντηση

KB/MB

Wavelet ερώτησηΠροσεγγιστική απάντηση

Page 7: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #7

14 9733607212

Απλοποιημένο μοντέλο Απλοποιημένο μοντέλο δεδομένωνδεδομένωνΠίνακας a[i], 1iN

– αριθμός κλήσεων από το νούμερο i (N=1010)– αριθμός πακέτων από IP-διεύθυνση i (N=232)

(973) 360-7212, 6(973) 360-8347, 7(973) 360-8408, 1(973) 360-7212, 1(973) 360-8404, 9(973) 360-8404, 1(973) 360-7212, 7(973) 360-8347, 1

δεδο

μένα

0

500

1000

1500

2000

2500

3000

ι

α[ι]

Αριθμόςκλήσεων

a[i]ι,δ[i]

Page 8: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #8

Το πρόβλημαΤο πρόβλημα• Περιγραφή του πίνακα

α[] σε χώρο << Ν• Επεξεργασία σε ένα

πέρασμα• Ενημέρωση σε

πραγματικό χρόνο• Προσεγγιστική

αποτίμηση ερωτήσεων μέσα σε προκαθορισμένα όρια λάθους.

Σημείο παρατήρησης

?

δεδομένα

sketchsketch(KB/MB)(KB/MB)

Page 9: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #9

OutlineOutline

• Εισαγωγή

– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων

– ορισμός του προβλήματος

• Haar Wavelets

– ορισμός, παραδείγματα

– ένας απλός on-line αλγόριθμος

• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)

– JL-embeddings, sketches

– υπολογισμός wavelets μέσω sketches

• Εφαρμογές με πραγματικά δεδομένα

• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)

• Συμπεράσματα

Page 10: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #10

Εισαγωγή στα Εισαγωγή στα WaveletWavelet• WaveletsWavelets:: μαθηματικός μετασχηματισμός χρησιμοποιώντας

προκαθορισμένη βάση (π.χ. Haar, Daubechies-4, Daubechies-6, Coifman, Morlet, Gabor)

• Haar waveletsHaar wavelets:: πιο απλή υλοποίηση – αναδρομικός υπολογισμός διαφορών και αθροισμάτων ανά δυαδικά

τμήματα

Resolution Averages Waveletsa = [2, 2, 0, 6, 4, 2, 2, 0]

[2, 3, 3, 1] [0, 3, -1, -1]

[2.5, 2] [0.5, -1]

[2.25] [-0.25]

----3

2

1

0

Haar wavelets: [2.25, -0.25, 0.5, -1, 0, 3, -1, -1]

• Ορισμός επεκτείνεται εύκολα για πολυδιάστατα δεδομένα

Page 11: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #11

Συμπίεση μέσω Συμπίεση μέσω WaveletWavelet• Κρατάμε Β<<Ν τιμές (τις μεγαλύτερες)Κρατάμε Β<<Ν τιμές (τις μεγαλύτερες)

– Πχ Β=2Πχ Β=2

[2.25, -0.25, 0.5, -1, 0, 3, -1, -1]

[2.25, 0, 0, 0, 0, 3, 0, 0]

α’=[2.25, 2.25, -0.75, 5.25, 2.25, 2.25, 2.25, 2.25]

- 1

0

1

2

3

4

5

6

7

8

α

α'

α=[2, 2, 0, 6, 4, 2, 2, 0]

Page 12: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #12

On-line On-line αλγόριθμος αλγόριθμος ((απλό απλό μοντέλο)μοντέλο)

2

]5[]6[ aa 2

]7[]8[ aa

2

00002

0000

22

22

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]

2

]1[]2[ aa 2

]3[]4[ aa 2

]1[]2[ aa

2

0000

22

22

• Βλέπουμε τον πίνακα από αριστερά προς τα δεξιάΒλέπουμε τον πίνακα από αριστερά προς τα δεξιά

• Κρατάμε τα Κρατάμε τα ΒΒ μεγαλύτερα μεγαλύτερα waveletwavelet σε σωρό και σε σωρό και logNlogN από τα «ενεργά» στη από τα «ενεργά» στη μνήμημνήμη

Ν>>διαθέσιμη μνήμη

Σωρός(τοπ-Β)

2

]3[]4[ aa 2

]1[]2[ aa

- ++ - -- + +

Page 13: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #13

Καλά και άσχημα νέαΚαλά και άσχημα νέα Τα Β-μεγαλύτερα wavelets μπορούν να

υπολογιστούν με μνήμη O(B+logN) [IEEE TKDE] Κάθε ντετερμινιστικός αλγόριθμος

που υπολογίζει το μεγαλύτερο (εκτός του μ.ο.) wavelet στο γενικό μοντέλο χρειάζεται (N/polylog(N)) μνήμη

Page 14: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #14

• Θα χρησιμοποιήσουμε randomized αλγόριθμους– προσεγγίζουν τη λύση με μεγάλη πιθανότητα επιτυχίας

• Προσεγγιστικός υπολογισμός των wavelets με– σφάλμα (αθροιστικά) 1ε (π.χ. 10%)– πιθανότητα επιτυχίας 1-δ (π.χ. 99%)– πολυ-λογαριθμικές απαιτήσεις μνήμης (και πολυπλοκότητα):

Γενική κατεύθυνσηΓενική κατεύθυνση

poly(logN, log(1/δ), ε)

Page 15: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #15

Παρατήρηση 1Παρατήρηση 1• Το wavelet w[l] είναι το εσωτερικό γινόμενο

των δεδομένων a[] με ένα διάνυσμα βάσης [i]

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]

2

]1[]2[ aa

2

]3[]4[ aa

2

]5[]6[ aa

2

]7[]8[ aa

22

2

0000

2

0000

22

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Ορθοκανονικήβάση

wavelets

Page 16: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #16

Παρατήρηση 2Παρατήρηση 2

• Το εσωτερικό γινόμενο 2 μοναδιαίων διανυσμάτων μπορεί να υπολογιστεί από την απόσταση τους:

<a,b> = cos(a,b) = 1-dist2(a,b)/2

Page 17: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #17

Μία άλλη όψηΜία άλλη όψη

• Απεικόνιση των δεδομένων και της wavelet-βάσης στο RN (N+1 σημεία)

Δεν έχουμε αρκετή μνήμη να σώσουμε το

α[]

δεδομένα

wavelets

Page 18: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #18

JL-embeddingsJL-embeddings

• Johnson & Lindenstrauss [84] “Ν σημεία μπορούν να απεικονιστούν σε κ=Ο((logΝ)/ε2)

διαστάσεις ώστε οι μεταξύ τους αποστάσεις να διατηρούνται με σφάλμα ε”

a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]

N

-1 +1 0 0 0 0 0 0

wavelet διάνυσμα-βάση

πίνακας

k

? ? ?

? ? ?

?

?

Page 19: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #19

SketchesSketches

• e.g [Alon96]: εσωτερικό γινόμενο του a με O(log(N/)/2) ψευδοτυχαία {-1,+1} διανύσματα

1 -1 -1 1 -1 1 1 1

-1 1 1 -1 1 1 -1 -1

4 2 7 1 0 3 5 4

1 1 -1 1 -1 -1 1 -1

8

-2

0

sketch(α)α[i]

r1[i]

r2[i]

r3[i]

+2

+2

+2

-2

Page 20: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #20

Ιδιότητες τωνΙδιότητες των Sketches Sketches

0

])[(][

)][][()(

jrEja

jrjaEXE

i

ii

και

22

22

22

][

_)])[(][(

)][][(][

Aia

productscrossjrEja

jrjaEXE

i

ii

0

Χ1

Χ2

Χ3

Χ4

Χ5

.

.

.

.

.

.

.Χκ

sketch(α)

To Xi2 είναι unbiased estimate της νόρμας-2 του α[]

Page 21: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #21

Boosting:Boosting: διάμεσος μέσων-όρων διάμεσος μέσων-όρων

• Χj=Σα[ι]rj [ι], Ε[Χj2]=Σα[ι]2=Α2

Χ1

Χ2

Χ3

Χ4

Χ5

.

.

.

.

.

.

.Χκ

μ

κ=λ*μ

μ

Υ1=(Χ12+ Χ2

2+… Χμ2 )/μ

Υ2=(Χμ+12+ Χμ+2

2+… Χ2μ2 )/μ

Υλ=(Χ(λ-1)μ+12+ Χ(λ-1),+2

2+… Χκ2 )/μ

Υπολογισμός Μέσων Όρων

sort

Y=διάμεσος(Υι)

Page 22: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #22

Boosting:Boosting: διάμεσος μέσων-όρων διάμεσος μέσων-όρων

• Χj=Σα[ι]rj [ι], Ε[Χj2]=Σα[ι]2=Α2

Χ1

Χ2

Χ3

Χ4

Χ5

.

.

.

.

.

.

.Χκ

Prob[|Υ-Α2| 4/μ1/2 Α2] >= 1-2^-λ/2

ε δ

μ

κ=λ*μ

μ

Το μήκος του α μπορεί να υπολογιστεί με ακρίβεια ε’, με πιθανότητα επιτυχίας 1-δ

Η απόσταση dist(a,b) είναι το μήκος του α-β

Page 23: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #23

SketchSketch ενόςενός Wavelet Wavelet

• 2nd order Reed-Muller codes για τα αθροίσματα σε Ο(log3(N))

BA C

BC

kAB

kk iriririaks ][][][][][

+1 +1 -1 +1 -1 -1 -1 +1 +1 +1 -1-1+1 -1 +1-1

ζ[l]

rk

-1

+1

Page 24: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #24

Wavelets from SketchesWavelets from Sketches

4 2 7 1 0 3 5 4

N

πίνακας

-1 +1 0 0 0 0 0 0

k

8 0 -2

-2 0 +2

wavelet διάνυσμα-βάση

Page 25: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #25

• Είσοδος: sketch(a), i• Έξοδος: wavelet w[i]

– Υπολόγισε το sketch(ζ[ι]) του διανύσματος-βάσης– Υπολόγισε Υ=Α2

από το sketch(a)– Υπολόγισε sketch(a’=a/Y½)=sketch(a)/Y½

– Υπολόγισε cos(a,ζ)=1-dist2(α’,ζ[ι])/2 μέσω του sketch(α’-ζ[ι])

– επέστρεψε w=Υ½*cos(α,ζ[ι])

• Μνήμη: O(Blog2(N)log(N/)//3)

Τελικός αλγόριθμοςΤελικός αλγόριθμος (vldb2001) (vldb2001)

Ψευδ. μεταβλητές sketch

Page 26: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #26

Συνολική ΑρχιτεκτονικήΣυνολική Αρχιτεκτονική

seeds sketch

wavelets

data stream

Queries

Page 27: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #27

OutlineOutline

• Εισαγωγή

– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων

– ορισμός του προβλήματος

• Haar Wavelets

– ορισμός, παραδείγματα

– ένας απλός on-line αλγόριθμος

• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)

– JL-embeddings, sketches

– υπολογισμός wavelets μέσω sketches

• Εφαρμογές με πραγματικά δεδομένα

• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)

• Συμπεράσματα

Page 28: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #28

Πειράματα (τηλεφωνικό δίκτυο)Πειράματα (τηλεφωνικό δίκτυο)

• CDRs από 7 μέρες του Φεβρ. 2001

• a[i] = #κλήσεων από το npa-nxx i

• N=65,536• Sketch size = 3,952

words

Ημέρα #κλήσεων

0 45,110,132

1 81,546,187

2 98,820,613

3 96,768,015

4 97,141,335

5 41,285,628

6 50,361,885

Σύνολο

511,103,3795

Page 29: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #29

Σύγκριση με Σύγκριση με Off-line Off-line αλγόριθμοαλγόριθμο

• Top-7 wavelets περιέχουν 90% της ενέργειας• Υπόλοιπα 65529 wavelets πολύ μικρά

0

0.2

0.4

0.6

0.8

0 10 20 30 40

Αριθμός Wavelets (B)

SS

E/E

ner

gy

Sketch

Off - line

Page 30: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #30

Σύγκριση με στατική προεπιλογήΣύγκριση με στατική προεπιλογή

0

0.2

0.4

0.6

0.8

1

0 20 40

Αριθμός Wavelets (B)

SS

E/E

ner

gy

Fixed-set

Sketch

Off-line

Page 31: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #31

Απεικόνιση στο Απεικόνιση στο RRNN

δεδομένα

wavelets

ενημερώσεις

Page 32: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #32

• Παρατηρήσεις από διαφορετικά συστήματα μπορούν να συνδυαστούν:

Γραμμικότητα των σκίτσωνΓραμμικότητα των σκίτσων

++ +=

Συνολική ροή μέσα από το δίκτυο κορμό:

Page 33: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #33

Συνδυασμός κατανεμημένων Συνδυασμός κατανεμημένων μετρήσεωνμετρήσεων

+ …+ +=

Συνολική ροή μέσα από το δίκτυο κορμό:X

X

X

X

Page 34: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #34

ΕπεκτάσειςΕπεκτάσεις

• STOC 2002 paper: ιεραρχία από sketches– υπολογισμός histograms, wavelets μέσω

sketches σε sub-linear time,space με μίνιμουμ relative error

– εφαρμογές: Exploratory Data Analysis, visualization, databases κ.α.

Page 35: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #35

2*10-15=5

2*9-15=4

Random Subset Sums Random Subset Sums (VLDB2002)(VLDB2002)• Επέλεξε το α[ι] με

πιθανότητα 50%

2 1 2 1 1 2 2 4α[i]

2 0 0 1 1 2 0 4 10rss1

2 1 0 1 0 0 2 0

0 0 2 0 1 0 2 4

6

9

RSS

rss2

rss3

α[ι]=2Χj-Α, αν rj[i]=1

4.5

α[8]=?

Page 36: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #36

Κατασκευή των Κατασκευή των RSSRSS

• Extended Hamming Code:

1 1 1 1 1 1 1 10 0 0 0 1 1 1 10 0 1 1 0 0 1 10 1 0 1 0 1 0 1

1 0 1 1 1 2 2 3 1 2 2 3

1 0 0 1 1 0 0 1

x

= (mod2

)

=

|log(N)+1| seed

rss= {a[0], a[3], a[4], a[7]}

Page 37: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #37

Νεώτερος Αλγόριθμος Νεώτερος Αλγόριθμος ((VDLB2002)VDLB2002)• Γράψε οποιοδήποτε διάστημα σαν

άθροισμα Ο(logN) δυαδικών διαστημάτων

• Κάθε δυαδικό διάστημα προσεγγίζεται εΑ1 μέσω των RSS

2 1 2 1 1 2 2 4α[i]

Page 38: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #38

Deciles of on-going CallsDeciles of on-going Calls

0

0.2

0.4

0.6

0.8

1

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

quantile

erro

r

GK2

GK

HIST

RSS

Page 39: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #39

ΣυμπεράσματαΣυμπεράσματα• Προσεγγιστική αποτίμηση ερωτήσεων επιθυμητή

σε πολλές εφαρμογές– ταχύτατη απόκριση σε εφαρμογές ανάλυσης– μόνη λύση όταν η συγκέντρωση των δεδομένων είναι

αδύνατη

• Δύο μέθοδοι (sketches/RSS) για συνοπτική περιγραφή με– μικρό χώρο, ένα πέρασμα, εγγυήσεις πιστότητας (ε,δ)– γρήγορη αποτίμηση

• Συνδυασμός κατανεμημένων μετρήσεων σε συστήματα ευρείας κλίμακας– lossless για οποιοδήποτε γραμμικό συνδυασμό

Page 40: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #40

Πολυδιάστατη Ανάλυση Πολυδιάστατη Ανάλυση ΔεδομένωνΔεδομένων• Cubetrees, Dwarf, SIGMOD-97,

98, 02– αποδοτικές δομές οργάνωσης

• DynaMat, best paper award SIGMOD-99, TODS-01– αυτόματη επιλογή, οργάνωση με βάση

τα υπάρχοντα resources (αποθηκευτικός χώρος, χρόνος υπολογισμού), ενημέρωση

• Data mining (VLDB-98, 01)• Ανταλλαγή δεδομένων μέσω XML,

ICDE-03 κ.α.

ProductTotalSales 1 2 3 4

1 $454 - - $925

2 $468 $800 - -

3 $296 - $240 -ST

OR

E

4 $652 - $540 $745

View{product,store}

Page 41: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #41

ΕυχαριστώΕυχαριστώ!!

Page 42: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #42

Exponential fadingExponential fading

• Exp fading: b'=a+(1-)b• Από γραμμικότητα: h(b’)=h(a)+(1-)h(b)

0

0.2

0.4

0.6

0.8

1

SS

E/E

ner

gy

0.3 0.5 0.7 0.9

lambda

Off-line

Streaming(sketch)

Streaming(fixed-set)

Page 43: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #43

Conventional View (Haar Conventional View (Haar Wavelets)Wavelets)

a[] a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]

Level1

Level2

Level3

2

]2[]1[ aa 2

]4[]3[ aa 2

]6[]5[ aa 2

]8[]7[ aa 2

]1[]2[ aa 2

]3[]4[ aa 2

]5[]6[ aa 2

]7[]8[ aa

2

00002

0000 2

00002

0000

22

22

Page 44: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #44

Άλλες εφαρμογέςΆλλες εφαρμογές

• Μπορούν να χρησιμοποιηθούν αντί για τα αρχικά σήματα σε πολλούς αλγόριθμος ανάλυσης δεδομένων– Π.χ. SVD (Information Retrieval: LSI)

192.205.31.160.0002.aggr

192.205.31.160.0122.aggr

192.205.33.160.0032.aggr

192.205.33.160.0142.aggr

192.205.33.224.0052.aggr

0.66-0.99

0.33-0.66

0-0.33

Page 45: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #45

• JPEG-2000 • Φυσιολογία (αντίληψη εικόνας από θηλαστικά)• Many applications: Data Compression, Noise Reduction, Edge Detection

(image processing)• Databases: selectivity estimation [Matias98-00,Chakrabarti00,

Gilbert00], aggregate OLAP queries [Vitter99], etc• Fast Transform: O(N) space/time• “Few good-terms” phenomenon

– Just few coefficients retain most of the energy:

Wavelet TransformWavelet Transform

Page 46: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #46

IP ExampleIP Example

Sum-squared-error vs B

0.0E+00

5.0E+16

1.0E+17

1.5E+17

2.0E+17

0 500 1000 1500

Wavelets Used (B)

SS

E IP source

IP dest

Page 47: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #47

Main ResultMain Result• Parameters:

: seek inner products within (1) : failure probability : guarantees hold only when cosine is greater than

• if w[l]2 (/B)|a|2 can be estimated reliably• If there is a top-B wavelet representation with psedo-

energy at least |a|2 then with probability (1-) we can find an approximate B-term representation with pseudo-energy at least (1-)|a|2 with space and per-item time cost:

O(Blog2(N)log(N/)//3)

Page 48: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #48

Άλλα παραδείγματαΆλλα παραδείγματα

• Παράλληλα συστήματα Β.Δ – στατιστικά για την ισοκατανομή των

δεδομένων

• Στατιστικά για query optimization

SQL QueryΚεντρικήΚεντρικήΒΔΒΔ

ΣυνοπτικΣυνοπτικήήπεριγραφπεριγραφήή

Optimizer

Page 49: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #49

Chebyshev’s InequalityChebyshev’s Inequality• P[X-E[X] > k] <= VAR[X]/k2

• ( X X2)

• Εμείς : E[X2] = A2, VAR[X2]=E[(X2-E[X2])^2] <= A2^2

• Μέσοι όροι Yι=(Χ12+ Χ2

2+… Χμ2 )/μ

• E[Yι] = A2

• VAR[Yι] <= A22/μ

• Αρα P[|Yι- A2|> eA2] <= (A22/μ)/e2 A2

2=1/(μe2)

P[|Yι- A2|<eA2 ] >1-1/(μe2)

Page 50: Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Κλίμακας

Γιάννης Κωτίδης #50

11stst Chernoff Bound Chernoff Bound• Έστω V t.m = 1 αν το Υ είναι μέσα στα όρια, • P[V=1]=p = σταθερά για ε,μ σταθερά [Poisson Trials]• Έχω λ trials V• Έστω Χ ο αριθμός των επιτυχιών Χ=SUM(V) • Η πιθανότητα αποτυχίας• P[X < (1-δ)λp] < e^{-λpδ2/2} • Για 1-δ=1/2 (ο διάμεσος να είναι λάθος) • P[X> ½ λp] >=1-e^{-λp/8}

• Έστω ρ=7/8 -> 1/(μe2) = 1/8 P[|Y- A2|> eA2] >=1-δ– όπου ε=sqrt(8/μ) και δ= e^{-λ7/8} (τα άλλα όρια είναι παρόμοια)