Page 1
Γιάννης Κωτίδης #1
Προσεγγιστική Αποτίμηση Ερωτήσεων σε Προσεγγιστική Αποτίμηση Ερωτήσεων σε Υπολογιστικά Συστήματα Μεγάλης Υπολογιστικά Συστήματα Μεγάλης
ΚλίμακαςΚλίμακας
Γιάννης ΚωτίδηςΓιάννης ΚωτίδηςAT&T Labs-Research
http://www.research.att.com/info/kotidis
Page 2
Γιάννης Κωτίδης #2
OutlineOutline
• Εισαγωγή
– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων
– ορισμός του προβλήματος
• Haar Wavelets
– ορισμός, παραδείγματα
– ένας απλός on-line αλγόριθμος
• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)
– JL-embeddings, sketches
– υπολογισμός wavelets μέσω sketches
• Εφαρμογές με πραγματικά δεδομένα
• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)
• Συμπεράσματα
Page 3
Γιάννης Κωτίδης #3
Δεδομένα Δεδομένα Ανάλυση ΑνάλυσηΓνώσηΓνώση• Συγκέντρωση και ανάλυση πληροφορίας προσφέρει
στρατηγικό πλεονέκτημα για επιχειρήσεις– ανάλυση μεριδίου αγοράς, ανάλυση αγορών πελατών– συσχέτιση με πληθυσμιακά χαρακτηριστικά, κατευθυνόμενο
μάρκετινγκ
• Διαχειρίσιμες ποσότητες, σχετικά αργοί ρυθμοί διακίνησης
• Η ευρεία ανάπτυξη του τομέα των τηλεπικοινωνιών έχει επιφέρει επανάσταση στο ρυθμό δημιουργίας και διακίνησης δεδομένων– συχνά υπερβαίνει τις αποθηκευτικές δυνατότητες των
υπαρχόντων συστημάτων
Page 4
Γιάννης Κωτίδης #4
Τηλεφωνικό δίκτυο (Τηλεφωνικό δίκτυο (AT&T)AT&T)• Κεντρικό σύστημα ελέγχου, ανάλυσης
– 200-300 εκατομμύρια κλήσεις την ημέρα (>60GB)– ~200 δισεκατομμύρια εγγραφές (~50ΤΒ)
• Η αποτίμηση ερωτήσεων είναι χρονοβόρα– “Communities Of Interest”: ποια είναι τα 10 νούμερα με
τη μεγαλύτερη συχνότητα κλήσεων από το 9733340865?
– ποια ήταν η κατανομή των υπεραστικών κλήσεων ανά γεωγραφική περιοχή τους τελευταίους έξι μήνες?
– ποία είναι η μέση διάρκεια ενός τηλεφωνήματος στις 10 μεγαλύτερες πόλεις της χώρας?
Page 5
Γιάννης Κωτίδης #5
IP-IP-δίκτυοδίκτυο
• Περισσότερα δεδομένα• Ταχύτεροι ρυθμοί
διακίνησης• Π.χ. CISCO NetFlow: 150
records/day/router– η αποστολή των δεδομένων
είναι ασύμφορη/αδύνατη– μέχρι και 97% των
δεδομένων χάνονται στη μεταφορά
Backbone router
Gateway router
Access router
Page 6
Γιάννης Κωτίδης #6
Προσεγγιστική αποτίμηση Προσεγγιστική αποτίμηση ερωτήσεωνερωτήσεων
• Ακριβείς απαντήσεις δεν είναι πάντοτε απαραίτητες! – για αρχική ανάλυση μας ενδιαφέρουν κυρίων οι ισχυρές
“τάσεις”– σε ερωτήσεις ομαδοποίησης ακρίβεια στα πρώτα
σημαντικά ψηφία είναι αρκετή• “Ποιο ποσοστό από τα συνολικά τηλεφωνήματα γίνονται στην
Αττική?”
GB/TB
Ερώτηση
Ακριβής απάντηση
KB/MB
Wavelet ερώτησηΠροσεγγιστική απάντηση
Page 7
Γιάννης Κωτίδης #7
14 9733607212
Απλοποιημένο μοντέλο Απλοποιημένο μοντέλο δεδομένωνδεδομένωνΠίνακας a[i], 1iN
– αριθμός κλήσεων από το νούμερο i (N=1010)– αριθμός πακέτων από IP-διεύθυνση i (N=232)
(973) 360-7212, 6(973) 360-8347, 7(973) 360-8408, 1(973) 360-7212, 1(973) 360-8404, 9(973) 360-8404, 1(973) 360-7212, 7(973) 360-8347, 1
δεδο
μένα
0
500
1000
1500
2000
2500
3000
ι
α[ι]
Αριθμόςκλήσεων
a[i]ι,δ[i]
Page 8
Γιάννης Κωτίδης #8
Το πρόβλημαΤο πρόβλημα• Περιγραφή του πίνακα
α[] σε χώρο << Ν• Επεξεργασία σε ένα
πέρασμα• Ενημέρωση σε
πραγματικό χρόνο• Προσεγγιστική
αποτίμηση ερωτήσεων μέσα σε προκαθορισμένα όρια λάθους.
Σημείο παρατήρησης
?
δεδομένα
sketchsketch(KB/MB)(KB/MB)
Page 9
Γιάννης Κωτίδης #9
OutlineOutline
• Εισαγωγή
– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων
– ορισμός του προβλήματος
• Haar Wavelets
– ορισμός, παραδείγματα
– ένας απλός on-line αλγόριθμος
• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)
– JL-embeddings, sketches
– υπολογισμός wavelets μέσω sketches
• Εφαρμογές με πραγματικά δεδομένα
• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)
• Συμπεράσματα
Page 10
Γιάννης Κωτίδης #10
Εισαγωγή στα Εισαγωγή στα WaveletWavelet• WaveletsWavelets:: μαθηματικός μετασχηματισμός χρησιμοποιώντας
προκαθορισμένη βάση (π.χ. Haar, Daubechies-4, Daubechies-6, Coifman, Morlet, Gabor)
• Haar waveletsHaar wavelets:: πιο απλή υλοποίηση – αναδρομικός υπολογισμός διαφορών και αθροισμάτων ανά δυαδικά
τμήματα
Resolution Averages Waveletsa = [2, 2, 0, 6, 4, 2, 2, 0]
[2, 3, 3, 1] [0, 3, -1, -1]
[2.5, 2] [0.5, -1]
[2.25] [-0.25]
----3
2
1
0
Haar wavelets: [2.25, -0.25, 0.5, -1, 0, 3, -1, -1]
• Ορισμός επεκτείνεται εύκολα για πολυδιάστατα δεδομένα
Page 11
Γιάννης Κωτίδης #11
Συμπίεση μέσω Συμπίεση μέσω WaveletWavelet• Κρατάμε Β<<Ν τιμές (τις μεγαλύτερες)Κρατάμε Β<<Ν τιμές (τις μεγαλύτερες)
– Πχ Β=2Πχ Β=2
[2.25, -0.25, 0.5, -1, 0, 3, -1, -1]
[2.25, 0, 0, 0, 0, 3, 0, 0]
α’=[2.25, 2.25, -0.75, 5.25, 2.25, 2.25, 2.25, 2.25]
- 1
0
1
2
3
4
5
6
7
8
α
α'
α=[2, 2, 0, 6, 4, 2, 2, 0]
Page 12
Γιάννης Κωτίδης #12
On-line On-line αλγόριθμος αλγόριθμος ((απλό απλό μοντέλο)μοντέλο)
2
]5[]6[ aa 2
]7[]8[ aa
2
00002
0000
22
22
a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]
2
]1[]2[ aa 2
]3[]4[ aa 2
]1[]2[ aa
2
0000
22
22
• Βλέπουμε τον πίνακα από αριστερά προς τα δεξιάΒλέπουμε τον πίνακα από αριστερά προς τα δεξιά
• Κρατάμε τα Κρατάμε τα ΒΒ μεγαλύτερα μεγαλύτερα waveletwavelet σε σωρό και σε σωρό και logNlogN από τα «ενεργά» στη από τα «ενεργά» στη μνήμημνήμη
Ν>>διαθέσιμη μνήμη
Σωρός(τοπ-Β)
2
]3[]4[ aa 2
]1[]2[ aa
- ++ - -- + +
Page 13
Γιάννης Κωτίδης #13
Καλά και άσχημα νέαΚαλά και άσχημα νέα Τα Β-μεγαλύτερα wavelets μπορούν να
υπολογιστούν με μνήμη O(B+logN) [IEEE TKDE] Κάθε ντετερμινιστικός αλγόριθμος
που υπολογίζει το μεγαλύτερο (εκτός του μ.ο.) wavelet στο γενικό μοντέλο χρειάζεται (N/polylog(N)) μνήμη
Page 14
Γιάννης Κωτίδης #14
• Θα χρησιμοποιήσουμε randomized αλγόριθμους– προσεγγίζουν τη λύση με μεγάλη πιθανότητα επιτυχίας
• Προσεγγιστικός υπολογισμός των wavelets με– σφάλμα (αθροιστικά) 1ε (π.χ. 10%)– πιθανότητα επιτυχίας 1-δ (π.χ. 99%)– πολυ-λογαριθμικές απαιτήσεις μνήμης (και πολυπλοκότητα):
Γενική κατεύθυνσηΓενική κατεύθυνση
poly(logN, log(1/δ), ε)
Page 15
Γιάννης Κωτίδης #15
Παρατήρηση 1Παρατήρηση 1• Το wavelet w[l] είναι το εσωτερικό γινόμενο
των δεδομένων a[] με ένα διάνυσμα βάσης [i]
a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]
2
]1[]2[ aa
2
]3[]4[ aa
2
]5[]6[ aa
2
]7[]8[ aa
22
2
0000
2
0000
22
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
Ορθοκανονικήβάση
wavelets
Page 16
Γιάννης Κωτίδης #16
Παρατήρηση 2Παρατήρηση 2
• Το εσωτερικό γινόμενο 2 μοναδιαίων διανυσμάτων μπορεί να υπολογιστεί από την απόσταση τους:
<a,b> = cos(a,b) = 1-dist2(a,b)/2
Page 17
Γιάννης Κωτίδης #17
Μία άλλη όψηΜία άλλη όψη
• Απεικόνιση των δεδομένων και της wavelet-βάσης στο RN (N+1 σημεία)
Δεν έχουμε αρκετή μνήμη να σώσουμε το
α[]
δεδομένα
wavelets
Page 18
Γιάννης Κωτίδης #18
JL-embeddingsJL-embeddings
• Johnson & Lindenstrauss [84] “Ν σημεία μπορούν να απεικονιστούν σε κ=Ο((logΝ)/ε2)
διαστάσεις ώστε οι μεταξύ τους αποστάσεις να διατηρούνται με σφάλμα ε”
a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]
N
-1 +1 0 0 0 0 0 0
wavelet διάνυσμα-βάση
πίνακας
k
? ? ?
? ? ?
?
?
Page 19
Γιάννης Κωτίδης #19
SketchesSketches
• e.g [Alon96]: εσωτερικό γινόμενο του a με O(log(N/)/2) ψευδοτυχαία {-1,+1} διανύσματα
1 -1 -1 1 -1 1 1 1
-1 1 1 -1 1 1 -1 -1
4 2 7 1 0 3 5 4
1 1 -1 1 -1 -1 1 -1
8
-2
0
sketch(α)α[i]
r1[i]
r2[i]
r3[i]
+2
+2
+2
-2
Page 20
Γιάννης Κωτίδης #20
Ιδιότητες τωνΙδιότητες των Sketches Sketches
0
])[(][
)][][()(
jrEja
jrjaEXE
i
ii
και
22
22
22
][
_)])[(][(
)][][(][
Aia
productscrossjrEja
jrjaEXE
i
ii
0
Χ1
Χ2
Χ3
Χ4
Χ5
.
.
.
.
.
.
.Χκ
sketch(α)
To Xi2 είναι unbiased estimate της νόρμας-2 του α[]
Page 21
Γιάννης Κωτίδης #21
Boosting:Boosting: διάμεσος μέσων-όρων διάμεσος μέσων-όρων
• Χj=Σα[ι]rj [ι], Ε[Χj2]=Σα[ι]2=Α2
Χ1
Χ2
Χ3
Χ4
Χ5
.
.
.
.
.
.
.Χκ
μ
κ=λ*μ
μ
Υ1=(Χ12+ Χ2
2+… Χμ2 )/μ
Υ2=(Χμ+12+ Χμ+2
2+… Χ2μ2 )/μ
Υλ=(Χ(λ-1)μ+12+ Χ(λ-1),+2
2+… Χκ2 )/μ
Υπολογισμός Μέσων Όρων
sort
Y=διάμεσος(Υι)
Page 22
Γιάννης Κωτίδης #22
Boosting:Boosting: διάμεσος μέσων-όρων διάμεσος μέσων-όρων
• Χj=Σα[ι]rj [ι], Ε[Χj2]=Σα[ι]2=Α2
Χ1
Χ2
Χ3
Χ4
Χ5
.
.
.
.
.
.
.Χκ
Prob[|Υ-Α2| 4/μ1/2 Α2] >= 1-2^-λ/2
ε δ
μ
κ=λ*μ
μ
Το μήκος του α μπορεί να υπολογιστεί με ακρίβεια ε’, με πιθανότητα επιτυχίας 1-δ
Η απόσταση dist(a,b) είναι το μήκος του α-β
Page 23
Γιάννης Κωτίδης #23
SketchSketch ενόςενός Wavelet Wavelet
• 2nd order Reed-Muller codes για τα αθροίσματα σε Ο(log3(N))
BA C
BC
kAB
kk iriririaks ][][][][][
+1 +1 -1 +1 -1 -1 -1 +1 +1 +1 -1-1+1 -1 +1-1
ζ[l]
rk
-1
+1
Page 24
Γιάννης Κωτίδης #24
Wavelets from SketchesWavelets from Sketches
4 2 7 1 0 3 5 4
N
πίνακας
-1 +1 0 0 0 0 0 0
k
8 0 -2
-2 0 +2
wavelet διάνυσμα-βάση
Page 25
Γιάννης Κωτίδης #25
• Είσοδος: sketch(a), i• Έξοδος: wavelet w[i]
– Υπολόγισε το sketch(ζ[ι]) του διανύσματος-βάσης– Υπολόγισε Υ=Α2
από το sketch(a)– Υπολόγισε sketch(a’=a/Y½)=sketch(a)/Y½
– Υπολόγισε cos(a,ζ)=1-dist2(α’,ζ[ι])/2 μέσω του sketch(α’-ζ[ι])
– επέστρεψε w=Υ½*cos(α,ζ[ι])
• Μνήμη: O(Blog2(N)log(N/)//3)
Τελικός αλγόριθμοςΤελικός αλγόριθμος (vldb2001) (vldb2001)
Ψευδ. μεταβλητές sketch
Page 26
Γιάννης Κωτίδης #26
Συνολική ΑρχιτεκτονικήΣυνολική Αρχιτεκτονική
seeds sketch
wavelets
data stream
Queries
Page 27
Γιάννης Κωτίδης #27
OutlineOutline
• Εισαγωγή
– εφαρμογές προσεγγιστικής αποτίμησης ερωτήσεων
– ορισμός του προβλήματος
• Haar Wavelets
– ορισμός, παραδείγματα
– ένας απλός on-line αλγόριθμος
• Προσεγγιστικός υπολογισμός Wavelets (VLDB2001)
– JL-embeddings, sketches
– υπολογισμός wavelets μέσω sketches
• Εφαρμογές με πραγματικά δεδομένα
• Νεότεροι αλγόριθμοι (STOC2002, VLDB2002)
• Συμπεράσματα
Page 28
Γιάννης Κωτίδης #28
Πειράματα (τηλεφωνικό δίκτυο)Πειράματα (τηλεφωνικό δίκτυο)
• CDRs από 7 μέρες του Φεβρ. 2001
• a[i] = #κλήσεων από το npa-nxx i
• N=65,536• Sketch size = 3,952
words
Ημέρα #κλήσεων
0 45,110,132
1 81,546,187
2 98,820,613
3 96,768,015
4 97,141,335
5 41,285,628
6 50,361,885
Σύνολο
511,103,3795
Page 29
Γιάννης Κωτίδης #29
Σύγκριση με Σύγκριση με Off-line Off-line αλγόριθμοαλγόριθμο
• Top-7 wavelets περιέχουν 90% της ενέργειας• Υπόλοιπα 65529 wavelets πολύ μικρά
0
0.2
0.4
0.6
0.8
0 10 20 30 40
Αριθμός Wavelets (B)
SS
E/E
ner
gy
Sketch
Off - line
Page 30
Γιάννης Κωτίδης #30
Σύγκριση με στατική προεπιλογήΣύγκριση με στατική προεπιλογή
0
0.2
0.4
0.6
0.8
1
0 20 40
Αριθμός Wavelets (B)
SS
E/E
ner
gy
Fixed-set
Sketch
Off-line
Page 31
Γιάννης Κωτίδης #31
Απεικόνιση στο Απεικόνιση στο RRNN
δεδομένα
wavelets
ενημερώσεις
Page 32
Γιάννης Κωτίδης #32
• Παρατηρήσεις από διαφορετικά συστήματα μπορούν να συνδυαστούν:
Γραμμικότητα των σκίτσωνΓραμμικότητα των σκίτσων
++ +=
Συνολική ροή μέσα από το δίκτυο κορμό:
Page 33
Γιάννης Κωτίδης #33
Συνδυασμός κατανεμημένων Συνδυασμός κατανεμημένων μετρήσεωνμετρήσεων
+ …+ +=
Συνολική ροή μέσα από το δίκτυο κορμό:X
X
X
X
Page 34
Γιάννης Κωτίδης #34
ΕπεκτάσειςΕπεκτάσεις
• STOC 2002 paper: ιεραρχία από sketches– υπολογισμός histograms, wavelets μέσω
sketches σε sub-linear time,space με μίνιμουμ relative error
– εφαρμογές: Exploratory Data Analysis, visualization, databases κ.α.
Page 35
Γιάννης Κωτίδης #35
2*10-15=5
2*9-15=4
Random Subset Sums Random Subset Sums (VLDB2002)(VLDB2002)• Επέλεξε το α[ι] με
πιθανότητα 50%
2 1 2 1 1 2 2 4α[i]
2 0 0 1 1 2 0 4 10rss1
2 1 0 1 0 0 2 0
0 0 2 0 1 0 2 4
6
9
RSS
rss2
rss3
α[ι]=2Χj-Α, αν rj[i]=1
4.5
α[8]=?
Page 36
Γιάννης Κωτίδης #36
Κατασκευή των Κατασκευή των RSSRSS
• Extended Hamming Code:
1 1 1 1 1 1 1 10 0 0 0 1 1 1 10 0 1 1 0 0 1 10 1 0 1 0 1 0 1
1 0 1 1 1 2 2 3 1 2 2 3
1 0 0 1 1 0 0 1
x
= (mod2
)
=
|log(N)+1| seed
rss= {a[0], a[3], a[4], a[7]}
Page 37
Γιάννης Κωτίδης #37
Νεώτερος Αλγόριθμος Νεώτερος Αλγόριθμος ((VDLB2002)VDLB2002)• Γράψε οποιοδήποτε διάστημα σαν
άθροισμα Ο(logN) δυαδικών διαστημάτων
• Κάθε δυαδικό διάστημα προσεγγίζεται εΑ1 μέσω των RSS
2 1 2 1 1 2 2 4α[i]
Page 38
Γιάννης Κωτίδης #38
Deciles of on-going CallsDeciles of on-going Calls
0
0.2
0.4
0.6
0.8
1
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
quantile
erro
r
GK2
GK
HIST
RSS
Page 39
Γιάννης Κωτίδης #39
ΣυμπεράσματαΣυμπεράσματα• Προσεγγιστική αποτίμηση ερωτήσεων επιθυμητή
σε πολλές εφαρμογές– ταχύτατη απόκριση σε εφαρμογές ανάλυσης– μόνη λύση όταν η συγκέντρωση των δεδομένων είναι
αδύνατη
• Δύο μέθοδοι (sketches/RSS) για συνοπτική περιγραφή με– μικρό χώρο, ένα πέρασμα, εγγυήσεις πιστότητας (ε,δ)– γρήγορη αποτίμηση
• Συνδυασμός κατανεμημένων μετρήσεων σε συστήματα ευρείας κλίμακας– lossless για οποιοδήποτε γραμμικό συνδυασμό
Page 40
Γιάννης Κωτίδης #40
Πολυδιάστατη Ανάλυση Πολυδιάστατη Ανάλυση ΔεδομένωνΔεδομένων• Cubetrees, Dwarf, SIGMOD-97,
98, 02– αποδοτικές δομές οργάνωσης
• DynaMat, best paper award SIGMOD-99, TODS-01– αυτόματη επιλογή, οργάνωση με βάση
τα υπάρχοντα resources (αποθηκευτικός χώρος, χρόνος υπολογισμού), ενημέρωση
• Data mining (VLDB-98, 01)• Ανταλλαγή δεδομένων μέσω XML,
ICDE-03 κ.α.
ProductTotalSales 1 2 3 4
1 $454 - - $925
2 $468 $800 - -
3 $296 - $240 -ST
OR
E
4 $652 - $540 $745
View{product,store}
Page 41
Γιάννης Κωτίδης #41
ΕυχαριστώΕυχαριστώ!!
Page 42
Γιάννης Κωτίδης #42
Exponential fadingExponential fading
• Exp fading: b'=a+(1-)b• Από γραμμικότητα: h(b’)=h(a)+(1-)h(b)
0
0.2
0.4
0.6
0.8
1
SS
E/E
ner
gy
0.3 0.5 0.7 0.9
lambda
Off-line
Streaming(sketch)
Streaming(fixed-set)
Page 43
Γιάννης Κωτίδης #43
Conventional View (Haar Conventional View (Haar Wavelets)Wavelets)
a[] a[1] a[2] a[3] a[4] a[5] a[6] a[7] a[8]
Level1
Level2
Level3
2
]2[]1[ aa 2
]4[]3[ aa 2
]6[]5[ aa 2
]8[]7[ aa 2
]1[]2[ aa 2
]3[]4[ aa 2
]5[]6[ aa 2
]7[]8[ aa
2
00002
0000 2
00002
0000
22
22
Page 44
Γιάννης Κωτίδης #44
Άλλες εφαρμογέςΆλλες εφαρμογές
• Μπορούν να χρησιμοποιηθούν αντί για τα αρχικά σήματα σε πολλούς αλγόριθμος ανάλυσης δεδομένων– Π.χ. SVD (Information Retrieval: LSI)
192.205.31.160.0002.aggr
192.205.31.160.0122.aggr
192.205.33.160.0032.aggr
192.205.33.160.0142.aggr
192.205.33.224.0052.aggr
0.66-0.99
0.33-0.66
0-0.33
Page 45
Γιάννης Κωτίδης #45
• JPEG-2000 • Φυσιολογία (αντίληψη εικόνας από θηλαστικά)• Many applications: Data Compression, Noise Reduction, Edge Detection
(image processing)• Databases: selectivity estimation [Matias98-00,Chakrabarti00,
Gilbert00], aggregate OLAP queries [Vitter99], etc• Fast Transform: O(N) space/time• “Few good-terms” phenomenon
– Just few coefficients retain most of the energy:
Wavelet TransformWavelet Transform
Page 46
Γιάννης Κωτίδης #46
IP ExampleIP Example
Sum-squared-error vs B
0.0E+00
5.0E+16
1.0E+17
1.5E+17
2.0E+17
0 500 1000 1500
Wavelets Used (B)
SS
E IP source
IP dest
Page 47
Γιάννης Κωτίδης #47
Main ResultMain Result• Parameters:
: seek inner products within (1) : failure probability : guarantees hold only when cosine is greater than
• if w[l]2 (/B)|a|2 can be estimated reliably• If there is a top-B wavelet representation with psedo-
energy at least |a|2 then with probability (1-) we can find an approximate B-term representation with pseudo-energy at least (1-)|a|2 with space and per-item time cost:
O(Blog2(N)log(N/)//3)
Page 48
Γιάννης Κωτίδης #48
Άλλα παραδείγματαΆλλα παραδείγματα
• Παράλληλα συστήματα Β.Δ – στατιστικά για την ισοκατανομή των
δεδομένων
• Στατιστικά για query optimization
SQL QueryΚεντρικήΚεντρικήΒΔΒΔ
ΣυνοπτικΣυνοπτικήήπεριγραφπεριγραφήή
Optimizer
Page 49
Γιάννης Κωτίδης #49
Chebyshev’s InequalityChebyshev’s Inequality• P[X-E[X] > k] <= VAR[X]/k2
• ( X X2)
• Εμείς : E[X2] = A2, VAR[X2]=E[(X2-E[X2])^2] <= A2^2
• Μέσοι όροι Yι=(Χ12+ Χ2
2+… Χμ2 )/μ
• E[Yι] = A2
• VAR[Yι] <= A22/μ
• Αρα P[|Yι- A2|> eA2] <= (A22/μ)/e2 A2
2=1/(μe2)
P[|Yι- A2|<eA2 ] >1-1/(μe2)
Page 50
Γιάννης Κωτίδης #50
11stst Chernoff Bound Chernoff Bound• Έστω V t.m = 1 αν το Υ είναι μέσα στα όρια, • P[V=1]=p = σταθερά για ε,μ σταθερά [Poisson Trials]• Έχω λ trials V• Έστω Χ ο αριθμός των επιτυχιών Χ=SUM(V) • Η πιθανότητα αποτυχίας• P[X < (1-δ)λp] < e^{-λpδ2/2} • Για 1-δ=1/2 (ο διάμεσος να είναι λάθος) • P[X> ½ λp] >=1-e^{-λp/8}
• Έστω ρ=7/8 -> 1/(μe2) = 1/8 P[|Y- A2|> eA2] >=1-δ– όπου ε=sqrt(8/μ) και δ= e^{-λ7/8} (τα άλλα όρια είναι παρόμοια)