Top Banner
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes [email protected]
67

Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

May 22, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems

Budapest University of Technology and EconomicsFault Tolerant Systems Research Group

Mintavételezés, szűrés, kilógó esetek detektálása

Salánki Ágnes

[email protected]

Page 2: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 3: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

MINTAVÉTELEZÉS

Page 4: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés

SRS

o Simple Random Sample

o random mintavétel

Stratified Sample

Cluster sample

Page 5: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

o Mindegyikből random m.

Cluster sample

Page 6: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 7: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Idősoroknál

Outlierek?Random sampling size mondjuk

𝑝 = 0.001-nél?„Imbalanced” adatsorok

Page 8: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

SZŰRÉS

Page 9: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Definíciók

Jelfeldolgozás – frekvencia

Fizika – hullámhosszok

Matematika – részhalmaz

Industrial rock – ??

Számítástechnika

o Értékek, jellemzően data streamben

• Mail

• Tartalom

• Wordfilter

Page 10: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Adatfolyamok

1. több forrásból,2. ismeretlen

sebességgel

Buffer, megengedett számítási memória

igény korlátos

Egyszer streamenként: „Lokális maximum?”

Globális kérdések: „Minden új maximumot

jelezzünk”

Ábra és a számértékes példák forrása: [1]

Page 11: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Adatfolyam-források

Szenzor-adatok

o 1 millió szenzor x 10/s x 4B

Képek

o Szatelitek: n TB/nap

Internetes szolgáltatók

o „A legutóbbi órában melyik volt a legnépszerűbb weboldal”

Hálózati forgalom

Tőzsdei adatok

Page 12: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Feldolgozás: időkorlát!

Diszk nem használható

Megengedett memóriaigény: korlátos

Elemenkénti számítási igény: korlátos

Szokásos megoldások:

o Csúszóablakos tárolás és feldolgozás

oMintavételezés

o Közelítő algoritmusok

Page 13: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Csúszóablakos tárolás

Eltároljuk

o A legutolsó 𝑡 elemet

o Az elmúlt 𝑇 időben jövőket

o A triggertől számító utolsókat

Csúszóablakra tervezett algoritmusok

o Pl. átlagszámítás

Page 14: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés streamekben

Pl. „az elmúlt héten hány egyedi query jött?”

Ezt kb. 10% minta alapján

Page 15: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Random mintavételezés

1/3-os mintavételezés

1 32 12 3 2 13

𝑝 = 1.0 𝑝 = 1.0 𝑝 = 1.0

Page 16: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés streamekben

Pl. „az elmúlt héten hány egyedi query jött?”

Ezt kb. 10% minta alapján

Random mintavételezés

o Ha tényleg egyedi a streamben, p = 0.1 a mintában

o Ha kétszer fordul elő, p = 0.18 a mintában

o Stb.

Nem tudunk a minta alapján általánosítani a teljes streamre

Page 17: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés streamekben: Hash

Pl. „az elmúlt héten hány egyedi query jött?”

Ezt kb. 10% minta alapján

Érték alapján szűrünk

o Pl. hash függvény 0-9 közé

o Feltételezések

• A hash egyenletes az értékek 1/10-e kerül be a 0-ba

Page 18: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

𝑝 = 1/3 𝑝 = 1/3 𝑝 = 1/3

Legalább becsülni tudunk Mintavételezés típusa?

Page 19: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Szűrés streamekben

Pl. találjuk meg

o a „különlegeseket”

o az azonosokat

o a különbözőeket

Már az első is nehéz probléma

Page 20: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Bitszámlálás

Adott: 0-1 stream

𝑁 buffermérettel

Ad-hoc query: „Hány 1-es van az utolsó k bitben?”

Néha még erre sincs időnk…

Page 21: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Bloom filterek

Pl. web crawling: „láttuk-e már ezt az URL-t?”

Bloom filter

o bitvektor

o hash függvények (ℎ1, ℎ2 stb.)

Folyamat: 𝑥 inputra

o BESZÚR: ℎ1 𝑥 , ℎ2(𝑥) stb. indexekre: 0 1 a vektorban

o KERES: ha ℎ1 𝑥 ∧ ℎ2 𝑥 ∧ . . . ≠ 1, akkor BESZÚR

Page 22: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Bloom filterek

𝑁 = 11

Input: egész számok

ℎ1 𝑥 : a páros bitekből képzett 𝑦 mod 𝑁

ℎ2 𝑥 : a páratlan bitekből képzett 𝑦 mod 𝑁

Page 23: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Bloom filterek

Folyam ℎ1(𝑥) ℎ2(𝑥) Filter00000000000

00100100000

10100101000

BESZÚR(25 = 11001) 5 2

BESZÚR(159 = 10011111) 7 0

BESZÚR(585 = 10010010019) 9 7 10100101010

KERES(118 = 1110110) 3 5 10100101010

Page 24: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Bloom filterek

Persze van fals pozitív

𝑁 mérettel

ℎ hash függvénnyel

eddig 𝑘 beszúrt elemmel

o 𝑝 𝑃 =#(1)

𝑁

o # 1 ≤ 𝑘 × 𝑁

Pl. 𝑁 = 106, ℎ = 5, 𝑘 = 107 értékekkel

o 𝑝 𝐹𝑃 = 0.00937

Page 25: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

OUTLIER DETEKTÁLÁS

Page 26: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Vannak-e egyáltalán?

Hogyan szeparálhatóak?

Hogy néznek ki?

Miért?

Vannak-e egyáltalán?

Nagy adat: aggregálás?

Szakterület specifikus?

Hatások?

Page 27: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Alapfeladat

Page 28: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Használati esetek

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Page 29: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Használati esetek

Képek forrása: http://www.szon.hu/

Page 30: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Használati esetek

Page 31: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Alapfogalmak

anomaly

surprise

rare eventnovelty

outlierexception

aberration

peculiarity

discordant observations

Page 32: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

Page 33: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Pont- és kollektív anomála

Pontanomália Kollektív anomália

Page 34: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Pont- és kollektív anomála

Pontanomália Kollektív anomália

Page 35: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Pont- és kollektív anomália

Page 36: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Viselkedési és kontextusanomália

Viselkedési Kontextus

Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezvehttp://www.metcenter.hu

Page 37: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Viselkedési és kontextusanomália

Viselkedési Kontextus

Itt: viselkedési és pontanomáliák

Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezvehttp://www.metcenter.hu

Page 38: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 39: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 40: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

VIZUÁLIS MÓDSZEREK

Page 41: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

1D

Az aggregálás általában nem jó

Page 42: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

1D

Az aggregálás általában nem jó

Néhány kilógó értéket a boxplot

egyszerűen elmaszkol

Page 43: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

𝑛D

Eddig: kilógó esetek az egyes dimenziókban

Hogyan általánosítsunk?

o Descartes szorzat?

o Sűrűségfüggvény bevonása?

Page 44: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

𝑛D: Descartes szorzat

Page 45: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

𝑛D: Többdimenziós sűrűségfüggvény

Generalization of 1D density

Page 46: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

𝑛D: Többdimenziós sűrűségfüggvény

Egydimenziós általánosítása

Több „normál” kategória is létezhet

Minden más outlier, esetleg átmenet a normálok között

Pontok nélkül a 0-1 nem látszik

Page 47: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

TÁVOLSÁG ALAPÚ TECHNIKÁK

Page 48: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Befoglaló burok

0

2 31 54 6 7 8

7 68 45 3 2 1

Min.: 2 31 44 3 2 1

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Extrém pontok

Medián: majd a végén…

Page 49: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 50: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 51: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DEMO

Csomag: depth

Hasznos függvények: depth, isodepth

Paraméterek: 𝑢 pont, 𝑑𝑝𝑡ℎ mélység

Befoglaló burok

Page 52: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DB

Distance Based

Outlier: szomszédok száma alacsony

Paraméterek

o 𝑟 sugarú hipergömb

o Szomszédok elvárt 𝜋 aránya

Page 53: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DEMO

Csomag: fields

Függvény: fields.rdist.near

Paraméterek: 𝑑𝑒𝑙𝑡𝑎 sugár

DB

Page 54: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

Page 55: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

0.0014 0.00041

0.00011

Kimerítő keresés?

choose(n = 1000, k = 900)

[1] 6.385051e+139

Page 56: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

Page 57: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Mahalanobis távolság

𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗

o 𝑆 – kovarianciamátrix

o 𝜗 – súlypont

Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Page 58: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

X

Page 59: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

BACON

Blocked Adaptive Computationally EfficientOutlier Nominators

Kiinduló halmaz félig felügyelt módban is!

Új halmaz: küszöbérték alapján

Page 60: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DEMO

Csomag: robustX

Függvény: mvBACON

Paraméterek

o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz

• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz

• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

BACON

Page 61: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DEMO

Csomag: robustX

Függvény: mvBACON

Paraméterek

o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz

• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz

• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

BACON

Page 62: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

SŰRŰSÉG ALAPÚ TECHNIKÁK

Page 63: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

LOF motiváció

Page 64: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

LOF

Local Outlier Factor

Alapötlet: csak a szomszédaival hasonlítsuk össze

o lokális sűrűség

Outlier kritérium

o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan

Page 65: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

DEMO

Csomag: DMwR (Data Mining with R)

Függvény: lofactor

Paraméterek: 𝑘 szomszédság mérete

LOF

Page 66: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Big Data környezet?

Közelítő algoritmusok

Stream processing

Page 67: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Mintavételezés SRS oSimple Random Sample Stratified Sample oHomogén „réteg” oMindegyikből random m. Cluster

Hivatkozásjegyzék

[1] Stream Processing, filtering: Mining of MassiveData Sets

o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf

o Coursera tárgy: https://www.coursera.org/course/mmds

[2] Outlier Detection

o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009