یک روش خوشه بندی کارا بر اساس پیوندها

نام درس: مباحث پیشرفته در پایگاه داده

استاد: آقای دکتر رهگذردانشجو: ليال سيد حسين

09/03/1388

بسمه تعالي

رئوس مطالب

اهمیت موضوع•

SimRankساختار •

SimTreeساختار •

LinkClusالگوریتم •

بررسی نتایج•

اهمیت موضوع

اشیاء داده ای در ی�ک بان�ک اطالعات�ی رابط�ه ای از طریق پیوندهای •مختلفی به یکدیگر متصل می شوند.

ای�ن پیونده�ا شام�ل اطالعات معنادار مهم�ی هس�تند که نشان دهنده •ارتباطات بین اشیاء می باشند.

بیشت�ر الگوریت�م های خوش�ه بندی تنه�ا بر اس�اس ص�فات ی�ک شیء •خاص کار م�ی کنن�د در حالیک�ه شباه�ت بی�ن اشیاء اغل�ب از طریق

پیوندهای آنها مشخص می شود.

در ای�ن مقال�ه ی�ک روش خوش�ه بندی بر پای�ه پیونده�ا ارائ�ه م�ی شود •ک�ه در آ�ن شباه�ت بی�ن دو شی�ء بر پای�ه شباه�ت اشیاء مرتب�ط ب�ا آ�ن

دو شیء اندازه گیری می شود.

شباهت اشیاء بر اساس پیوندها

محاسبه شباهت اشیاء بر اساس پیوندهای مستقیم

•Tom وJohn شبیه نیستند

•John و Mary شبیه هستند

Tom sigmod03

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

Maryaaai04aaai05

Authors Proceedings Conferences

SimRankساختار

شباهAت بیAن دو شیAء بAه طور بازگشتAی از محاسAبه•متوسط شباهت بین اشیاء متصل به آن

–Tom وJohnشبیه هستند –John و Maryشبیه نیستند

Tom sigmod03

sigmod04

sigmod05

vldb03vldb04vldb05

sigmod

Maryaaai04aaai05

Authors Proceedings Conferences

...SimRank ساختار

O(M2) زمان:

M تعداد اشیاء داده :ای

O(N2)فضا:

Nتعداد پیوندها :

: ساختار درختی1مشاهده

معموال بین اشیاء به طور طبAیعی یک ساختار درختی وجود دارد•

electronicsgrocery apparel

DVD cameraTV

Wal-Martساختار درختی ک�االها در

: توزیع شباهت2مشاهده

توزیع قانون قدرت بین شباهت ها• قرار دارد[0.005,0.015]حجم باالیی از شباهت ها در محدوده – هستند0.1 از شباهت ها بزرگتر از 1.4%–

آی�ا م�ی توان س�اختاری طراح�ی کرد ک�ه شباه�ت های مه�م ت�ر را ذخیره کند و •شباهت های کم اهمیت تر را به صورت فشرده ذخیره سازد؟

توزیع شباهت ها بین DBLPنویسندگان

SimTreeیک ساختار داده ای جدید :

Each leaf node represents an object

Each non-leaf node represents a group of similar lower-level nodes

Similarities between siblings are stored

Electronics

Apparels

Canon A40 digital camera

Sony V3 digital camera

Digital Cameras

SimTreeتخمین شباهت دو گره در

n4 n5n6

Similarity between two sibling nodes n1 and n2

s(n7,n8)=s(n4,n5)

s(n7,n9)=s(n1,n2)

0.9 1.0

0.90.8

بهبود شباهت

n4 n5n6

Similarity between two sibling nodes n1 and n2

simp(n7,n9) = s(n7, n4) × s(n1, n4) × s(n1, n2) × s(n2, n6) × s(n6, n9)= 0.9 × 0.8 × 0.2 × 0.9 × 1.0= 0.1296

0.9 1.0

0.90.8

یک برگ و پدرش ممکن است شباهت های متفاوتی با گره های دیگر داشته باشند

LinkClusالگوریتم

یAک الگوریتAم کارا و موثAر برای خوشAه بندی بر اساس •پیوندها

های اولیهSimTreeساخت –

ها به صورت تکراریSimTreeبهبود –

هاSimTreeمقدار دهی اولیه به

یافتن گروه هایی از گره ها که همبستگی باالیی دارند و ادغام آنها در یک سطح باالتر•

های دیگر است SimTree تعدادی از برگ های{n1,…,nk}همبستگی یک گروه از گره های •که به همه گره های این گروه متصل هستند.

The tightness of {n1, n2} is 3

n112345

Nodes Leaf nodes in another SimTree

یافتن گروه های همبسته با استفاده از کاوش الگوهای تکراری

شروع از برگ ها در سطح اول•یافتAن گروه هایAی از گره های مشابAه کAه باهAم هAم پوشانAی ندارنAد با کاوش اAلگوهای •

lتکراری در هر سطح

{n1}{n1, n2}{n2}{n1, n2}{n1, n2}{n2, n3, n4}{n4}{n3, n4}{n3, n4}

Transactions

n1123456789

همبستگی یک گروه برابر با Support یک الگوی تکراری

است

بروز کردن شباهت های بین گره ها

محاسبه شباهتA بین فرزندان و والدین•

بروزرسانی شباهت ها•

بروز رسانی ساختار درخت•

محاسبه شباهت بین فرزندان و والدین

n4 n5n6

0.9 1.0

0.90.8

S(n7,n4) = Average similarity between n7 and all nodes except n4’s descendents

Average similarity between n4 and those nodes

شباهت های اولیه معموال نمی تواند همه ارتباطات بین اشیاء را در برگیرد.•به صورت تکراری شباهت ها را بروز رسانی می کنیم•

شباهت بین دوگره متوسط شباهت اشیاء متصل به آن است–

h kl m n o p q r s t u v w x y

4 5 6 7

8 910 11 12 13 14 15 16 17 18 19 20 21 22 23 24

sim(na,nb) = average similarity between and

تعریف

•Simweight.ای نشان دادن شباهت و وزن یک پیوند بکار می رودAاین ساختار داده ای بر :

وزن آن است.w شباهت پیوند و s تعریف می کنیم که <s,w>آن را به صورت زوج •

دو عمگر ضرب وA جمع برای این ساختار داده ای به صورت زیرتعریف می شود:•

<s1,w1>+<s2,w2>=<(s1.w1+s2.w2)/(w1+w2) , w1+w2>

<s1,w1>×<s2,w2>=<s1.s2 ,w1.w2>

10 12 13 14

0.9 1.0 0.8 0.9 1.0

a:(1,1)a:(1,1)

a:(1,1)

a:(0.9,3) b:(0.95,2)

b:(1,1)

3,9.03,3

8.019.01,11,8.01,11,11,11,9.0

1),,()(

4nchildrenn

nnnn aaswnnssw

بروز کردن شباهت های بین گره ها ...

10 12 13 14

0.9 1.0 0.8 0.9 1.0

a:(0.9,3) b:(0.95,2)

541),,( 54, nnnnnn baba

swnnsswsw

= <0.9,3> x <0.2,1> x <0.95,2> = <0.171,6>

بروز کردن شباهت های بین گره ها ...

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

SimTreeسازمان دهی مجدد

می یابیمST2 متصل است را در nb و دیگری به na هم هستند و یکی از آنها به sibling که nj و ni همه زوج گره های • را با در نظر گرفتن این زوج پیدا می کنیم و نتایج را جمع می زنیمnb و naشباهت و وزن بین •

متصل هستند را می یابیم و به ازای آنها مقدار زیر را بدست می آوریمnb و هم به na که هم به ST2 از niهمه برگ های •

استnb و naجمع مقادیر بدست آمده شباهت دو گره •

n4 n5n6

n7 n9n8

0.80.9

پیچیدگی الگوریتم )برای دو نوع شیء داده ای(

Time SpaceUpdating similarities O(M(logN)2) O(M+N)

Adjusting tree structures O(N) O(N)

LinkClus O(M(logN)2) O(M+N)SimRank O(M2) O(N2)

M تعداد اشیاء داده :ایNتعداد پیوندها :

مقایسه با الگوریتم های مشابه روی داده های واقعی

Approach Accuracy time (s)

LinkClus 0.8026 1579.6

SimRank 0.7965 39160

ReCom 0.5711 74.6

F-SimRank 0.3688 479.7

CLARANS 0.4768 8.55

منابع

• Xiaoxin Yin, Jiawei Han, Philip S. Yu; LinkClus: Efficient Clustering via Heterogeneous Semantic Links; VLDB;2006; ACM 1595933859

• Glen Jeh, Jennifer Widom; SimRank: A Measure of Structural-Context Similarity; KDD, 2002

پرسش و پاسخ

یک روش خوشه بندی کارا بر اساس پیوندها

Documents

Web ranking (الگوریتم های رتبه بندی...

یکینورتکلا نفاوت eletroniki/T-E-148.pdf ·.....

بسته بندی اسپتیک

طرح سطح بندی خدمات سازمان...

مثلث بندی...

بخش اول: خوشه و پروژه توسعه خوشه...

بودجه بندی

کارا کتاب: کتاب...

آئین نامه اجرائی طرح طبقه بندی...

قطعه بندی با استفاده از خوشه بندی...

بسته بندی فعال و هوشمند

فصل چهارم نشانه رده بندی...

بلین ودانه بندی در سیمان

GIS حوزه بندی نقشه های آماری با...

“Fault Tolerant Clustering Revisited” - - CCCG 2013...

0001-ارائة سیستم هوشمند تصمیم یار...