Top Banner
دا ام خ ه ن ب د ي ق م دي ي ب ه وش خConstrained Clustering
34

خوشهبندي مقيد Constrained Clustering

Jan 20, 2016

Download

Documents

Kamal

خوشه‌بندي مقيد Constrained Clustering. فهرست مطالب. مقدمه ای بر خوشه بندی ارزیابی خوشه بندی خوشه بندی مقید چالشها و راهکارها پژوهش های انجام شده. خوشه‌بندي. خوشه‌بندي گروه‌بندي داده‌ها به گونه‌اي که خصوصيات مشترک بين داده‌هاي هر گروه زياد و خصوصيات مشترک بين گروه‌هاي متفاوت کم باشد. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: خوشهبندي مقيد Constrained Clustering

به نام خدا

خوشه بندي مقيدConstrained Clustering

Page 2: خوشهبندي مقيد Constrained Clustering

2

فهرست مطالب

مقدمه ای بر خوشه بندی●ارزیابی خوشه بندی●خوشه بندی مقید●چالشها و راهکارها●پژوهش های انجام شده●

Page 3: خوشهبندي مقيد Constrained Clustering

3

خوشه بندي

خوشه بندي●بين داده هاي هر گروه زياد و خصوصيات مشترک گروه بندي داده ها به گونه اي که

خصوصيات مشترک بين گروه هاي متفاوت کم باشد.: خصوصيات مشترک؟ چگونگي تشخيص خصوصيات؟1سوال

طيف وسيع كاربرد●يادگيري ماشين، هوش مصنوعي، الگوشناسي، وب كاوي، تحليل پايگاه داده، پردازش

متون و تصاوير، علوم پزشكي، علوم اجتماعي، اقتصاد و تجارت، علوم كامپيوتر، پزشكي

خوشه بندي به عنوان يك مساله مشكل ●مهم ترين داليل مشكل بودن مساله:●

ذات بدون ناظر بودن الگوريتم هاي خوشه بندي●ابهام در تعريف خوشه مناسب●مشكل بودن تعريف معيار فاصله مناسب●تعريف تابع هدف مناسب به منظور خوشه بندي●

عدم وجود الگوريتم جامع براي حل همه مسائل خوشه بندي●

Page 4: خوشهبندي مقيد Constrained Clustering

4

روشهاي خوشه بندي )دسته بندی(

Page 5: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ

چند مساله●تمایل به خوشه بندی شدن داده؟●

آیا یک ساختار غیر تصادفی در داده وجود ●دارد؟

استفاده از تستهای آماری●

تعداد خوشه ها؟●برخی الگوریتم ها نیاز به دانستن تعداد ●

خوشه ها قبل از خوشه بندی دارند.راهکارهای تقسیم و ادغام با معیارهایی از ●

قبیل واریانس درون و برون خوشه ای

کیفیت خوشه بندی انجام شده؟●خوشه بندی انجام شده چقدر خوب ●

است؟مناسب ارائه معیارهای ارزیابی●

5

Page 6: خوشهبندي مقيد Constrained Clustering

شرط(4ویژگیهای یک معیار ارزیابی مناسب )

●Cluster homogeneityهر چه خلوص در خوشه بندی )با دانستن کالس اصلی ●

داده ها، داده های هم کالس در یک خوشه قرار بگیرند( بیشتر باشد این معیار بیشتر است.

داده های دسته های متفاوت در خوشه های متفاوت ●قرار داده شوند.

6

Page 7: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Cluster completenessCluster homogeneityنقطه مقابل ●داده ها ی دسته های یکسان در خوشه های یکسان ●

قرار داده شوند.

7

Page 8: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Rag bagدر برخی مسایل دسته ای به نام »متفرقه« داریم که شامل ●

داده هایی است که نمی توانند با داده های دیگر کالسها هم خوشه شوند.

جریمه انتساب این نوع داده ها به یک خوشه خالص بیشتر از ●انتساب آنها به خوشه متفرقه است .

8

Page 9: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

●Small cluster preservationهدف: ممانعت از شکسته شدن دسته های کوچک اشیا●تقسیم یک دسته کوچک از اشیا به دسته های ریز ●

بسیار خطرناکتر از تقسیم دسته بزرگ به دسته های کوچکتر است.

حذف outlierداده ها ممکن است با فرض نویز یا ●شوند.

9

Page 10: خوشهبندي مقيد Constrained Clustering

ارزیابی کالسترینگ )کیفیت خوشه بندی انجام شده؟(

Bcubedمعیار ●

10

Page 11: خوشهبندي مقيد Constrained Clustering

11

مسائل مطرح خوشه بندي

ذات بدون ناظر مساله●پيش فرضهاي اوليه●

ساختار داده ها●معيارهاي فاصله و شباهت●تابع هدف●

(Model mismatch)عدم انطباق پيش فرضها و مدل واقعي ●

راه حل؟استفاده از اطالعات جانبي

براي كمك به الگوريتم هاي خوشه بندي جهت توليد فرض هاي صحيح

Page 12: خوشهبندي مقيد Constrained Clustering

اطالعات جانبي●ساختار داده ها●هدف خوشه بندي●شكل خوشه ها●بيشينه اندازه خوشه ها●حداكثر اعضاي هر خوشه●قيدهاي در سطح نمونه●

Must-link(ML)قيدهاي بايد-پيوند ●

Cannot-link(CL)قيدهاي نفي-پيوند ●

قابليت اين قيدها در تعريف قيدهاي پيچيده تر●: با ايجاد εقيد وجود حداقل يك همسايه در فاصله ●

قيد بايد-پيوند ميان هر داده و حداقل يكي از نقاط εموجود در همسايگي

12

استفاده از اطالعات جانبي در خوشه بندي

خوشه بندي مقيدConstrained Clustering

(Wagstaff 2000)

ML

CL

Page 13: خوشهبندي مقيد Constrained Clustering

13

مقيد )دسته بندي( خوشه بندي

Page 14: خوشهبندي مقيد Constrained Clustering

14

مقيد )دسته بندي ( خوشه بندي

مبتني بر ارضاء قيد:●ارضاء سخت: ●

ارضاء تمامي قيدها به طور كامل●رويكرد جستجوي حريصانه، عدم يافتن يك ●

جواب ممكن براي مساله حتي در صورت وجود جواب

●COP-KMEANS [Wagstaff01]

تا حد ممكن سعي در ارضاء ارضاء نرم: ●قيدها دارند.

روش ايده

PCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف

MPCKmeans [Bilenko04] عبارت جريمه براي نقض قيدها در تابع هدف و يادگيريمتريك

Page 15: خوشهبندي مقيد Constrained Clustering

15

مقيد )دسته بندي( خوشه بندي

سلسله مراتبي:●با تغيير الگوريتم هاي خوشه بندي ●

سلسله مراتبي قابليت برآورده كردن قيدها را نيز در آنها تعبيه مي نمايند.

خوشه بندي با ساختن دندروگرامي از ●داده ها

روش پايه:●ابتدا هر داده به عنوان يك خوشه درنظر گرفته مي شود.●عمل ادغام خوشه ها تا هنگامي كه ادغام آنها هيچ قيدي را نقض ●

نكند

Davidson [Davidson05]روش ●( محاسبه MLابتدا بستارهاي تراگذري مربوط به قيدهاي بايد-پيوند )●

مي شود تعداد نمونه هايي X1خوشه آغاز مي نمايد كه X1+rخوشه بندي را با ●

تعداد rاست كه هيچ قيد بايد-پيوندي بر روي آنها اعمال نشده و اجزاء همبند حاصل از قيدهاي بايد-پيوند است..

انتخاب دو نزديكترين خوشه و ادغام آنها تا زماني كه دو خوشه ●براي ادغام وجود دارند.

Page 16: خوشهبندي مقيد Constrained Clustering

16

مقيد )دسته بندي( خوشه بندي

تغيير ماتريس فاصله●استفاده از اطالعات قيدها قبل از ●

خوشه بندي براي تغيير ماتريس فاصله و استفاده از آن در

خوشه بندي نهاييKlein [Klein02]روش ●

Page 17: خوشهبندي مقيد Constrained Clustering

17

مقيد )دسته بندي( خوشه بندي

يادگيري معيار فاصله به عنوان ●محبوب ترين روش خوشه بندي مقيد

معيار فاصله اقليدسي به عنوان معيار ●فاصله متداول در فرايند خوشه بندي

ناكارامدي معيار فاصله اقليدسي در ●توصيف صحيح فاصله در يك مجموعه داده

نوعيمعيار فاصله ماهاالنوبيس بسيار مورد توجه ●

قرار گرفته است

Page 18: خوشهبندي مقيد Constrained Clustering

18

مزايا و مشكالت استفاده از قيدها در خوشه بندي

مزايا●[Wagstaff00]افزايش ميانگين دقت خوشه بندي ●[Wagstaff01b]توليد خوشه هايي به شكل دلخواه ●

مشكالت●(Feasibilityشدني بودن )●[Wagstaff06]مفيد نبودن هر مجموعه اي از قيدها ●

Page 19: خوشهبندي مقيد Constrained Clustering

19

چالش هاي موجود در خوشه بندي مقيد

با وجود الگويتم هاي بسيار در خوشه بندي مقيد چالشهايي در ●اين حوزه وجود دارد كه نيازمند تحقيق گسترده مي باشد.

Page 20: خوشهبندي مقيد Constrained Clustering

20

چالش هاي موجود در خوشه بندي مقيد

مجموعه قيدهاي متفاوت سودمندي ●متفاوتي براي الگوريتم هاي خوشه بندي

دارندقيدهايي كه الگوريتم خوشه بندي به ●

خودي خود قادر به استخراج آن از داده ها باشد، تاثير چنداني بر بهبود

دقت خوشه بندي نخواهد داشتتعيين سودمندي يك مجموعه قيد قبل ●

از خوشه بنديبه الگوريتم خوشه بندي اين قابليت را ●

مي دهد كه تصميم بگيرد كه آيا از يك مجموعه قيد در راستاي خوشه بندي استفاده

نمايد يا خير.انتخاب بهترين مجموعه قيد ممكن.●

بار انتخاب تصادفي مجموعه قيدهاي 1000از ● تايي، درصد مواردي كه سبب كاهش دقت 25

خوشه بندي در چند الگوريتم شده است. )جدول ([Davidson06]از

Page 21: خوشهبندي مقيد Constrained Clustering

21

چالش هاي موجود در خوشه بندي مقيد

-n(n نمونه، nدر يك مجموعه داده با ●قيد کانديد براي انتخاب وجود 2/(1.دارد

بهترين قيد چگونه است؟λانتخاب ●به گونه اي چالش اول را در خود دارد.●رفع اين چالش با معرفي معيارهاي ●

كارامد براي تعيين سودمندي يك مجموعه قيد، سبب كاهش هزينه

گردآوري قيدها ميگردد.

روشها●است كه ( L<n ) داده Lانتخاب قيدها از ميان ●

در آن هزينه گردآوري قيدها، فقط شامل داده مي باشد.Lبرچسب گذاري

[Basu04]پيمايش دورترين-اولين ●انتخاب فعال قيدها به كمك تشخيص نقاط ●

[Xu05 ]مرزي

Page 22: خوشهبندي مقيد Constrained Clustering

22

چالش هاي موجود در خوشه بندي مقيد

تمامي روش هاي خوشه بندي مقيد بر ●اين فرض استوارند كه انتشار محلي

اطالعات قيدها به همسايه ها ايمن بوده و مي تواند سبب بهبود نتيجه خوشه بندي

گردد.

مسائل مهم:●تشخيص ايمن بودن انتشار قيد بر روي ●

يك مجموعه داده خاصدرجه انتشار قيد به همسايه ها )تعيين ●

شعاع همسايگي بهينه و ...

Page 23: خوشهبندي مقيد Constrained Clustering

23

خوشه بندي مقيد با رويكرد انتخاب فعال قيدهامساله: خوشه بندي مقيد با رويكرد انتخاب فعال قيدها●

به حل مسالهتكرارشونده نگاه ●

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

oتعيين ميزان سودمندي يك قيد مشخص

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

oتعيين ميزان سودمندي يك مجموعه قيد

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

فضايقيدها فضايقيدها

انتخاب قيدها و انتساب درجه اهميت به آنها

انتخاب قيدها و انتساب درجه اهميت به آنها

خوشه بندي مقيدخوشه بندي مقيدقيدهاقيدها

Page 24: خوشهبندي مقيد Constrained Clustering

24

خوشه بندی مقید

ارائه یک روش خوشه بندی مقید●مبتنی بر یادگیری معیار فاصله●حفظ ساختار را در حین تبدیل در نظر می گیرد.●درجه اهمیت قیدها را هم در نظر می گیرد●

Page 25: خوشهبندي مقيد Constrained Clustering

25

مدل خطي رويكرد دوم

در مدل خطي●d*Dيادگيري ماتريس تبديل ●

●WM و WCماتريس درجه اهميت قيدهاي بايد-پيوند و نفي-پيوند ●DM و DC ماتريس هاي قطري حاصل از جمع ستوني WM و WC به صورت مستقيم با رويكردهاي تجزيه طيفي قابل حل نمي باشد.● استفاده مي شود..A براي يافتن ماتريس بهينه [Xiang08]از روش ارائه شده در ●

Page 26: خوشهبندي مقيد Constrained Clustering

26

مدل غيرخطي رويكرد دوم

در مدل غيرخطي●استفاده از توابع هسته براي حالت غيرخطي●يادگيري ماتريس تبديل به صورت●تبديل يافته داده ها در فضاي هسته●

به صورت تركيب خطي از نقاط Aiنوشتن هر بردار ●

وجود دارد كه در نتيجه يك ماتريس●با جايگذاري در مدل اصلي داريم:●

تبديل بهينه نقاط به فضاي مقصد●

Page 27: خوشهبندي مقيد Constrained Clustering

27

انتخاب فعال قيدها )مستقل از الگوریتم خوشه بندی مقید(

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o:مسائل مطرح

oتعيين ميزان سودمندي يك قيد مشخص

oبا استفاده از فاصله نقاط مرزی

oتاثير انتخاب يك قيد بر انتخاب قيدهاي بعدي

o با تعریف فاصله قید کاندید با قیدهای

قبلی

oتعيين ميزان سودمندي يك مجموعه قيد

o حاصل جمع سودمندی قید با

درنظرگرفتن ترتیب

o تعريف تابع هدف مناسب براي انتخاب يك

مجموعه قيد

o ایده: استفاده از اطالعات مرز

داده ها

o ایده: استفاده از اطالعات مرز

داده ها

Page 28: خوشهبندي مقيد Constrained Clustering

28

انتخاب فعال قیدهاتوزیع قیدها در فضای داده

Page 29: خوشهبندي مقيد Constrained Clustering

29

به حل مساله در ادامه راهتكرارشونده نگاه

- سودمندی قید بسیار به الگوریتمی که از آن استفاده می کند وابسته است.

- ارائه راهکاری برای انتخاب قید در حین خوشه بندی

فضايقيدها فضايقيدها

انتخاب فعال قيدها

انتخاب فعال قيدها

خوشه بندي مقيد

خوشه بندي مقيد

قيدها

قيدها

Page 30: خوشهبندي مقيد Constrained Clustering

30

(1منابع )[Bilenko04]. M. Bilenko, S. Basu, and R. J. Mooney, “Integrating constraints and metric learning in semi-

supervised clustering,” In Proceedings of International Conference on Machine Learning (ICML), 2004.

[Wagstaff01]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

[Davidson05]. I. Davidson and S. S. Ravi, “Clustering with constraints: Feasibility issues and the k-means algorithm,” In Proceedings of SIAM International Conference on Data Mining, 2005.

[Klein02]. D. Klein, S. D. Kamvar, and C. D. Manning, “From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering,” In Proceedings of the Nineteenth International Conference on Machine Learning, ICML ’02, pp.307–314, 2002.

[Bar-Hillel03] A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall, “Learning distance functions using equivalence relations,” In Proceedings of International Conference on Machine Learning (ICML), pp.11–18, 2003.

[Xing02]. E. P.Xing, A.Y.Ng,M. I. Jordan, and S. J. Russell, “Distancemetric learningwith application to clustering with side-information,” In Proceedings of Neural Information Processing Systems (NIPS), pp.505–512, 2002.

Page 31: خوشهبندي مقيد Constrained Clustering

31

(2منابع )[Xiang08]. S. Xiang, F. Nie, and C. Zhang, “Learning a mahalanobis distance metric for data

clustering and classification,” Pattern Recognition, Vol.41, No.12, pp.3600–3612, 2008.

[Wang11]. F. Wang, “Semisupervised metric learning by maximizing constraint margin,” IEEE Transactions on Systems, Man, and Cybernetics, Part B, Vol.41, No.4, pp.931–939, 2011.

[Li08]. Z. Li, J. Liu, and X. Tang, “Pairwise constraint propagation by semidefinite programming for semi-supervised classification,” In Proceedings of the 25th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.576–583, 2008.

[Soleymani10]. M. S. Baghshah and S. B. Shouraki, “Non-linearmetric learning using pairwise similarity and dissimilarity constraints and the geometrical structure of data,” Pattern Recognition, Vol.43, No.8, pp.2982–2992, 2010.

[Wagstaff00 ]. K.Wagstaff and C. Cardie, “Clustering with instance-level constraints,” In Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000), pp.1103–1110, 2000.

[Wagstaff01b]. K. Wagstaff, C. Cardie, S. Rogers, and S. Schrodl, “Constrained k-means clustering with background knowledge,” In Proceedings of International Conference on Machine Learning (ICML), ICML ’01, pp.577–584, 2001.

Page 32: خوشهبندي مقيد Constrained Clustering

32

(3منابع )[Wagstaff06]. K. Wagstaff, “Value, cost, and sharing: Open issues in constrained clustering,” In

Proceedings of 5th International Workshop on Knowledge Discovery in Inductive Databases, KDID 2006, pp.1–10, 2006.

[Basu04]. S. Basu, A. Banerjee, and R. J. Mooney, “Active semi-supervision for pairwise constrained clustering,” In Proceedings of the Fourth SIAM International Conference on Data Mining, pp.333–344, 2004.

[Xu05]. Q. Xu, M. desJardins, and K. L. Wagstaff, “Active constrained clustering by examining spectral eigen-vectors,” In Proceedings of the 8th international conference on Discovery Science, DS’05, pp.294–307, 2005.

[Davidson06]. I. Davidson, K. Wagstaff, and S. Basu, “Measuring constraint-set utility for partitional clustering algorithms,” In Proceedings of Pacific-Asia Conference on Knowledge Discovery and DataMining (PAKDD), pp.115–126, 2006.

[Mallapragada08]. P. K. Mallapragada, R. Jin, and A. K. Jain, “Active query selection for semi-supervised clustering,” In Proceedings of International Conference on Pattern Recognition, pp.1–4, 2008.

[Vu12]. V.-V. Vu, N. Labroche, and B. Bouchon-Meunier, “Improving constrained clustering with active query selection,” Pattern Recognition, Vol.45, No.4, pp.1749–1758, 2012.

Page 33: خوشهبندي مقيد Constrained Clustering

33

(4منابع )[Wang10]. X. Wang and I. Davidson, “Active spectral clustering,” In Proceedings of International

Conference on Data Mining (ICDM), pp.561–568, 2010.

[Hoi07]. S. C. H. Hoi, R. Jin, and M. R. Lyu, “Learning nonparametric kernel matrices from pairwise constraints,” In Proceedings of the 24th international conference on Machine learning, International Conference on Machine Learning (ICML), pp.361–368, 2007.

[Liu10]. W. Liu, X. Tian, D. Tao, and J. Liu, “Constrained metric learning via distance gap maximization,” In Proceedings of AAAI Conference on Artificial Intelligence, AAAI 2010, 2010.

[Grira08]. N.Grira, M. Crucianu, andN. Boujemaa, “Active semi-supervised fuzzy clustering,” Pattern Recognition, Vol.41, No.5, pp.1834–1844, 2008.

Page 34: خوشهبندي مقيد Constrained Clustering

34

با تشکر