Mapy i inteligentna nawigacja w Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci sieci WWW z wykorzystaniem sieci bayesowskich i systemów bayesowskich i systemów immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawa mgr Mariusz Kujawiak Instytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin Sydow Polsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using Bayesian networks and artificial immune systems" projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005
28
Embed
Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy:
projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005. Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów immunologicznych. Kierownik: dr hab. inż.Mieczyslaw A. Klopotek Wykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon , - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Mapy i inteligentna nawigacja w sieci WWW z Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów wykorzystaniem sieci bayesowskich i systemów
immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. KlopotekWykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawamgr Mariusz KujawiakInstytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin SydowPolsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa
Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using
Bayesian networks and artificial immune systems"
projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005
Agenda
Cel projektu Pojęcie mapy dokumentu Proces tworzenia mapy Architektura systemu Problematyka klasteryzacji w
mapach dokumentów Wyniki niektórych
eksperymentów Co przed nami ....
Cel projektu
Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzez stworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów
Koncepcja mapy dokumentów
Wizualizacja zbioru dokumentów na płaszczyźnie Wiele podejść (inxight, internet cartographer,
WEbSOM i warianty) Idea WebSOM
– bliskość na mapie = bliskość w przestrzeni dokumentów
– Obszary mapy etykietowane informatywnie– Trzeci wymiar – odmienność w stosunku do
otoczenia Nasze podejście bazuje na idei WebSOM
– Trzeci wymiar – gęstość dokumentów
Interfejs systemu BEATCA dostęp z http://www.ipipan.waw.pl/~klopotek
– Początkowa klasteryzacja – identyfikacja głównych tematów
– Wstępne grupowanie dokumentów – WEBSOM dla grup dokumentów – Rozmyte grupowanie komórek WebSOM i
etykietowanie
Reprezentacja w postaci kompaktowych wektorów
referencyjnych Wektory referencyjne komórek mapy są rzadkie Podczas uczenia stają się jeszcze rzadsze Reprezenntowane przez zrównoważone drzewa
„red-black tree” Zadano próg tolerancji Termy (wymiary) poniżej progu są usuwane Zdecydowanie zmniejszono złozoność bez
pogorszenia jakości
Inicjalizacja tematyczna wektorów referencyjnych
Zamiast WebSOMowej losowej Identyfikacja K głównych tematów (i ich opisów)
– Użycie LSI, lub – Naiwnej sieci bayesowskiej lub– PLSA – niestety nie rekomendujemy
Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów
Inicjalizacja punktów fiksowych tematami głównymi Pozostałe komórki inicjalizujemy wektorami
„pośrednimi”
Klasteryzacja wstępna dokumentów
Metoda – gazu neuronowego lub – gazu neuronowego z funkcją użyteczności lub– sieci immunologicznej (przyszłe badania)– sieci bayesowskiej (przyszłe badania)
Łączone poszukiwanie zwycięzcy na mapie typu WebSOM
Globalne poszukiwanie – dokładne, lecz wolne Lokalne przeszukiwanie – szybsze, lecz może
być niedokładne dla szybkich zmian rozkładu Start – jedna faza poszukiwań globalnych Ruchy dokumentów coraz płynniejsze – lokalne
poszukiwanie wystarcza Nawrót globalnego przeszukiwania w wypadku