Inteligentne wyszukiwarki internetowe dr Agnieszka Nowak-Brzezioska [email protected]Agnieszka Nowak-Brzezioska WPROWADZENIE DO WYSZUKIWAREK AGNIESZKA NOWAK -BRZEZIŃSKA Przedmiot prowadzony w zakresie Projektu UPGOW współfinansowanego Przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
które poświęcone są wskazanemu w kwerendzie tematowi (przedmiotowi) lub zawierają niezbędne dla użytkownika fakty i
informacje.”
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Co to inteligencja ?
• Inteligencja jest umiejętnością
przystosowywania się do nowych zadań i
warunków życia albo sposobem, w jaki
człowiek przetwarza informacje i
rozwiązuje problemy. Inteligencja to
także umiejętność kojarzenia oraz
rozumienia.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Inne definicje AI:
• „AI to nauka mająca za zadanie nauczyć maszyny zachowań podobnych do ludzkich”.
• „AI to nauka o tym, jak nauczyć maszyny robić rzeczy które obecnie ludzie robią lepiej”.
• „AI to nauka o komputerowych modelach wiedzy umożliwiających rozumienie, wnioskowanie i działanie”.
WP
RO
WA
DZ
EN
IED
OW
YS
ZU
KIW
AR
EK
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Kiedy program lub maszyna jest inteligentna ?
• Na to pytanie w 1950 roku próbowałodpowiedzied Alan Turing.
• Idea „Testu Turinga” polegała na tym, żeczłowiek za pomocą klawiatury i monitorazadaje te same pytania komputerowi i innejosobie. Jeśli zadający pytania nie potrafirozróżnid odpowiedzi komputera i człowieka,tzn. że program (maszyna) jest inteligentny. W
PR
OW
AD
ZE
NIE
DO
WY
SZ
UK
IWA
RE
K
AG
NIE
SZ
KA
NO
WA
K-
BR
ZE
ZIŃ
SK
A
Przedmiot prowadzony w zakresie
Projektu UPGOW współfinansowanego
Przez Unię Europejską w ramach
Europejskiego Funduszu Społecznego
Liderzy
• Google (http://google.com)
• Yahoo! Search (kiedyś tylko katalog, dziś cały portal) http://search.yahoo.com/
Text Mining a inteligentne wyszukiwarki internetowe (hakia, start, answerBus)
Systemy odpowiadające na pytania
[system START, system AnswerBus]
Przegląd innych wyszukiwarek
Mechanizm NetSprinta podobnie jak Google korzysta m.in. z Wikipedii oraz serwisów
informacyjnych, dając użytkownikowi możliwośd zapoznania się z najnowszymi
wiadomościami na dany temat. Wyszukiwarka nie zawsze radzi sobie dobrze też m.in. z podpowiedziami po błędnym wpisaniu
zapytania.
Przegląd innych wyszukiwarek
• Innym trendem w wyszukiwaniu są rozwiązania dedykowane przeszukujące specyficzne bazy danych. Przykładem takiej wyszukiwarki jest http://www.gopubmed.org/
• mechanizm pomagający precyzyjnie wyszukiwad dokumenty związane z dziedziną biomedycyny.
Według zespołu projektantów są to dwa superkomputery z 10000 rdzeni. Ich pamięć operacyjną szacuje się na setkiterabajtów, a wszystko to jest chłodzone układemwystarczającym na stworzenie kurortu narciarskiego... naSaharze. Komputer ten stworzyła firma R Systems, która mana sumieniu 44 superkomputery według czerwcowej listyTOP500 z 2008 roku. Drugi z partnerów Dell dostarczyłserwer, zaprojektowany specjalnie do centrumobliczeniowego.
Czy to wystarczy do obsługi zapytań szacowanych na 175milionów dziennie i 5 miliardów miesięcznie? Wedługtwórców... powinno :)
Idea wyszukiwarki…
• odpowiadanie na konkretne pytania zadawane w naturalnym dla użytkownika języku. Przy analizie pytania i wyszukiwaniu pasującej odpowiedzi narzędzie opiera się na rozwiązaniach ze sztucznej inteligencji, takich jak sieci semantyczne.
• odpowiedź "tworzona" jest w locie, dedukowana na podstawie posiadanej przez aplikację bazy wiedzy.
• Wolfram Alpha nie jest pierwszą wyszukiwarką korzystającą z wiedzy z dziedziny sztucznej inteligencji. Ask czy Hakiarównież wykorzystują tego typu rozwiązania, jednak Wolfram Alpha prezentuje zupełnie nową jakośd i algorytmy dotąd nie spotykane na rynku wyszukiwarek.
Pracownicy projektu pracują dzień po dniu z iściebenedyktyńską cierpliwością, podobnie jakniegdyś mnisi przy pulpitach w swoichklasztorach. Celem całego przedsięwzięcia jeststworzenie skarbnicy światowej wiedzy, a wkażdym razie jej bezspornej części: faktów,liczb, wzorów, modeli. (...) Dotychczas zebranezasoby autor projektu ocenia na dziesięć bilionówjednostek danych. Doliczyć trzeba jeszczenapływające w czasie rzeczywistym informacje opogodzie czy kursach giełdowych.
Cechy charakterystyczne…
• Dowolnośd formułowania zapytania w języku naturalnym
• Generowanie wyników dynamicznie
• Dodatkowe informacje na żądanie
• Wskazanie źródła informacji
• Dodatkowe formaty danych wyjściowych (pdf)
Uproszczony test Turinga
CAPTCHA (Completely Automated Public Turing test totell Computers and Humans Apart) - rodzaj technikistosowanej jako zabezpieczenie w formularzach nastronach WWW. Dla przesłania danych koniecznejest przepisanie treści z obrazka (zazwyczaj losowodobranych znaków bądź krótkiego wyrazu). Obrazekten jest prosty do odczytania przez człowieka,jednakże odczytanie go przez komputer jest,przynajmniej w założeniu, bardzo trudne.
Jak Wolfram działa w praktycejaki był produkt krajowy brutto (PKB) na osobę w Polsce w 1998 roku?
Superkomputery Wolframa, jeśli nie będą akurat przeciążone, pokażą namwzór chemiczny np. H2SO4. Wykonają też skomplikowanie obliczeniamatematyczne czy fizyczne.
• klasyfikacja (classifications) klasyfikacja danych do grup ze względu na atrybutdecyzyjny, np.: klasyfikacja klientów przez bank do grup: dad kredyt / nie dad kredytu
• analiza skupień (clustering) grupowanie danych na wcześniej nieznae klasy, znajdowanie wspólnych cech, np.: wyodrębnienie różnych rodzajów klientów – różnych taryf –przez sied telefonii komórkowej
Na czym polega grupowanie ?
Obiekt jest przydzielony do skupienia, którego środek ciężkości leży najbliżej w sensie odległości euklidesowej.
Carrot2 a Google
System Carrot2 ( Podstawy )
Carrot operuje jedynie na snippetach, bez odczytywania
dokumentów źródłowych. Wynika z tego fakt, iż jakość
grupowania będzie silnie zależeć od siły opisowej
snippetów – krótkich fragmentów tekstu zwróconych
przez wyszukiwarkę. W tym aspekcie systemy typu
Carrot, będą znacznie ograniczone przez
zaimplementowane algorytmy samych wyszukiwarek
(Google, Yahoo!, itp.) służące odnalezieniu zdań,
które w sposób właściwy opisują temat strony. Daje to
jednak pewne korzyści, w postaci krótkiego czasu
wyszukiwania (wynikającego z faktu braku
konieczności analizowania całych dokumentów).
• Carrot daje olbrzymie możliwości analizy wyników
zapytania względem tradycyjnych wyszukiwarek.
Poprzez ekstrakcję fraz z pierwszych paruset
odnośników i ich prezentację w skumulowanej formie
uzyskujemy możliwość pobieżnego przeglądu o parę
rzędów wielkości większej liczby dokumentów niż
miałoby to miejsce przy klasycznym listowym widoku.
• System przekierowuje zapytanie do wyszukiwarki
(Google, Yahoo!, itp.), pobiera od niej kilkaset
początkowych odnośników, a następnie analizuje je
poszukując wspólnych, opisowych fraz. Frazy te, o ile
są wystarczająco częste, są traktowane jako
reprezentanci grup tematycznych.
System Carrot2 ( Podstawy )
• Carrot nie był pierwszym systemem grupującym
wyniki z wyszukiwarek – wcześniej powstały systemy
Grouper, Vivisimo oraz inne, których funkcjonalność
jednak nigdy nie wysunęła się poza obszar
eksperymentu obliczeniowego. Grouper, jako projekt
również typowo badawczy, został usunięty z sieci w
roku 2001 (po zakończeniu badań).
• Co warte podkreślenia, Carrot jest jedynym systemem
grupującym, działającym dla języków innych niż język
angielski.
• Nazwa systemu odnosi się do wcześniejszych
owocowych systemów wspomagających odkrywanie
wiedzy z danych tekstowych (Lemon, Grape, Orange).
System Carrot2 ( Podstawy )
Idealny system wyszukiwania
informacji:
• To taki który potrafi odpowiedzieć na każde pytaniepoprawnie.
• Czy taki system ma szanse powstać ?
• Wiedza płynąca z internetu jest dość niepewnym źródłeminformacji, i faktów, o czym warto pamiętać, - bo każdymoże umieścić w sieci informacje...nie do końca precyzyjneale i często błędne.
• Pojawiające się nowe pomysły mające na celu ułatwianieużytkownikom korzystanie z wyszukiwarek, to z pewnościąkrok by uczynić tę czynność przyjemniejszą i bardziejintuicyjną.
• Nie można jednak liczyć na to, ze wyszukiwarki w przyszłościbędą w stanie wyręczyć nas z umiejętności logicznegomyślenia i odrobiny dociekliwości w szukaniu tego co nasinteresuje.