ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ
äîêóìåíòîâ
Àëåêñàíäð Ìîðîçîâ
Ôèëôàê ÑÏáÃÓ, 9 ôåâðàëÿ 2008 ãîäà
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ïëàí
1 Ââåäåíèå
2 Ïåðâîå ïðèáëèæåíèå
3 Ôîðìàëèçàöèÿ
4 Ðåàëèçàöèÿ
5 Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ââåäåíèå
Êîäåêñ - èíôîðìàöèîííûå ñèñòåìû.
Áîëüøèå êîëëåêöèè îôèöèàëüíûõ äîêóìåíòîâ (òûñÿ÷è, ñîòíè
òûñÿ÷ äîêóìåíòîâ).
Èíôîðìàöèîííûé ïðîäóêò - íàáîð áàç äîêóìåíòîâ, ïîñòàâëÿåòñÿ
ïîëüçîâàòåëÿì.
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Áàíê äîêóìåíòîâ
De�nition
Áàíê äîêóìåíòîâ - óïîðÿäî÷åííàÿ è óïðàâëÿåìàÿ êîëëåêöèÿ
äîêóìåíòîâ, ðàñïðîñòðàíÿåìàÿ ìîäóëüíûì îáðàçîâ è èñïîëüçóåìàÿ
íåïîñðåäñòâåííî ó ïîëüçîâàòåëÿ.
Íàêëàäûâàåìûå òðåáîâàíèÿ:
Êîìïàêòíûé ðàçìåð
Âîçìîæíîñòü îáíîâëÿòü íåáîëüøèìè ïîðöèÿìè áåç îáðàáîòêè
âñåãî áàíêà
Ýôôåêòèâíûé è íåòðåáîâàòåëüíûé ê ðåñóðñàì ïðîãðàììíûé
êîìïëåêñ äëÿ ðàáîòû ñ áàíêîì
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ïîèñê äàííûõ
De�nition
Ïîèñê äàííûõ - äåòåðìèíèðîâàííûé ïîèñê òî÷íî óêàçàííûõ äàííûõ
Example
Ïîèñê ïî íàèìåíîâàíèþ �Êîíñòèòóöèÿ ÐÔ�
Ïîèñê ïî íîìåðó 38-Ô3 (Ôåäåðàëüíûé çàêîí �Î ðåêëàìå�)
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Èíôîðìàöèîííûé ïîèñê
De�nition
Èíôîðìàöèîííûé ïîèñê - âåðîÿòíîñòíûé ïîèñê èíôîðìàöèè,
îòíîñÿùåéñÿ ê çàïðîñó
Example
Íàëîãîîáëîæåíèå ìàëûõ ïðåäïðèÿòèé
Ïîëó÷åíèå ãðàæäàíñòâà ÐÔ
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ñõåìà èíôîðìàöèîííîãî ïîèñêà
Èíôîðìàöèîííàÿ ïîòðåáíîñòü ïîëüçîâàòåëÿ
Ïîèñêîâûé çàïðîñ
Àíàëèç çàïðîñà
Ïîèñê ðåëåâàíòíûõ äîêóìåíòîâ
Âûäà÷à ðåçóëüòàòîâ
De�nition
Ðåëåâàíòíîñòü - ñòåïåíü ñîîòâåòñòâèÿ çàïðîñà è íàéäåííûõ äîêóìåíòîâ
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Èíòåðôåéñ ïîèñêà
Ââîä çàïðîñà
Ïîäñêàçêè âàðèàíòîâ ñëîâ
Ïîäñêàçêè âàðèàíòîâ ñëîâîñî÷åòàíèé
Ïðåäóïðåæäåíèÿ îá îøèáêàõ èëè ïëîõèõ ôîðìóëèðîâêàõ
Âûâîä ðåçóëüòàòîâ
Âçâåøåííûé ñïèñîê
Îãðàíè÷åíèå ðàçìåðîâ ñïèñêà
Ïîêàç íàèáîëåå ïîäõîäÿùèõ ôðàãìåíòîâ äîêóìåíòîâ
Ïîêàç ñòàòèñòèêè âñòðå÷àåìîñòè ñëîâ
Ïðåäëîæåíèÿ ïî èñïðàâëåíèþ çàïðîñà â ñïîðíûõ ñëó÷àÿõ
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Îöåíêà êà÷åñòâà
Òî÷íîñòü P = íàéäåííûå ðåëåâàíòíûåâñå íàéäåííûå
Ïîëíîòà R = íàéäåííûå ðåëåâàíòíûåâñå ðåëåâàíòíûå
Discounted Cumulated Gain DCG = g1 +∑N
i=2gi
log i
Îöåíêà ýêñïåðòîì �êà÷åñòâà�
Îöåíêà íà îñíîâå ïîñòðîåííîãî ýêñïåðòîì �èäåàëüíîãî îòâåòà�
Q =∑
|Rsys ∧ Ruser |
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Êàê èñêàòü?
Èñêàòü ïî êëþ÷åâûì ñëîâàì
Èñêàòü ïî ðóáðèêàòîðó èëè òåìàòè÷åñêèì ãðóïïàì
Èñêàòü ïî âñåìó òåêñòó êàæäîãî äîêóìåíòà - ïîëíîòåêñòîâûé
ïîèñê
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ìîäåëè ïîèñêà
Îñíîâíàÿ ãèïîòåçà - ðåëåâàíòíûé äîêóìåíò ñîäåðæèò òå æå òåðìèíû,
÷òî è çàïðîñ.
Òåîðåòè÷åñêèå ìîäåëè
Áèíàðíàÿ
Âåêòîðíàÿ
Âåðîÿòíîñòíàÿ
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Òèïîâàÿ ðåàëèçàöèÿ
 îñíîâå ëåæèò ïðåäñòàâëåíèå äîêóìåíòà, êàê íàáîðà âçâåøåííûõ
òåðìèíîâ. Ìåðà ðåëåâàíòíîñòè äîêóìåíòà - ñóììà âåñîâ òåðìèíîâ,
êîòîðûå âñòðå÷àþòñÿ è â äîêóìåíòå, è â çàïðîñå.
Îñíîâíûå ôóíêöèè ðàñ÷åòà âåñà äîêóìåíòà
TF-IDF:
Rj =n∑
i=1
fi ,j · logD
di
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Îñíîâíûå ôóíêöèè ðàñ÷åòà âåñà äîêóìåíòà
BM25 (Best match 25):
Rj =n∑
i=1
fi ,j · (k1 + 1)
fi ,j + k1 · (1 − b + b · Lj
Lavg)·
log(ri + 0.5) · (D − di − R + ri + 0.5)
(di − ri + 0.5) · (R − ri + 0.5)
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Îñîáåííîñòè âûäåëåíèÿ òåðìèíîâ èç äîêóìåíòîâ
Âûäåëåíèå ñëîâ èç òåêñòà
Óäàëåíèå øóìîâûõ ñëîâ
Ñëîâîôîðìû
Ñèíîíèìèÿ
Îìîíèìèÿ
Ñèíòàêñè÷åñêàÿ íåîïðåäåëåííîñòü
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Óñëîæíåíèå ìîäåëè âçâåøåííûõ òåðìèíîâ
Ó÷åò ñòðóêòóðû äîêóìåíòà
Ó÷åò ñòèëåé îôîðìëåíèÿ
Ó÷åò âçàèìíîãî ðàñïîëîæåíèÿ ñëîâ
Ó÷åò ìåòàäàííûõ
Ó÷åò ñâÿçåé ìåæäó äîêóìåíòàìè
Ó÷åò âíåøíèõ ñóùíîñòåé (êëàññèôèêàöèÿ, îáúåäèíåíèÿ ïî òåìàì)
Ðàñøèðåíèå çàïðîñà (ñòàòèñòèêà, òåçàóðóñ)
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ðåàëèçàöèÿ ïîèñêà â òåêñòå
Íåïîñðåäñòâåííûé ïîèñê â òåêñòå
Ïîèñê ñ èñïîëüçîâàíèåì èíäåêñà (èíâåðòèðîâàííûé èíäåêñ)
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ìîðôîëîãèÿ
Óäàëåíèå îêîí÷àíèé
Ñëîâàðíàÿ (ÀÎÒ)
Îñíîâàííàÿ íà ïðàâèëàõ (snowball, stemka)
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ïîèñê ñëîâîñî÷åòàíèé
Èíäåêñèðîâàíèå ñëîâîñî÷åòàíèé
Îòñëåæèâàíèå ñëîâîñî÷åòàíèé íà ýòàïå ïîèñêà
Îòñëåæèâàíèå ñîâìåñòíîé âñòðå÷àåìîñòè òåðìèíîâ âî
ôðàãìåíòàõ òåêñòà
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Îðãàíèçàöèÿ áàçû äîêóìåíòîâ
Ñæàòûå òåêñòû
Ìåòàäàííûå
Èíäåêñû ïî ìåòàäàííûì
Ïîëíîòåêñòîâûé èíäåêñ (ñæàòûé èíâåðòèðîâàííûé èíäåêñ ñ
ïîçèöèÿìè ñëîâ)
Âåñà òåðìèíîâ íå õðàíÿòñÿ
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Äîïîëíèòåëüíûå îáúåêòû
Òåìàòèêè
Òåðìèíû
Ñèòóàöèè
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Ñõåìà ïîèñêà
Ðàçáîð çàïðîñà
Ðàñøèðåíèå îáëàñòè ïîèñêà
Ïîñòðîåíèå ñïèñêîâ íàéäåííûõ äîêóìåíòîâ äëÿ êàæäîãî òåðìèíà
Îáúåäèíåíèå ñïèñêîâ
Ïîäñ÷åò âåñîâ äîêóìåíòîâ
Îòäåëåíèå äîïîëíèòåëüíûõ îáúåêòîâ îò ñïèñêà ðåçóëüòàòîâ
Êîððåêòèðîâêà âåñîâ ñ ó÷åòîì ññûëîê
Äîïîëíèòåëüíàÿ îáðàáîòêà ñïèñêà ðåçóëüòàòîâÀíàëèç ðåäêî âñòðå÷àþùèõñÿ ñëîâ çàïðîñà íà ïðåäìåò îøèáîê
îøèáêà ñâÿçàíà ñî âñòàâêîé ëèøíåé áóêâû
îøèáêà ñâÿçàíà ñ íàæàòèåì íà ñîñåäíþþ êëàâèøó
îøèáêà ñâÿçàíà ñî ââîäîì ïîõîæåé áóêâû
îøèáêà ñâÿçàíà ñ íàðóøåíèåì ïîðÿäêà ñëåäîâàíèÿ äâóõ ñîñåäíèõ
áóêâ
îøèáêà ñâÿçàíà ñ ïðîïóñêîì îäíîé áóêâû
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
ÂâåäåíèåÏåðâîå ïðèáëèæåíèå
ÔîðìàëèçàöèÿÐåàëèçàöèÿ
Ðåàëèçàöèÿ â ¾Êîäåêñå¿
Âûâîä ðåçóëüòàòîâ
Âûâîä ñòàòèñòèêè âñòðå÷àåìîñòè ñëîâ çàïðîñà
Âûâîä ïðåäëîæåíèé èíîé èíòåðïðåòàöèè òåðìèíîâ
Âûâîä ïðåäëîæåíèé èñïðàâëåíèé îøèáîê â ñëîâàõ
Âûâîä óñå÷åííîãî ñïèñêà ðåçóëüòàòîâ, âûâîä ïîëíîãî ïî
òðåáîâàíèþ
Âûâîä êîíòåêñòíûõ àííîòàöèé ñ âîçìîæíîñòüþ ïåðåõîäà íà
ïîêàçàííûå ôðàãìåíòû
Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ