Ainl 2013 bogatyrev_математическая и лингвистическая

Post on 25-Dec-2014

347 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

Transcript

Технология концептуального

моделирования

биомедицинских данных

МЮ Богатырев

Лаборатория информационных систем Факультет кибернетики Тульский государственный университет

Математическая и лингвистическая

составляющая в концептуальном

моделировании

Наводящие вопросыhellip

2

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Наводящие вопросыhellip

2

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Спасибо

Вопросы

46

top related