Top Banner
Связанные открытые данные @ AIMS Цикл вебинаров Linked Open Data @ AIMS 14 февраля 2013 года Введение в концепцию связанных открытых данных (Linked Open Data) Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2013
44

Связанные открытые данные (Linked Open Data)

Aug 10, 2015

Download

Documents

Irina Radchenko

Презентация вебинара, прошедшего 14 февраля 2013 года на базе сообщества практики AIMS Food and Agriculture Organization of the United Nation.
В рамках данного вебинара было рассказано о том, что такое связанные данные и для чего они нужны. Речь также шла о пятизвездочной модели открытых данных, разработанной сэром Тимом Бернесом-Ли и демонстрирующей переход от открытых данных (Open Data) к связанным открытым данным (Linked Open Data). Было показано на примере использование RDF-модели для связывания данных.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Связанные открытые данные (Linked Open Data)

Связанные открытые данные @ AIMS

Цикл вебинаров Linked Open Data @ AIMS

14 февраля 2013 года

Введение в концепцию связанных открытых данных (Linked Open Data)

Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko

НИУ ВШЭ, Москва, 2013

Page 2: Связанные открытые данные (Linked Open Data)

2

• Общее представление о Linked Open Data

• Каким образом осуществляется связывание наборов данных?

• Публикация наборов данных в пространстве Linked Open Data

НИУ ВШЭ, Москва, 2013

Содержание

Page 3: Связанные открытые данные (Linked Open Data)

3

• Общее представление о Linked Open Data

НИУ ВШЭ, Москва, 2013

Page 4: Связанные открытые данные (Linked Open Data)

Эволюционирование веба

4

Документы в вебе (протокол Gopher и т.д.)

Веб документов (гипертекст)

Данные в вебе (открытые данные и т.д.)

Веб данных (связанные данные)

Развитие веба

Время

НИУ ВШЭ, Москва, 2013

1990 2013

Источник: Linked Open Data: The Essentials. A Quick Start Guide for Decision Makers. http://www.semantic-web.at/LOD-TheEssentials.pdf

Page 5: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Основные понятия

5

Связанные данные (Linked Data) — это наборы данных, опубликованные в RDF-формате с использованием унифицированного идентификатора ресурсов URI (Uniform Resource Identifier) для идентификации элементов, которые они содержат.

Page 6: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Основные понятия

6

Связанные открытые данные (Linked Open Data) — это связанные наборы данных, опубликованные в RDF-формате и пригодные для использования и переиздания их пользователями в своих целях, без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.

Page 7: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Проект DBpedia

7 Источник: http://dbpedia.org/About

Проект DBpedia послужил важным стимулом для развития Linked Open Data.

Page 8: Связанные открытые данные (Linked Open Data)

Динамика развития Linked Open Data

8

Темпы нарастания объемов фактов

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

2007 2008 2009 2010

НИУ ВШЭ, Москва, 2013

Время

Количество наборов

LOD

Page 9: Связанные открытые данные (Linked Open Data)

Веб данных: связанные открытые данные

Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей

9

СМИ География

Публикации Созданный

пользователями контент

Науки о жизни

Междисциплинарные области

Государственные данные

Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

НИУ ВШЭ, Москва, 2013

Page 10: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли

10 Источники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html

Page 11: Связанные открытые данные (Linked Open Data)

Связывание данных в контексте семантической паутины

11 НИУ ВШЭ, Москва, 2013

Источник: http://iradche.livejournal.com/12108.html

Тим Бернерс-Ли (Tim Berners-Lee) предложил идею связанных данных на основе четырех принципов, стимулирующих применение базовых принципов Web для доступа к данным: • Применение универсальных идентификаторов

ресурсов (URI) в качестве имен объектов; • Применение HTTP URI для реализации

возможности обращения по этим именам; • Предоставление полезной информации тому, кто

обращается по URI, с помощью стандартов (RDF*, SPARQL);

• Включение ссылок на другие URI, позволяющих найти дополнительную информацию.

Page 12: Связанные открытые данные (Linked Open Data)

Прикладной уровень

НИУ ВШЭ, Москва, 2013

Интерпретация стека Linked Open Data

12

Источники: http://www.opendataimpacts.net/2011/05/whats-in-the-linked-open-data-stack/, http://iradche.livejournal.com/9036.html

Мэшапы Поисковые

системы Интеграция

данных

Базы данных и публикация данных

Запросы на SPARQL

Обмен RDF

Словари Онтологии

Идентификаторы URL

Транспортный уровень: протокол HTTP

Ли

цен

зии

откр

ыты

х д

анн

ых

Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NC Автор: Тим Дэвис (Tim Davies)

Page 13: Связанные открытые данные (Linked Open Data)

13

• Каким образом осуществляется связывание наборов данных?

НИУ ВШЭ, Москва, 2013

Page 14: Связанные открытые данные (Linked Open Data)

Отличный пример из презентации Тома Бейкера (Tom Baker)

14 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Запись в AGRIS

Тезаурус AGROVOC

DBpedia

Эксперт VIVO

BBC

BBC News

Wikipedia

НИУ ВШЭ, Москва, 2013

Page 15: Связанные открытые данные (Linked Open Data)

Ресурс 1: Проиндексированная статья в базе данных AGRIS

Тема статьи “acrididae”, т.е. “grasshoppers”.

Одного из авторов зовут “Han Jianguo”.

15

Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web, http://agris.fao.org/agris-search/search/display.do?f=2010%2FCN%2FCN0910.xml%3BCN2009002389

НИУ ВШЭ, Москва, 2013

Page 16: Связанные открытые данные (Linked Open Data)

Описание Ресурса 1 в виде «условных» триплетов

Субъект Предикат Объект

Ресурс 1 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

Ресурс 1 имеет автора Han Jianguo

Ресурс 1 имеет тему Acrididae (grasshoppers)

16 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 17: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора Han Jianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Ресурс 1 идентифицирован при помощи URI http://agris.fao.org/resource/CN2009002389. Сократим его до agris:CN2009002389.

17 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 18: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Автор идентифицирован при помощи URI http://agris.fao.org/author/hanjianguo. Сократим его до agris-author:hanjianguo.

18 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 19: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему Acrididae (grasshoppers)

Автор agris-author:hanjianguo имеет имя Han Jianguo.

19 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 20: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

Тема идентифицируется при помощи URI http://aims.fao.org/aos/agrovoc/c_4416. Сократим ее до agrovoc:c_4416.

20 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 21: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 имеет заголовок 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Описание http://aims.fao.org/aos/agrovoc/c_4416 в AGROVOC Concept Scheme говорит нам о том, как этот концепт на английском и китайском языках.

21 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 22: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 имеет автора agris-author:hanjianguo

agris-author:hanjianguo имеет имя Han Jianguo

agris:CN2009002389 имеет тему agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Элемент Dublin Core “Title” (заголовок) идентифицирован при помощи URI http://purl.org/dc/terms/title. Сократим его до dct:title.

22 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 23: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agrovoc:c_4416 имеет пометку Acrididae (en)

agrovoc:c_4416 имеет пометку 蝗科 (zh)

Повторяем то же самое для автора (author, creator) и темы (topic, subject). Имя определено в словаре FOAF.

23 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 24: Связанные открытые данные (Linked Open Data)

«Триплифицируем» описание Ресурса 1

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agrovoc:c_4416 skos:prefLabel Acrididae (en)

agrovoc:c_4416 skos:prefLabel 蝗科 (zh)

Свойство для пометок (preferred label) концепта определено в словаре Simple Knowledge Organization System (SKOS).

24 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 25: Связанные открытые данные (Linked Open Data)

Триплет, построенный в виде графа

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

dct:title

典型草…

Han Jianguo

agris-author: hanjianguo

dct:subject

agrovoc:c_4416

foaf:name

dct:creator

agris:CN…389

25 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 26: Связанные открытые данные (Linked Open Data)

Ресурс 2: статья в базе AGRIS на немецком языке

26 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Тема статьи “acrididae”

Одного из авторов зовут “Peter, B”

Page 27: Связанные открытые данные (Linked Open Data)

Триплеты, описывающие Ресурс 2 в виде графа

Субъект Предикат Объект

agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

agris:CH…179

dct:title

Heuschrecken

Peter, B.

agris-author: peterb

dct:subject

agrovoc:c_4416

foaf:name

dct:creator

27 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 28: Связанные открытые данные (Linked Open Data)

Соединяем триплеты Ресурса 1…

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

28 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 29: Связанные открытые данные (Linked Open Data)

…с триплетами Ресурса 2

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

29 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 30: Связанные открытые данные (Linked Open Data)

Компьютер определяет совпадающие URI...

Субъект Предикат Объект

agris:CN2009002389 dct:title 典型草原三种蝗虫种群死亡率的研究

agris:CN2009002389 dct:creator agris-author:hanjianguo

agris-author:hanjianguo foaf:name Han Jianguo

agris:CN2009002389 dct:subject agrovoc:c_4416

agris:CH2001000179 dct:title Heuschrecken brauchen ökologische Ausgleichsflächen

agris:CH2001000179 dct:creator agris-author:peterb

agris-author:peterb foaf:name Peter, B.

agris:CH2001000179 dct:subject agrovoc:c_4416

30 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Page 31: Связанные открытые данные (Linked Open Data)

Компьютер определяет совпадающие URI...

agris:CN…389 dct:title

典型草…

Han Jianguo

agris-author:hanjianguo

dct:subject agrovoc:c_4416

foaf:name

dct:creator

agris:CH…179

dct:title

Heuschrecken

Peter, B.

agris-author: peterb

dct:subject

agrovoc:c_4416 foaf:name

dct:creator

31 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 32: Связанные открытые данные (Linked Open Data)

…и соединяет (“связывает”) графы в один

agris:CN…389

dct:title

典型草…

Han Jianguo

agris-author:hanjianguo

dct:subject

foaf:name

dct:creator

agris:CH…179

dct:title

Heuschrecken

Peter, B.

agris-author: peterb

dct:subject

agrovoc:c_4416 foaf:name

dct:creator

Ресурсы на разных языках, связанные ссылками на общий концепт.

32 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 33: Связанные открытые данные (Linked Open Data)

Одна запись, много связей

Запись в AGRIS

AGROVOC

AGRIS Authors Dublin Core

FOAF

SKOS

33 Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

НИУ ВШЭ, Москва, 2013

Page 34: Связанные открытые данные (Linked Open Data)

34

• Публикация наборов данных в пространстве Linked Open Data

НИУ ВШЭ, Москва, 2013

Page 35: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

35

Проанализировать данные. Необходимо окинуть критическим взглядом модель данных и метаданные. Очистить данные. Данные и информация, приходящие из различного рода источников в различных форматах (включая базы данных, форматы CVS, геоданные, XML и т.д.), нуждаются в дополнительной очистке для более легкого и эффективного моделирования представления данных.

Источник: http://richard.cyganiak.de/2007/10/lod/

Для того чтобы опубликовать наборы данных в пространстве LOD, необходимо сделать следующие шаги

Page 36: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

36

Сформировать модель представления данных. Создайте необходимые словари и тезаурусы для представления данных в RDF-формате. Создайте идентификаторы URI для каждых объектов. Выбрать подходящие словари. Существует большое количество RDF-словарей, которые можно использовать повторно. Выберите наиболее подходящий из них. Если подходящего словаря не найдено, то необходимо его создать. Каталог словарей можно посмотреть здесь: http://lov.okfn.org/dataset/lov

Источник: http://richard.cyganiak.de/2007/10/lod/

…далее…

Page 37: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

37

Источник: http://lov.okfn.org/dataset/lov

RDF-словари

Page 38: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

38

Определить лицензию/лицензии. Необходимо решить вопрос лицензирования наборов данных. Удобнее всего выбрать из уже существующих и наиболее популярных лицензий: — Creative Commons (http://creativecommons.org/choose/); — Open Data Commons (http://opendatacommons.org/licenses/).

Источник: http://richard.cyganiak.de/2007/10/lod/

Page 39: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

39

Конвертировать наборы данных в RDF-формат. Это очень важный этап, т.к. RDF-формат является официальным стандартом консорциума W3C для моделей представления данных Семантического веба. Обязательно включите выбранные лицензии в RDF-файлы.

Источник: http://richard.cyganiak.de/2007/10/lod/

http://www.w3.org/2005/Incubator/mmsem/wiki/Tools_and_Resources

http://www.w3.org/wiki/ConverterToRdf

Выберите подходящий инструмент для перевода данных в RDF-формат

http://www.inf.unideb.hu/~jeszy/rdfizers/

Page 40: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

40

Проект Simile (Semantic Interoperability of Metadata and Information in unLike Environments) http://simile.mit.edu/wiki/RDFizers

Page 41: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

41

Связать наборы данных с наборами данных пространства LOD. Обязательно удостоверьтесь, что Ваши наборы данных связаны между собой, связаны с наборами данных из пространства LOD и доступны для связывания с наборами данных сторонними разработчиками. Это предоставит возможность машинной обработки представляемых наборов данных и позволит извлекать новые знания из представляемых наборов данных. Вычислите наиболее релевантные наборы данных для связывания с Вашими наборами данных.

Источник: http://richard.cyganiak.de/2007/10/lod/

…далее…

Page 42: Связанные открытые данные (Linked Open Data)

НИУ ВШЭ, Москва, 2013

Публикация наборов данных в пространстве Linked Open Data

42

Опубликовать и разрекламировать Ваши наборы данных в пространстве LOD. Опубликуйте Ваши наборы данных в вебе и разрекламируйте Ваши новые LOD-наборы данных. Даже лучшие наборы данных LOD не могут быть повторно использованы, если пользователь не узнает об их существовании и не сможет получить к ним доступ. Лучше всего добавить наборы данных в LOD облако.

Источник: http://richard.cyganiak.de/2007/10/lod/

…и последнее

Page 43: Связанные открытые данные (Linked Open Data)

Как сделать данные открытыми и связанными

43

1. Выделить наиболее значимые данные (например, Субъект, Автор, Публикатор и т.д.).

2. Использовать везде, где это возможно, URI для обозначения этих данных.

3. Опубликовать данные в формате RDF, чтобы пользователи могли связать свои данные.

4. Упростить. Простые решения дают хорошие результаты!

НИУ ВШЭ, Москва, 2013

Источник: http://www.slideshare.net/faoaims/linking-your-resources-to-the-data-web

Page 44: Связанные открытые данные (Linked Open Data)

http://iRadche.livejournal.com/

https://www.facebook.com/iRadche

@iRadche

http://www.slideshare.net/iRadche

http://about.me/Irina.Radchenko

Спасибо за внимание!