Связанные открытые данные @ AIMS Цикл вебинаров Linked Open Data @ AIMS 14 февраля 2013 года Введение в концепцию связанных открытых данных (Linked Open Data) Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko НИУ ВШЭ, Москва, 2013
Презентация вебинара, прошедшего 14 февраля 2013 года на базе сообщества практики AIMS Food and Agriculture Organization of the United Nation. В рамках данного вебинара было рассказано о том, что такое связанные данные и для чего они нужны. Речь также шла о пятизвездочной модели открытых данных, разработанной сэром Тимом Бернесом-Ли и демонстрирующей переход от открытых данных (Open Data) к связанным открытым данным (Linked Open Data). Было показано на примере использование RDF-модели для связывания данных.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Связанные открытые данные @ AIMS
Цикл вебинаров Linked Open Data @ AIMS
14 февраля 2013 года
Введение в концепцию связанных открытых данных (Linked Open Data)
Радченко Ирина Алексеевна кандидат технических наук, научный сотрудник Центра семантических технологий НИУ ВШЭ http://about.me/Irina.Radchenko
НИУ ВШЭ, Москва, 2013
2
• Общее представление о Linked Open Data
• Каким образом осуществляется связывание наборов данных?
• Публикация наборов данных в пространстве Linked Open Data
НИУ ВШЭ, Москва, 2013
Содержание
3
• Общее представление о Linked Open Data
НИУ ВШЭ, Москва, 2013
Эволюционирование веба
4
Документы в вебе (протокол Gopher и т.д.)
Веб документов (гипертекст)
Данные в вебе (открытые данные и т.д.)
Веб данных (связанные данные)
Развитие веба
Время
НИУ ВШЭ, Москва, 2013
1990 2013
Источник: Linked Open Data: The Essentials. A Quick Start Guide for Decision Makers. http://www.semantic-web.at/LOD-TheEssentials.pdf
НИУ ВШЭ, Москва, 2013
Основные понятия
5
Связанные данные (Linked Data) — это наборы данных, опубликованные в RDF-формате с использованием унифицированного идентификатора ресурсов URI (Uniform Resource Identifier) для идентификации элементов, которые они содержат.
НИУ ВШЭ, Москва, 2013
Основные понятия
6
Связанные открытые данные (Linked Open Data) — это связанные наборы данных, опубликованные в RDF-формате и пригодные для использования и переиздания их пользователями в своих целях, без каких-либо ограничений в виде авторских прав, патентов и других механизмов контроля.
НИУ ВШЭ, Москва, 2013
Проект DBpedia
7 Источник: http://dbpedia.org/About
Проект DBpedia послужил важным стимулом для развития Linked Open Data.
Тим Бернерс-Ли (Tim Berners-Lee) предложил идею связанных данных на основе четырех принципов, стимулирующих применение базовых принципов Web для доступа к данным: • Применение универсальных идентификаторов
ресурсов (URI) в качестве имен объектов; • Применение HTTP URI для реализации
возможности обращения по этим именам; • Предоставление полезной информации тому, кто
обращается по URI, с помощью стандартов (RDF*, SPARQL);
• Включение ссылок на другие URI, позволяющих найти дополнительную информацию.
• Публикация наборов данных в пространстве Linked Open Data
НИУ ВШЭ, Москва, 2013
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
35
Проанализировать данные. Необходимо окинуть критическим взглядом модель данных и метаданные. Очистить данные. Данные и информация, приходящие из различного рода источников в различных форматах (включая базы данных, форматы CVS, геоданные, XML и т.д.), нуждаются в дополнительной очистке для более легкого и эффективного моделирования представления данных.
Источник: http://richard.cyganiak.de/2007/10/lod/
Для того чтобы опубликовать наборы данных в пространстве LOD, необходимо сделать следующие шаги
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
36
Сформировать модель представления данных. Создайте необходимые словари и тезаурусы для представления данных в RDF-формате. Создайте идентификаторы URI для каждых объектов. Выбрать подходящие словари. Существует большое количество RDF-словарей, которые можно использовать повторно. Выберите наиболее подходящий из них. Если подходящего словаря не найдено, то необходимо его создать. Каталог словарей можно посмотреть здесь: http://lov.okfn.org/dataset/lov
Источник: http://richard.cyganiak.de/2007/10/lod/
…далее…
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
37
Источник: http://lov.okfn.org/dataset/lov
RDF-словари
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
38
Определить лицензию/лицензии. Необходимо решить вопрос лицензирования наборов данных. Удобнее всего выбрать из уже существующих и наиболее популярных лицензий: — Creative Commons (http://creativecommons.org/choose/); — Open Data Commons (http://opendatacommons.org/licenses/).
Источник: http://richard.cyganiak.de/2007/10/lod/
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
39
Конвертировать наборы данных в RDF-формат. Это очень важный этап, т.к. RDF-формат является официальным стандартом консорциума W3C для моделей представления данных Семантического веба. Обязательно включите выбранные лицензии в RDF-файлы.
Выберите подходящий инструмент для перевода данных в RDF-формат
http://www.inf.unideb.hu/~jeszy/rdfizers/
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
40
Проект Simile (Semantic Interoperability of Metadata and Information in unLike Environments) http://simile.mit.edu/wiki/RDFizers
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
41
Связать наборы данных с наборами данных пространства LOD. Обязательно удостоверьтесь, что Ваши наборы данных связаны между собой, связаны с наборами данных из пространства LOD и доступны для связывания с наборами данных сторонними разработчиками. Это предоставит возможность машинной обработки представляемых наборов данных и позволит извлекать новые знания из представляемых наборов данных. Вычислите наиболее релевантные наборы данных для связывания с Вашими наборами данных.
Источник: http://richard.cyganiak.de/2007/10/lod/
…далее…
НИУ ВШЭ, Москва, 2013
Публикация наборов данных в пространстве Linked Open Data
42
Опубликовать и разрекламировать Ваши наборы данных в пространстве LOD. Опубликуйте Ваши наборы данных в вебе и разрекламируйте Ваши новые LOD-наборы данных. Даже лучшие наборы данных LOD не могут быть повторно использованы, если пользователь не узнает об их существовании и не сможет получить к ним доступ. Лучше всего добавить наборы данных в LOD облако.
Источник: http://richard.cyganiak.de/2007/10/lod/
…и последнее
Как сделать данные открытыми и связанными
43
1. Выделить наиболее значимые данные (например, Субъект, Автор, Публикатор и т.д.).
2. Использовать везде, где это возможно, URI для обозначения этих данных.
3. Опубликовать данные в формате RDF, чтобы пользователи могли связать свои данные.
4. Упростить. Простые решения дают хорошие результаты!