RCDL'2011, Воронеж, 19-22.10.11 Д.А.Ковалева, О.Б.Длужневская Институт астрономии РАН Российские ресурсы астрономических данных и их интеграция в структуру Международной виртуальной обсерватории
Jan 27, 2016
RCDL'2011, Воронеж, 19-22.10.11
Д.А.Ковалева, О.Б.ДлужневскаяИнститут астрономии РАН
Российские ресурсы астрономических данных и их
интеграция в структуру Международной виртуальной
обсерватории
Содержание
• Российская виртуальная обсерватория в структуре МВО
• Российские ресурсы астрономических данных– Общая характеристика– Тематика
• Интеграция российских ресурсов в структуру МВО– Регистрация в реестре ВАО– Избранные российские астрономические ресурсы– Оцифровка архивов
• ЗаключениеRCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория
• Повышение эффективности использования астрономических данных:– Расширение числа пользователей путем
предоставления свободного доступа к данным в виртуальной среде;
– Инструменты ВО берут на себя трудоемкую, отнимающую много времени черновую работу.
• Как новые, так и ранее полученные данные
RCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория
включает в себя
• астрономические данные (в виде архивов космических и наземных телескопов, каталогов, баз данных);
• средства поиска, доступа к данным и их обработки;
• научные приложения результатов работы с данными.
RCDL'2011, Воронеж, 19-22.10.11
RCDL'2011, Воронеж, 19-22.10.11
www.ivoa.net
RCDL'2011, Воронеж, 19-22.10.11
В декабре 2001 года НСА РАН внес Проект РВО в числе важнейших международных проектов РАН. Координаторами Проекта являются ИНАСАН, САО РАН, ГАИШ и ИПИ РАН. Участники Проекта – рабочие группы ряда астрономических учреждений.
Российская виртуальная обсерватория является открытым проектом, и любое сотрудничество с другими учреждениями приветствуется
Российская виртуальная обсерватория (РВО)
RCDL'2011, Воронеж, 19-22.10.11
Рабочая группа Данные РВОна базе Центра астрономических данных ИНАСАН
• Обеспечить российских астрономов удобным доступом к мировым астрономическим ресурсам.– Зеркалирование популярных зарубежных ресурсов
данных.
• Объединить российские астрономические данные и интегрировать их в международную виртуальную обсерваторию.– Создание списка основных российских
астрономических Интернет ресурсов. Включение их в реестры ВО.
– Оцифровка архивов астронегативов («стеклянных библиотек»)
RCDL'2011, Воронеж, 19-22.10.11
RCDL'2011, Воронеж, 19-22.10.11
Зеркала
VALD – Венская база данных атомных линий, объем данных 6 Gb. Оригинал в Австрии; зеркала: США, Швеция, Германия
VizieR – наиболее полная база данных астрономических каталогов и таблиц данных. В настоящее время содержит около 7000 каталогов, также включает в себя каталоги, доступные по FTP, и словарь обозначений небесных объектов.
ADS (Astrophysics Data System) – крупнейшая астрономическая электронная библиотека, объединяющая 4 библиографические базы данных (астрономия и науки о планетах, физика и геофизика, космические инструменты, астрон. препринты). Около 3.6 млн. записей.
Ресурсы в МВО
• «Ресурс» в ВО – общий термин: элемент ВО, предоставленный пользователю провайдером.
• Примеры: – коллекция данных или метаданных – приложение– сервис доступа– информация об учреждении– …
RCDL'2011, Воронеж, 19-22.10.11
Российские ресурсы астрономических данных
• Ресурсы, содержащие оригинальные астрономические данные
• Созданные российскими исследователями или с их участием
• Размещенные на сайтах российских астрономических учреждений
• Начальные характеристики: количество
http://www.inasan.ru/eng/rvo/rus_res.html
RCDL'2011, Воронеж, 19-22.10.11
РРАД: 2002-2011
RCDL'2011, Воронеж, 19-22.10.11
0
20
40
60
80
100
120
140
160
Россия 38 50 0 80 89 0 111 0 144 152
Страны бСССР 13 15 0 17 18 0 18 0 22 43
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
РРАД: динамика в зависимости от тематики
RCDL'2011, Воронеж, 19-22.10.11
0
5
10
15
20
25
30
35
2006 6 20 15 9 19 6 8
2011 19 31 24 13 31 11 15
Stellar systems Stars Solar SystemSolar-Earth and Cosmic Rays
SunRadio
astronomyMixed data
archives
РРАД: обновляемость в зависимости от тематики
RCDL'2011, Воронеж, 19-22.10.11
0
10
20
30
40
50
60
%
% 21 21 44 60 52 39 60
Stellar systems Stars Solar SystemSolar-Earth and Cosmic Rays
SunRadio
astronomyMixed data
archives
РРАД: уровни внутренней организации
1. Набор разнородных данных, часто, но не обязательно объединенных общей тематикой.
2. Таблица данных (каталог).
3. База данных с выраженной внутренней структурой, но без поискового интерфейса.
4. База данных с поисковым интерфейсом, часто с возможностью дополнительных сервисов.
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 1. Наборы данных
• Чаще всего: на личных веб страницах сотрудников учреждений,– хотя можно встретить и на страницах отделов и, в некоторых случаях, на уровне
веб страниц учреждения.
• Как правило: результаты наблюдений и(или) исследований сотрудника или группы сотрудников в определенной области или в определенный промежуток времени, без систематизации.
• Редко обновляются.
• Относятся к относительно небольшому количеству объектов или явлений (до нескольких десятков), и не являются объемными.
• В количественном отношении - около 15% списка.
• Редко представляют результаты мирового уровня, имеющие явную научную ценность для астрономического сообщества.
RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 2. Каталоги
• Каталоги, подготовленные в формате CDS и нередко (хотя не всегда!) имеющие номер CDS (уже в системе ВО) .
• Таблицы в свободном формате
RCDL'2011, Воронеж, 19-22.10.11
•Четкая одноуровневая организация• ftp-доступ (другие виды доступа могут быть возможны, но не всегда). •Количество объектов: от небольшого (несколько десятков) до весьма
значительного (миллионы). •Занимаемый объем: в общем, пропорционален числу объектов. •В структуре обсуждаемого списка РРАД: до 30%.
РРАД: уровень 3 и 4. Базы данных
3. Без поискового интерфейса
• Чаще небольшое количество объектов (до сотен)
• Созданы раньше, обновляются реже
• До 15% спискаЕжедневные наблюдения Солнца
на РАТАН-600, САО РАН http://www.sai.msu.ru/neb/nss/index.htm
4. С поисковым интерфейсом
• Чаще большое количество объектов
• Чаще современные и(или) обновляемые
• Более 25% спискаКаталог пульсаров, ФТИ им.
Иоффеhttp://www.ioffe.ru/astro1/psr-catalog/Catalog.php
RCDL'2011, Воронеж, 19-22.10.11
Служба естественных спутников планет, ГАИШ МГУ http://www.sai.msu.ru/neb/nss/index.htm
Система астрометрических баз данных, ГАО РАН (Пулково)http://www.puldb.ru/index.php
РРАД: еще варианты ресурсов
• Астрономические ресурсы, подлежащие развертыванию на компьютере пользователя (как базы данных с интегрированными сервисами, так и сервисные пакеты с интегрированными базами данных),
• Около 5%
Пакет AMPLE (Adaptable Ephemeris for Minor Planets), ИПА РАН
http://www.ipa.nw.ru/PAGE/DEPFUND/LSBSS/rusample.htm
• Он-лайн сервисы: информация о текущем состоянии объекта или явления, и(или) прогнозы (Солнце, солнечно-земные связи, космические лучи): частая обновляемость (от 10 минут до суток). В некоторых случаях эти сервисы комбинированы с базами данных с развитым интерфейсом, но существуют и самостоятельно
• Около 5%
Прогноз солнечной активности, ИЗМИРАН
http://www.izmiran.ru/services/saf/
RCDL'2011, Воронеж, 19-22.10.11
Проблема (временной?) недоступности ресурсов
• Поддержка списка 150-200 независимых РАД:– Около 5% недоступны (при условии регулярных
обновлений списка!)• Случайные сбои • Обновления сайтов • Изменение структуры и интернет-адресов РАД
– Проблема курирования
• Прекращение поддержки РАД– Проблема сохранности данных
RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в систему МВО
• Программа-минимум: пользователь ВО и/или его приложения обнаруживают информацию о ресурсе.
• Программа-максимум: пользователь ВО и/или его приложения обнаруживают данные ресурса и используют их.
RCDL'2011, Воронеж, 19-22.10.11
Интеграция РРАД в систему МВО
• Регистрация РРАД в реестре ВО• Размещение в CDS российских каталогов
(интеграция в систему доступа к каталогам VizieR)
• Создание ВО-совместимых интегрирующих ресурсов
• Оцифровка и создание баз данных астронегативов
RCDL'2011, Воронеж, 19-22.10.11
Поиск ресурсов в МВО: Реестры ресурсов (Registries)
• Реестры МВО: содержат структурированные описания ресурсов и позволяют Пользователям и их приложениям находить коллекции данных и метаданных и сервисы на уровне Ресурсов.
– Реестры: Publishing/Search
– RegistryInterface (компоненты search/harvesting): базируется на стандартном Web Service Description Language + harvesting определяется OAI-PMH протоколом
RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в МВО: Реестры ресурсов (Registries)
– ResourceMetadata — метаданные описания ресурсов (два уровня регистрации, базируется на стандарте DublinCore ):
• «поверхностный» - информирование пользователя ВО о наличии ресурса и его содержании в целом (Identifier, Name, Curation, Content,…)
• Более глубокое «включение» ресурса: данные о содержании ресурса, специфические для этого ResourceType
– Примерно от 20 до 40 параметров для каждого ресурса
• Пока около 40 РРАД зарегистрировано вручнуюРеестр NVO/VAO (США) http://nvo.ncsa.uiuc.edu/stsci/nvoregistration.html
+ зарегистрированы автоматически (каталоги CDS) в реестрах МВО: ? 50 - 70 ?
RCDL'2011, Воронеж, 19-22.10.11
Избранные РРАД мирового уровня
• Объединенный каталог переменных звезд (ИНАСАН + ГАИШ МГУ)
• CATS (CAtalogue Support System) (САО РАН)
• Каталог рассеянных скоплений ГАИШ (ГАИШ МГУ)
• База данных о двойных звездах (БДБ) (Обсерватория Безансона, Франция, + ИНАСАН)
RCDL'2011, Воронеж, 19-22.10.11
Объединенный каталог переменных звезд http://www.sai.msu.su/gcvs/
• Содержит данные обо всех известных переменных звездах (свыше 70 тысяч объектов), постоянно пополняется.
• Является наиболее полной и авторитетной базой данных для астрономических объектов этого типа.
• Поддержка различных видов доступа, возможность поиска по параметрам.• Один из наиболее востребованных специализированных астрономических
ресурсов.• Обработка астрофотографий → открытие новых переменных звезд.
RCDL'2011, Воронеж, 19-22.10.11
Web Site: http://www.skyarchive.org
RCDL'2011, Воронеж, 19-22.10.11
CATS – CAtalogue Support System http://www.sao.ru/cats/
• Система поддержки астрофизических каталогов (радио данные). • Все крупные (>1000 записей) каталоги радиоисточников (в том числе
каталоги наблюдений на РАТАН-600).• Программы для работы с каталогами.• > 1 млн записей из > 400 каталогов. • Поддерживается несколько способов доступа, включая веб-интерфейс.• Ежедневно около 1500 обращений к системе (по информации авторов).
RCDL'2011, Воронеж, 19-22.10.11
Каталог рассеянных скоплений ГАИШ
http://ocl.sai.msu.ru/
• Крупнейший каталог новых рассеянных скоплений (около 170).
• Создан с помощью средств ВО и в согласии со стандартами ВО.
• Представлены средства для получения новых научных результатов из данных каталога (+ данные ВО) в режиме on-line.
RCDL'2011, Воронеж, 19-22.10.11
База данных о двойных звездах (БДБ, наследует Besancon Database of Binaries)
ранее http://bdb.obs-besancon.fr/сейчас в ИНАСАН: тестовый режим
• База данных о двойных и кратных звездах всех наблюдательных типов.• Интеграция и обеспечение доступа к данным обо всех типах двойных звезд.• Каталоги двойных звезд различных типов включаются в БДБ, с базами
данных устанавливаются связи.• Еще одно средство интеграции в том числе РРАД о двойных звездах в
систему МВО.
RCDL'2011, Воронеж, 19-22.10.11
Итоги• Цель ВО: повышение эффективности использования
астрономических данных.• Рабочая группа Данные РВО поддерживает список
российских ресурсов астрономических данных (около 150 ресурсов): http://www.inasan.ru/eng/rvo/rus_res.html
• Поддерживаются различные направления интеграции РРАД в систему МВО:
– регистрация ресурсов в ВО-реестре; – представление каталогов в CDS; – создание ВО-совместимых интегрирующих ресурсов; – оцифровка архивов астронегативов.
• IVOA: http://www.ivoa.net• RVO: http://www.inasan.ru/rus/rvo
RCDL'2011, Воронеж, 19-22.10.11
RCDL'2011, Воронеж, 19-22.10.11
Спасибо!
RCDL'2011, Воронеж, 19-22.10.11
Разработчики стандартов объединены в Рабочих
группах Альянса• Задача групп: выработка стандартов для описания
астрономических данных, объектов, процессов, программной архитектуры
• Пример стандартов: формат данных (VOTable), описания метаданных ресурсов (Resource Metadata), модель данных для одномерных спектров (Spectrum Data Model) , язык запросов к данным (ADQL), протоколы доступа к спектрам и изображениям (SIAP, SSAP), и пр.
• Документы и стандарты IVOA: http://www.ivoa.net/Documents/
Создавая ВО: направления работы
• Разработка стандартов и протоколов, их международное согласование.
• Создание и предоставление ресурсов данных.
• Создание «соединяющих» компонентов: портал, реестр, виртуальное хранилище и пр.
• Создание механизмов для научной обработки данных.
• Установка и сопровождение реестров ресурсов и систем поддержки пользователей.
• Альянс МВО
• Национальные узлы ВО
RCDL'2011, Воронеж, 19-22.10.11
RCDL'2011, Воронеж, 19-22.10.11
Финансирование
• МВО: $25 миллионов на первые 10 лет• Subaru (один из крупнейших наземных
телескопов, 8.3 м): $377 миллионов (наблюдательная ночь на таком телескопе стоит около $50 тысяч)
• Galileo (14-летняя миссия к Юпитеру, закончилась 21 сентября 2003): $1.5 миллиарда
• HST (крупнейший космический телескоп): $7.5 миллиардов на период 1989-2010
RCDL'2011, Воронеж, 19-22.10.11
Changing funding scenario (IVOA has no funds of its own)
Project 2007 2010 endfunding FTE funding FTE
ArVO ► 35 K$ 5 66 K$ 6 yearly?AstroGrid ▼ ops. guaranteed 2009BRAVO ▲ 10 K$ 5 80K$ 10 2012CVO ▲ 400 K$ 4 800 k$ 7China VO ▲ 75 K$ 10
(3 staff)400 K$ 10→12
(4→5 staff)yearly?
ESA ▼ 6 2.5(+ publishing)
ESO ▼ 6.5(3 EuroVO)
4.5(2 EuroVO)
Euro-VO ▼ 2011France-VO ► ~ 15 ~ 15 yearly?GAVO ► 240 K€ 4 265 K€ 4 2011JVO ▼ 56 M¥ 6 32 M¥ 6NVO → VAO ▲ 2.5 M$
(peak)15
(peak)5.5 M$
(average, assigned)25
(average, estim.)2015
RVO ► 24 K€ 5(permanent)
30 K€ 5(permanent)
yearly
SVO ▲ 380 K€ 5 475 K€ 10 2011VObs.it ▼ 315 K€
125 INAF + 190 Euro-VO
12.7(7.7 permanent)
270 K€145 INAF + 125
EU
11.4(6.4 permanent)
yearly
Выбор языка программирования
• Выбор языка программирования Python, СУБД PostgreSQL (веб сервер Apache, ОС UNIX) для модернизации БДБ и реализации веб-интерфейса и обслуживающих программ обусловлен их кросс-платформенностью, высокой степенью функциональности и наличием серьезного задела, а также тем, что указанные средства являются свободно распространяемыми. Несвободное программное обеспечение не рассматривалось, так как его сложно протестировать в полном объеме до покупки, оно гораздо менее распространено и отлажено, чем его свободные аналоги, а также оно может содержать программные “закладки” или уязвимости в безопасности, обнаружение которых затруднено ввиду отсутствия доступа к исходным кодам. Основными требованиями при выборе программного обеспечения являлись:
• 1. Расширяемость (возможность добавления новой функциональности без существенных изменений в уже написанном коде).
• 2. Переносимость (возможность запускать приложение на различных программных и аппаратных платформах без изменения исходного кода, что позволяет незаметно для пользователей переносить код на более мощные серверы, по мере возникновения такой необходимости).
• 3. Масштабируемость (возможность увеличивать производительность приложения за счет увеличения числа серверов, на котором оно выполняется).
• 4. Устойчивость к сбоям (гарантия от потерь важных данных в случае сбоев аппаратных и программных компонентов).• SQLite является достаточно простой системой СУБД, поддерживающей, тем не менее, транзакции и подзапросы SQL, что
делает ее идеальной платформой для отладки кода. PostgreSQL является достаточно мощной и надежной системой, также поддерживающей практически полностью язык запросов SQL, что послужило причиной выбора ее в качестве основной рабочей СУБД проекта. Распространенная программная платформа PHP была отвергнута на основании плохой совместимости между ее различными версиями и наличия большого количества открытых уязвимостей безопасности. Язык Python менее требователен к ресурсам, чем Perl. При этом для него существует множество библиотек, облегчающих разработку web-приложений. Синтаксис Python достаточно прост и позволяет писать очень хорошо структурированные программы. Наиболее интересной особенностью Python является наличие особой среды разработки Nagare (nagare.org), позволяющей резко упростить и ускорить создание веб-приложений. Дополнительным преимуществом Python является возможность использования объектно-ориентированных библиотек для доступа к базам данных.
RCDL'2011, Воронеж, 19-22.10.11
• the ConeSearch is performed using Q3C with PostgreSQL.SDSS $85 mln
• Large Synoptic Survey Telescope (LSST) in Cerro Pachón, Chile 2019 30 Тб за ночь $450 млн 8.4 м
• Galaxy Zoo project• VAO instead of NVO: $27,5 mln
RCDL'2011, Воронеж, 19-22.10.11