Архив наблюдательных данных САО РАН
САО РАН была создана 30 лет назад как всесоюзная обсерватория с
крупнейшими телескопами - БТА и РАТАН-600. Эти инструменты
предназначены для выполнения исследований по приоритетным проблемам астрофизики.
Наблюдения на телескопах выполняются астрофизиками как российских, так
и иностранных институтов. За эти годы накоплен уникальный наблюдательный
материал в оптическом и радиодиапазоне. На инструментах для получения астрофизических
данных использовались и используются более 20 разных методов наблюдений.
В течение полугодия на БТА выполняется 50-60 наблюдательных программ,
на РАТАН-600 - 20-30, на Цейсс-1000 - порядка 15. Сегодняшнее
состояние общего архива наблюдательных данных обсерватории представлено
на схеме.Общий архив обсерватории состоит из локальных
архивов. Локальный архив - это архив наблюдательных данных конкретной
системы регистрации, поскольку исторически сложилось так, что архивизация
данных велась научно-исследовательской группой, разрабатывающей и обслуживающей
метод наблюдения или несколько близких методов. Особенностью этих архивов
является большое разнообразие данных: многочастотнось, внутренняя структура,
методы получения и обработки.
В конце 80-х годов возникла тенденция по объединению локальных архивов
в общий наблюдательный архив обсерватории. Она была обусловлена потребностью
поддержания "старых" архивов в рабочем состоянии и широким использованием
астрономическим сообществом FITS-формата. Но некоторые локальные
архивы сохраняются и поддерживаются в индивидуальном порядке. В том виде,
в котором он существует сейчас, общий архив поддерживается с 1995 года.
Сейчас в архив обсерватории входят "сырые" и калибровочные данные, получаемые
на БТА и Цейсс-1000 почти всеми методами наблюдений и данные
радиометров континуума РАТАН-600 (первый и шестой облучатели).
Начиная с 1988 года, для архивирования данных в обсерватории используется
FITS-формат. Сейчас основная часть данных сохраняются в FITS
или в FITS-подобных самодокументируемых форматах. Для хранения используются
следующие носители: магнитные ленты, DAT-кассеты, магнитооптические и оптические
диски. Ведутся работы по восстановлению и перезаписи "старых" данных в
существующие стандартные форматы. Эти данные входят в общий архив. Объем
архива наблюдательных данных в оптическом диапазоне: с 1983 года по 1995
(хранение на магнитных лентах), компрессированные данные - 100Мб, с 1995
по 2000г.г. (хранение на магнитооптических и оптических дисках), компрессированные
данные - 15Гб, то есть общий объем - порядка 50Гб. Среднесуточный поток
данных - 200Мб, пиковый - 400Мб. При введении в эксплуатацию новых светоприемников
(ПЗС-матрица 2000Х2000 пикселей, 2001г.) среднесуточный поток данных возрастет
до 1Гб.
Объем архива наблюдательных данных в радио диапазоне: с 1979 по 1982
- хранение на магнитных лентах, с 1982 по 1995 - DAT-кассеты, объем данных
- 800Мб, с 1995 по нынешнее время - CD-ROMы, объем данных - 7Гб. Среднесуточный
поток данных - 5Мб, пиковый - 10Мб. Объем архива данных в радиодиапазоне
меньше, поскольку наблюдения - одномерные сканы. Запись и работа с данными
ведется средствами операционной системы LINUX. Запрос на получение данных
направляется по электронной почте системным администраторам серверов БТА
и РАТАН-600. Общий архив поддерживается и сохраняется отделом информатики.
Технология наблюдательного процесса и каскадная схема архивизации
Для реализации архивной системы необходимо рассматривать отдельные этапы
наблюдательного цикла как единый технологический и информационный процесс.
Технологическая структура наблюдательного цикла
включает следующие взаимосвязанные этапы:
-
постановка астрофизической задачи,
-
планирование наблюдательного времени,
-
подготовка наблюдательного эксперимента,
-
наблюдение (управление телескопом, управление приемниками, регистрация
и сбор наблюдательных данных),
-
архивизация наблюдательных данных,
-
доступ к данным
-
обработка
-
интерпретация полученных результатов.
Информационная структура включает:
-
первичная входная информация для систем управления и сбора, передаваемая
из расписания наблюдений;
-
вторичная входная информация, получаемая в течение наблюдения при корректировании
начальных значений;
-
первичная выходная информация, получаемая от систем контроля и сбора, как
собственно файл данных;
-
вторичная выходная информация с добавленными и измененными параметрами
при первичной редукции и информацией для доступа к данным;
-
конечные выходные данные и параметры, получаемые из систем обработки и
интерпретации наблюдательных данных.
Такая схема используется для всех телескопов обсерватории. На каждом из
этапов происходит фиксирование параметров, описывающих наблюдение.
Планирование наблюдательного эксперимента это двухуровневый процесс.
На первом этапе подаются конкурсные заявки на наблюдательное время. Подача
заявок происходит дважды в год для каждого из трех основных телескопов
обсерватории. Исходя из научной значимости предложенных программ, выделяется
телескопное время заявителям и составляется календарный план наблюдений
на полгода. В календарном плане, который является основным руководящим
документом для обслуживающего персонала, указывается необходимая аппаратура
для каждой наблюдательной программы.
Проведение наблюдений - Проведение наблюдений - основной этап
технологической цепочки. На этом этапе идет регистрация наблюдательных
и инструментальных данных. Результатом наблюдения является файл в самодокуметированном
формате. Информация в заголовок файла попадает из следующих источников:
системы управления телескопом (метеоданные, координаты), системы сбора
и управления прибором (начало и конец экспозиции) и интерфейса пользователя
(дата, название объекта, экспозиция, название программы, ответственный
наблюдатель).
Каждый метод наблюдения связан с определенным компьютерно-аппаратным
комплексом - системой сбора. Входом локального архива является выход системы
сбора. После записи файла на диск начинается процесс архивизации наблюдения,
состоящий из трех взаимосвязанных частей: сбора данных, долговременного
хранения и извлечения необходимых данных из архива. Схема архивизации данных
- каскадная, то есть, данные переходят последовательно
с одного уровня архива на другой, находясь на каждом уровне определенный
период времени, кроме четвертого, где они хранятся постоянно. Архив состоит
из четырех слоев или уровней хранения:
первый уровень - буферный архив;
второй уровень - промежуточный архив;
третий уровень - оперативный архив;
четвертый уровень - CD-библиотека.
Буферный архив - это область дискового пространства выделенного
файл-сервера. По окончании сета наблюдательной программы в этой области
хранятся все полученные данные, затем они переносятся в промежуточный
архив на магнитооптические диски.
После окончания сета наблюдательной программы наблюдения передаются
в архив. Ответственный наблюдатель сам определяет потоки информации, сроки
обмена между системой сбора и буферным архивом (ежесуточный, по окончанию
сета, и т.д.), формат наблюдательных данных, а также дублирование файлов
как на компьютере системы сбора, так и в буферном архиве. Вся эта информация
будет определяться в заявке на пользование буферным архивом. В буферном
архиве хранятся данные одного сета, а в промежуточном - неупорядоченные
данные нескольких сетов. Затем данные переносятся в оперативный архив на
RAID и одновременно погружаются в среду СУБД.
В оперативном архиве происходит упорядочивание данных, возжна
коррекция параметров, описывающих наблюдение, сборка мусора. После коррекции
информации формируется образ диска и данные переносятся на CD-диски для
постоянного хранения в CD-библиотеке. Каскадная схема архивизации
реализована частично: поисково-информационная система разрабатывается и
опробуется CD-библиотека для доступа к архивным данным, которые записаны
на оптические диски.
Базовые принципы архива наблюдательных данных
Для реализации архивной системы, обеспечивающей этот процесс, разработаны
базовые принципы архива наблюдательных данных САО РАН:
-
в архиве предполагается хранить результаты всех наблюдений, выполненных
на телескопах обсерватории;
-
основной смысловой единицей (item) архива является наблюдение;
-
архив является прозрачным для пользователя, то есть, он не меняет форматы
и параметры хранящихся данных; в каком формате поступили данные на вход
архива, в таком их и получили при запросе;
-
он является частью банка данных САО РАН;
-
в архив погружаются текущие наблюдения;
-
наблюдательные данные могут копироваться в архивах пользователей по их
запросам с любого архивного уровня; "старые" наблюдения подгружаются в
архивную систему по требованию;
-
исключительное авторское право использования данных архива, содержащих
информацию об астрофизических объектах, в течение 2 лет после выполнения
наблюдений принадлежит заявителям наблюдательной программы.
Основные требования к архивной системе и сервисные функции
Основные требования к архивной системе:
-
надежное хранение данных;
-
сетевой доступ к данным;
-
контроль доступа;
-
отсутствие жестких ограничений на форматы хранимых данных.
Сервисные функции архивной системы:
-
удобный пользовательский интерфейс с использованием стандартных Web-броузеров;
-
архивизация необработанных данных с предоставлением необходимых данных
для выполнения предварительной обработки (калибровки);
-
стандартные и параметрические запросы;
-
организация запросов по нескольким локальным архивам;
-
предварительный просмотр отобранных данных;
-
организация выдачи выбранных данных по сети.
Реализация сервисных функций и выполнение требований к архивной системе
производится через информационно-поисковую систему. В архиве не накладываются
ограничения на типы форматов входных данных. Передаваемые из систем
сбора данные должны иметь полное семантическое описание, то есть, физический
смысл параметров и данных должен быть известен. Предполагается, что это
описание должно содержать, как минимум, информацию для однозначной идентификации
наблюдения и его обработки. Каждая система сбора имеет свой стандартный
и зафиксированный формат выходных данных. Предполагаемые изменения в выходных
форматах предварительно согласовываются. Наблюдение сохраняется в архиве
в том виде, в котором оно было передано из системы сбора.
Архивная система САО имеет двухуровневую организацию: собственно архивы
наблюдательных данных и поисково-информационную систему OASIS (Obsevational
Archive Search Information System) на базе реляционной СУБД. Информационно-поисковая
система - это справочная часть, где на каждое наблюдение хранится сервисный
информационный блок (Service Information Block-SIB).
Такой информационный блок снимает ограничения на форматы, хранимых файлов.
Второй уровень информационной - собственно хранилище файлов с наблюдательными
данными.
OASIS - поисково-информационная система архива наблюдательных данных
Архивы астрономических наблюдений не теряют своей научной значимости с
течением времени и представляют интерес для ученых, студентов, аспирантов.
Они позволяют астрономам повторно анализировать данные, используя новые
методы обработки.
Особенности астрофизических наблюдательных данных, полученных в обсерватории,
это - научная уникальность астрофизического материала и большой объем наблюдательных
данных.
Поскольку инструменты обсерватории являются инструментами коллективного
пользования, то предполагается интенсивный обмен наблюдательной информацией.
Для реализации этого необходимо не только систематизированное хранение
наблюдательных данных, но и возможность эффективного доступа к ним с использованием
сети Интернет.
Создание информационной системы архива наблюдательных данных (OASIS)
на основе сетевых технологий обеспечит доступ к наблюдательным данным большому
числу пользователей.
Создание системы позволит:
-
реализовать многоаспектный поиск информации,
-
оптимизировать доступ к архивной информации,
-
обеспечить удобный интерфейс для доступа к архивным данным на основе стандартного
браузера,
-
авторизировать доступ к архивным наблюдательным данным,
-
получать различные срезы данных в рамках предметной области,
-
обеспечить хорошую сопровождаемость системы и эксплуатационную надежность.
Создание информационной системы как части основного архива обсерватории
предполагает выполнение следующих этапов:
-
исследование предметной области
-
разработка системы сетевого доступа к архивам наблюдательных данных;
-
реализация информационной системы;
-
введение системы в опытную эксплуатацию;
-
подключение к системе раннее накопленного архивного материала.
При проектировании информационной системы основного архива обсерватории
было проведено исследование предметной области
наблюдательного цикла. Были выделены следующие основные понятия: наблюдение,
астрофизический объект, программа наблюдений и метод наблюдений. На схеме
представлены основные классы и включаемые подклассы основных понятий.
Выделенные понятия предметной области определили структуру и параметры
сервисного информационного блока. В сервисном информационном блоке имеются
параметры для однозначной идентификации наблюдения, для организации стандартных
запросов в информационной системе, информация о местонахождении файла и
количестве обращений к нему, формат хранимого файла и информация, позволяющая
контролировать доступ к наблюдениям.
SIB снимает
ограничения на форматы, хранимых файлов, позволяет отслеживать положение
файла на уровнях каскадной схемы архивизации, отслеживать последовательность
обработки данных.
Оперативный процесс сбора и архивизации наблюдательных данных предполагает
автоматическое занесение в информационную систему следующей информации:
-
временные характеристики наблюдения:
-
дата,
-
начало наблюдения,
-
экспозиция,
-
объект наблюдения
-
название объекта,
-
координаты
-
метод наблюдения
-
телескоп,
-
прибор,
-
параметры прибора, используемые в процессе наблюдения
-
программа наблюдения,
-
участники наблюдения,
-
физическое расположение результата наблюдения (FITS-файла) в архиве
(оперативном и долгосрочном).
Система ведения архива наблюдательных данных при занесении файла в основной
архив подготавливает информацию для формирования базы данных системы доступа.
Возможно изменение структуры OASIS при добавлении прибора или
параметров, не предусмотренных имеющейся базой данных. Информационно-поисковая
система в первоначальном варианте предполагает реализацию для наблюдательных
данных, полученных на 6-метровом телескопе методами, использующими в качестве
светоприемников ПЗС-матрицы. Расширение информационно-поисковой системы
для других телескопов и специализированных методов наблюдений будет производиться
с помощью разработки соответствующих отдельных приложений (applications).
Процесс доступа к наблюдательным данным предполагает эффективный поиск
с использованием системы доступа к архивным данным.
Задавая различные критерии поиска, можно получить:
-
информацию о FITS-файле,
-
информацию о наблюдениях по временным характеристикам,
-
по объектам наблюдения,
-
участникам,
-
программам наблюдений и т.д.
Все перечисленные выше функции доступны нескольким категориями пользователей,
имеющим различный уровень авторизации. Авторизация доступа распространяется,
как на доступ к данным архива наблюдательных данных, так и на доступ и
действия с информационно-поисковой системой OASIS.
Предполагаются следующие категории пользователей:
-
астрономы - заявители программ наблюдений,
-
астрономы, имеющие доступ к архиву,
-
администратор архива наблюдательных данных,
-
администратор архива доступа,
-
любой пользователь Интернет, имеющий доступ к открытой информации архива.
Информационная база данных - основа системы доступа к архиву, имеет следующую
структуру:
-
программы наблюдений;
-
справочник телескопов;
-
справочник астрофизических приборов, установленных на телескопах;
-
справочник астрономов;
-
справочник ответственных наблюдателей;
-
справочник объектов наблюдений;
-
идентификация заархивированных астрономических данных, полученных в процессе
наблюдения;
-
зарегистрированные пользователи архива.
Создаваемая система имеет распределенный характер: часть функций реализовано
в программе - клиенте, другая в программе - сервере. Их взаимодействие
определяется специализированным протоколом. Система, реализация которой
основана на СУБД Oracle, имеет компонент представления - функции ввода
и отображения данных, прикладной компонент - поддержка функций предметной
области, и компонент доступа к информационным ресурсам - функции хранения
и управления информацией. Компонент представления выполняется на клиенте-браузере,
а прикладной компонент, в виде хранимых процедур функционирует на сервере
базы данных, там же осуществляется доступ к БД.
Разработка информационной системы ведется отделом информатики САО РАН
совместно с ЮРЦИВШ при Ростовском государственном университете.
Макет интерфейса пользователя, разработанного ростовскими коллегами,
можно посмотреть по адресу:
http://worabl.rnd.runnet.ru:8080/des_sao/owa/mns0010$.startup.
Коррекция интерфейса пользователя с учетом
особенностей наблюдательного процесса в обсерватории и пожеланий пользователей
будет выполняться в САО.
Пожелания и предложения можно присылать по адресу:
id@sao.ru