Отчет 2007. Проект 4.5.1.1

in English
Федеральное агентство научных организаций Портал СО РАН
Внутренний портал ИВТ

Проект 4.5.1.1. Разработка фундаментальных принципов создания распределенных информационно-вычислительных ресурсов
(№ Гос. рег. 01.2007 07871)

Координатор проекта: чл.-к. РАН А.М. Федотов

Основные результаты работ по проекту за 2007 г.

1. Разработан прототип базового информационного центра корпоративной распределенной информационной системы, основанной на стандартных протоколах Z39.50, HTTP, LDAP, начата его опытно-промышленная эксплуатация, ведутся работы по отладке механизмов взаимодействия отдельных его подсистем.

2. Сформулированы и обоснованы общие принципы построения моделей информационных систем, работающих как со структурированными данными («информацией»), так и со знаниями. Разработана и реализована технология создания тезауруса предметной области на основе предметного указателя специализированных энциклопедий.

3. Разработана технология интеграции ресурсов из распределенных разнородных каталогов. Технология была апробирована на 7 каталогах, содержащих данные о научно-организационных аспектах деятельности организации (ИВТ СО РАН). Сформирован и опубликован интегрированный каталог аннотированных ссылок на внешние ресурсы.

4. Продолжаются работы по созданию полигона сервисов для корпоративной распределенной информационно-вычислительной системы СО РАН. Создан пилотный вариант информационно-аналитического Интернет-портала для решения задач эколого-экономического моделирования. Для электронного атласа «Атмосферные аэрозоли Сибири» разработана информационная модель и построена структура метаданных на основе обобщенного подхода для формирования и заполнения файлов входных данных.

5. Построена модель аппаратного сегмента мониторирующей системы на основе имеющегося оборудования и существующей инфраструктуры корпоративной сети передачи данных (СПД) СО РАН. Начата опытная эксплуатация отдельных компонент системы сетевых мониторов, предназначенных для анализа потоков данных и функционирования приложений в СПД СО РАН.

6. Создан пилотный вариант интегрированной информационной среды Института с возможностью представления информации из системы на сайте Института, на портале СО РАН и на портале РАН. Разработана и реализована технология регулярной актуализации информации о персонах (сотрудниках организации), предназначенная для внешнего доступа с использованием сетевых протоколов (HTTP и LDAP).

Раздел 1. Разработка прототипа виртуальной среды для обмена наукоемкими ресурсами. Создание пилотного варианта интегрированной информационной среды научно-исследовательского института на примере ИВТ СО РАН.

Разработан прототип базового информационного центра корпоративной распределенной информационной системы, основанной на стандартных протоколах Z39.50, HTTP, LDAP, начата его опытно-промышленная эксплуатация, ведутся работы по отладке механизмов взаимодействия отдельных его подсистем.

Информационный центр построен из модулей на основе серверов.

WWW – (Apache 2, ZooPARK 5.04):

Обеспечивают доступ к документам (html, xml, pdf, jpg, avi) в соответствии с протоколом HTTP 1.0/1.1;
Обрабатывают запросы SOAP;
Предоставляют пользовательские и административные интерфейсы доступа к сервисам Z39.50 через шлюз HTTP-Z39.50;
Предоставляют пользовательские и административные интерфейсы доступа к каталогам LDAP через шлюз HTTP-LDAP;
Поддерживают авторизованный режим работы;
Поддерживают аутентификацию пользователей через LDAP;
Имеют встроенные модули для обработки PHP, PERL, XML и доступа к серверам Z39.50, LDAP, MySQL, MSSQL.

Z39.50 – (ZooPARK 5.04):

Обеспечивает доступ к базам данных по протоколу Z39.50 v3 (search, present, scan);
Обеспечивает работу с СУБД CDS/ISIS, MSSQL, MySQL, Zebra;
Поддерживает логическое объединение баз данных и многобазовые операции;
Поддерживает перенаправление запросов на другие серверы Z39.50;
Поддерживают авторизованный режим работы;
Поддерживают аутентификацию пользователей через LDAP;
Поддерживают конфигурирование через LDAP;
Поддерживает сервис Explain;
Поддерживает контроль доступа к ресурсам на уровне баз данных по именам пользователей, по группам пользователей, по IP -адресам клиентов, по группам IP-адресов клиентов;
Поддерживает различные схемы данных (GILS, CIMI, GEO, UIGGM и др.) и динамическое преобразование данных между этими схемами;
Поддерживает различные форматы внешнего представления данных (SUTRS, HTML, XML, RTF, RUSMARC, USMARC, GRS1);
Ведет сбор всех входящих и исходящих APDU в выделенной СУБД (MSSQL, MySQL).

LDAP – (OpenLDAP, Sun One Directory Server 5.2):

Обеспечивает доступ к каталогам по протоколу LDAP v3;
Поддерживает различные схемы, ориентированные на хранение пользовательской информации для аутентификации, информации о конфигурации системы в целом и отдельных ее компонент, информации о ресурсах и правилах доступа к ним;
Поддерживает различные права доступа для каждого DN;
Поддерживает управление через WEB или административную консоль.

Клиентами сервера LDAP являются:

Конечные пользователи LDAP-сервиса при доступе к информационным ресурсам по протоколу LDAP;
Другие серверы LDAP, имеющие в свих каталогах ссылки на каталоги этого сервера LDAP;
Шлюз HTTP-LDAP для пользователей информационных ресурсов LDAP через WEB-интерфейсы;
Сервер WWW при аутентификации пользователей;
Сервер Z39.50 при аутентификации пользователей;
Сервер Z39.50 при доступе к конфигурационной информации и информации о регламентации доступа к базам данных.

Рис. 2.7. Каталог LDAP

Разработана и реализована технология регулярной актуализации информации о персонах (сотрудниках организации), предназначенной для внешнего доступа с использованием сетевых протоколов (HTTP и LDAP). Технология состоит из следующих этапов:

1. Первичное наполнение и обновление каталога LDAP организации осуществляется посредством репликации информации из кадровой базы данных организации. С этой целью реализован соответствующий программный модуль.

2. Информация научно-организационного характера (описание научных интересов и т.п.) заносится в каталог LDAP самим сотрудником. Для этого разработано web-приложение, позволяющее заносить информацию в каталог LDAP через web-интерфейс посредством заполнения html-форм.

3. Занесенная в LDAP информация о сотруднике отображается на сайте организации. С этой целью создано web-приложение, которое получает информацию из каталога LDAP и отображает ее на web-сайте.

Создан пилотный вариант интегрированной информационной среды Института.

Система состоит из модулей (подсистем), которые могут изменяться без существенной переработки всей системы. Основным объектом системы, через который осуществляется интеграция разных модулей, является персона (сотрудник СО РАН). Точкой входа информации о персоне является кадровая база. Информация из системы может представляться на сайте ИВТ, на портале СО РАН и на портале РАН. Созданы новые модули системы:

кадровая база данных;
каталог LDAP;
публикации;
ученый совет;
проекты;
ПРНД;
закупки института по грантам;
сайт Института.

Системы Публикации и Проекты могут использоваться всеми организациями СО РАН. Для функционирования системы используется СУБД MySQL, основной язык программирования – PHP, Web-сервер Apache.

Раздел 2. Создание формальных моделей распределенных систем с учетом ресурсных ограничений и соответствующих методов анализа и верификации. Разработка стандартов метаданных для описания информационных и вычислительных ресурсов, пригодных для решения задач интеграции разнородных источников данных, создания интеллектуальных агентов и распределенного моделирования. Создание прототипа системы распределенного мониторинга на примере задачи мониторинга состояния окружающей среды. Продолжение работ по созданию корпоративного каталога СО РАН.

Cформулированы общие принципы построения моделей информационных систем, работающих как со структурированными данными (информацией), так и со знаниями. Показано, что под «информационной системой» следует понимать только такие комплексы аппаратно-программных средств для работы со структурированными данными, которые позволяют осуществлять информационный поиск документов не только по их именам, но и по атрибутам. При этом важнейшая отличительная черта информационной системы состоит в том, что она работает не с данными, а исключительно с метаданными, при этом информационная система обязательно снабжена каталогом – множеством унифицированных структурированных документов-описаний (фактически объединяющем поисковые образы исходных документов).

Установлено, что хорошая структуризация документов, необходимая для эффективной организации информационного поиска, обеспечивается выбором адекватной модели информационной системы, которая позволяет выделить достаточное количество атрибутов документа, выступающих в качестве поисковых признаков, образующих поисковый образ документа. При этом для организации сложных информационных запросов необходимо и достаточно, чтобы информационно-поисковый язык, при помощи которого описывается каталог системы, обладал тезаурусом.

Разработана и реализована технология создания тезауруса предметной области на основе предметного указателя специализированных энциклопедий. В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий). В качестве дескрипторов (т.е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях.

Разработанная технология обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный этап построения тезауруса с минимальным привлечением специалистов – экспертов в данной предметной области.

Продолжено наполнение функциональными сервисами web-портала «Атмосферные аэрозоли Сибири» (http://web.ict.nsc.ru/aerosol/), аккумулирующего накопленный до настоящего времени эмпирический материал о составе и распределении атмосферных аэрозолей на территории Западной и Восточной Сибири. Для электронного атласа разработана информационная модель и построена структура метаданных на основе обобщенного подхода для формирования и заполнения файлов входных данных, включая их унификацию и связи.

Создан пилотный вариант информационно-аналитического Интернет-портала для решения задач эколого-экономического моделирования. Разработаны алгоритмы извлечения характеристик отражения подстилающей поверхности Земли из данных космических наблюдений и организован доступ к этим данным с использованием сервера Google Map (http://maps.google.com).

Разработана интерактивная среда / web-сервис для удаленного доступа и обработки временных рядов измерения субмикронной фракции атмосферных аэрозолях (АА), хранящихся на сервере ИХКиГ СО РАН. Разработаны алгоритмы обработки биологических (биосубстраты) и ботанических данных с использованием сервера геопространственных данных. Реализовано управление массивами пространственных данных на сервере геопространственных данных на основе Web -портала для организации каталога данных и разделяемого доступа к данным. На кластере ИВТ СО РАН установлен программный код модели WRF, для обеспечения удаленного доступа (http://atmos.atmos.ict.nsc.ru/) и создания соответствующего web-сервиса.

Раздел 3. Построение интеллектуальной системы обработки запросов на основе технологии распределенных вычислений. Реализация функций управления моделями данных и метаданных на основе программного модуля-диспетчера. Разработка алгоритмов поиска и усвоения информации, с использованием метаданных. Создание прототипа системы интеллектуального поиска документов математического содержания

Разработана технология интеграции ресурсов из распределенных разнородных каталогов. В основу технологии положена расширяемая модель данных интеграционного каталога и унификация процедур загрузки и извлечения данных из разнородных источников. В отличие от существующих популярных интеграционных решений (ISO-23950, LDAP), было применена т.н. «ссылочная интеграция», когда объектами интеграционной функции являются не данные, содержащиеся в ресурсах, а сами ресурсы. При этом содержание ресурсов обрабатывается исключительно для извлечения связей с другими ресурсами, а не для целей сохранения в собственной БД. Результатом такой интеграции является система, концептуально напоминающая современные web-порталы, – предоставляя интегрированный доступ к разнообразным ресурсам, она не содержит никаких сведений о них, за исключением параметров доступа и базовых метаданных.

Технология апробирована на 7 каталогах, содержащих данные о научно-организационных аспектах деятельности организации: сотрудниках, их публикациях, участии в семинарах и конференциях: БД «Сотрудники и организации СО РАН», LDAP-каталог сотрудников СО РАН, LDAP-каталог сотрудников ИВТ СО РАН, Информационная система «Конференции», сайт журнала «Вычислительные технологии», ученый совет ИВТ СО РАН, каталог трудов сотрудников ИВТ СО РАН (на базе сервера Z39.50). Между отдельными каталогами реализованы сервисы, осуществляющие информационный обмен на базе стандартных технологий. В частности, для информационной системы «Конференции» разработаны функции для автоматического формирования заявок на основе данных из LDAP-каталога и БД «Сотрудники и организации СО РАН».

В результате сформирован и опубликован интегрированный каталог аннотированных ссылок на внешние ресурсы. Для публикации каталога разработан специализированный пользовательский web-интерфейс, который представляет собой единую точку доступа, как к интегрированному каталогу, так и к внешним ресурсам. Таким образом, комбинирование технологий извлечения, анализа, хранения и публикации данных позволило сформировать единую информационную (виртуальную) среду, в рамках которой предложены решения следующих задач:

унифицированный поиск ресурсов, относящихся к разнородным каталогам;
установление связей между ресурсами из разнородных каталогов;
ссылочная интеграция сведений, относящихся к предметному объекту (организации, персоне, публикации и пр.), в одной точке;
организация взаимодействия каталогов с целью обмена и репликации данных.

Раздел 4. Разработка системы обеспечения безопасности использования ресурсов и разграничения доступа на основе криптографических методов. Анализ существующих криптографических протоколов с целью определения их соответствия задачам обеспечения требуемой конфиденциальности при работе с распределенными системами накопления, хранения и обработки данных. Реализация системы управления криптографическими сертификатами в рамках распределенной среды и её интеграция со службой каталогов СО РАН.

На основе анализа типовых сценариев работы информационных серверов (WWW, FTP, 39.50 и т.п.) сформулированы задачи, которые должны решаться при организации системы контроля доступа к распределенным информационным ресурсам. Рассмотрены возможности технологии LDAP как наиболее подходящей для построения подобной системы. Однако для достижения цели, т.е. создания системы управления доступом к распределенным информационным ресурсам, необходимо решения в рамках технологий LDAP ряда дополнительных задач:

создание логической надстройки над корпоративной распределенной справочной системой (КРСС);
создание информационной составляющей системы управления доступом к распределенным информационным ресурсам (СУДРИР);
адаптация серверного программного обеспечения, предоставляющего доступ ресурсам (Z39.50, WWW, FTP и т.д.), к возможности работы в соответствии с правилами СУДРИР;
создание интерфейсов для управления СУДРИР.

При использовании технологий LDAP для создания КРСС перечисленные требования могут быть удовлетворены. Наличие КРСС является необходимым условием для успешного построения СУДРИР. Выбор технологии LDAP для построения СУДРИР оставляет открытыми вопросы реализации механизмов контроля управления доступом к распределенным информационным ресурсам. Эта реализация зависит от выбора модели СУДРИР. Если выделить основные функциональные элементы СУДРИР:

функция идентификации клиента корпоративной распределенной информационной системы – КРИС (аутентификация),
функция задания правил доступа к ресурсам для различных категорий клиентов,
функция определения прав конкретного клиента КРИС (авторизация),
функция обеспечения соответствия прав клиента КРИС уровню предлагаемого сервиса КРИС,
функция учета используемых ресурсов (биллинга);

то только элемент 1 (аутентификация клиента) может быть реализован в технологиях LDAP без каких-либо дополнительных построений над КРСС. Реализация других элементов зависит от выбранной модели контроля доступа к распределенным информационным ресурсам. В зависимости от степени «распределенности» перечисленных выше элементов можно выделить следующие две модели.

1. Простая модель, в которой КРСС используется только для аутентификации клиента встроенными средствами LDAP-серверов.

2. Модель, в которой формулирование, проверка и реализация прав клиента происходит на основе технологий LDAP. При этом возможны вариации способов хранения списков доступа (ACL – Access Control List) и способов привязки к ним информационных объектов.

2a. В наиболее простом варианте списки доступа (ACL – Access Control List) формулируются на основе встроенных механизмов LDAP-серверов как наборы штатных серверных инструкций (ACI - Access Control Instructions) по управлению доступом к элементам дерева КРСС.

2b. Более сложным представляется вариант, когда ACL формулируются на основе специальной схемы данных – набора объектов и атрибутов каталога КРСС. Этот способ позволяет реализовать полный контроль над доступом к информационным ресурсам в соответствии с определенными выше требованиями.

Оба варианта модели 2 требуют, чтобы, с одной стороны, в каталоге КРСС (корпоративном LDAP-каталоге) существовали объекты определенного класса – описания информационных ресурсов, интегрированных в КРИС, а с другой – чтобы информационные серверы КРИС (WWW, FTP, Z39.50 и т.п.) при предоставлении доступа к ресурсу всегда обращались к соответствующим описаниям. На основе анализа кодов возврата (вариант а) или значений некоторых атрибутов (вариант b) информационный сервер должен принять решение о соответствии прав клиента КРИС уровню предлагаемого сервиса КРИС.

Рис. 2.8. Модели контроля доступа к распределенным ресурсам

Эффективность применения той или иной модели контроля доступа к распределенным информационным ресурсам может быть определена только для определенной информационной системы с конкретной топологией и информационными ресурсами.

Раздел 5. Опытная эксплуатация отдельных компонент системы сетевых мониторов, предназначенных для анализа потоков данных и функционирования приложений в СПД СО РАН.

Построена модель аппаратного сегмента мониторирующей системы (МС – блока невозмущающего сетевого мониторинга) на основе имеющегося оборудования и существующей инфраструктуры корпоративной сети СО РАН. Это дало возможность оценить характеристики реальных сетевых потоков, которые должна обрабатывать МС уже при существующих загрузках, и оценить возможности масштабирования МС при планируемом расширении каналов в 2-4 раза. На существующих загрузках получены следующие интегральные характеристики мониторируемого потока:

мощность мониторируемого потока составляет около 150 Мбит/сек, или ~33 тыс. пакетов/сек, достигая в отдельные периоды величин 215 Мбит/сек и более, или ~47 тыс. пакетов/сек и более;
объемы статистических данных, собираемых на интервале 60 секунд, составляют 6.5 – 7.5 Мбайт; объем набора данных, собранного за час, составляет около 420 Мбайт;
данные минутного интервала, пригодные для обработки статистическими скриптами, составляют около 150000 строк. Обработка часовой статистики средствами интерпретируемых скриптов (awk, perl, sh) занимает около 2 минут даже без использования специальных приемов оптимизации; обработка суточной статистики занимает около часа.

Возможность анализа «живого» потока данных внешнего подключения большой корпоративной сети (как в реальном масштабе времени, так и ретроспективно) обеспечивает возможности применения достаточно развитых к настоящему времени методов анализа трафика, применяемых как в открытых и общедоступных системах анализа трафика и обнаружения вторжений (например, SNORT, BRO), так и в ряде фирменных продуктов обеспечения безопасности, базирующихся на подобных принципах.

В отечественный практике исследования реального трафика корпоративной сети при указанных загрузках производятся впервые. Предварительный анализ доступных данных позволил надежно идентифицировать наличие в сети ряда нелегитимных приложений, участвующих в файлообменных сетях, предположительно занимающихся распространением контрафактной мультимедийной продукции, и обеспечил как необходимую административную реакцию, так и блокирование этих приложений.

СОДЕРЖАНИЕ

Новости

06.06.14 Заседание диссертационного совета 10 июня 2014 г.

30.05.14 Новые поступления в Читальный зал ВМИ за апрель-май

30.05.14 Новые поступления в Отделение ГПНТБ за апрель-май

06.05.14 С успешной защитой!

24.04.14 Заседания диссертационного совета 29 апреля 2014 г.

22.04.14 Новые поступления в Читальный зал ВМИ за март

>> Архив новостей