С. М. Аракелян, А. В. Духанов, В. Г. Прокошев, С. В. Рощин
Самоорганизующаяся информационная среда с децентрализованным...
17 downloads
437 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
С. М. Аракелян, А. В. Духанов, В. Г. Прокошев, С. В. Рощин
Самоорганизующаяся информационная среда с децентрализованным управлением для взаимодействия образовательных учреждений
●
Аннотация В настоящей работе речь идет об опыте Владимирского го сударственного университета в разработке и реализации ин формационнотелекоммуникационных сетей нового поколения для эффективного информационного обмена между учреждени ями образования различных уровней с применением модели пиринговых сетей и технологий Semantic Web. В статье подроб но рассматриваются используемые передовые информационные технологии, доказывается необходимость использования де централизованного подхода к организации сетевого взаимодей ствия и описывается текущая стадия реализации информацион ной среды.
1
ОСНОВНЫЕ ИДЕИ РЕАЛИЗАЦИИ
Развитие Интернета повлекло за собой перемены практи чески во всех ключевых областях человеческой деятельности, включая науку, образование, бизнес и др. Новые идеи, возник шие в последние годы, способны перевести глобальную сеть на более высокую ступень развития, нежели просто обмен файла ми и электронной почтой. В данной работе речь пойдет о реализации во Владимир ском государственном университете в рамках ведомственной целевой программы «Развитие научного потенциала высшей школы» (2006—2008) по заказу Министерства образования и нау ки Российской Федерации двух проектов, в которых заложены
440
яркие идеи развития информационнотелекоммуникационных технологий и Интернета. Первая идея, на практике доказавшая право на жизнь, состо ит в уходе от классических простых схем «клиент—сервер» и пе реходе к распределенной модели с равноправными узлами без явно выделенного сервера (проект «Разработка специализирован ной распределенной информационной системы организации многопользовательского доступа к результатам научных исследо ваний высшей школы с децентрализованным управлением»). Вторая идея — инициатива по созданию «интеллектуально го» Интернета, получившая название «Semantic Web» («семанти ческий веб»). Главная задача состоит в разработке и внедрении ряда новых подходов, которые позволили бы в цепочку «Интер нет — пользователь» ввести еще одно звено — «автоматический агент», который был бы наделен достаточным интеллектом, что бы самостоятельно выполнять поиск и обобщение необходимой пользователю информации (проект «Разработка методики по строения поисковой машины для системы порталов Федераль ного агентства по образованию с возможностью семантическо го поиска информации на основе группы технологий в рамках инициативы по созданию интеллектуального Интернетконсор циума W3C»).
2
РАС П Р Е Д Е Л Е Н Н А Я ИНФОРМАЦИОННАЯ СИСТЕМА С Д Е Ц Е Н Т РА Л И З О В А Н Н Ы М У П РА В Л Е Н И Е М
Основными целями данного проекта являются: обеспечение механизмов взаимодействия участников на учнообразовательного сообщества Российской Федерации в рамках научнообразовательной деятельности и интегра ции в мировую систему образования (Болонский процесс); ● преодоление различной степени подготовленности и раз розненности участников системы образования; ● консолидация научнообразовательных информационных ресурсов, базирующихся на различных стандартах и плат формах; ● создание мощной системы поиска информации в рамках предметных областей, специфичных для системы образова ния и научной деятельности. Что вообще мы подразумеваем, когда говорим о взаимодей ствии в рамках научнообразовательного сообщества? Очевид но, что взаимодействие подразумевает обмен информацией в том или ином виде (электронные документы, электронная почта, мгновенные сообщения, телеконференции, мультимедиа, ●
441
тематические форумы и др.). Кроме того, взаимодействие в рам ках системы образования может подразумевать и взаимодей ствие на официальном уровне (нормативные документы, сбор данных и др.). Исторически этот перечень уже сформировался среди пользователей Интернета, и вопрос, скорее всего, сводит ся к спорам вокруг способа формирования сообщества пользо вателей. Теперь необходимо определиться, какая среда должна быть создана в рамках сетевого взаимодействия. Вопервых, среда должна быть открытой, т. е. позволять консолидировать резуль таты исследований участников, где бы они ни находились гео графически. Вовторых, мы должны обеспечить безопасность, т. е. не допустить появления в среде неадекватного общим зада чам содержимого. Кроме того, в среде должна быть возмож ность всегда определить источник (автора) опубликованных материалов, а закрытое содержимое должно быть защищено от неавторизованного доступа. Втретьих, среда должна активно развиваться, т. е. используемые технологии, подходы и стандар ты должны в полной мере соответствовать потребностям поль зователей и даже превосходить их. В противном случае недо статок в технологической реализации сетевого взаимодействия может стать серьезным препятствием в развитии информацион ного обмена между участниками научнообразовательного про цесса. Вчетвертых, среда должна устраивать все категории пользователей. Впятых, среда должна поддерживаться самим сообществом. Это означает, что в среде не должно быть объек та, роль которого доминирует над всеми остальными объекта ми. Все объекты (узлы) среды должны являться равноправными и при этом нести равную ответственность за собственное со держимое. Сосредоточение роли поддержки системы в «одних руках» приводит к появлению альтернативных систем, конкури рующих с данной. Вшестых, система является географически распределенной. Этот фактор очевиден. И, наконец, вседьмых, среда должна определять унификацию системы. В этом случае не обходимы соглашения (или унификация) если уж не платформ и архитектур, то протоколов взаимодействия для того, чтобы сде лать возможным объединение пользователей Windows и UNIX, PC и MAC, приверженцев Java и .NET и по другим признакам. Рассмотрим способы организации вычислительных систем и определим, какой из них наилучшим образом подходит к вы шеперечисленным требованиям. На рисунке 1 представлена классификация вычислительных систем. Когда речь идет о централизованной вычислительной сис теме, то под ней подразумевают однокомпонентное решение, включающее наряду с суперкомпьютерами одно и многопро цессорные вычислительные системы. Очевидно, что данный класс вычислительных систем нам не подходит.
442
Рис. 1. Иерархическая классификация вычислительных систем
Распределенная система предполагает, что компоненты расположены в различных вычислительных системах, которые объединены в сеть и координируют свои действия путем обме на сообщениями. Такой класс вычислительных систем более предпочтителен для наших требований. Остается определиться, какой же из подклассов выбрать: клиентсерверное решение или технологию пиринговых сетей. Рассмотрим эти подклассы. В начале приведем основную терминологию, которая будет использоваться при рассмотрении классов вычислительных систем. Клиент — сущность (устройство, программный модуль и др.), которая генерирует запрос, но не способна обрабатывать запросы самостоятельно. Сервер — сущность, которая обрабатывает запросы от дру гих сущностей (клиентов), но не генерирует запросы. Узел (peer) — сущность (программа, модуль и др.), идентич ная по функциональности другим узлам; может полностью или частично совмещать роли клиента и сервера.
2.1. КЛИЕНТСЕРВЕРНОЕ РЕШЕНИЕ В вышеприведенных терминах клиентсерверное решение определяет взаимодействие сущностей с ролями «клиент» и «сервер».
443
Рис. 2. Модель «клиентсервер»
На рисунке 2 представлена типовая модель «клиент—сер вер». Основной отличительной чертой клиентсерверного реше ния является сосредоточение клиентов вокруг одного или не скольких серверов. Отсюда вытекают преимущества и недостатки данной модели. Преимуществами модели «клиент—сервер» являются: ● выделенная инфраструктура с мощными серверами позво ляет обеспечить высокие показатели производительности; ● администрирование и поддержка осуществляются центра лизованно; ● возможность обеспечить высокую степень безопасности, включая физическую защиту серверов; ● архитектура приложений базируется на уже определенной единственной платформе. Недостатками модели являются: ● дороговизна оборудования; ● сложность развертывания и конфигурирования; ● предоставление сервисов для всех клиентов прекращается в случае сбоя;
444
ответственность за информационное наполнение лежит на определенном круге людей, ресурсы которых ограничены. На рисунке 3 представлена упрощенная схема инфраструк туры поддержки клиентсерверного решения. Она иллюстрирует, какие высокие организационные и фи нансовые затраты необходимы, чтобы осуществить развертыва ние серверной части. Если происходит сбой в работе сервера, то предоставление необходимых сервисов для пользователей приостанавливается до устранения неполадок. Ограничение воз можностей информационного наполнения (изза ограниченных ресурсов ответственных лиц) делают рассматриваемую модель неприемлемой в свете вышеизложенных требований, предъявля емых к среде. ●
Рис. 3. Упрощенная схема инфраструктуры поддержки клиентсервер ного решения
445
2.2. МОДЕЛЬ ПИРИНГОВЫХ СЕТЕЙ Одной из ярких идей по трансформированию Интернета, как уже отмечалось выше, является уход от классических прос тых схем «клиентсервер» и переход к распределенной модели с равноправными узлами без явно выделенного сервера (Multiagent PeertoPeer Distributed Model). Предпосылкой к такому переходу послужило повсеместное внедрение высокоскоростных схем доступа пользователей в Ин тернет, например, таких, как xDSL, а также значительные успе хи производителей компьютеров, вычислительная мощность и объемы дискового пространства которых уже сегодня достигли величин, соизмеримых с характеристиками вчерашних серве ров. При таких характеристиках компьютеры пользователей Интернета могут безболезненно совмещать роли клиента и сер вера одновременно, генерируя сами и обрабатывая запросы от других клиентов.
Рис. 4. Модель «узел—узел» (P2P, «PeertoPeer»)
446
При использовании такой модели вместо терминов «кли ент» или «сервер» более уместным является использование тер мина «узел» (рис. 4). В настоящее время для таких сетей ис пользуются также термины «точка—точка», «пиринговые сети» (от англ. «peertopeer»). Пиринговые сети включают множество узлов, каждый из которых совмещает роли клиента и сервера (сотни тысяч и миллионы). В некоторых архитектурах такого подкласса сетей возможно наличие выделенных узлов, ответственных за коорди нацию работы сети и поиск информации (гибридная модель P2P). Главным преимуществом пиринговых сетей является консо лидация ресурсов значительного количества узлов (в современ ных файлообменных сетях, построенных по этому принципу, — до сотен миллионов), что превышает возможности даже самых дорогостоящих серверных систем. Кроме того, работа всей се ти в целом не зависит от отдельно взятого узла, а его выход из строя приводит к автоматическому перераспределению нагруз ки и его замещению другим узлом. Также преимуществами пиринговых сетей являются: ● открытость инфраструктуры (любой может стать полно правным участником взаимодействия, просто установив не обходимое ПО); ● самоорганизующаяся логическая сеть с минимальным взаи модействием с выделенными координирующими узлами или полностью автономная; ● прямое взаимодействие узлов; ● отсутствие необходимости в администрировании и под держке инфраструктуры за исключением координирующих узлов (при их наличии); ● высочайшая отказоустойчивость системы даже при сбоях у большей части участников; ● распределение ответственности за информационное на полнение между всеми участниками; ● контроль доступа к собственным ресурсам со стороны каж дого узла распределяет ответственность за разграничение доступа. Недостатками такой модели являются: ● необходимость разработки универсальных протоколов вза имодействия; ● необходимость работать в гетерогенной среде (Windows, UNIX, Mac и др.); ● сложности с обновлением программного обеспечения, ус тановленного на сотнях и тысячах компьютеров; ● для обеспечения подлинности информационных ресурсов может потребоваться дополнительная инфраструктура (PKI). Преимущества соответствуют всем требованиям, предъявля емым к информационной среде. Большинство недостатков уст
447
раняется путем применения современных информационных технологий, включая кроссплатформенные средства разработки программного обеспечения на базе языковых средств Java. Среди существующих реализаций пиринговых сетей можно выделить множество действующих файлообменных систем типа eDonkey, Gnutella, KAD и др. Все они используют принцип со вмещения ролей клиента и сервера каждым участником сети и снискали огромную популярность. В пользу данного подхода свидетельствуют также попытки многих производителей про граммного обеспечения интегрировать в свои продукты соот ветствующие протоколы и программные модули. Кроме того, в некоторых странах запущены проекты перехода правитель ственных структур на подобные технологии, например государ ственный департамент США реорганизовал свои сети по прин ципу пиринговых моделей.
2.3. ПРИНЦИПЫ РЕАЛИЗАЦИИ С П Е Ц И А Л И З И Р О В А Н Н О Й РАС П Р Е Д Е Л Е Н Н О Й ИНФОРМАЦИОННОЙ СИСТЕМЫ Коллективом кафедры физики и прикладной математики Владимирского государственного университета на протяжении последних нескольких лет ведется разработка модели универ сальной самоорганизующейся информационной среды с де централизованным управлением для организации взаимодей ствия учреждений системы образования. Исходя из требований, предъявляемых к информационной среде, архитектура информационной среды декларирует следу ющие базовые принципы взаимодействия участников: ● все участники сетевого взаимодействия равноправны и мо гут выполнять роль как клиента, так и сервера; ● в сети используется собственная, абстрагированная от ис пользуемых протоколов транспорта адресация узлов; ● алгоритм сетевого взаимодействия не требует наличия в се ти выделенных узлов с сервисами для поддержания инфра структуры, т. е. сеть наделена способностью самооргани зации; ● каждый узел сети может одновременно использовать сер висы других узлов и предоставлять собственные сервисы; ● каждый узел способен выполнять маршрутизацию сообще ний от других узлов; ● сеть продолжает функционировать, если в ней остается ми нимум два работоспособных узла, а сбой отдельно взятого узла не приводит к прекращению работы сервисов; ● узлы могут объединяться в группы с целью консолидации ресурсов для обработки информации или совместного пре доставления сервисов;
448
все узлы построены по принципу открытой архитектуры, а их функциональность может легко расширяться путем добавления новых модулей. Принцип открытой архитектуры гарантирует также, что каждый пользователь должен только установить на своем компьютере однотипный программный модуль, после чего он сразу становится полноправным участником сетевого взаимо действия. На рисунке 5 представлена модель сетевого взаимодей ствия. В данной модели в качестве среды взаимодействия исполь зуется инфраструктура Интернета. Внутренний уровень (ядро) системы сетевого взаимодействия формируется из равноправ ных узлов участников на основе архитектуры пиринговых сетей. Внешние пользователи имеют доступ к информации по средством использования обычного браузера (протокол HTTP). ●
Рис. 5. Модель сетевого взаимодействия
449
При такой схеме защищенность передачи информации обеспе чивается стандартными криптографическими протоколами. Основными характеристиками ядра являются: ● децентрализованное управление — координирующие сер веры в рамках ядра системы не требуются; ● масштабируемость — является немедленным следствием децентрализованного управления; расширение количества узлов внутреннего уровня (непосредственно участников взаимодействия) требует лишь установки типового про граммного обеспечения; ● контроль подлинности информации — в рамках внутрен него уровня для отслеживания подлинности информации используются специализированные протоколы и электрон ная цифровая подпись (ЭЦП); ● самоорганизация сети внутреннего уровня (ядра) — в про цессе самоорганизации характеристики сети сходятся к максимальным значениям без воздействия со стороны внешних систем; ● низкая стоимость владения (TCO) — распределение инфра структуры ядра между участниками сетевого взаимодей ствия снижает требования к характеристикам узлов; ● динамический характер сети (adhoc connectivity) — модель P2P подразумевает, что состояние участников взаимодей ствия постоянно изменяется — узлы могут появляться, от ключаться, подвергаться поломкам; такие изменения не приводят к прекращению работы всей системы; ● высокое быстродействие — консолидация ресурсов значи тельного числа участников подразумевает высокие характе ристики быстродействия, значительные скорости обмена данными, а также большие объемы баз данных; ● безопасность — обеспечивается за счет использования инф раструктуры шифрования с открытым ключом, изоляции кода, выполняемого на узлах, технологий цифрового управ ления правами (DRM), применения серверов защиты и др.; ● открытость протоколов доступа и обмена информацией — протоколы базируются на открытых стандартах (XML, SOAP и др.) и являются открытыми; ● устойчивость к сбоям — обеспечивается встроенными в уз лы алгоритмами перераспределения нагрузки; ● кроссплатформная реализация — базирование протоколов взаимодействия на открытых стандартах позволяет реали зовать программные средства для различных платформ (Windows, UNIX, Mac и др.). На рисунке 6 изображена типичная архитектура узла сис темы, которая включает все необходимые компоненты для его функционирования. За счет использования архитектуры P2P системные требо вания к программноаппаратной инфраструктуре узла на поряд
450
Рис. 6. Типичная архитектура узла системы
ки ниже, чем в случае централизованного серверного решения. По этой причине для развертывания узла системы подойдет уже имеющаяся инфраструктура практически любого учебного заве дения. Все это приводит к снижению суммарной стоимости вла дения системой Total Cost of Ownership (TCO). Программное обеспечение узлов ядра системы определяет два типа пользователей: ● внутренние пользователи (организации/учреждения) — яв ляются собственно узлами пиринговой сети (ядра) и име ют полный контроль над публикуемой информацией собственного узла; ● внешние пользователи (Интернет) — используют для дос тупа к информации сети специальный webинтерфейс любого из узлов; являются только потребителями информа ции. Работа системы в гетерогенной среде обеспечивается за счет использования платформы JXTA (рис. 7). Платформа JXTA разработана открытым сообществом про граммистов при поддержке фирмы Sun. Она представляет собой спецификацию и эталонную реализацию на языке Java. Прило жения на основе JXTA могут функционировать в гетерогенной среде с использованием протоколов как межсетевого уровня
451
Рис. 7. Архитектура систем P2P на основе платформы JXTA
Рис. 8. Логическая архитектура узла системы
(IP), так и уровня приложений (HTTP). Узлом в архитектуре JXTA может быть любое устройство, включая мобильный телефон или технологический датчик. Логическая архитектура узла системы приведена на рисун ке 8.
452
Уровень базовых системных сервисов содержит все необ ходимые компоненты системного уровня для обеспечения ра ботоспособности системы. Уровень управления системой обес печивает мониторинг работы системы, а также отвечает за ее восстановление после сбоев. Уровень приложения содержит изменяемый набор пользовательских сервисов и приложений для взаимодействия клиентов по децентрализованной схеме. И самый верхний уровень представления является интерфейсом для внутренних и внешних пользователей. Взаимодействие узлов системы может обеспечиваться по следующим протоколам: ● Peer Resolver Protocol (PRP) — используется для передачи сообщения от одного узла любому количеству других узлов. ● Peer Discovery Protocol (PDP) — используется для анонсиро вания и поиска ресурсов. ● Peer Information Protocol (PIP) — используется для получе ния информации о состоянии узла. ● Pipe Binding Protocol (PBP) — используется для создания индивидуального канала взаимодействия двух узлов. ● Peer Endpoint Protocol (PEP) — используется для поиска пути от одного узла к другому. ● Rendezvous Protocol (RVP) — используется для передачи сообщений через Сеть. Теперь перейдем к рассмотрению сервисов метаописания и поиска информационных ресурсов, который базируется на принципах Semantic Web. Здесь речь пойдет о применении ин теллектуальных технологий описания информационных ресур сов. Такое описание становится «понятным» машине; с его помощью можно быстро осуществлять многокритериальный поиск необходимых информационных ресурсов, включая муль тимедийные — видео, аудиоклипы, изображения.
3
МЕТОДИКА ПОСТРОЕНИЯ ПОИСКОВОЙ МАШИНЫ
Инициатива создания «интеллектуального» Интернета (Semantic Web) является яркой идеей развития инфомационно телекоммуникационных сетей. Главная задача семантического web состоит в том, чтобы сделать информацию, содержащуюся в Интернете, пригодной для автоматизированной обработки за счет внедрения в исполь зуемые сегодня форматы данных семантических тегов. Однако для того, чтобы автономные программные модули были в со стоянии без помощи человека бороздить просторы Интернета, необходимо сделать информацию, содержащуюся в Сети, понят ной не только человеку, но и машине.
453
Наряду с тем, что в классическом web метаданные играют важную роль, в системах, которые построены на принципах пи ринговой модели, сервисы метаданных являются критически важными. Информационные ресурсы в системах P2P больше не организованы в единую гипертекстовую базу данных, и для их поиска наличие метаописаний просто необходимо. В случае с обычными файлообменными системами нет не обходимости использовать специальные подходы, чтобы, на пример, найти «все видеофильмы по физике». В ряде других сценариев, например при обмене обучающи ми материалами, метаданные и запросы более сложны и пост роены с использованием специальных стандартов, например IEEELOM/IMS, DC, а запросы могут быть значительно более сложными и основанными на необходимости учета семантичес кой нагрузки. Для решения этой задачи различными разработчиками под эгидой Word Wide Web Consortium (W3C) в рамках проекта Semantic Web был создан ряд стандартов, которые должны ис пользоваться с целью обеспечения восприятия машиной инфор мации в Интернете. К этим стандартам, в частности, относятся: ● Extensible Markup Language (XML) (как язык построения структурированных документов); ● Resource Description Framework (RDF); ● Ontology Web Language (OWL); ● DARPA Agent Markup Language (DAML) и др. Все эти стандарты представляют механизм структуриро вания информации в сети Интернет таким образом, чтобы ее восприятие становилось доступным программным модулям со способностью выполнять логический анализ и генерировать необходимые выводы (так называемый доказательный уровень в стеке Semantic Web). Вышеперечисленные технологии нашли успешное приме нение в различных областях человеческой деятельности: ● Библиотека изображений NASA ● Интеграция данных в Audi ● Поиск работы в Швейцарии ● Поиск информации для энергетического консорциума EnerSearch (Sweden, United States, the Netherlands, Germany, France) и др. Как же соотносятся между собой технологии Semantic Web и искусственного интеллекта? Современные алгоритмы искусственного интеллекта еще не способны извлекать и обобщать смысловую составляющую на равне с человеком. Однако Semantic Web позволяет «промарки ровать» документ так, чтобы смысловая составляющая могла восприниматься (без понимания) компьютером для обработки с применением формальных методов. Отсюда следует, что Semantic Web — промежуточный шаг в развитии информацион
454
ных технологий, который предшествует появлению пол ноценных систем искусствен ного интеллекта. На рисунке 9 представлена структура стека Semantic Web. Структура стека техноло гий Semantic Web (SW) бази руется на хорошо известных стандартах: ● Unicode — двухбайтовая кодировка символов; ● URI (Unified Resource Рис. 9. Структура стека Semantic Identifier) — стандарт для Web построения унифициро ванного идентификатора ресурса, например, http:// www.w3c.org; ● XML, XMLschema — стандарты расширяемого языка раз метки (XML — eXtensible Markup Language) и описания структуры документов. Эти технологии известны достаточно давно, и на них ба зируются более высокие уровни стека технологий Semantic Web. Необходимое программное обеспечение уже разработано. Рассмотрим отдельно более высокие уровни стека техноло гий.
3.1. RDF Стандарт RDF занимает третий уровень стека технологий SW и характеризуется следующим образом: ● универсальный стандарт описания информационных ре сурсов; ● в значительной степени зависит от стандарта URI; ● в основу положена теория графов (возможны только би нарные связи); ● документ RDF может иметь одно из представлений: — графическое (граф); — RDF/XML — сериализация RDF в виде документа XML; — N3 — нотация, содержащая множество триплетов (ре сурссвойствозначение); ● позволяет описывать информационный ресурс в терминах одного или нескольких выбранных словарей; ● не позволяет определять отношения терминов словарей; ● механизм реификации (reification) позволяет описывать значения свойств ресурсов. Спецификации RDF в терминах URI и XML приведены на http://www.w3.org.
455
Рис. 10. Схема графической нотации RDF
На рисунке 10 приведен пример графической нотации RDF. Данная схема показывает, что информационный ресурс www.cit.gu.edu/~db принадлежит Девиду Биллингтону. Его теле фон 3975 507. Он использует другой информационный ресурс www.cit.gu.edu.au/~arock/defeasible/Defeasible.cgi, владельцем кото рого является Эндрю Рок. В системе нотаций №3 данная схема формально выглядит следующим образом: (http://www.cit.gu.edu.au/~db, http://www.mydomain.org/site owner, “David Billington”) (“David Billington”, http://www.mydomain.org/phone, “3875 507”) (“David Billington”, http://www.mydomain.org/uses, http:// www.cit.gu.edu.au/~arock/defeasible/Defeasible.cgi) (“www.cit.gu.edu.au/ ~ arock/defeasible/Defeasible.cgi”, http://www.mydomain.org/siteowner, “Andrew Rock”) А так она выглядит в XML: David Billington Язык RDFS позволяет структурировать термины используе мых словарей в виде простейшей иерархии классов. Документ RDFS является документом RDF. RDFS является надстройкой над RDF и позволяет описать классы и отношения между терминами словарей. На рисунке 11 изображен пример позиционирования RDF и RDFS. Непрерывные стрелки обозначают отношения классов, пунктирные — отношение экземпляров к классам.
456
Рис. 11. Пример позиционирования RDF и RDFS
Экземпляр описания «Дискретная математика, читаемая Де видом Биллингтоном», связан с классами «Course», «Associate Professor» и атрибутом «isTaughtBy». Сериализация RDFS в виде RDF/XML представлена в нижеприведенном коде. The class of lecturers. All lecturers are academ ic staff members. The class of academic staff members
457
The class of staff members The class of courses It relates only courses to lecturers. ... Благодаря такому описанию информационных ресурсов, совместимому с XML, можно строить необходимые запросы для получения списка нужных данных. Для этого разработан специ альный язык запросов RDF Query Language (RDQL). Исходя из вышеизложенного, мы можем сформулировать следующие выгодные с точки зрения реализации системы «ин теллектуального» Интернета свойства RDF+RDFS: ● RDF — основа для представления и обработки метаинфор мации; ● RDF основан на простой графовой модели, основными эле ментами которой являются «ресурс», «свойство» и «выраже ние»; выражение — это триплет «ресурссвойствозначе ние»; ● для RDF существует синтаксис XML, поддерживающий прос той обмен документами метаописаний; ● RDF поддерживает описание простейших семантических связей между ресурсами; ● RDF основан на децентрализованном подходе и поддержи вает последовательное развитие базы знаний; ● RDF не зависит от предметной области и может использо ваться для описания любых предметных областей; ● RDFschema — простейший язык описания семантических связей терминов, предоставляющий концепции класса, подкласса, свойства и механизмы описания простейших; ● созданы языки запросов к базам метаописаний RDF и RDFS. Тем не менее требуется использование более развитых, чем RDFS, языков онтологий. В рамках RDFschema нельзя опреде лить диапазоны ограничений только для одного класса, напри мер, определить, что «коровы едят только траву, когда другие животные едят еще и мясо». Также невозможно специфициро вать непересечение классов (например, «мужчина» и «женщина» являются подклассами класса «персона», но не пересекаются). Кроме того, нет возможности порождать новые классы с ис пользованием бинарных отношений объединения, пересечения и дополнения, а также специфицировать меру отношения, на пример, указать, сколько родителей класса «персона» может
458
иметь экземпляр «персона». И наконец, RDFS не позволяет спе цифицировать, что свойство является транзитивным, уникаль ным или инверсным. Решением вышеприведенных проблем являются языки опи сания онтологических баз данных на основе логики предикатов.
3 . 2 . O n t o l o g y Vo c a b u l a r y К языкам онтологий предъявляются следующие требования: четко определенный синтаксис; ● эффективная поддержка формирования выводов; ● формализованная семантика; ● достаточная выразительная мощь; ● удобство и простота использования. Таким требованиям удовлетворяют различные версии язы ков OWL — Ontology Web Language (варианты Light, DL, Full), DAML — DARBA Agent Markup Language. Совместимость OWL и RDF/RDFS обеспечивается тем, что OWL является расширением RDFS, документ OWL является доку ментом RDF. Пример описания классов на OWL приведен ниже. ●
Язык OWL — рекомендация для построения онтологичес ких баз знаний для web, позволяющий описывать семантику высказываний в интерпретируемой машиной форме. Он по строен на основе RDF и RDFschema с использованием синтак сиса RDF/XML. Формализованная семантика и поддержка выво дов основывается на применении логики предикатов. Для иллюстрации преимуществ OWL приведем пример он тологии. Пусть мы имеем базовые предикаты, хранимые в неко торой базе данных: мать (X, Y), (X является матерью Y) отец (X, Y), (X является отцом Y) мужчина (X), (X является мужчиной) женщина (X), (X является женщиной) Используя правила логики на основе этих предикатов, мы
459
можем строить другие утверждения. Доопределим предикаты родитель, брат, сестра, дядя, бабушка, предок: мать (X, Y) → родитель (X, Y) отец (X, Y) → родитель (X, Y) мужчина (X), родитель (P, X), родитель (P, Y), различны (X, Y) → брат(X, Y) женщина (X), родитель (P, X), родитель (P, Y), различны (X, Y) → сестра (X, Y) брат (X, P), родитель (P, Y) → дядя (X, Y) мать (X, P), родитель (P, Y) → бабушка (X, Y) родитель (X, Y) → предок (X, Y) предок (X, P), родитель (P, Y) → предок (X, Y) Данная онтология легко может быть выражена в виде OWL и представлена как документ RDF в одном из представлений. На основе сформулированной в терминах определенных преди катов можно получать ответы на следующие запросы: «кто явля ется предком для мужчины X?», «есть ли у X братья?» и др. Кас сические поисковые машины не могут обрабатывать подобные запросы. Вообще построение онтологий осуществляется следующим образом: 1. Определить предметную область и рамки онтологии. 2. Определить принципы повторного использования онто логии. 3. Перечислить термины (классов). 4. Сформировать таксономию (иерархию) терминов (клас сов). 5. Определить свойства классов. 6. Определить характеристики отношений (меру, транзи тивность, инверсность и др.) и диапазоны значений. 7. Определить экземпляры классов (собственно база знаний в терминах онтологии). 8. Проверить согласованность онтологии. Теперь рассмотрим, как можно получать необходимую ин формацию из узлов сети, реализованной по технологии P2P и с использованием технологий Semantic Web. Вопервых, узел или группа узлов в сети анонсируют предоставляемые ими сер висы с использованием разделяемых словарей. Вовторых, поль зователь или автоматический модуль одного из узлов сети инициирует поиск информации с использованием терминов разделяемых словарей относительно «соседних» (по метрике, используемой в логической сети) узлов. При этом маршрутиза ция запроса происходит лавинообразно соседними узлами по всей сети или ее части (в зависимости от параметров поиска). Втретьих, каждый узел сети, участвующий в маршрутизации запроса, аккумулирует собственные результаты и результаты, по лученные от других узлов, и передает их узлу, который иници ировал запрос; модуль доказательств каждого узла выполняет
460
анализ и модифицирует запрос к собственной локальной базе данных с использованием семантического анализа относитель но существующих на этом узле и общих для всех узлов слова рями (онтологическими цепочками). И, вчетвертых, исходный узел аккумулирует результаты запроса и выполняет обобщение результатов.
4
ПИЛОТНАЯ РЕАЛИЗАЦИЯ
В 2005 году сотрудниками кафедры физики и прикладной математики Владимирского государственного университета осу ществлена опытная реализация децентрализованной самоорга низующейся информационной среды на базе платформы Microsoft.NET. В настоящее время ведутся работы над кросс платформной реализацией, основанной на технологии JXTA. Опытная версия была развернута на базе четырех вузов, расположенных в Петрозаводске, Владимире, Москве и Ростове наДону (рис. 12). Программное обеспечение предоставляет внутреннему пользователю webинтерфейс, с помощью которого можно за регистрировать узел в сети, добавлять и описывать необходи мые ресурсы (рис. 13). Внешним пользователям можно просматривать новости, осуществлять переход между узлами и выполнять многокрите риальный поиск необходимых ресурсов (рис. 14).
Рис. 12. Распределение узлов сети на территории Российской Феде рации
461
Рис. 13. Добавление ресурса
Рис. 14. Задание значений критериев при поиске документов
462
Рис. 15. Структура семантической базы знаний, интегрируемой с узлом системы
Для осуществления поиска в настоящее время реализована семантическая база знаний, интегрируемая с узлом системы. Структура ее представлена на рисунке 15. В настоящее время авторами разрабатываются: ● Онтологии предметной области, которые могут использо ваться в рамках системы порталов совместно с принятым стандартом метаописаний. ● Собственный алгоритм выводов и доказательств для OWL DL с высокими характеристиками быстродействия и масш табируемости. ● Алгоритмы выполнения распределенного поиска в рамках системы на основе модели пиринговых сетей. ● Описание спецификаций форматов данных и протоколов взаимодействия.
463
ЗАКЛЮЧЕНИЕ В процессе разработки концепции сетевого взаимодей ствия были созданы алгоритмы адресации узлов, маршрутиза ции сообщений, распределенного поиска, а также методики построения метаописаний информационных ресурсов и серви сов, анонсируемых участниками сетевого взаимодействия. В настоящий момент в поздней стадии разработки находятся алгоритмы и программные модули, способные выполнять ин теллектуальный поиск и производить семантический анализ и обобщение результатов. Кроме того, для запуска системе требу ется разработка набора словарей для различных предметных областей, которая должна выполняться совместными усилиями будущих участников сетевого взаимодействия.