Процесс развития современного общества характеризуется постоянно возрастающей ролью информационных технологий в науке, производстве и управлении. В последние годы многократно увеличились объемы информационных потоков и сложность ориентации в информационных ресурсах, что привело к необходимости поиска новых способов хранения, представления, формализации, систематизации и обработки информации в компьютерных системах. В условиях экспоненциального роста и объема накопленной современным обществом информации наиболее заметно воздействие глобальной сети на интеллектуальные сферы человеческой деятельности, на технологии накопления и распространения знаний. Создаются системы баз знаний (БЗ), иначе − системы, основанные на знаниях (СОЗ), которые включают, кроме собственно данных, также средства управления знаниями, моделирования и оценки ситуаций, логического вывода и поддержки принятия решений. В основе моделей большинства СОЗ лежат онтологии предметных областей. Онтологии предметной области в настоящее время находят основное применение в области построения поисковых систем, систем представления знаний, инженерии знаний и при решении задач семантической интеграции информационных ресурсов. В данной работе рассматриваются вопросы логической интеграции разнородных распределенных семантически связанных ресурсов знаний. Принимая во внимание тот факт, что информационные ресурсы одной предметной области содержат отличающиеся внешне термины, понятия, сущности, но могут быть семантически связанными (близкими по смыслу), и, наоборот, имея одинаковые названия, могут нести абсолютно разную смысловую нагрузку, необходимо применять подходы к решению задачи интеграции разнородных знаний на основе онтологического анализа и синтеза.
Обычно люди и компьютерные агенты (программы) имеют некоторое представление о значениях терминов. Программные агенты иногда предоставляют спецификацию входных и выходных данных, которые также могут быть использованы как спецификация программы. Сходным образом онтологии могут быть применены, чтобы предоставить конкретную спецификацию имен терминов и значений терминов. В рамках этого понимания (где онтология является спецификацией концептуальной модели – концептуализации) существует простор для вариаций. Отдельные виды онтологий могут быть представлены как точки на спектре в зависимости от деталей их реализации.
На рис. 1.1 изображен так называемый спектр онтологий по степени формальности представления, использованию тех или иных синтаксических конструкций. Каждая точка соответствует наличию некоторых ключевых структур в онтологии, отличающих ее от других точек на спектре. Косая черта условно отделяет онтологии от других ресурсов, имеющих онтологический характер.
Semantic Web
Идея Семантической Сети (Semantic Web) впервые была провозглашена в 2001 году Тимом Бернерсом-Ли (создателем World Wide Web). Однако она не является новой ни для автора, ни для web-сообщества в целом. Суть ее состоит в автоматизации "интеллектуальных" задач обработки значения (в семантическом смысле) тех или иных ресурсов, имеющихся в Сети. Обработкой и обменом информации должны заниматься не люди, а специальные интеллектуальные агенты (программы, размещенные в Сети). Но для того, чтобы взаимодействовать между собой, агенты должны иметь общее (разделяемое всеми) формальное представление значения для любого ресурса. Именно для цели представления общей, явной и формальной спецификации значения в Semantic Web используются онтологии.
За пять лет, прошедших с момента первой публикации о Semantic Web, был разработан целый ряд стандартов и рекомендаций, реализовано множество проектов. Но, несмотря на отдельные успехи, до сих пор (и это признает сам Т. Бернерс-Ли) нельзя сказать, что идея Semantic Web реализована на практике. В этом разделе будут изложены предпосылки к созданию Semantic Web, путь, который был проделан исследователями с 2001 по 2006 годы, и препятствия, возникшие на этом пути.
Работа над средствами описания семантики в Сети началась задолго до публикации 2001 года. В 1997 году консорциум W3C определил спецификацию RDF (Resource Description Framework). RDF предоставляет простой, но мощный язык описания ресурсов, основанный на триплетах (triple-based) «Субъект-Предикат-Объект» и спецификации URI. В 1999 году RDF получает статус рекомендации. Этот шаг в направлении улучшения функциональности и обеспечения интероперабельности (т.е. возможности обмениваться данными несмотря на их разнородность) в Сети считается одним из важнейших. Концептуально RDF дает минимальный уровень для представления знаний в Сети. Спецификация RDF опирается на ранние стандарты, лежащие в основе Web:
- Unicode служит для представления символов алфавитов различных языков,
- URI используется для определения уникальных идентификаторов ресурсов,
- XML и XML Schema - для структурирования и обмена информацией и для хранения RDF (XML синтаксис RDF).
Онтология – это подробная спецификация структуры определенной проблемной области, основное назначение которой – интеграция информации. Обычно такая спецификация состоит из иерархической структуры данных, содержащей все релевантные классы объектов, их связи и правила, принятые в этой области. Она является виденьем эксперта предметной области, выраженном в некотором формальном представлении, что дает возможность использования этого понимания структуры и значения элементов информации при ее автоматической обработке. Именно формализация представления связей между понятиями в онтологии делает возможным их использование в широком спектре автоматизированных информационных систем. Онтология состоит из терминов (понятий), их определений и атрибутов, а также связанных с ними аксиом и правил вывода. Формальная модель онтологии – это упорядоченная тройка конечных множеств
где: Т – термины предметной области, которую описывает онтология O; R – отношения между терминами заданной предметной области; F – функции интерпретации, заданные на терминах и/или отношениях онтологии O.
На основе онтологических аннотаций может обеспечиваться семантически ориентированный доступ к информации из различных источников, к которым относятся ресурсы глобальной сети, научно-технические базы знаний, обучающие системы, а также управленческие, производственные и коммерческие информационные ресурсы, и системы. Во всех этих сферах существует проблема возрастающей сложности ориентации пользователей в постоянно увеличивающемся объеме документов, заполняющих информационные хранилища в глобальных и корпоративных сетях. Таким образом, рассмотренные подходы к интеграции с использованием онтологий в целом решают проблему информационной интеграции и лишены многих недостатков, присущих техническим методам, и предоставляют возможность разработки приложений, работающих с информацией на семантическом уровне. Рост числа проблем, для решения которых отсутствуют приемлемые формальные методы, обусловливает актуальность развития методов искусственного интеллекта. В ближайшее время следует ожидать появления новых интеллектуальных технологий и систем поддержки научной и образовательной деятельности, эффективность которых обусловлена применением онтологий в задачах управления и интеграции знаниями.
1. Андреев А.М., Березкин Д.В., Рымарь В.С., Симаков К.В. Использование технологии Semantic Web в системе поиска несоответствий в текстах документов.
2. Гладун А.Я., Рогушина Ю.В. Онтологии в корпоративных системах, Часть II // Корпоративные системы №1 / 2006.
3. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Курс из 16 презентаций: «Онтологии и тезаурусы».
4. Добров Б.В., Лукашевич Н.В. Вторичное использование лингвистических онтологий: изменение в структуре концептуализации.
5. Добров Б.В., Лукашевич Н.В. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска.
6. Загоруйко Н.Г. и др. Система "Ontogrid" для построения онтологий //Компьютерная лингвистика и интеллектуальные технологии. Тр. междунар. конференции Диалог'2005 . М., 2005. С. 146-152.
7. Коваль С.А. Автоматическая переработка текста на базе объектно- предикатной системы // Структурная и прикладная лингвистика. Вып. 5. СПб., 1998. С. 199-207.
8. Митрофанова О.А. Измерение семантических расстояний как проблема прикладной лингвистики // Структурная и прикладная лингвистика. Межвузовский сборник. Выпуск 7. Издательство СПбГУ, 2008.
9. Мудрая О.В. , Бабич Б.В. , Пьяо С.С. , Рейсон П. , Уилсон Э. Разработка инструментария для семантической разметки текст // Труды международной конференции "Корпусная лингвистика–2006". Издательства СПбГУ и РХГА, 2006.