2.1 WordNet, BabelNet и FrameNet в сопоставительном аспекте.
2.2 Направления использования «сетевых» ресурсов английского языка.
2.1 WordNet, BabelNet и FrameNet в сопоставительном аспекте
В сферaх семиотики и лингвистики семантика проецирует значение и смысловую нагрузку знаков (символов, слов, словосочетаний) и проводит дефиницию знака через призму его окружения или контекста, в котором изучаемый знак используется. Дифференцировать семантику в понятном для компьютера формате стало представляться возможным исключительно после проведения основательных работ в сфере каталогизации и фактической систематизации информации при помощи специализированных языковых ресурсов – семантических сетей и антологий [1]. Данные ресурсы представляются двумя ключевыми сторонами решения одной проблематики.
Семантическая сеть представляет из себя специфичный способ проекции знаний конкретной предметной сферы при помощи ориентированного графика, где вершины коррелируют с понятийными сущностями событий, характеристик или значений, а рёбра выражают взаимоотношения между сущностями. Онтология представляет из себя специализированный способ сохранения знаний и определяется разновидностью словарей, в которых словесные структуры и словосочетания со схожими значениями сгруппированы в конкретные лексические единицы, называемые синсетами, а их семантическая сторона проявляется через относительные связи между ними [2].
На сегодняшний день семантические сети и онтологии достаточно широко используются в различных сферах развития компьютерных технологий, например:
˗ в компьютерной лингвистике данные инструменты используются для дополнения языковых ресурсов;
˗ в сфере информационного поиска – для разбора семантической многозначности слов, увеличения поисковых запросов, углубленного анализа вопросов в системах обращения;
˗ в сфере искусственного интеллекта – для получения знаний о мире, формализации экспертных знаний при построении интеллектуальных систем.
Целесообразно также рассмотреть структуру построения данных сетей. С ростом многообразия вариативных способов автоматизированного (или автоматического) сбора онтологической и семантической информации для их построения зачастую достаточно конкретной программы (или комплекса программ) по сбору информации подобного рода и довольно большого набора данных конкретной предметной области – корпусов текстов.
2.2 Направления использования «сетевых» ресурсов английского языка
В настоящее время исследователями все больше осознается необходимость перехода от документов, читаемых компьютером, к документам, понимаемым компьютером, что является одним из важнейших путей развития World Wide Web. Такой переход становится возможным на основе технологий Semantic Web.
Важное направление исследований – использование антологий верхнего или среднего уровня для разработки антологий в конкретных предметных областях. В качестве такой общей онтологии при разработке предметно-ориентированных антологий часто используется лингвистическая онтология WordNet. Работа над WordNet [9] ведется в Принстонском университете (США) с начала 80-х годов. Сейчас доступна версия 3.0, выпущенная в декабре 2006 года. Существующая версия WordNet (PWN) охватывает общеупотребительную лексику современного английского (american) языка. Основой WordNet являются синсеты – множества слов-синонимов, обозначающие один и тот же концепт в заданном контексте. Для синсета явно указываются часть речи и толкование. Каждое слово, входящее в состав синсета, дополнительно может иметь ряд атрибутов, например, признак доминантности, пометы типа «идиомa», «близкое значение» и т.д. Для каждого синсета может быть приведен пример его употребления в заданном контексте – определяется набор речений и фразеологизмов, определяются толкования.
Таким образом, если WordNet может теперь дать нам информацию о наборах синонимов, антонимов, гипонимов и т. д., связанных с лексической единицей в нашем языковом арсенале, насколько мы приблизимся к тому, чтобы быть способными автоматически определять контексты знания о мире, к которым относится значение данного синонима / слова?
Основным назначением BabelNet, после завершения достаточно сложного автоматического процесса связывания значений слов с наименованиями сущностей, была поддержка традиционной задачи NLP – то есть разрешение неоднозначности слова – в отношении многих языков. Он может обрабатывать любой объем данных и создавать единые многоязычные или даже независимые от языка системы, которые могут использоваться для аналитической обработки текстов или семантического поиска в больших текстовых базах данных.
1. Греков, Л.Д. Применение фреймовых моделей знаний на основе онтологических систем в задачах логистики / Л.Д. Греков // Радiоелектроннi i комп’ютернi системи. – 2007. – № 4 (23). – С. 56–60.
2. Нефедова, Л.А. Когнитивные особенности перевода научно-технического текста / Л.А. Нефедова, И.Н. Ремхе // Вопросы когнитивной лингвистики. – Тамбов, 2008. – №2 (015). – С. 91–101.
3. Степанов, Ю.С. Семиотическая структура языка (три функции и три формальных аппарата языка) / Ю.С. Степанов // Изв. АН СССР. Серия лит. и яз. – 1973. – № 4. – С. 340–355.
4. Fillmore, Ch.J. Frame semantics / Ch.J. Fillmore // Linguistics in the Morning Calm: Selected Papers from SICOL. – Hanshin, Seoul, 1981. – P. 111–137.
5. Fillmore, Ch.J. FrameNet as a 'Net' / Ch.J. Fillmore, C. Baker, H. Sato // Proceedings of the Fourth International Conference on Language Resources and Evaluation: LREC, 2004. – P. 1091–1094.
6. Гарбовский, Н.К. Теория перевода / Н.К. Гарбовский. – М.: Изд-во Моск. ун-та, 2004. – 542 c.
7. Christiane Fellbaum. 1998. WordNet An Electronic Lexical Database. MIT Press, Cambridge, MA.
8. K. Hofmann, Tjong Kim Sang, E.(2007), Automatic extension of non-english wordnets, Proceedings of SIGIR"07 , Amsterdam, The Netherlands.
9. Яблонский С.А, Сухоногов А.М. Автоматизация построения англо-русского WordNet, XI Конгресс МАПРЯЛ, Варна, 17 - 23 сентября 2007, труды
10. Mario Jarmasz and Stan Szpakowicz. 2003. Roget's Thesaurus and semantic similarity. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-2003), pages 212-219.
11. A. Budanitsky, G. Hirst. 2006. Evaluating WordNet-based measures of semantic distance. Computational Linguistics, 32(1): 13-47.
12. David Yarowsky. 1992. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora. In Proceedings of the 14th International Conference on Computational Linguistics (COLING-92), pages 454-460, Nantes, France.
13. Thomas K. Landauer, Peter W. Foltz, and Darrell Laham. 1998. Introduction to latent semantic analysis. Discourse Processes, 25(2-3):259-284.
14. Torsten Zesch, Iryna Gurevych, and Max Miihlhauser. 2007. Comparing Wikipedia and German WordNet by evaluating semantic relatedness on multiple datasets. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HIT 2007), pages 205-208, Rochester, New York.
15. Азарова И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WordNet // Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии", (Протвино, 11-16 июня 2003 г.) М., 2003, с. 43-50.
16. Толковый словарь русского языка (под ред. С.И. Ожегова, Н.Ю. Шведовой). - М., 1997.
17. Клименко С.В., Золотарев О.В., Шарнин М.М. Использование онтологического подхода для анализа текстов естественного языка // Вестник Российского нового университета. Сер. Сложные системы: модели, анализ и управлени. 2017. Вып. 1. С. 67–71.
18. Золотарев О.В. Методы выделения процессов, объектов, отношений из текстов естественного языка // Проблемы безопасности российского общества. 2014. № 3–4. С. 276– 283.
19. Sara Tonelli, Marko Rospocher, Emanuele Pianta, Luciano Serafini. Boosting collaborative ontology building with key-concept extraction.
20. BabelNet – How the World Can Help // TAUS Review #3 in April 2015. URL: https://www.taus.net/think-tank/ articles/babelnet-how-the-world-can-help-disambiguate-words
21. Дмитрий У. Семантические сети и обработка естественного языка // Открытые системы. Вып. 2. 2017. URL: https://www.osp.ru/os/2017/02/13052229/
22. Константинова Н.С., Митрофанова О.А. Онтологии как системы хранения знаний // Санкт-Петербургский государственный университет, Факультет филологии и искусств, Кафедра математической лингвистики.
23. Зидрон А. Прогресс машинного перевода // Профессиональный перевод и управление информацией. 2015. Вып. 4.