Автоматическое распознавание событий в новостных сообщениях на английском языке
МГЛУ (Минский государственный лингвистический университет)
Курсовая работа (проект)
на тему: «Автоматическое распознавание событий в новостных сообщениях на английском языке»
по дисциплине: «Лингвистика (английский язык)»
2020
45.00 BYN
Автоматическое распознавание событий в новостных сообщениях на английском языке
Тип работы: Курсовая работа (проект)
Дисциплина: Лингвистика (английский язык)
Работа защищена на оценку "8" с одной доработкой.
Уникальность свыше 70%.
Работа оформлена в соответствии с методическими указаниями учебного заведения.
Количество страниц - 30.
Поделиться
Введение
Глава 1 Событие и его языковая реализация в тексте новостного сообщения
1.1 Общая характеристика текста новостей
1.2 Понятие о событии в тексте новостного сообщения
1.3 Средства реализации события в тексте новостного сообщения
Выводы по главе 1
Глава 2 Автоматическое извлечение средств реализации событий из письма текста
2.1 Традиционные методы автоматического извлечения событий из письменного текста
2.2 Выявление событий методами машинного обучения
Выводы по главе 2
Заключение
Список использованных источников
ВВЕДЕНИЕ
Современные люди живут в мире высокоразвитых информационных технологий. Общество имеет доступ к потоку информации и необходимости постоянно получать новую информацию о событиях и явлениях в реальности.
Информационные агентства за более чем 150-летнюю историю разработали собственный лаконичный и точный стиль представления событий в виде целой системы информационных заметок.
Язык представляет собой набор ресурсов, осознанный выбор которых служит для выражения социального значения, в том числе для перевода ценностных установок и предпочтений. На современном этапе новостной дискурс является одной из наиболее динамичных дискурсивных практик, отражающих особенности использования языка как средства идеологического воздействия.
Данная ситуация объясняет актуальность данного исследования, которая заключается в необходимости исследования методов реализации событий в новостном дискурсе.
Автоматическое извлечение событий – одна из самых быстрорастущих областей компьютерной лингвистики. В последнее время разработка новых языковых ресурсов, принципы их создания, а также теоретическая обоснованность этих принципов стали особенно актуальными. Следует отметить, что в настоящее время нет общепринятых универсальных критериев для анализа англоязычных текстов для автоматического определения конкретной оценки событий.
Целью исследования является выявление особенностей языкового представления событий на примере англоязычных новостей.
Исходя из данной цели были выделены следующие задачи:
• Изучить понятие медиадискурса и новостного дискурса.
• Рассмотреть особенности новостных текстов.
ГЛАВА 1 СОБЫТИЕ И ЕГО ЯЗЫКОВАЯ РЕАЛИЗАЦИЯ В ТЕКСТЕ НОВОСТНОГО СООБЩЕНИЯ
1.1 Общая характеристика текста новостей
С начала XIX века гуманитарные науки все чаще обращаются к массовой коммуникации в своих исследованиях, что неудивительно, поскольку ряд гуманитарных наук (в частности лингвистическая наука) часто обращаются к практической стороне языка, тем самым удовлетворяя свои внутренние необходимо. Одна из причин, по которым лингвистика обращается к средствам массовой информации, заключается в необходимости анализа различных типов медийных текстов для выявления тенденций общественной осведомленности. Важной причиной является стремление освободить массовые коммуникации от манипулирования общественным сознанием.
Современный медиа-дискурс характеризуется такой особенностью, как динамичность. Динамичность медийных текстов связан с их незавершенностью и процессуальностью. События и явления, описанные в медиатекстах, имеют тенденцию меняться; они имеют свойство обновляться и распространяться в пространстве и времени [4, с. 30].
Т.Г.Добросклонская определяет тексты сообщений как основополагающие в средствах массовой информации в связи со стабильностью их макро и микроструктуры, высокой степенью повторяемости и множественной воспроизводимостью, а также выделяет следующие характеристики этой категории текстов [3, с. 58]:
• Новостные тексты наиболее полно реализуют основную функцию массовой коммуникации – информативную, а также одну из основных функций языка – сообщение.
• Тексты новостей имеют отличительный формат, чем другие типы текстов массовой коммуникации. В прессе – это специальное расположение новостных текстов на странице газеты или журнала, в сочетании с определенным тематическим содержанием.
ГЛАВА 2 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ СРЕДСТВ РЕАЛИЗАЦИИ СОБЫТИЙ ИЗ ПИСЬМА ТЕКСТА
2.1 Традиционные методы автоматического извлечения событий из письменного текста
Важный шаг вперед в области информационных технологий в середине 90-х годов произошел в связи с появлением Интернета. Глобальная сеть как источник данных вызвала резкое увеличение объема текста, задействованного в поиске. Огромные ресурсы компьютерных технологий и возможность удаленного доступа к текстовым коллекциям привели к тому, что корпусная лингвистика стала одной из основных областей компьютерной лингвистики.
Одно из первых применений корпусной технологии для автоматического извлечения событий имело место в 1997 году. В работе был использован Wall Street Journal. На основе корпуса были проведены исследования семантической ориентации прилагательных. В результате был составлен словарь, который лег в основу большого количества дальнейших разработок.
В более поздних работах список слов расширился, были введены новые типы прилагательных, наречий и глаголов. Расположение разметки корпуса стало намного более сложным, в дополнение к морфологическим факторам, начали использоваться синтаксически размеченные слова. Итогом стали достаточно высокие результаты работы систем, которых на 2000 год было менее 10.
С 2000 года специалисты из других областей присоединились к разработке систем автоматического извлечения событий – автоматической обработки текста, поиска информации, автоматической абстракции и т. д. Это привлекло большие финансовые потоки в регион, и значительное увеличение доступности ресурсов и скорости работы компьютера быстро привело к экономической эффективности разработок.
ЗАКЛЮЧЕНИЕ
Разнообразие задач, стоящих перед компьютерной лингвистикой в области анализа текста, предъявляет новые требования к лингвистической поддержке систем автоматической обработки текстов. В последнее время компоненты автоматического извлечения событий играют все более важную роль в инструментах автоматической обработки текста.
Извлечение информации из текста является довольно хорошо развитой областью компьютерной лингвистики и автоматической обработки текста, предлагая широкий спектр методов и инструментов, подходящих для построения различных прикладных систем, которое демонстрирует достаточно эффективное решение проблемы извлечения разнородной информации.
Очевидно, что создание эффективной системы извлечения событий и фактов может значительно облегчить последующую обработку извлеченных структурированных данных, что является ключевым моментом в жизненном цикле сбора и использования новых знаний.
Автоматическое извлечение событий, возникшее как междисциплинарное прикладное поле на стыке между компьютерной лингвистикой и искусственным интеллектом, в настоящее время не имеет установленной терминологической системы.
Структура языковой поддержки систем автоматического извлечения событий во многом зависит от конкретной задачи анализа текста.
Оценивая качество систем автоматического анализа событий, мы считаем целесообразным использовать текст с разметкой, которая полностью отражает информационную модель. Эта маркировка позволяет определить качество работы не только всей системы, но и отдельных компонентов.
1. Володина, М.Н. Язык СМИ – основное средство воздействия на массовое сознание // Язык СМИ как объект междисциплинарного исследования / Под ред. Володиной М.Н. – М.: Изд-во МГУ, 2003. – С.23.
2. Демьянков, В.З. Семиотика событийности в СМИ // Язык средств массовой информации: Учеб. пособ. для вузов / Под ред. М. Н. Володиной. – М., 2008. – С. 71-85.
3. Добросклонская, Т.Г. Вопросы изучения медиа текстов: Опыт исследования современной английской медиа речи. – М.:МАКС Пресс, 2000. – С.58-60.
4. Екимова, О.А. Авторское начало новостного текста ( на материале британской и русской прессы) // Вестник Новгородского государственного университета. – 2009. № 52. – С. 33–35.
5. Жирова, И.Г. Лингвистическая категория эмфатичность в антропоцентрическом аспекте: автореферат дис. на соиск. уч. степ. доктора филологических наук: 10.02.19. [Текст] : / И.Г. Жирова; [Место защиты: Моск. гос. обл. ун-т]. – М.: МГОУ, 2007. – 40 с.
6. Кормалев, Д., Куршев Е., Сулейманова Е., Трофимов И. Технология извлечения информации из текстов, основанная на знаниях // Программные продукты и системы. – 2009. – № 2. – С. 62-66.
7. Котельников, Д. С. Итерационное извлечение шаблонов описания событий по новостным кластерам // Труды конференции RCDL-2012, 2012. – С.2.
8. Маслова, В.А. Параметры экспрессивности текста [Текст] : / В.А. Маслова. // Языковые механизмы экспрессивности (Отв. ред. В.Н. Телия). – М.: Наука, 1991. – С. 179-204.
9. Найденова, К.А., Невзорова О.А. Машинное обучение в задачах обработки естественного языка: обзор современного состояния исследований.
Учён. зап. Казан. гос. ун-та. Сер. Физ.-матем. науки, 150, № 4. – Изд-во Казанского ун-та, Казань, 2008. – 5-24.
10. Прозоров, В. В. Три рода современных СМИ: вопросы генеалогии // Русская словесность в контексте современных интеграционных процессов. – Волгоград, 2005. – С. 30.
11. Aha, D. W. Lazy learning (ed.). – Dordrecht, The Netherlands: Kluwer Acad. Publ., 1997. – 625 p.
12. Chinchor N. MUC-5 Evaluation Metrics. In: Fifth Messages Understanding Conference (MUC-5). – Morgan Kaufman, 1993. – Р. 20.
13. Dentith, M R. X. The Problem of Fake News. – Public Reason, 8 (1-2), 2017 – Р. 65.
14. Hatzivassiloglou, V., McKeown K. R. Predicting the semantic orientation of adjectives // Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and of the 8th Conference of the European Chapter of the Association for Computational Linguistics, Madrid, Spain, 7-12 July 1997. – Р. 174-181.
15. Klugl, P. Context-specific Consistiencies In Information Extraction: Rule-based and Probabilistic Approaches. BoD – Books on Demand, 2015 – 208 р.
16. Matheson, D. The Birth of News Discourse: Changes in News Language in British Newspapers. – Media, Culture and Society, 2000 – Р. 558.
17. Rabiner, L.R. A tutorial on hidden Alarkov models and selected application in speech recognition // Proc. IEEE. 1989. – V. 77. – No 2. – P. 257-286.
18. Turney, P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. //Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia, Penn., 7-12 July 2002. – P. 417-424.
Работа защищена на оценку "8" с одной доработкой.
Уникальность свыше 70%.
Работа оформлена в соответствии с методическими указаниями учебного заведения.
Количество страниц - 30.
Не нашли нужную
готовую работу?
готовую работу?
Оставьте заявку, мы выполним индивидуальный заказ на лучших условиях
Заказ готовой работы
Заполните форму, и мы вышлем вам на e-mail инструкцию для оплаты