Активное развитие в настоящее время социальных сетей, блогов и форумов привело к увеличению интереса, как со стороны научного сообщества, так и со стороны многих организаций к задаче автоматического анализа мнений пользователей Интернета по различным вопросам (отношение к товарам, услугам, событиям, высказываниям).
Одной из основных проблем при анализе мнений является классификация текстов по тональности. Тональностью текста называется эмоциональная оценка, выраженная в тексте по отношению к некоторому объекту, и определяется тональностью составляющих его лексических единиц и правилами их сочетания. В простейшем случае классификация текстов по тональности осуществляется на два класса, обозначающие позитивные и негативные эмоциональные оценки.
Автоматический анализ тональности текстов, т.е. автоматическое выявление отношения автора текста к обсуждаемым в тексте объектам и ситуациям, является одним из динамично развивающихся направлений автоматического анализа текстов на естественном языке. Большинство предлагаемых подходов к анализу тональности тестируются, прежде всего, на англоязычных текстах, также для английского языка создано множество разнообразных словарных ресурсов и инструментов. В последнее время было проведено большое количество исследований в области анализа тональности и для других языков.
Цель курсовой работы – рассмотреть современные подходы к автоматическому анализу тональности текстов.
Данная цель подразумевает решение следующих задач:
1. раскрыть понятие тональности в лингвистике;
2. рассмотреть средства формирования тональности письменного текста;
Смысл текста информационно-аналитической статьи складывается из его фактуальной и оценочной составляющих. В результате их пересечения формируется тональность текста. Тонально-окрашенные элементы несут в себе позитивную, нейтральную или негативную оценочную семантику. В контексте данного исследования необходимо рассмотреть суть понятия “оценка” подробнее.
Человеческое мышление и взаимодействие с окружающим миром неразрывно связано с языком как с важным и своеобразным инструментом и посредником. С помощью языка осуществляется познавательная деятельность человека, получают своё выражение дополнительные явления, связанные с его специфической преобразовательной деятельностью под воздействием различных внутренних импульсов. Объективное и субъективное в языке, его системе и функционировании находятся в тесном взаимодействии [10, с. 107].
В процессе познания окружающего мира у человека формируется определённое отношение к объекту познания, который наделяется некоторыми характеристиками, имеющими оценочный характер. Объективный мир, с которым человек сталкивается в процессе познания, членится им с позиции его ценностного характера – добра и зла, опасности и безопасности и т.д. Следовательно, “осознание и выражение отношения к познаваемому и есть оценка людей, предметов, явлений, ситуаций, то есть это – сознательная деятельность, которая приводит к положительной или отрицательной позиции оценивающего по отношению к оцениваемому” [5, с. 75].
Само понятие тональности пришло в лингвистику из музыки. Тональность - в музыке этим термином принято обозначать, прежде всего, иерархию одного звука с его трезвучием (аккордом) внутри целой музыкальной системы. Поэтому первое значение термина можно определить как "централизация".
Для автоматического определения тональности текста можно выделить следующие подходы:
1) на основе правил с использованием шаблонов (rule-based with patterns). Подход заключается в генерации правил, на основе которых будет определяться тональность текста. Для этого текст разбивается на слова или последовательности слов (N-grams). Затем полученные данные используются для выделения часто встречающихся шаблонов, которым присваивается положительная или отрицательная оценка. Выделенные шаблоны применяются при создании правил вида «ЕСЛИ условие, ТО заключение» [4, с. 81].
При использовании отрицания перед найденной цепочкой тональность может меняться на противоположную.
Так собираются оценки различных цепочек документов. Для получения итоговой окраски общую сумму весов можно подсчитать по формуле, которую составляют разработчики конкретного решения, универсальной формулы не существует. Конечно, сумма тональностей фрагментов может быть не равна общей окраске всего текста («отличный фильм для страдающих бессонницей») Кроме того, сложности возникают о тех случаях, когда срабатывают несколько привил как оценить их суммарное влияние? Для решения подобных проблем предусмотрены механизмы комбинации правил. Они учитывают, насколько часто правило используется в документе, на какой позиции оно встречается и прочее. При большом наборе правил алгоритм может показывать хорошие результаты [9, с. 249].
Данный метод работает достаточно быстро, но требует наличия предварительно размеченного эталонного корпуса, на основе которого
Тональность в лингвистике представляет собой многогранное явления. Учитывая ярко выраженную эмоциональную составляющую, крайне затруднительно дать четкую характеристику и типологию тональности.
Способы выражения тональности в письменном тексте можно классифицировать на основании их принадлежности к тому или иному языковому уровню. Центральное место в формировании тональности занимает лексический уровень, представленный позитивно-, негативно- и модально-оценочными словами и словосочетаниями. На словообразовательном уровне тональность текста образуется с помощью определенных суффиксов, полуаффиксов, аффиксов. На грамматическом уровне тональность выражается морфологическими и синтаксическими средствами. К морфологическим средствам можно отнести необычное употребление форм числа и падежа имен существительных, манипуляции с категорией сравнения имен прилагательных, употребление отдельных глагольных форм и т.д. Синтаксические средства включают изменение порядка слов, использование отрицания в предложении. Анализ языка письменного текста с учётом его тональности проводится и на стилистическом уровне. Такие стилистические тропы, как метафора, персонификация, антономазия, метонимия, игра слов и др. активно участвуют в создании тонального характера текста. При исследовании тональности письменного текста необходимо учитывать и средства, относящиеся к графическому уровню языка, например, шрифтовое оформление, деление текста на абзацы, расположение строк, использование заглавных букв, знаков препинания.
В целом, следует отметить, что подходы, основанные на правилах, не получили широкого признания у разработчиков. Можно предположить, что создание подобных правил требует определенных знаний в лингвистике языка, чем разработчики, как правило, не обладают.
1. Антонова, А. Ю. Метод условных случайных полей в задачах обработки русскоязычных текстов / А.Ю. Антонова, А.Н. Соловьев // Труды международной конференции «Диалог 2013» в печати. – 2013. – С 321-325
2. Антропова, Н. А. Разговорно маркированные суффиксы в системе немецкого разговорного словообразования / Н.А. Антропова // Вестник ВГУ. – 2006. – № 2. – С. 62-68
3. Арнольд, И.В. Стилистика современного английского языка (стилистика декодирования) / И.В. Арнольд. – 2-е изд. – СПб.: Просвещение, 1981. – 295 с.
4. Котельников, Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики / Е.В. Котельников, М.В. Клековкина // Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». – Переславль-Залесский, 2012. – С. 81-86
5. Лойко, М.И. Оценка как лингвистическое понятие / М.И. Лойко // Матер. ежегод. науч. конф. студ. и магистр. ун-та. – Минск, 2003. – С. 75–77.
6. Пазельская, А. Г Метод определения эмоций в текстах на русском языке / А.Г. Пазельская, Соловьев А. Н. // Компьютерная лингвистика и интеллектуальные технологии: "Диалог-2011". – М.: РГГУ, 2011. № 10. – С. 510-522
7. Полуйкова, С.Ю. Прагматический потенциал коммуникативной тональности / С.Ю. Полуйкова // Вестник ЮУрГУ, 2012. – № 25. – С. 80-85
8. Полуйкова, С.Ю. Современный просветительский дискурс / С.Ю. Полуйкова // Современная речевая коммуникация: новые дискурсивные практики. – Омск: Ом. гос. ун-т, 2011. – С. 294–315
9. Прикладная и компьютерная лингвистика / под ред. И. С. Николаева, О. В. Мнтренинон, Т. М. Ландо. – М.: Ленанд, 2016. – 320 с.
10. Романовская, А.А. Оценочный аспект семантики имён прилагательных / А.А. Романовская // Матер. юбил. науч. конф. препод. и аспир. МГЛУ, посв. 50-летию ун-та. – Минск: МГЛУ, 1999. – С. 107–109
11. Семак, А.С. Статистический аспект содержания текстов оценочных отзывов на предприятиях гостиничного типа / А.С. Семак // Вестник МГЛУ
12. Серова, С.А. Лингвистический анализ новостных газетных статей: оценочный аспект: автореф. дис. канд. фил. наук: 10.02.01 / С.А. Серова. – Тамбов; Тамб. гос. ун-т, 2007. – 19 с.
13. Bing, Liu Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing / под ред. N. Indurkhya и F. J. Damerau. – 2010. – 667 p.
14. Bundeszentrale für gesundheitliche Aufklärung [Electronic resource] / Mode of access: http://www.bzga.de. – Date of access: 14.04.2017.
15. Cambria, E. SenticNet 2: A semantic and affective resource for opinion mining and sentiment analysis / E. Cambria // SenticNet [Electronic resource]. – Mode of access: http://sentic.net/senticnet-2.pdf. – Date of access: 22.04.2017.
16. Esuli, A. Determining the Semantic Orientation of Terms through Gloss Classification / A. Esuli, F. Sebastiani // Ontotext [Electronic resource]. – Mode of access: http://ontotext.fbk.eu/Publications/CIKM05-short.pdf. – Date of access: 22.04.2017.
17. König, A.C. Reducing the human overhead in text categorization / A.C. König, E. Brill // In Proceedings of the 12th ACM SIGKDD conference on knowledge discovery and data mining. – 2006, pp. 598–603.
18. Strapparava, C. WordNet-Affect: an Affective Extension of WordNet / C. Strapparava, A. Valitutti // Hrvatski Wordnet [Electronic resource]. – Mode of access: http://hnk.ffzg.hr/bibl/lrec2004/pdf/369.pdf. – Date of access: 22.04.2017.
19. Turney, P. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews // Proceedings of ACL-02, 40th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics. – 2002, pp. 417–424.
20. WordNet-Affect [Electronic resource]. – Mode of access: http://wndomains.fbk.eu/wnaffect.html. – Date of access: 22.04.2017.