Сопоставительный анализ зарубежных разработок корпусов устной речи
МГЛУ (Минский государственный лингвистический университет)
Курсовая работа (проект)
на тему: «Сопоставительный анализ зарубежных разработок корпусов устной речи»
по дисциплине: «Лингвистика (английский язык)»
2021
45.00 BYN
Сопоставительный анализ зарубежных разработок корпусов устной речи
Тип работы: Курсовая работа (проект)
Дисциплина: Лингвистика (английский язык)
Работа защищена на оценку "8" без доработок.
Уникальность свыше 40%.
Работа оформлена в соответствии с методическими указаниями учебного заведения.
Количество страниц - 28.
Поделиться
ВВЕДЕНИЕ
ГЛАВА 1 КОРПУС ТЕКСТОВ КАК НОВЫЙ ТИП ИСТОЧНИКА ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ
1.1 Определение понятие «корпус» в современной лингвистике
1.2 Принципы построения корпусов текстов
1.2.1 Просодический блок корпуса
1.2.2 Семантический блок корпуса
1.2.3 Морфологический блок
2.1 ЗАРУБЕЖНЫЕ РАЗРАБОТКИ КОРПУСОВ УСТНОЙ РЕЧИ
2.1.1 Cambridge English Corpus
2.1.2 Британский Национальный корпус
2.2 Сопоставительный анализ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ВВЕДЕНИЕ
Компьютерные технологии прочно вошли не только в нашу повседневную жизнь, но и в область научных исследований. Трудно переоценить полезность их использования в корпусной лингвистике, особенно, функционирование которых как вида научной деятельности полностью зависит от используемого программного обеспечения.
Одной из наиболее актуальных проблем современных лингвистических исследований является проблема изучения речи в социальной среде. Как известно, каждый социальный слой отличается друг от друга, молодежь отличается своей экспрессией и грубостью, старшее поколение вежливостью и умением выражать правильно мысли. Общение является одной из важнейших сфер жизнедеятельности. От того, как складывается общение, зависит формирование личности. Порой, общаясь с представителями другого поколения, может показаться, что они говорят совершенно на разных языках [4, c. 45].
Актуальность данного исследования заключается в изучении особенностей строения корпусов устной речи, а также развития корпусной лингвистики как достаточно молодого направления в науке.
Цель данного исследования заключается в изучении зарубежных корпусов устной речи.
Для достижения данной речи были поставлены следующие задачи:
1. Определить понятие «корпус» в современной лингвистике.
2. Описать принципы построения корпусов текстов.
3. Выявить просадический, морфологический, семантический блоки.
4. Описать Британский Национальный корпус.
5. Описать Cambridge English Corpus.
6. Составить сопоставительный анализ.
ГЛАВА 1 КОРПУС ТЕКСТОВ КАК НОВЫЙ ТИП ИСТОЧНИКА ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ
1.1 Определение понятие «корпус» в современной лингвистике
Исследования в корпусной лингвистике направлены на изучение языка и его аспектов в различных проявлениях через призму текстов. Подобный подход к изучению языка позволяет сравнить идеальную модель языка с его практическим использованием. Корпусную лингвистику от традиционной отличает использование количественных характеристик и методов исследования, что позволяет собирать статистику и строить математические модели [1, с. 18].
Корпус – это собранные по определённым критериям тексты в электронном виде. Наибольшая вариативность с точки зрения функциональных стилей наблюдаются в национальных корпусах, собранных по признаку языка написания. Специализированные корпуса формируются с учетом нескольких признаков, к примеру, стиль, жанр, автор, тематика и т.д. [7, с. 3].
Баранов предлагает следующие определение корпуса текстов – это вид корпуса данных, единица¬ми которого являются тексты или их достаточно значительные фрагмен¬ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области [2, с. 112].
Хранение документов определенного корпуса иногда используется как часть определения понятия «корпус».
Помимо этого, немаловажной частью корпуса является метаинформация или «разметка». Разметка – это множество единиц метаинформации, которые относятся к отдельным словам или речевым конструкциям. Одним из основных видов разметки для корпуса считается разметка, сделанная на основе морфологического анализа [2, c. 113].
2.1 ЗАРУБЕЖНЫЕ РАЗРАБОТКИ КОРПУСОВ УСТНОЙ РЕЧИ
2.1.1 Cambridge English Corpus
Cambridge English Corpus – это электронный корпус текстов, созданный изучающими иностранный язык. Корпус в основном предназначен для анализа дискурса и статистического анализа лексики студентов, сравнительного исследования [13].
Корпуса текстов речевых произведений студентов, изучающих иностранный (английский) язык, начали создаваться в 90-х годах прошлого века. Их предшественниками были файлы ошибок, составленные методом анализа ошибок (Error Analysis), которые редко превышали размер 2000 слов, а количество информаторов не превышало десятка.
Как правильно заметила О. Н. Кашмилова, очевидное преимущество корпуса текстов студентов-иностранцев по количественным критериям – далеко не единственное его преимущество. Известные инструменты для работы с корпусами текстов позволяют не только «анализировать типичные ошибки», но и описывать текущий словарный запас и актуальную грамматику, которая фактически усваивается в процессе обучения и обеспечивает общение на иностранном языке [2, c. 101].
Поскольку родной язык учащихся, вероятно, оказывает индивидуальное влияние на формирование речи на иностранном языке, такие корпуса предоставляют возможность для качественного сравнительного анализа: сравнения того, как они ведут себя (с точки зрения речи) на родном и чужом языке.
ЗАКЛЮЧЕНИЕ
Таким образом, делая вывод по данной главе, можно сказать, что корпус – это собранные по определённым критериям тексты в электронном виде. Баранов предлагает следующие определение корпуса текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области. Помимо этого, немаловажной частью корпуса является метаинформация или «разметка». Разметка – это множество единиц метаинформации, которые относятся к отдельным словам или речевым конструкциям. Из лингвистических типов разметки моно выделить следующие: морфологическая, синтаксическая, семантическая, просодическая.
Для построения корпуса применяются определенные шаги, принципы:
• Определение перечня источников.
• Оцифровка текстов (преобразование в компьютерную форму).
• Предобработка текста.
• Конвертирование и графематический анализ.
• Разметка текста.
• На следующем этапе осуществляется корректировка результатов автоматической разметки.
• Конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы.
• Обеспечение доступа к корпусу.
Задача устных корпусов изучить речевую сторону языка, произношение, интонацию, варианты темпа, варианты графической фиксации речи. Данная речь может быть представленная разными форматами: тв- и радио- передачами, подкастами, записанными разговорами на улице, видеоформатами. Важным параметрам для отборки (для исследования) такого текста является его реальность и живость.
1. Архипов А. В.Русский интонационный корпус: предварительный отчет . Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог»/А.В. Архипов, Л.М. Захаров, О.Ф. Кривнова, С.В. Кодзасова, А.А. Лебедев. – М.: Изд-во РГГУ, 2012. – 18-27 с.
2. Баранов, А.Н. Корпусная лингвистика. Введение в прикладную лингвистику /А.Н.Баранов. – . М., 2003. – 327 с.
3. Британский Национальный корпус [Электронный ресурс]. – Режим доступа: https://www.english-corpora.org/bnc/.
4. Брызгунова, Е. А. Эмоционально-стилистические различия звучащей речи/Е.А.Брызгунова. – М.: Изд-во Моск. ун-та, 1984. 116 с.
5. Бубнова Г. И., Письменная и устная коммуникации: Синтаксис и просодия / Г.И. Бубнова. – М., 2001. – 8 с.
6. Гребеньков, А.С. Морфологическая разметка текстов [Электронный ресурс]. – Режим доступа: http://project.phil.spbu.ru/corpora2011/Works2008/Grebenkov_154_160.pdf.
7. Захаров В.П. Корпусная лингвистика: Учебно-метод. Пособие/В.П.Захаров. – СПб., 2005. – 48 с.
8. Захаров, В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов / В.П. Захаров, С.Ю. Богданова. – Иркутск, 2011. – 161 с.
9. Зубов, А.В. Информационные технологии в лингвистике: учеб. Пособие /А.В. Зубов, И.И. Зубова. – М., 2004. – 208 с.
10. Кодзасов, С. В. База данных «Интонация русского диалога»: побудительные реплики // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог 2006» (Бекасово, 31 мая - 4 июня 2006 г.) / под ред. Н. И. Лауфер, А. С. Нариньяни, В. П. Селегея. М.: Изд-во РГГУ, 2006. 236-268 с.
11. Кустова, Г.И. Семантическая разметка текста [Электронный ресурс]. – Режим доступа: http://lexicograph.ruslang.ru/.
12. Фрейдина Е.Л. Просодия современного англоязычного устного дискурса. Социокультурный аспект: монография/ Е.Л. Фрейдина, Д.В. Ворошкевич, М.С. Савинова. – М.: Московский педагогический государственный университет, 2015. – 236 с.
13. Biber D., Conrad, S., Reppen, R. Corpus Linguistics: Investigating Language structure and Use, [Электронный ресурс]. – Cambridge: University press, 2004 – 240 p. – Режим доступа:
14. Cambridge English Corpus [Электронный ресурс]. – Режим доступа: https://www.cambridge.es/en/about-us.
15. Centre for English Corpus Linguistics [Электронный ресурс]. – Режим доступа: http://juppiter.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/cecl.html.
16. Garofolo J. S., Lamel Lori F., Fisher W. M., Fiscus J. G., Pallett D. S., and Dahlgren N. L.. The DARPA TIMIT acoustic-phonetic continuous speech corpus [Электронный ресурс]. / J.S. Garofolo. – Gaithersburg, 1993. – 99 p. – Режим доступа: https://perso.limsi.fr/lamel/TIMIT_NISTIR4930.pdf.
Работа защищена на оценку "8" без доработок.
Уникальность свыше 40%.
Работа оформлена в соответствии с методическими указаниями учебного заведения.
Количество страниц - 28.
Не нашли нужную
готовую работу?
готовую работу?
Оставьте заявку, мы выполним индивидуальный заказ на лучших условиях
Заказ готовой работы
Заполните форму, и мы вышлем вам на e-mail инструкцию для оплаты