Введение
1 Описание состояния вопроса
1.1 Процесс распознавания речи
1.2 Проблематика вопроса
2 Распознавание слов в слитной речи
2.1 Распознавание изолированных слов
2.2 Проблема автоматического распознавания речи
2.3 Обзор систем управления распознаванием речевой информации и методов решения
2.3.1 Нейронные сети в распознании речи
2.3.2 Марковские модели в распознании речи
2.4 Алгоритм работы программ для распознания речи
Заключение
Список использованных источников
Введение
В настоящее время научное сообщество вкладывает огромные ресурсы в развитие ноу-хау, исследований и разработок для решения проблем автоматического распознавания и понимания речи. Это стимулируется практическими требованиями, связанными с созданием системы военного и коммерческого назначения. Не касаясь первого из них, можно констатировать, что только в европейском сообществе продажи гражданских систем составляют несколько миллиардов долларов. Следует отметить, что при практическом использовании не существует систем, которые по неизвестным причинам считаются вершиной развития систем автоматического распознавания речи. Это системы, которые можно назвать демонстрационными и которые называли «фонетическими пишущими машинками» 50 лет назад. Их цель - перевести речь в соответствующий письменный текст.
Если мы рассмотрим классическую схему «наука - технология - практические системы», то, прежде всего, мы должны определить условия, в которых будет работать практическая система автоматического распознавания или понимания речи. Наиболее серьезные проблемы возникают при следующих условиях:
- произвольный, наивный пользователь;
- спонтанная речь, сопровождаемая аграмматизмом и речевым «мусором»;
- наличие акустического шума и искажений, в том числе изменений;
- наличие речевых помех.
С появлением компьютеров для людей возник ряд новых проблем, связанных с передачей и хранением информации. Ввод данных всегда требовал значительных затрат времени и усилий, а стремление свести эти затраты к минимуму заставляет постоянно работать над способами перевода системы знаков, которую человек использует, на язык, который понимает машина. Перфокарты, а затем клавиатура не полностью решили эту проблему, поскольку эти способы передачи информации не являются естественными для человека, а потому, что они неэффективны, неэкономичны и, кроме того, требуют долгосрочного развития.
1 Описание состояния вопроса
Позвонив в службу поддержки, вы можете поговорить с девушкой оператора и даже договориться о ней. Теперь, на этом конце провода слышен приятный, но неодушевленный женский голос, предлагающий набрать 1, чтобы получить такую информацию, 2, чтобы связать ее с специалистом, 3, чтобы получить доступ к меню и т. д.
Существующие технологии распознавания речи на данный момент не имеют достаточных возможностей для их широкого использования, но на данном этапе исследований ведется интенсивный поиск возможностей использования коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи теперь нашло реальное применение в жизни, возможно, только в тех случаях, когда используемый словарь сокращается до 10 символов, например, при обработке номеров кредитных карт и других кодов доступа в компьютерных системах, обрабатывающих данные, передаваемые по телефону. Поэтому актуальная задача распознавания как минимум 20 тысяч слов естественного языка все еще недостижима. Эти функции пока недоступны для широкого коммерческого использования. Тем не менее, ряд компаний самостоятельно пытаются использовать знания, которые уже существуют в этой области науки.
Существующие сегодня системы распознавания речи основаны на сборе всей доступной (иногда даже избыточной) информации, необходимой для распознавания слов. Исследователи полагают, что, таким образом, проблема распознавания речевого паттерна, основанная на качестве сигнала, подлежащего изменению, будет достаточной для распознавания, но, тем не менее, в настоящее время даже при распознавании небольших сообщений Нормальная речь Это невозможно после получения различных реальных сигналов для преобразования лингвистических символов, что является желаемым результатом.
Сегодня в этом направлении уже работают не десятки, а сотни научных коллективов в научных и образовательных учреждениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и экспертов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и другие. Результаты работы, которые, как мы образно сказали, «упали во всем мире», преувеличены.
2 Распознавание слов в слитной речи
Для распознавания слов в непрерывной речи были протестированы два разных подхода. В первом случае при глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление каждого слова. Среди различных методов этого типа динамическое программирование дало хорошие результаты.
Во втором случае в аналитическом подходе каждое слово или группа слов сначала сегментируется на более мелкие единицы. Сегменты являются слоноподобными или фонем подобными единицами. Это позволяет распознавать как по слогам, так и по уровню фонем и в то же время учитывать параметры (длительность, энергия и т. Д.), Относящиеся к просодии и, следовательно, полезные. Сегментация может основываться на нахождении публичных высказываний, которые часто расположены вблизи максимума интегральной энергии спектра. При таком подходе первым критерием сегментации является изменение энергии с течением времени. Некоторые согласные, такие как m, n, l, иногда имеют ту же энергию, что и гласные. Поэтому необходимо ввести дополнительные параметры, чтобы определить наличие гласного звука в каждом ранее определенном сегменте.
Для выявления согласных, как правило, взрывные и невзрывные согласные разделяются. Это достигается путем обнаружения паузы (дуги), соответствующей закрытию перед взрывом. Задача сложна для стартовой позиции, где лук определен только для звучных взрывных согласных. После того, как лук обнаружен, определяется изменение в спектре и тип изменения. Для установления каждой категории звуков обычно используют упорядоченные правила, основанные на информации, в зависимости от акустического и фонетического контекста. В непрерывной речи фонетическая реализация определенного высказывания зависит от нескольких факторов, включая диалект, скорость речи, способ говорящего и другие.
Заключение
В результате работы был проведен обзор литературы, чтобы найти существующие методы анализа речи. Был произведён патентный поиск устройств, которые служат для извлечения признаков речевых сигналов. Оказалось, что предложенный способ анализа речевых сигналов, основанный на обработке сигналов во временной области, сегодня не имеет аналогов. Особенностью предлагаемого метода является представление модели речевого сигнала не в аддитивной форме, как в методах спектрального анализа, а в мультипликативной. Это объясняет использование ряда Тейлора при разложении полной фазовой функции речевого сигнала на компоненты, а не на ряд Фурье. Характерной особенностью этого метода является выбор скорости изменения частоты речевого сигнала в качестве информативного параметра. Это не было сделано ранее ни в одном методе анализа речи. Огибающая речевого сигнала также была получена впервые и проведен ее спектральный анализ.
1. Искусственный интеллект. Системы связи и экспертные системы. Принц 1 / Под ред. Е. В. Попова. - М. Радио и связь, 1990. - 461 с.
2. Оппенгейн А.В., Шафер Р.В. Цифровая обработка сигналов, М .: Радио и связь, 1979., 347 с.
3. Рабинер Л.Р. Шафер Р.В. Цифровая обработка речевых сигналов, М .: Радио и связь, 1981., 258 с.
4. Литук В.И. Методическое пособие № 2231 часть 3 «Методы расчета и проектирования цифровых многопроцессорных устройств для обработки радиосигналов», Таганрог, 1995, 48 с.
5. Кузнецов В., Отт А. Автоматический синтез речи. - Таллин: Валгус, 1989. - 135 с.
6. Методы автоматического распознавания речи / Под ред. W.Li. - М .: Мир, 1983. - 716 с.
7. Зиндер Л.Р. Общая фонетика. - М .: Высшая школа, 1979. - 312 с.
8. Златоустова Л.В., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика. М .: МГУ, 1986. - 304