АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ КАЗАХСКОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ DNN
Аннотация
В этой работе описано одно из направлений в области искусственного интеллекта системы распознавания речи. Сравнивая речи казахского и других языков, определили главные проблемы автоматического распознавания данного языка. Одним из главных проблем является отсутствие речевых данных, для чего проводились работы по сбору акустических данных казахского языка. В целях дальнейшего продолжения исследовательских работ, связанных с казахским языком, были идентифицированы личные данные дикторов. Описаны алгоритмы обработки речевых сигналов, осуществлено обучение по акустическому и языковому моделированию, проведены исследовательские и практические работы. Получены тестовые результаты распознавания речи с помощью глубоких нейронных сетей. Рассмотрены сравнения с результатами традиционных моделей и определены лучшие стороны глубоких нейронных сетей DNN - Deep Neural Network.
Об авторах
О. Ж. МамырбаевКазахстан
PhD
М. Тұрдалыұлы
Казахстан
докторант, НС
Н. О. Мекебаев
Казахстан
докторант, НС
Т. Тұрдалықызы
Казахстан
инженер-программист
А. С. Шаяхметова
Казахстан
руководитель проекта
Список литературы
1. Stouten F., Duchateau J., Martens J.-P., Wambacq P. Coping with disfluencies in spontaneous speech recognition: acoustic detection and linguistic context manipulation // Speech Communication. 2006. Vol. 48. pp. 1590-1606.
2. Tsiaras V., Panagiotakis C., Stylianou Y. Video and audio based detection of filled hesitation pauses in classroom lectures // Proc. o f the 17th European Signal Processing Conference (EUSIPCO 2009). Glasgow, Scotland, August 24-28, 2009. pp. 834-838.
3. Psutka J., Ircing P., Psutka J. V., Hajic J., Byrne W. J., Mirovsky J. Automatic Transcription of Czech, Russian, and Slovak Spontaneous Speech in the M ALACH Project // Proceedings of Eurospeech. Lisboa. Portugal. Sept. 4-8. 2005. pp. 1349-1352.
4. Young S. et al. The HTK Book (for HTK Version 3.4). Cambridge. UK, 2009. 375 p.
5. Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary A SR for Spoken Russian with Syntactic and Morphemic Analysis. In Proc. INTERSPEECH-2011, Florence, Italy, 2011, pp. 3161-3164.
6. Serizel, R., Giuliani, D.: Vocal tract length normalization approaches to DNN-Based children’s and adults’ speech recognition. IEEE W orkshop on Spoken Language Technology, pp. 135-140. 2014.
7. Behbahani, Yasser Mohseni, Babaali, Bagher, Turdalyuly Mussa Persian sentences to phoneme sequences conversion based on recurrent neural networks // Open Computer Science. - 2016. - Issue-6. - P. 219-225.
8. Dong Yu., Li Deng Automatic Speech Recognition // Shpringer. -2014. P. -315.
Рецензия
Для цитирования:
Мамырбаев О.Ж., Тұрдалыұлы М., Мекебаев Н.О., Тұрдалықызы Т., Шаяхметова А.С. АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ КАЗАХСКОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ DNN. Вестник Казахстанско-Британского технического университета. 2019;16(2):134-142.
For citation:
Mamyrbayev O., Turdalyuly M., Mekebayev N., Turdalykyzy T., Shayakhmetova A. AUTOMATIC KAZAKH SPEECH RECOGNITION WITH DNN. Herald of the Kazakh-British Technical University. 2019;16(2):134-142. (In Russ.)