СИНТЕЗ УЗБЕКСКОЙ РЕЧИ НА БАЗЕ ГИБРИДНОЙ НЕЙРОСЕТЕВОЙ АРХИТЕКТУРЫ

Мухаммаджон Мусаев; Malika Abdullaeva; Маннон Очилов

Авторы

Мухаммаджон Мусаев ТУИТ имени Мухаммада ал-Хоразмий
Malika Abdullaeva ТУИТ имени Мухаммада ал-Хоразмий
Маннон Очилов ТУИТ имени Мухаммада ал-Хоразмий

Ключевые слова:

Синтез речи, TTS-система, анализ текста, нормализация текста, глубокие нейронные сети, Tacotron2, ParallelWaveGAN, MOS

Аннотация

В данной статье рассматриваются особенности разработки систем преобразования текста в речь, а также описываются ключевые этапы реализации TTS-системы. Основной целью работы является описание и определение составных модулей, на основе которых была реализована TTS-система узбекского языка, использующая гибридную нейросетевую модель Tacotron2+ParallelWaveGAN. В рамках исследования проведены эксперименты и осуществлена оценка модели синтеза речи, которая составила 4,3 балла из 5, тогда как естественная речь была оценена на 4,7 балла по системе оценивания MOS. Основные результаты показывают, что сочетание моделей Tacotron2+ParallelWaveGAN генерирует более естественные звуковые аудио, в отличие от классической модели Tacotron2+WaveNet. Данные выводы и разработанная TTS-система могут быть использованы в ассистивных системах для людей с ограниченными возможностями. В завершении статьи обсуждаются решения, которые могут положительно повлиять на разработанную систему с точки зрения улучшения естественности и просодики генерируемых аудиофайлов.

Библиографические ссылки

M.R. Schroeder, A brief history of synthetic speech, Speech Communication, vol. 13, no. 1-2, 1993, pp. 231-237.

D. H. Klatt, Review of text-to-speech conversion for English, The Journal of the Acoustical Society of America, vol. 82, no. 3, May 1987, pp. 737-783. https://doi.org/10.1121/1.395275.

Н.C.Киреев, Е.А.Ильюшин. Обзор существующих алгоритмов преобразования текста в речь. International Journal of Open Information Technologies ISSN: 2307-8162 vol. 8, no.7, 2020, C. 74-80.

Paul Taylor, Text-to-Speech Synthesis, Cambridge University Press, 2009, 627p.

S. Ibragimova, T. Boburkhon, M. Abdullayeva. Solving the problems of normalization of non-standard words in the text of the Uzbek language. Acta of Turin Polytechnic University in Tashkent 13 (3), pp. 38-42

Chan N. C. Prosodic Rules for Connected Mandarin Synthesis. J. Inform. Sci. Eng. 8,. 1992, pp. 261-281.

Akira Tamamori, Tomoki Hayashi, Kazuhiro Kobayashi, Kazuya Takeda, and Tomoki Toda, Speaker-dependent WaveNet vocoder, 2017, DOI:10.21437/INTERSPEECH.2017-314. pp. 1118-1122

J. Shen, R. Pang, Ron J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, RJ Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions, 2017, https://doi.org/10.48550/arXiv.1712.05884. 5p.

Ryuichi Yamamoto, Eunwoo Song, Jae-min Kim, Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram, in Proc. ICASSP, 2020, https://doi.org/10.48550/arXiv.1910.11480. 5p.

L. Juvela, B. Bollepalli, J. Yamagishi, and P. Alku, GELP: GAN-excited linear prediction for speech synthesis from mel-spectrogram, in Proc. INTERSPEECH, Sept. 2019, pp. 694–698.

Abdullaeva M.I., Juraev D.B., Ochilov M.M., Rakhimov M.F., Uzbek Speech Synthesis Using Deep Learning Algorithms. The 14th International Conference on Intelligent Human Computer Interaction, Springer, 13741 LNCS, Tashkent – 2013, pp 39–50

Meysam Shamsi. PhD dissertation on theme Script optimization for TTS voice corpus design in audio-book generation, June 2021. 137p. https://tel.archives-ouvertes.fr/tel-03270968

Jindrich Matousek, Josef Psutka, Jirı Kruta, Design of Speech Corpus for Text-to-Speech Synthesis, Eurospeech 2001 – Scandinavia, 2001, 4p.

V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an ASR corpus based on public domain audio books, 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2015, pp. 5206–5210.

Muller L., Psutka J., Smıdl L.,Design of Speech Recognition Engine, Proceedings of TSD2000, Springer Verlag, Berlin, 2000, pp. 259–264.

Radova, V., UWB S01 Corpus – A Czech Read-Speech Corpus, Proceedings of ICSLP2000, vol. IV, Beijing, 2000, pp. 732–735.