НУТҚ СИГНАЛЛАРИ СИФАТИНИ БАҲОЛАШ ВА ИШЛОВ БЕРИШ ҚОИДАЛАРИ
Ключевые слова:
нутқ сигнали, спектрограмма, тасвир сифатини баҳолаш, шовқин, BRISQUE, NIQE, BIQI, таниб олиш, частота, пикселАннотация
Нутқ сигналларини қайта ишлаш ҳозирги куннинг энг истиқболли ва тез ривожланаётган йўналишларидан бири бўлиб, у тимсолларга ишлов бериш соҳасини машҳур йўналишларидан биридир. Бунда шовқин нутқ сигналларига салбий таъсир этувчи асосий омил сифатида қаралади ва у нутқ орқали таниб олиш, аудио ёзувларни қайта тиклаш каби вазифаларини самарали ҳал этишга жиддий тўсқинлик қилади.
Бироқ, нутқда шовқин мавжудлигини аниқлашни объектив эталонсиз мезонлари ишлаб чиқилмаганлиги сабаб, бу жараён фақат субъектив амалга оширилади. Бу ўз навбатида, нутқ билан ишлашда кўп вақт сарфланишига олиб келади.
Нутқ сигнали спектрограммаси эса нутқда шовқин мавжудлигини аниқлашда қулай восита ҳисобланиб, унинг сифатини баҳолашда макзур ишда тасвир сифатини эталонсиз баҳолаш мезонларидан фойдаланилган ҳамда мезон қийматларига кўра нутқ сигналларига ишлов бериш қоидалари шакллантирилган. Бунда ҳисоблаш тажрибаларида тоза нутқлар маълумотлар базаси олинган бўлиб, ундаги аудио ёзувларга турли фоизларда оқ шовқин қўшилган ҳамда ҳосил бўлган нутқ сигналлари спектрограммалар сифати BRISQUE, NIQE ва BIQI мезонларидан фойдаланиб баҳоланган. Шунингдек, ишда нутқни LibriSpeech очиқ базасидан ташқари муаллифлар томонидан студияда ёзиб олинган нутқлар базаси ҳамда шовқин аралаш нутқ базаларидан фойдаланилган. Натижада, спектрограммалар сифатини баҳолаш орқали нутқни тўғридан-тўғри навбатдаги босқичга ўтказиш мумкинлиги ёки шовқин пасайтириш фильтрини қўллаш зарурлиги бўйича қарор қабул қилиш қоидалари таклиф этилган. Бу нутқ сигналларига ишлов беришни автоматлаштириш ҳамда сарфланадиган вақтни тежаш имконини беради.
Библиографические ссылки
Boldyshev A.V., Medvedeva A.A., Prokhorenko E.I., Gaivoronskaya D.I. 2024. Algorithm for Constructing and Analyzing Spectrograms of Audio Signals. Economics. Information technologies, 51(1): 250–260. DOI 10.52575/2687-0932-2024-51-1-250-260
Белов Сергей Валерьевич, Катунин Сергей Сергеевич. Гибридная методика шумоподавления в речевом сигнале для системы видеоконференций // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. 2023. №1.
Mamatov, N., Niyozmatova, N., & Samijonov, A. (2021). Software for preprocessing voice signals. International Journal of Applied Science and Engineering, 18(1), 1-8.
Niyozmatova, N. A., Mamatov, N. S., Tulyaganova, S. A., Samijonov, A. N., & Samijonov, B. N. (2023, June). Methods for determining speech activity of uzbek speech in recognition systems. In AIP Conference Proceedings (Vol. 2789, No. 1). AIP Publishing.
Zhilyakov E.G. 2015. Optimal sub-band methods for analysis and synthesis of finite-duration signals. Automation and Remote Control, 4: 51–66.
Bys'ko M. V. Shumologiia [Noisology]. Mediamuzyka, 2014, no. 3, p. 6.
Topnikov A. I. Otsenka razborchivosti i obrabotka rechevykh signalov v zadache shumopodavleniia. Avtoreferat dissertatsii … kand. tekhn. nauk [Estimating intelligibility and processing speech signals in problem of noise suppression. Diss. Abstr. … Cand. Tech. Sci.]. Vladimir, 2012. 16 p.
Fu, S., Liao, C., & Tsao, Y. (2020). Learning with Learned Loss Function: Speech enhancement with Quality-Net to improve perceptual evaluation of speech quality. IEEE Signal Processing Letters, 27, 26–30. https://doi.org/10.1109/lsp.2019.2953810
Pranay Manocha, Zeyu Jin, and Adam Finkelstein. Audio similarity is unreliable as a proxy for audio quality. arXiv preprint arXiv:2206.13411, 2022. URL: https://doi.org/10.48550/arXiv.2206.13411.
A. Rix, J. Beerends, M. Hollier, and A. Hekstra, "Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs," ITU-T Recommendation, p. 862, 2001.
S.-W. Fu, Y. Tsao, X. Lu, and H. Kawai, "End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks," IEEE Transactions on Audio, Speech, and Language Processing, 2018.
Klakow, Dietrich; Jochen Peters (September 2002). "Testing the correlation of word error rate and perplexity". Speech Communication. 38 (1–2): 19–28. doi:10.1016/S0167-6393(01)00041-3. ISSN 0167-6393
Mamatov N. S., Jalelova M.M., Tojiboyeva Sh.X., Samijonov B.N. Methods for Reducing Mixed Noise in an Image // International Journal of Advanced Research in Science, Engineering and Technology. ISSN: 2350-0328. –Volume 10. –Issue 12. –India, 2023.
Mamatov, N. S., Jalelova, M. M., Samijonov, A. N., & Samijonov, B. N. (2024e). Algorithm for improving the quality of mixed noisy images. Journal of Physics. Conference Series, 2697(1), 012013. https://doi.org/10.1088/1742-6596/2697/1/012013
Moorthy, A., & Bovik, A. (2010). A Two-Step Framework for constructing blind image quality indices. IEEE Signal Processing Letters, 17(5), 513–516. https://doi.org/10.1109/lsp.2010.2043888
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2024 Ниёзматова Нилуфар Аълохановна, Жалелов Қуаныш Моятдинович, Самижонов Абдурашид Нарзулло ўғли
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.