AGGLUTINATIV TILLAR UCHUN KAM RESURSLI SHAROITDA MATN KLASSIFIKATSIYASINING GIBRID LINGVISTIK-STATISTIK MODELI
Keywords:
NLP, TF-IDF, SVM, BERT, nomutanosib sinflar, SMOTEAbstract
Mazkur maqolada sun’iy intellekt (AI) va tabiiy tilni qayta ishlash (NLP) sohalari doirasida o‘zbek tilidagi matnlarni avtomatik tasniflash (klassifikatsiya qilish) masalasi kompleks tarzda o‘rganilgan. Matnlarni avtomatik kategoriyalash zamonaviy axborot tizimlarida, xususan tavsiya tizimlari, raqamli kutubxonalar, ijtimoiy tarmoqlar monitoringi hamda axborot qidiruv platformalarida muhim ahamiyat kasb etadi. Tadqiqotda tasniflash jarayonining samaradorligi tanlangan vektorlash usuli va klassifikatsiya algoritmiga bevosita bog‘liqligi ko‘rsatib berildi. O‘zbek tilining agglutinativ tabiati, ya’ni ko‘plab qo‘shimchalar orqali so‘z shakllarining kengayishi xususiyatlar makonining siyraklashishiga va modelni o‘qitishda qo‘shimcha murakkabliklarning yuzaga kelishiga sabab bo‘lishi ilmiy asosda tahlil qilindi. Ishda matnni dastlabki qayta ishlash, jumladan tokenizatsiya, lemmatizatsiya va stop-so‘zlarni olib tashlash bosqichlarining tasniflash aniqligiga ta’siri baholandi. Eksperimental qismda Bag-of-Words, TF-IDF, Word2Vec hamda Transformer asosidagi modellar o‘zaro taqqoslandi va nomutanosib sinflar muammosini kamaytirish uchun SMOTE muvozanatlashtirish usuli qo‘llanildi.
References
12. Zhang, Y., Wang, S., & Liu, X. “Deep Learning for Text Classification: A Review.” IEEE Access, 2015.
13. Abdurahmonov, A., & Mirzayev, M. “O‘zbek Tilidagi Matnlarni Morfologik Tahlil Qilishning Zamonaviy Yondashuvlari.” O‘zMU Ilmiy Axboroti, 2022.
14. Yo‘ldoshev, M., & Tursunov, S. “O‘zbek Tili uchun Maxsus Tokenizatsiya va Lemmatizatsiya Algoritmlari.” TATU Axborot Texnologiyalari Jurnali, 2021.
15. Uzbek Language Technology Consortium. “O‘zbek Tilida Sun’iy Intellekt Modellarini Yaratishning Muammolari.” Toshkent, 2023.
Downloads
Published
Issue
Section
License
Copyright (c) 2026 Karaxanova Shirin Azizjon qizi

This work is licensed under a Creative Commons Attribution 4.0 International License.







