AGGLUTINATIV TILLAR UCHUN KAM RESURSLI SHAROITDA MATN KLASSIFIKATSIYASINING GIBRID LINGVISTIK-STATISTIK MODELI

Authors

  • Karaxanova Shirin Azizjon qizi Muhammad al-Xorazmiy nomidagi TATU

Keywords:

NLP, TF-IDF, SVM, BERT, nomutanosib sinflar, SMOTE

Abstract

Mazkur maqolada sun’iy intellekt (AI) va tabiiy tilni qayta ishlash (NLP) sohalari doirasida o‘zbek tilidagi matnlarni avtomatik tasniflash (klassifikatsiya qilish) masalasi kompleks tarzda o‘rganilgan. Matnlarni avtomatik kategoriyalash zamonaviy  axborot tizimlarida, xususan tavsiya tizimlari, raqamli kutubxonalar, ijtimoiy tarmoqlar monitoringi hamda axborot qidiruv platformalarida muhim ahamiyat kasb etadi. Tadqiqotda tasniflash jarayonining samaradorligi tanlangan vektorlash usuli va klassifikatsiya algoritmiga bevosita bog‘liqligi ko‘rsatib berildi. O‘zbek tilining agglutinativ tabiati, ya’ni ko‘plab qo‘shimchalar orqali so‘z shakllarining kengayishi xususiyatlar makonining siyraklashishiga va modelni o‘qitishda qo‘shimcha murakkabliklarning yuzaga kelishiga sabab bo‘lishi ilmiy asosda tahlil qilindi. Ishda matnni dastlabki qayta ishlash, jumladan tokenizatsiya, lemmatizatsiya va stop-so‘zlarni olib tashlash bosqichlarining tasniflash aniqligiga ta’siri baholandi. Eksperimental qismda Bag-of-Words, TF-IDF, Word2Vec hamda Transformer asosidagi modellar o‘zaro taqqoslandi va nomutanosib sinflar muammosini kamaytirish uchun SMOTE muvozanatlashtirish usuli qo‘llanildi.

References

12. Zhang, Y., Wang, S., & Liu, X. “Deep Learning for Text Classification: A Review.” IEEE Access, 2015.

13. Abdurahmonov, A., & Mirzayev, M. “O‘zbek Tilidagi Matnlarni Morfologik Tahlil Qilishning Zamonaviy Yondashuvlari.” O‘zMU Ilmiy Axboroti, 2022.

14. Yo‘ldoshev, M., & Tursunov, S. “O‘zbek Tili uchun Maxsus Tokenizatsiya va Lemmatizatsiya Algoritmlari.” TATU Axborot Texnologiyalari Jurnali, 2021.

15. Uzbek Language Technology Consortium. “O‘zbek Tilida Sun’iy Intellekt Modellarini Yaratishning Muammolari.” Toshkent, 2023.

Downloads

Published

2026-02-21

How to Cite

AGGLUTINATIV TILLAR UCHUN KAM RESURSLI SHAROITDA MATN KLASSIFIKATSIYASINING GIBRID LINGVISTIK-STATISTIK MODELI. (2026). DIGITAL TRANSFORMATION AND ARTIFICIAL INTELLIGENCE, 4(1), 121-124. https://dtai.tsue.uz/index.php/dtai/article/view/v4i115