Ключевые слова:
Matnli ma’lumotlarni qayta ishlash, Word2Vec, GloVe, FastText, chuqur o‘rganısh usullari, sonli vektorlar, so‘zlar o‘xshashligiАннотация
Kompyuter so‘zlarni inson kabi tushunmaydi, ular raqamlar bilan ishlashni afzal ko‘radi. Biroq buni amalga oshirish uchun so‘zlar o‘rtasidagi semantik aloqalarni o‘zida saqlanadigan usulni tanlashni istaymiz va hujjatlarda so‘zlar nafaqat semantikani, balki kontekstni ham eng yaxshi ifodalash uchun sonli tasvirlar hisoblanadi. Kompyuterga so‘zlar va ularning ma’nolarini tushunishga yordam berish uchun biz o‘rnatish/joylashtirsh (embeddings) deb ataladigan usuldan foydalanamiz. So‘zlarni joylashtirish – bu tabiiy tilni qayta ishlashning maxsus sohasi bo‘lib, so‘zlarni sonli vektorlarga mos qo‘yishda so‘zning qurshovidan foydalanadi. Ushbu o‘rnatishlar so‘zlarni matematik vektor sifatida ifodalaydi. Ushbu o‘rnatishlar to‘g‘ri va aniq ishlab chiqilganda, o‘xshash ma’noga ega bo‘lgan so‘zlar o‘xshash raqamli qiymatlarga ega bo‘ladi. Bu esa kompyuterlarga turli so‘zlar orasidagi bog‘lanish va o‘xshashliklarni ularning raqamli ko‘rinishlariga asoslangan holda tushunish imkonini beradi. Bugungi kunda so‘zlarni joylashtirishni o‘rganishning Word2Vec, GloVe va FastText kabi mashinali o‘qitish (Machine Learning, ML)ning chuqur o‘rganish (Deep Learning, DL) usullari navjud. NLP vazifasini hal qilishda samarali natijalarga erishish uchun so‘zlarni joylashtirish va chuqur o‘rganish modellarini tanlash juda muhim. Hozirda tabiiy tildagi matnni tahlil qilish, matn tasnifi, his-tuyg‘ularni tahlil qilish, NER obyektni tanib olish, mavzuni modellashtirish va boshqa NLP vazifalarini hal qilishda ushbu ML usullaridan keng miqyosida foydalanilmoqda. Ushbu maqolada o‘zbek tili korpusi matnlarini ushbu usullar vositasida qayta ishlash usullari, ularning arxitekturalari, so‘zlarni joylashtirish va chuqur o‘rganish modellarining Python tilidagi tadbig‘i keltiriladi. Shuningdek, NLP bo‘yicha so‘nggi tadqiqot tendentsiyalarining umumiy ko‘rinishini va matn tahlili vazifalarida samarali natijalarga erishish uchun ushbu modellardan qanday foydalanish batafsil keltiriladi. Matnni tahlil qilish vazifalarini bajarish uchun turli usullarni qiyosiy tahlil qilish asosida so‘zlarni joylashtirish va chuqur o‘rganish yondashuvini tanlash uchun zarur ma’lumotlar taqdim etiladi. Ushbu maqola so‘zlarni sonli ifodalashning turli yondashuvlari va chuqur o‘rganish modellarining asoslari, afzallik va qiyinchiliklarini o‘rganish uchun tezkor ma’lumot bo‘lib xizmat qilishi mumkin. Maqolada keltirilgan usullar o‘zbek tili matnlarini tahlil qilishda qo‘llanilishi va kelajakdagi NLP sohasidagi ilmiy tadqiqot uchun zarur vosita bo‘lib xizmat qiladi.
Библиографические ссылки
