СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ ДООБУЧЕНИЯ МУЛЬТИЯЗЫЧНЫХ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ МАШИННОГО ПЕРЕВОДА ДЛЯ УЗБЕКСКО-РУССКОЙ ЯЗЫКОВОЙ ПАРЫ

Authors

  • Авезов Сухроб Собирович PhD, преподаватель кафедры русского языка и литературы Бухарский государственный университет (Бухара, Узбекистан) 1990senigama@gmail.com https://orcid.org/0000-0003-1137-3403

DOI:

https://doi.org/10.66345/stj.v4i3/2.5233

Keywords:

нейронный машинный перевод, дообучение моделей, узбекско-русская языковая пара, NLLB-200, M2M-100, mBART-50, низкоресурсные языки, BLEU, трансферное обучение.

Abstract

В статье представлен сопоставительный анализ шести мультиязычных моделей нейронного машинного перевода (NLLB-200, M2M-100, mBART-50, OPUS-MT, Google Neural MT, SeamlessM4T) применительно к узбекско-русской языковой паре. Описан процесс дообучения (fine-tuning) указанных моделей на параллельном корпусе объёмом 185 тыс. выровненных сегментов. Качество перевода оценивалось по метрикам BLEU, chrF и TER. Результаты экспериментов показали, что наибольший прирост качества после дообучения демонстрирует модель NLLB-200-3.3B, достигшая значения BLEU 31,6 в направлении узбекский-русский. Обсуждены типичные ошибки каждой модели, предложены рекомендации по выбору архитектуры и стратегии дообучения для низкоресурсных тюркских языков.

Downloads

Download data is not yet available.

References

1. Хусаинова А. М., Романов В. А., Хан А. М. Многоязычный машинный перевод с помощью иерархического трансформера // Вестник ВГУ. Серия: Системный анализ и информационные технологии. – 2022. № 1. – С. 125-138.

2. Wang R., Utiyama M., Sumita E. A Survey on Low-Resource Neural Machine Translation // Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence (IJCAI-21). – 2021. – P. 4636-4643.

3. Signoroni R., Rychlý P. Efficient Architectures For Low-Resource Machine Translation // Proceedings of the 8th Workshop on Technologies for Machine Translation of Low-Resource Languages. – 2025. – P. 39-64.

4. https://huggingface.co/docs/transformers/en/model_doc/nllb

5. Негматулоев О. О., Жорник Д. О., Мельников А. В. Разработка модели нейронного машинного перевода для мансийского языка // Системная инженерия и информационные технологии. – 2025. Т. 7, № 2(21). – С. 30-47

6. Post M. A Call for Clarity in Reporting BLEU Scores // Proceedings of the Third Conference on Machine Translation: Research Papers. Brussels, Belgium, – 2018. – P. 186-191.

7. Popović M. chrF deconstructed: beta parameters and n-gram weights // Proceedings of the First Conference on Machine Translation. Berlin, Germany, – 2016. – P. 499-504.

Downloads

Published

2026-03-05

How to Cite

СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ ДООБУЧЕНИЯ МУЛЬТИЯЗЫЧНЫХ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ МАШИННОГО ПЕРЕВОДА ДЛЯ УЗБЕКСКО-РУССКОЙ ЯЗЫКОВОЙ ПАРЫ. (2026). SCIENCE TIME JOURNAL, 4(3/2), 21-30. https://doi.org/10.66345/stj.v4i3/2.5233
Indexed & Abstracted In

Our articles are indexed and discoverable across leading academic databases worldwide