Методология параметрически эффективной адаптации больших языковых моделей к агглютинативным языкам с дефицитом обучающих данных: опыт узбекского языка

Рустам Тахиритдинович Гаипназаров; Баходир Сунатуллаевич Жумакулов; Дилобар Мирхамидовна Хусайдинова

doi:10.5281/zenodo.19851389

Published April 28, 2026 | Version v1

Journal article Open

Методология параметрически эффективной адаптации больших языковых моделей к агглютинативным языкам с дефицитом обучающих данных: опыт узбекского языка

1. Ташкентский университет информационных технологий имени Мухаммада ал-Хорезми, преподаватель, Ташкент, Узбекистан
2. Ташкентский университет информационных технологий имени Мухаммада ал-Хорезми, преподаватель, Ташкент Узбекистан

В статье предложен теоретико-методологический фреймворк параметрически эффективной адаптации предобученных больших языковых моделей класса LLaMA-3 и Mistral-7B к узбекскому языку в условиях дефицита обучающих данных. Рассмотрены морфологические ограничения агглютинативного строя узбекского языка в контексте BPE-токенизации, методика формирования минимально достаточного корпуса, принципы выбора гиперпараметров LoRA/QLoRA и система оценки качества генерации с учётом морфологической специфики. Практическая значимость подхода связана с его применением в системах электронного государственного управления и образовательных технологиях Узбекистана.

Files

8_1125-46-54-Jumakulov.pdf

Files (533.8 kB)

Name	Size	Download all
8_1125-46-54-Jumakulov.pdf md5:effea4a8e02f0ffe3c4575c42c38eca4	533.8 kB	Preview Download

Additional details

Brown T. et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, vol. 33, pp. 1877–1901.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT, 2019, pp. 4171–4186.
Mengliev B., et al. Investigating linguistic errors in large language model generation of Uzbek text. Cogent Social Sciences, 2025. DOI: 10.1080/23311983.2025.2600519.
Hu E. J. et al. LoRA: Low-rank adaptation of large language models. Proceedings of ICLR, 2022.
Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient finetuning of quantized LLMs. arXiv preprint, 2023. arXiv:2305.14314.
Topal M.B., Bozanta A., Başar A. How do LLMs perform on Turkish? A multi-faceted multi-prompt evaluation. Expert Systems with Applications, 2025, vol. 279, 127421. DOI: 10.1016/j.eswa.2025.127421.
Kesgin H.T. et al. Optimizing large language models for Turkish: new methodologies in corpus selection and training. arXiv preprint, 2024. arXiv:2412.02775.
Vaswani A. et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, vol. 30.
OpenAI. GPT-4 Technical Report. arXiv preprint, 2023. arXiv:2303.08774.
Dubey A. et al. The Llama 3 herd of models. arXiv preprint, 2024. arXiv:2407.21783.
Jiang A. Q. et al. Mistral 7B. arXiv preprint, 2023. arXiv:2310.06825.
Conneau A. et al. Unsupervised cross-lingual representation learning at scale. Proceedings of ACL, 2020, pp. 8440–8451.
Ibrahimzade O., Tabasaransky K. Cross-lingual transfer and parameter-efficient adaptation in the Turkic language family: a theoretical framework for low-resource language models. arXiv preprint, 2026. arXiv:2604.06202.
Abdurakhmonova N. et al. Developing named entity recognition algorithms for Uzbek: dataset insights and implementation. Data in Brief, 2024. DOI: 10.1016/j.dib.2024.110382.
Yusupov A. et al. Creating a morphological and syntactic tagged corpus for the Uzbek language. ResearchGate, 2022.
Mambetov A. et al. Development of language models for continuous Uzbek speech recognition system. Sensors, 2023, vol. 23, no. 3, p. 1145. DOI: 10.3390/s23031145.
Wang L. et al. Parameter-efficient fine-tuning in large language models: a survey of methodologies. Artificial Intelligence Review, 2025, vol. 58, art. 227. DOI: 10.1007/s10462-025-11236-4.
Papineni K. et al. BLEU: a method for automatic evaluation of machine translation. Proceedings of ACL, 2002, pp. 311–318.
Lin C.-Y. ROUGE: A package for automatic evaluation of summaries. Text Summarization Branches Out, 2004, pp. 74–81.
Abdurakhmonova N. et al. A morphological analysis model for the Uzbek language. arXiv preprint, 2024. arXiv:2405.14179.
Bayram M.A. et al. Setting standards in Turkish NLP: TR-MMLU for large language model evaluation. arXiv preprint, 2025. arXiv:2501.00593.
Shen A. et al. Accurate and efficient fine-tuning of quantized large language models through optimal balance in adaptation. Transactions of the Association for Computational Linguistics, 2025, vol. 13, pp. 861–877.

	All versions	This version
Views	16	16
Downloads	6	6
Data volume	4.8 MB	4.8 MB

Методология параметрически эффективной адаптации больших языковых моделей к агглютинативным языкам с дефицитом обучающих данных: опыт узбекского языка

Authors/Creators

Description

Files

8_1125-46-54-Jumakulov.pdf

Files (533.8 kB)

Additional details

References