Published April 28, 2026 | Version v1
Journal article Open

Методология параметрически эффективной адаптации больших языковых моделей к агглютинативным языкам с дефицитом обучающих данных: опыт узбекского языка

  • 1. Ташкентский университет информационных технологий имени Мухаммада ал-Хорезми, преподаватель, Ташкент, Узбекистан
  • 2. Ташкентский университет информационных технологий имени Мухаммада ал-Хорезми, преподаватель, Ташкент Узбекистан

Description

В статье предложен теоретико-методологический фреймворк параметрически эффективной адаптации предобученных больших языковых моделей класса LLaMA-3 и Mistral-7B к узбекскому языку в условиях дефицита обучающих данных. Рассмотрены морфологические ограничения агглютинативного строя узбекского языка в контексте BPE-токенизации, методика формирования минимально достаточного корпуса, принципы выбора гиперпараметров LoRA/QLoRA и система оценки качества генерации с учётом морфологической специфики. Практическая значимость подхода связана с его применением в системах электронного государственного управления и образовательных технологиях Узбекистана.

Files

8_1125-46-54-Jumakulov.pdf

Files (533.8 kB)

Name Size Download all
md5:effea4a8e02f0ffe3c4575c42c38eca4
533.8 kB Preview Download

Additional details

References

  • Brown T. et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, vol. 33, pp. 1877–1901.
  • Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT, 2019, pp. 4171–4186.
  • Mengliev B., et al. Investigating linguistic errors in large language model generation of Uzbek text. Cogent Social Sciences, 2025. DOI: 10.1080/23311983.2025.2600519.
  • Hu E. J. et al. LoRA: Low-rank adaptation of large language models. Proceedings of ICLR, 2022.
  • Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. QLoRA: Efficient finetuning of quantized LLMs. arXiv preprint, 2023. arXiv:2305.14314.
  • Topal M.B., Bozanta A., Başar A. How do LLMs perform on Turkish? A multi-faceted multi-prompt evaluation. Expert Systems with Applications, 2025, vol. 279, 127421. DOI: 10.1016/j.eswa.2025.127421.
  • Kesgin H.T. et al. Optimizing large language models for Turkish: new methodologies in corpus selection and training. arXiv preprint, 2024. arXiv:2412.02775.
  • Vaswani A. et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, vol. 30.
  • OpenAI. GPT-4 Technical Report. arXiv preprint, 2023. arXiv:2303.08774.
  • Dubey A. et al. The Llama 3 herd of models. arXiv preprint, 2024. arXiv:2407.21783.
  • Jiang A. Q. et al. Mistral 7B. arXiv preprint, 2023. arXiv:2310.06825.
  • Conneau A. et al. Unsupervised cross-lingual representation learning at scale. Proceedings of ACL, 2020, pp. 8440–8451.
  • Ibrahimzade O., Tabasaransky K. Cross-lingual transfer and parameter-efficient adaptation in the Turkic language family: a theoretical framework for low-resource language models. arXiv preprint, 2026. arXiv:2604.06202.
  • Abdurakhmonova N. et al. Developing named entity recognition algorithms for Uzbek: dataset insights and implementation. Data in Brief, 2024. DOI: 10.1016/j.dib.2024.110382.
  • Yusupov A. et al. Creating a morphological and syntactic tagged corpus for the Uzbek language. ResearchGate, 2022.
  • Mambetov A. et al. Development of language models for continuous Uzbek speech recognition system. Sensors, 2023, vol. 23, no. 3, p. 1145. DOI: 10.3390/s23031145.
  • Wang L. et al. Parameter-efficient fine-tuning in large language models: a survey of methodologies. Artificial Intelligence Review, 2025, vol. 58, art. 227. DOI: 10.1007/s10462-025-11236-4.
  • Papineni K. et al. BLEU: a method for automatic evaluation of machine translation. Proceedings of ACL, 2002, pp. 311–318.
  • Lin C.-Y. ROUGE: A package for automatic evaluation of summaries. Text Summarization Branches Out, 2004, pp. 74–81.
  • Abdurakhmonova N. et al. A morphological analysis model for the Uzbek language. arXiv preprint, 2024. arXiv:2405.14179.
  • Bayram M.A. et al. Setting standards in Turkish NLP: TR-MMLU for large language model evaluation. arXiv preprint, 2025. arXiv:2501.00593.
  • Shen A. et al. Accurate and efficient fine-tuning of quantized large language models through optimal balance in adaptation. Transactions of the Association for Computational Linguistics, 2025, vol. 13, pp. 861–877.