ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ

Авезов Сухроб Собирович, Юсупова Альфия Шавкетовна

doi:10.5281/zenodo.7714460

Published March 10, 2023 | Version v1

Journal article Open

ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ

Авезов Сухроб Собирович, Юсупова Альфия Шавкетовна

Параллельные корпуса являются необходимым компонентом для разработки качественных систем машинного перевода, однако сбор соответствующих данных представляет собой сложную задачу. Когда богатая морфология языка увеличивает разреженность данных, необходимо иметь точные методы выравнивания и фильтрации, которые позволят эффективно использовать имеющуюся информацию, максимально увеличивая количество корректно переведенных сегментов в корпусе и минимизируя наличие шума, путем удаления неправильных переводов и сегментов, содержащих посторонние данные. В данной статье описывается план исследования по улучшению методов выравнивания и фильтрации параллельных текстов в условиях ограниченных ресурсов. Предлагается эффективный неконтролируемый метод выравнивания, способный решить проблему выравнивания, а также стратегия дополнения современных моделей автоматически извлекаемой информацией, с использованием основных инструментов NLP для эффективной обработки богатой морфологии языков.

Files

EJSSPC0311.pdf

Files (850.3 kB)

Name	Size	Download all
EJSSPC0311.pdf md5:77ceb1ee6962aa7d56846ed168dce740	850.3 kB	Preview Download

	All versions	This version
Views	55	55
Downloads	52	52
Data volume	45.9 MB	45.9 MB

ПРОЦЕСС ОБРАБОТКИ УЗБЕКСКОГО ПАРАЛЛЕЛЬНОГО КОРПУСА В УСЛОВИЯХ НЕДОСТАТОЧНОСТИ ДАННЫХ

Creators

Description

Files

EJSSPC0311.pdf

Files (850.3 kB)