Universal CEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

Imperial, Joseph Marvin; Baraean, Abdullah; Stodden, Regina; Wilkens, Rodrigo; Muñoz Sánchez, Ricardo; Gao, Lingyun; R. Toribio, Melissa Esther; Reynolds, Robert; Ribeiro, Eugénio; Saggion, Horacio; Volodina, Elena; Vajjala, Sowmya; François, Thomas; Alva Manchego, Fernando; Tayyar Madabushi, Harish

doi:10.18653/v1/2025.emnlp-main.491

Published November 2025 | Version v1

Conference proceeding Open

Universal CEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

1. University of Bath
2. National University College of Computer Studies
3. University of Gothenburg
4. Reduce Soluciones
5. UCLouvain Saint-Louis Brussels
6. Brigham Young University
7. Instituto Superior Técnico
8. Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento
9. Pompeu Fabra University
10. UCLouvain

Abstract

We introduce UNIVERSALCEFR, a largescale multilingual and multidimensional dataset of texts annotated with CEFR (Common European Framework of Reference)
levels in 13 languages. To enable open research in automated readability and language proficiency assessment, UNIVERSALCEFR comprises 505,807 CEFR-labeled texts
curated from educational and learner-oriented resources, standardized into a unified data format to support consistent processing, analysis, and modelling across tasks and languages. To demonstrate its utility, we conduct benchmarking experiments using three modelling paradigms: a) linguistic feature-based classification, b) fine-tuning
pre-trained LLMs, and c) descriptor-based prompting of instruction-tuned LLMs. Our results support using linguistic features and fine-tuning pretrained models in multilingual CEFR level assessment. Overall, UNIVERSALCEFR aims to establish best practices in data distribution for language proficiency research by standardising dataset formats, and promoting their accessibility to the global research community.

Files

2025.emnlp-main.491.pdf

Files (1.4 MB)

Name	Size	Download all
2025.emnlp-main.491.pdf md5:27fc87509350267e07354d66e77eb381	1.4 MB	Preview Download

Views

Downloads

Show more details

	All versions	This version
Views	20	20
Downloads	12	12
Data volume	18.3 MB	18.3 MB

More info on how stats are collected....

DOI

Resource type

Conference proceeding

Publisher

Zenodo

Imprint

Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing 979-8-89176-332-6 ed., 9714–9766. Suzhou, China.

Languages

English

License: Creative Commons Attribution 4.0 International

The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more
Copyright: Association for Computational Linguistics

Technical metadata

Created: November 24, 2025
Modified: November 24, 2025

Universal CEFR: Enabling Open Multilingual Research on Language Proficiency Assessment

Authors/Creators

Description

Files

2025.emnlp-main.491.pdf

Files (1.4 MB)