Published August 31, 2021 | Version 1.0
Video/Audio Open

Yongning Na for Natural Language Processing: a single-speaker audio corpus with transcriptions

  • 1. CNRS-LACITO

Contributors

Data curator:

Project member:

  • 1. CNRS-LACITO

Description

(français ci-dessous)

This archive contains a dataset (audio files and transcriptions) of a minority language, Yongning Na (Glottocode: yong1288; closest iso 639-3 code: nru). The archive contains a subset of the Na corpus of the Pangloss Collection: it is a single-speaker corpus, consisting of all the audio resources transcribed, for the main speaker of this corpus (Ms. LATAMI Dashilame).
The corpus is versioned, so that the experiments carried out on these resources (for linguistic research or for Natural Language Processing) are fully reproducible. All relevant information is contained in YAML files (.yml extension; one in French, one in English).
The data sub-folder contains the converted and demultiplexed audio files, as well as the annotations associated with each channel of the audio files.
The summary files contain, among other things, the list of graphemes used in the language (complex graphemes are particularly important), as well as information on the various resources (audio and annotations), such as their identifiers (DOIs) and links to the original files.
From a computational point of view, the list of DOIs of the audios and annotations described in this YAML file is sufficient to generate this corpus at a given time. A corpus like the present one can be viewed as the version, at a given time, of a set of documents in the Pangloss collection: a corpus as it stands at a precise version.

Further information is available from https://gitlab.com/lacito/outilspangloss

---------------

Cette archive contient un jeu de données (audios et transcriptions) d’une langue à tradition orale, le na de Yongning  (Glottocode: yong1288; code iso 639-3 le plus proche : nru). L’archive contient un sous-ensemble du corpus na de la collection Pangloss : c’est un corpus monolocuteur, constitué de l’intégralité des ressources audio transcrites pour la locutrice principale de ce corpus (Mme LATAMI Dashilame).
Le corpus est versionné, de sorte que les expériences menées sur ces ressources (pour la linguistique ou pour le Traitement automatique des langues) soient reproductibles de façon exacte (en pensant bien à joindre l’algorithme : paramètres, répartitions des fichiers dans les différents ensembles, etc.). Toutes les informations pertinentes se trouvent dans les fichiers YAML (extension .yml ; un en français, un autre en anglais).
Le sous-dossier des données contient d’une part les audios convertis et démultiplexés et d’autre part les annotations associées à chaque canal desdits audios.
Les fichiers récapitulatifs contiennent notamment la liste des graphèmes utilisés dans cette langue (les graphèmes complexes sont particulièrement importants), ainsi que des informations sur les différentes ressources (audios et annotations), comme les identifiants (DOI), les liens vers les fichiers originaux, etc.
Au plan informatique, la liste des identifiants DOI des audios et annotations décrits dans ce fichier YAML suffit pour générer ce corpus à un instant t. Un corpus comme celui-ci peut être vu comme la version à l’instant t d’un ensemble de documents de la collection Pangloss : un corpus arrêté à une version précise.
Pour plus de précisions : https://gitlab.com/lacito/outilspangloss

Files

Yongning Na – Dashilame – 16k-16.zip

Files (1.8 GB)

Name Size Download all
md5:ff371a2cd79a90a358e34c8d3c795651
1.8 GB Preview Download

Additional details

Funding

CLD2025 – Computational Language Documentation by 2025 ANR-19-CE38-0015
Agence Nationale de la Recherche
HimalCo – Parallel corpora in languages of the Greater Himalayan area ANR-12-CORP-0006
Agence Nationale de la Recherche
PASQi – What defines Qiang-ness? Towards a phylogenetic assessment of the Southern Qiangic languages of Muli ANR-07-JCJC-0063
Agence Nationale de la Recherche
EFL – Empirical Foundations of Linguistics : data, methods, models 10-LABX-0083
Agence Nationale de la Recherche