Yongning Na for Natural Language Processing: a single-speaker audio corpus with transcriptions
Contributors
Data curator:
Other:
Project member:
- 1. CNRS-LACITO
Description
(français ci-dessous)
This archive contains a dataset (audio files and transcriptions) of a minority language, Yongning Na (Glottocode: yong1288; closest iso 639-3 code: nru). The archive contains a subset of the Na corpus of the Pangloss Collection: it is a single-speaker corpus, consisting of all the audio resources transcribed, for the main speaker of this corpus (Ms. LATAMI Dashilame).
The corpus is versioned, so that the experiments carried out on these resources (for linguistic research or for Natural Language Processing) are fully reproducible. All relevant information is contained in YAML files (.yml extension; one in French, one in English).
The data sub-folder contains the converted and demultiplexed audio files, as well as the annotations associated with each channel of the audio files.
The summary files contain, among other things, the list of graphemes used in the language (complex graphemes are particularly important), as well as information on the various resources (audio and annotations), such as their identifiers (DOIs) and links to the original files.
From a computational point of view, the list of DOIs of the audios and annotations described in this YAML file is sufficient to generate this corpus at a given time. A corpus like the present one can be viewed as the version, at a given time, of a set of documents in the Pangloss collection: a corpus as it stands at a precise version.
Further information is available from https://gitlab.com/lacito/outilspangloss
---------------
Cette archive contient un jeu de données (audios et transcriptions) d’une langue à tradition orale, le na de Yongning (Glottocode: yong1288; code iso 639-3 le plus proche : nru). L’archive contient un sous-ensemble du corpus na de la collection Pangloss : c’est un corpus monolocuteur, constitué de l’intégralité des ressources audio transcrites pour la locutrice principale de ce corpus (Mme LATAMI Dashilame).
Le corpus est versionné, de sorte que les expériences menées sur ces ressources (pour la linguistique ou pour le Traitement automatique des langues) soient reproductibles de façon exacte (en pensant bien à joindre l’algorithme : paramètres, répartitions des fichiers dans les différents ensembles, etc.). Toutes les informations pertinentes se trouvent dans les fichiers YAML (extension .yml ; un en français, un autre en anglais).
Le sous-dossier des données contient d’une part les audios convertis et démultiplexés et d’autre part les annotations associées à chaque canal desdits audios.
Les fichiers récapitulatifs contiennent notamment la liste des graphèmes utilisés dans cette langue (les graphèmes complexes sont particulièrement importants), ainsi que des informations sur les différentes ressources (audios et annotations), comme les identifiants (DOI), les liens vers les fichiers originaux, etc.
Au plan informatique, la liste des identifiants DOI des audios et annotations décrits dans ce fichier YAML suffit pour générer ce corpus à un instant t. Un corpus comme celui-ci peut être vu comme la version à l’instant t d’un ensemble de documents de la collection Pangloss : un corpus arrêté à une version précise.
Pour plus de précisions : https://gitlab.com/lacito/outilspangloss
Files
Yongning Na – Dashilame – 16k-16.zip
Files
(1.8 GB)
Name | Size | Download all |
---|---|---|
md5:ff371a2cd79a90a358e34c8d3c795651
|
1.8 GB | Preview Download |
Additional details
Funding
- CLD2025 – Computational Language Documentation by 2025 ANR-19-CE38-0015
- Agence Nationale de la Recherche
- HimalCo – Parallel corpora in languages of the Greater Himalayan area ANR-12-CORP-0006
- Agence Nationale de la Recherche
- PASQi – What defines Qiang-ness? Towards a phylogenetic assessment of the Southern Qiangic languages of Muli ANR-07-JCJC-0063
- Agence Nationale de la Recherche
- EFL – Empirical Foundations of Linguistics : data, methods, models 10-LABX-0083
- Agence Nationale de la Recherche