Published September 22, 2021 | Version 1.0
Video/Audio Open

Japhug for Natural Language Processing: a single-speaker audio corpus with transcriptions

Description

(français ci-dessous)

This archive contains a dataset (audio files and transcriptions) of a minority language, Japhug (Glottocode: japh1234; closest iso 639-3 code: jya). The archive contains a subset of the Japhug corpus of the Pangloss Collection: it is a single-speaker corpus, consisting of all the audio resources transcribed, for the main speaker of this corpus (Ms. Tshendzin).
The corpus is versioned, so that the experiments carried out on these resources (for linguistic research or for Natural Language Processing) are fully reproducible. All relevant information is contained in YAML files (.yml extension; one in French, one in English).
The data sub-folder contains the converted and demultiplexed audio files, as well as the annotations associated with each channel of the audio files.
The summary files contain, among other things, the list of graphemes used in the language (complex graphemes are particularly important), as well as information on the various resources (audio and annotations), such as their identifiers (DOIs) and links to the original files.
From a computational point of view, the list of DOIs of the audios and annotations described in this YAML file is sufficient to generate this corpus at a given time. A corpus like the present one can be viewed as the version, at a given time, of a set of documents in the Pangloss collection: a corpus as it stands at a precise version.

Further information is available from https://gitlab.com/lacito/outilspangloss

---------------

Cette archive contient un jeu de données (audios et transcriptions) d’une langue à tradition orale, le japhug (Glottocode: japh1234; code iso 639-3 le plus proche : jya). L’archive contient un sous-ensemble du corpus japhug de la collection Pangloss : c’est un corpus monolocuteur, constitué de l’intégralité des ressources audio transcrites pour la locutrice principale de ce corpus (Mme Tshendzin).
Le corpus est versionné, de sorte que les expériences menées sur ces ressources (pour la linguistique ou pour le Traitement automatique des langues) soient reproductibles de façon exacte (en pensant bien à joindre l’algorithme : paramètres, répartitions des fichiers dans les différents ensembles, etc.). Toutes les informations pertinentes se trouvent dans les fichiers YAML (extension .yml ; un en français, un autre en anglais).
Le sous-dossier des données contient d’une part les audios convertis et démultiplexés et d’autre part les annotations associées à chaque canal desdits audios.
Les fichiers récapitulatifs contiennent notamment la liste des graphèmes utilisés dans cette langue (les graphèmes complexes sont particulièrement importants), ainsi que des informations sur les différentes ressources (audios et annotations), comme les identifiants (DOI), les liens vers les fichiers originaux, etc.
Au plan informatique, la liste des identifiants DOI des audios et annotations décrits dans ce fichier YAML suffit pour générer ce corpus à un instant t. Un corpus comme celui-ci peut être vu comme la version à l’instant t d’un ensemble de documents de la collection Pangloss : un corpus arrêté à une version précise.
Pour plus de précisions : https://gitlab.com/lacito/outilspangloss

Files

Japhug – Tshendzin – 16k-16.zip

Files (9.2 GB)

Name Size Download all
md5:244e335d07650303ce1d21e9bf49becf
9.2 GB Preview Download