Nos_Brais-GL: Galician TTS corpus
Authors/Creators
Description
This dataset is publicly accessible upon accepting T&Cs and requesting access.
(Galician description below)
Galician TTS single-speaker corpus of approximately 18 hours of speech.
Nos_Brais-GL is based on a phonetically and morphosyntactically rich text corpus of 16,121 phrases (approximately 168,000 words) comprising three subcorpora: selected phrases from a corpus compiled by the Nós Project from multi-domain texts and previously used in the Nos_Celtia-GL TTS corpus; selected phrases from a previously compiled corpus created by the Grupo de Tecnoloxías Multimedia (GTM) and the Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); and, finally, a 500-word phonetically rich single-word subcorpus extracted from the Dicionario de pronuncia da lingua galega.
Nos_Brais-GL was recorded in a controlled environment (recording studio) by a professional male voice talent selected among three speakers through a perceptual listening test in which 37 participants assessed the speakers' clarity, prosody, likeability, and language proficiency.
Audio files are provided in three versions:
- raw sound files with no editing nor normalization;
- edited audio;
- edited and normalized audio.
The file naming scheme of the audio files consists of a series of lowercase elements indicating the type of audio (raw/edit/norm), the creators of the dataset (nos), the name of the voice (brais), and the ISO code for the Galician language (gl), followed by a 5-digit number identifying the utterance. All components are separated by underscores (e. g., norm_nos_brais_gl_00001.wav).
Metadata are provided in "raw/edit/norm_nos_brais_gl_text.csv". These files consist of one record per line, delimited by the vertical bar character (0x7c). The fields are:
1. Audio file: name of the corresponding .wav file
2. Transcription: normalized text read by speaker (UTF-8)
The audio files are available in the format in which they were originally recorded, 48 kHz, 24-bit WAV format, and amount to approximately 18 hours.
Version 1.0.0 contains 16,121 audio files, together with the corresponding text.
For more information, please go to https://nos.gal/ or contact the Nós project at proxecto.nos@usc.gal.
Funding and acknowledgements
This dataset was produced within the framework of the Proxecto Nós, funded by the Ministry for Digital Transformation and Public Administration and the Recovery, Transformation, and Resilience Plan – Funded by the European Union – NextGenerationEU, as part of the Ilenia Project with reference 2022/TL22/00215336.
We would like to deeply thank the speaker, Gaspar González Somoza, for kindly providing his voice to this project.
The team also thanks the creators of the CorpusCrt tool (Universidad Politécnica de Catalunya. http://www.talp.upc.es).
We would also like to thank the following entities for their kind collaboration in providing the data for the text corpus: Grupo de Tecnoloxías Multimedia (GTM-UVigo), Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), Real Academia Galega, Corporación Radio Televisión de Galicia S.A., Parlamento de Galicia, the Arquivo do Galego Oral (AGO-ILG) project, and the Dicionario de pronuncia da lingua galega.
Hugging Face version
This dataset is also available in Hugging Face.
-------------------------------------------------------------------------------
Corpus TTS monolocutor en galego de aproximadamente 18 horas de fala.
Nos_Brais-GL baséase nun corpus textual fonética e morfosintacticamente rico de 16.121 frases (aproximadamente 168.000 palabras) que comprende tres subcorpus: frases seleccionadas dun corpus compilado polo Proxecto Nós a partir de textos multidominio e empregado previamente no corpus TTS Nos_Celtia-GL; frases seleccionadas dun corpus compilado previamente creado polo Grupo de Tecnoloxías Multimedia (GTM) e o Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); e, finalmente, un subcorpus foneticamente rico de 500 palabras únicas extraídas do Dicionario de pronuncia da lingua galega.
Nos_Brais-GL gravouse nun entorno controlado (estudio de gravación) por un locutor profesional seleccionado entre tres voces mediante unha proba de escoita perceptiva na que 37 participantes avaliaron a claridade, a prosodia, a agradabilidade a competencia lingüística dos locutores.
Os ficheiros de audio proporciónanse en tres versións:
- ficheiros de son en bruto sen edición nin normalización;
- audio editado;
- audio editado e normalizado.
O esquema de nomenclatura dos ficheiros de audio consiste nunha serie de caracteres en minúsculas que indican o tipo de audio (raw/edit/norm), os creadores do conxunto de datos (nos), o nome da voz (brais) e o código ISO para a lingua galega (gl), seguido dun número de cinco díxitos que identifica a frase. Todos os compoñentes están separados por guións baixos (por exemplo: norm_nos_brais_gl_00001.wav).
Os metadatos están dispoñibles en "raw/edit/norm_nos_brais_gl_text.csv". Estes ficheiros consisten nun rexistro por liña, delimitado polo carácter barra vertical (0x7c). Os campos son:
1. Ficheiro de audio: nome do ficheiro .wav correspondente.
2. Transcrición: texto normalizado lido polo locutor (UTF-8).
Os ficheiros de audio están dispoñibles no formato no que foron gravados orixinalmente, WAV de 48 kHz e 24 bits, e suman aproximadamente 18 horas.
A versión 1.0.0 contén 16.121 ficheiros de audio, xunto co texto correspondente.
Para máis información, visite https://nos.gal/ ou póñase en contacto co Proxecto Nós en proxecto.nos@usc.gal.
Financiamento e agradecementos
Este conxunto de datos produciuse no marco do Proxecto Nós, financiado polo Ministerio de Transformación Dixital e Administración Pública e polo Plan de Recuperación, Transformación e Resiliencia –financiado pola Unión Europea– NextGenerationEU, como parte do Proxecto Ilenia coa referencia 2022/TL22/00215336.
Queremos agradecer, especialmente, ao locutor, Gaspar González Somoza, por prestar amablemente a súa voz a este proxecto.
O equipo tamén agradece aos creadores da ferramenta CorpusCrt (Universidade Politécnica de Cataluña, http://www.talp.upc.es).
Tamén queremos agradecer ás seguintes entidades a súa colaboración por proporcionar os datos para o corpus de texto: Grupo de Tecnoloxías Multimedia (GTM-UVigo), Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH), Real Academia Galega, Corporación Radio Televisión de Galicia S.A., Parlamento de Galicia, proxecto Arquivo do Galego Oral (AGO-ILG) e o Dicionario de pronuncia da lingua galega.
Versión en Hugging Face
Este corpus tamén está dispoñible en Hugging Face.