ViquiQuAD: an extractive QA dataset from Catalan Wikipedia

Rodriguez-Penagos, Carlos Gerardo; Armentano-Oller, Carme

doi:10.5281/zenodo.4761412

Published February 25, 2021 | Version ViquiQuad_v.1.0.1

Dataset Open

ViquiQuAD: an extractive QA dataset from Catalan Wikipedia

1. BSC

If you use this resource in your work, please cite our latest paper:

@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}

Dataset de QA extractiu amb 6282 parells de pregunta-resposta desenvolupats a partir d'articles de la Viquipèdia (https://ca.wikipedia.org) utilitzats sota la llicència Creative Commons Reconeixement i Compartir-Igual.

“ViquiQuAD: an extractive QA dataset from Catalan Wikipedia” es distribueix sota la llicència CC-BY-SA per Carlos Rodríguez y Carme Armentano de la Unitat de Text Mining del BSC - CNS.

This dataset contains 3111 contexts extracted from a set of 597 high quality original (no translations) articles in the Catalan Wikipedia "Viquipèdia" (ca.wikipedia.org), and 1 to 5 questions with their answer for each fragment.

Viquipedia articles are used under CC-by-sa licence.

This dataset can be used to build extractive-QA and Language Models.

Funded by the Generalitat de Catalunya, Departament de Polítiques Digitals i Administració Pública (AINA), MT4ALL and Plan de Impulso de las Tecnologías del Lenguaje (Plan TL).

Files

ViquiQuAD.zip

Files (1.5 MB)

Name	Size	Download all
ViquiQuAD.zip md5:c0c45885b07e3655572264949026897f	1.5 MB	Preview Download

	All versions	This version
Views	844	435
Downloads	126	58
Data volume	195.8 MB	88.7 MB

ViquiQuAD: an extractive QA dataset from Catalan Wikipedia

Creators

Description

Files

ViquiQuAD.zip

Files (1.5 MB)