Multi30k_train-ca

Language Technologies Unit

doi:10.5281/zenodo.10728674

Published February 29, 2024 | Version v1

Dataset Open

Multi30k_train-ca

Language Technologies Unit (Research group)¹

1. Barcelona Supercomputing Center

Multi30k_train-ca dataset is a professional translation of the train.en.multi30k dataset into Catalan, commissioned by BSC LangTech Unit.

The Flickr30k is a dataset for sentence-based image description. It includes 31,000 images collected from Flickr, together with 5 reference captions provided by human annotators (https://paperswithcode.com/dataset/flickr30k).

This work was funded by the Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya within the framework of Projecte AINA.

Files

train.ca.multi30k.txt

Files (2.4 MB)

Name	Size	Download all
train.ca.multi30k.txt md5:f66e61881719ed30f95e37548935b67d	2.4 MB	Preview Download

217

Views

Downloads

Show more details

	All versions	This version
Views	217	217
Downloads	18	18
Data volume	45.4 MB	45.4 MB

More info on how stats are collected....

DOI

Resource type

Dataset

Publisher

Zenodo

Languages

Catalan

License: Creative Commons Attribution 4.0 International

The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more

Technical metadata

Created: February 29, 2024
Modified: February 29, 2024

Multi30k_train-ca

Creators

Description

Files

train.ca.multi30k.txt

Files (2.4 MB)