Semantic Textual Similarity in Catalan
Description
STS corpus is a benchmark for evaluating Semantic Text Similarity in Catalan.
It consists of 3079 sentence pairs, annotated with the semantic similarity between them, using a scale from 0 (no similarity at all) to 5 (semantic equivalence). It is done manually by 4 different people following our guidelines based on previous work from the SemEval challenges (https://www.aclweb.org/anthology/S13-1004.pdf).
This dataset was developed by BSC TeMU as part of the AINA project.
This is the version 0.9 of the dataset. The version 1 of the dataset with the complete human and automatic annotations and the analysis scripts will be released soon.
Corpus per evaluar STS en català.
Consta de 3079 parells de frases, anotades segons el grau de similitud semàntica que tenen, segons una escala que va de 0 (no s'assemblen gens) a 5 (són equivalents). L'anotació ha estat feta manualment per 4 persones segons les nostres guies, basades en els SemEval Callenges (https://www.aclweb.org/anthology/S13-1004.pdf)
Aquest dataset ha estat desenvolupat pel la unitat de Text mining del BSC en el marc del projecte Aina.
Aquesta és la versió 0.9 del dataset i conté les anotacions de refèrència. Ben aviat publicarem la versió 1 amb totes les anotacions i els scripts d'avaluació.
Files
STS-ca.zip
Files
(241.5 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:b56ba71fd1c04bcd55eb17304a16ecb6
|
241.5 kB | Preview Download |