SIMPITIKI corpus for simplification in Italian

doi:10.5281/zenodo.2535632

Simpatico project community

Published January 8, 2019 | Version v2

Dataset Open

SIMPITIKI corpus for simplification in Italian

1. Fondazione Bruno Kessler

SIMPITIKI is a Simplification corpus for Italian and it consists of two sets of simplified pairs: the first one is harvested from the Italian Wikipedia in a semi-automatic way; the second one is manually annotated sentence-by-sentence from documents in the administrative domain.

For more details, see https://github.com/dhfbk/simpitiki

Files

simpitiki-v2.xml

Files (911.4 kB)

Name	Size	Download all
simpitiki-v2.xml md5:c2c00a432221250ee4fbaf1eaa7b6a6d	911.4 kB	Preview Download

Additional details

SIMPATICO – SIMplifying the interaction with Public Administration Through Information technology for Citizens and cOmpanies 692819: European Commission

Sara Tonelli, Alessio Palmero Aprosio, Francesca Saltori. SIMPITIKI: a Simplification corpus for Italian extracted from Wikipedia. In Proceedings of the Third Italian Conference on Computational Linguistics, Naples, Italy.

526

Views

Downloads

Show more details

	All versions	This version
Views	526	279
Downloads	23	20
Data volume	20.2 MB	19.1 MB

More info on how stats are collected....

DOI

Resource type

Dataset

Publisher

Zenodo

Creative Commons Attribution 4.0 International

The Creative Commons Attribution license allows re-distribution and re-use of a licensed work on the condition that the creator is appropriately credited. Read more

Technical metadata

Created: January 8, 2019
Modified: January 24, 2020

SIMPITIKI corpus for simplification in Italian

Files

simpitiki-v2.xml

Files (911.4 kB)

Additional details

Funding

References

SIMPITIKI corpus for simplification in Italian

Creators

Description

Files

simpitiki-v2.xml

Files (911.4 kB)

Additional details

Funding

References