MultiClinSum Dataset: Summarization of Clinical Case Reports in English, Spanish, French and Portuguese

Rodríguez-Ortega, Miguel; Rodríguez-López, Eduard; Lima-López, Salvador; Krallinger, Martin

doi:10.5281/zenodo.17341582

Published October 13, 2025 | Version v8

Dataset Open

MultiClinSum Dataset: Summarization of Clinical Case Reports in English, Spanish, French and Portuguese

1. Barcelona Supercomputing Center

MultiClinSum Shared Task Dataset

MultiClinSum is a shared task about the automatic summarization of clinical case reports in English, Spanish, French and Portuguese held as part of the BioASQ workshop at CLEF 2025. The task relies on a corpus of manually selected full clinical case reports and their corresponding clinical case report summaries derived from case report publications written in the previously mentioned languages. In addition, participants are allowed to use any other data source available online as long as they report it.

This repository includes the available datasets for the multilingual clinical summarization task. Each dataset contains pairs of full-text documents and their corresponding summaries.

multiclinsum_gs_train_en: Gold-standard training dataset in English, containing 592 full-text and summary pairs.
multiclinsum_gs_train_es: Gold-standard training dataset in Spanish, containing 592 full-text and summary pairs.
multiclinsum_gs_train_fr: Gold-standard training dataset in French, containing 592 full-text and summary pairs.
multiclinsum_gs_train_pt: Gold-standard training dataset in Portuguese, containing 592 full-text and summary pairs.
multiclinsum_large-scale_train_en: Large scale training dataset in English, containing 25.902 full-text and summary pairs.
multiclinsum_large-scale_train_es: Large scale training dataset in Spanish, containing 25.902 full-text and summary pairs.
multiclinsum_large-scale_train_fr: Large scale training dataset in French, containing 25.902 full-text and summary pairs.
multiclinsum_large-scale_train_pt: Large scale training dataset in Portuguese, containing 25.902 full-text and summary pairs.
multiclinsum_test_en: English test dataset, containing 3.396 full-text and summary pairs.
multiclinsum_test_es: Spanish test dataset, containing 3.406 full-text and summary pairs.
multiclinsum_test_fr: French test dataset, containing 3.469 full-text and summary pairs.
multiclinsum_test_pt: Portuguese test dataset, containing 3.442 full-text and summary pairs.

For each dataset, full-texts and summaries are organised in separate folders containing .txt files encoded in UTF-8. For a given language, files have nearly identical filenames, with summaries marked by the _sum suffix.

Please cite if you use this dataset:

Rodríguez-Ortega M, Rodríguez-Lopez E, Lima-López S, Escolano C, Melero M, Pratesi L, Vigil-Giménez L, Fernandez L, Farré-Maduell E, Krallinger M. Overview of MultiClinSum task at BioASQ 2025: evaluation of clinical case summarization strategies for multiple languages: data, evaluation, resources and results. InCLEF 2025.

@inproceedings{rodriguez2025overview,
title={Overview of MultiClinSum task at BioASQ 2025: evaluation of clinical case summarization strategies for multiple languages: data, evaluation, resources and results},
author={Rodr{\'\i}guez-Ortega, Miguel and Rodr{\'\i}guez-Lopez, Eduardo and Lima-L{\'o}pez, Salvador and Escolano, Carlos and Melero, Maite and Pratesi, Lorenzo and Vigil-Gim{\'e}nez, Laura and Fernandez, Letic{\'\i}a and Farr{\'e}-Maduell, Eulàlia and Krallinger, Martin},
booktitle={CLEF},
year={2025}
}

Resources:

- MultiClinSum website

- BioASQ website

License

This work is licensed under a Creative Commons Attribution 4.0 International License.

Contact

If you have any questions or suggestions, please contact us at:

Miguel Rodríguez Ortega (<miguel [dot] rod [dot] bsc [at] gmail [dot] com>)
Eduard Rodríguez López (<edu4bsc [at] gmail [dot] com>)
Salvador Lima-López (<salvador [dot] limalopez [at] gmail [dot] com>)
Martin Krallinger (<krallinger [dot] martin [at] gmail [dot] com>)

Additional resources and corpora

If you are interested in MultiClinSum, you might want to check out these corpora and resources:

DisTEMIST (Corpus of disease mentions and normalization to SNOMED CT)
MedProcNER (Corpus of clinical procedure mentions and normalization to SNOMED CT)
SympTEMIST (Corpus of clinical findings and normalization to SNOMED CT)
DrugTEMIST (Corpus of medication mentions)
CardioCCC (Corpus of diseases and medication mentions in cardiology texts)
PharmaCoNER (Corpus of medications, drugs, chemical substances, genes, proteins and vaccine mentions and normalization)
MEDDOPROF (Corpus of mentions of professions, occupations and working status and normalization)
MEDDOPLACE (Corpus of mentions of place-related entity mentions, including departments, nationalities or patient movements etc.. and normalization)
MEDDOCAN (Corpus of mentions of Personal Health Identifiers (PHI))
CANTEMIST (Corpus of cancer tumor morphology mentions and normalization)
CodiESP (Corpus of clinical case reportes with assigned clinical codes from ICD10, Spanish version)
LivingNER (Corpus of mentions of species, including human/family members, pathogens, food, etc.. and normalization to NCBI Taxonomy)
SPACCC-POS (Corpus of clinical case reports in Spanish annotated with POS-tags)
SPACCC-TOKEN (Corpus of clinical case reports in Spanish annotated with token-tags (word mention boundaries))
SPACCC-SPLIT (Corpus of clinical case reports in Spanish annotated with sentence boundary-tags)
MESINESP-2 (Corpus of manually indexed records with DeCS /MeSH terms comprising scientific literature abstracts, clinical trials, and patent abstracts)

Files

multiclinsum_large-scale_train_fr.zip

Files (326.3 MB)

Name	Size	Download all
multiclinsum_gs_train_en.zip md5:d92e821747c1a39ada10e16955002f89	1.5 MB	Preview Download
multiclinsum_gs_train_es.zip md5:2e4cdd4f10398f8e979e7024bc34ec60	1.7 MB	Preview Download
multiclinsum_gs_train_fr.zip md5:37daf39fe1465113a970a29635e7f6dc	3.4 MB	Preview Download
multiclinsum_gs_train_pt.zip md5:728e2f9ce7234b62be3b51c04c83ef7e	1.6 MB	Preview Download
multiclinsum_large-scale_train_en.zip md5:a11ea9572313beaa036ecf69ec82dd9c	66.6 MB	Preview Download
multiclinsum_large-scale_train_es.zip md5:6d1444ff038d1fcc04321546ed9b6dcb	71.3 MB	Preview Download
multiclinsum_large-scale_train_fr.zip md5:3a169403826c04c0e34bc328cbb5d703	73.5 MB	Preview Download
multiclinsum_large-scale_train_pt.zip md5:8de528cde4a3532f1db972dcc70209c2	70.0 MB	Preview Download
multiclinsum_test_en.zip md5:4a8cff926c1b0e00b86d01f43c8daca1	8.6 MB	Preview Download
multiclinsum_test_es.zip md5:03d6b381f0beccb402a1155581d46f03	9.2 MB	Preview Download
multiclinsum_test_fr.zip md5:2569169d6c6609dcfbf879d1178023a6	9.7 MB	Preview Download
multiclinsum_test_pt.zip md5:a5f6013154183e27446199adbaad2378	9.2 MB	Preview Download

Additional details

Updated: 2025-10-14

	All versions	This version
Views	1,483	71
Downloads	1,191	103
Data volume	27.0 GB	2.9 GB

MultiClinSum Dataset: Summarization of Clinical Case Reports in English, Spanish, French and Portuguese

Creators

Description

MultiClinSum Shared Task Dataset

Please cite if you use this dataset:

Resources:

License

Contact

Additional resources and corpora

Files

multiclinsum_large-scale_train_fr.zip

Files (326.3 MB)

Additional details

Dates