BIMCV-Prostate-Dataset V1
Contributors
Data curator:
Description
The BIMCV Prostate Dataset is a comprehensive and diverse dataset that includes a total of 9,341 prostate MRI sessions, distributed among 8,441 subjects, collected from 16 healthcare centers in the Valencian Community, Spain. This dataset is structured according to the MIDS (Medical Imaging Data Structure) standard, ensuring consistent and accessible organization for researchers, facilitating data use and analysis.
The first version of the dataset focuses on sessions that contain the three mentioned imaging modalities (T2W, DWI, and ADC), resulting in a total of 1,730 complete sessions, with a total of 4,663 samples for training, of which 2,594 are csPCa positive and 2,069 are csPCa negative. This information can be found in the table available on GitHub.
The dataset includes MRI images in three modalities: T2-weighted images (T2W), diffusion-weighted images (DWI), and apparent diffusion coefficient (ADC) maps. In total, the dataset includes 32,662 T2W images (62.97%), 8,036 DWI images (15.49%), and 11,167 ADC maps (21.53%), including both the original maps and those calculated from the available DWI images. This additional calculation process was carried out to ensure the dataset's integrity and consistency, allowing for comprehensive analysis in the field of prostate oncology.
The exploratory data analysis (EDA) performed on this dataset has provided insights into the characteristics and distribution of the images, ensuring the dataset's representativeness and diversity. For example, it was found that Health Center 5 contributed the highest proportion of sessions (15.6%), followed by Health Center 7 (12.3%) and Health Center 17 (10.5%). This level of diversity in data sources ensures that the dataset encompasses a wide range of imaging acquisition practices and patient demographics, improving the generalization of artificial intelligence models developed with this data.
Additionally, the analysis of the distribution by MRI equipment manufacturer revealed that most images were acquired with General Electric equipment (66.7%), followed by Philips (25.1%) and Siemens (8.13%). Similarly, most sessions were conducted with 1.5 Tesla machines (63%), followed by 3.0 Tesla machines (36.5%), reflecting standard clinical practices in the region.
Regarding the distribution of labels within the dataset, of the total cases, 4,871 (approximately 52%) are labeled as csPCa positive, while 3,514 cases (approximately 37%) are labeled as csPCa negative.
To access the dataset, please fill out the following survey: https://forms.office.com/e/frV3A5dT6r
El BIMCV Prostate Dataset es un conjunto de datos integral y diverso que incluye un total de 9,341 sesiones de resonancia magnética de próstata, distribuidas entre 8,441 sujetos, recopiladas en 16 centros de salud de la Comunidad Valenciana, España. Este conjunto de datos está estructurado según el estándar MIDS (Medical Imaging Data Structure), lo que garantiza una organización coherente y accesible para los investigadores, facilitando la utilización y análisis de los datos.
La primera versión del dataset se centra en las sesiones que contienen las tres modalidades de imagen mencionadas (T2W, DWI y ADC), lo que ha dado lugar a un total de 1,730 sesiones completas, con un total de 4663 muestras para entrenamiento, de los cuales 2,594 son csPCa positivo y 2,069 csPCa negativo. Esta información puede ser encontrada en la tabla presente en GitHub.
El conjunto de datos incluye imágenes de resonancia magnética en tres modalidades: imágenes ponderadas en T2 (T2W), imágenes de difusión ponderada (DWI) y mapas de coeficiente de difusión aparente (ADC). En total, el dataset incluye 32,662 imágenes T2W (62.97%), 8,036 imágenes DWI (15.49%), y 11,167 mapas ADC (21.53%), que incluyen tanto los mapas originales como los calculados a partir de las imágenes DWI disponibles. Este proceso de cálculo adicional se realizó para asegurar la integridad y consistencia del conjunto de datos, permitiendo un análisis exhaustivo en el ámbito de la oncología de próstata.
El análisis exploratorio de datos (EDA) realizado sobre este conjunto de datos ha permitido entender las características y la distribución de las imágenes, lo que garantiza la representatividad y diversidad del dataset. Por ejemplo, se ha encontrado que el Centro de Salud 5 contribuyó con la mayor proporción de sesiones (15.6%), seguido del Centro de Salud 7 (12.3%) y el Centro de Salud 17 (10.5%). Este nivel de diversidad en las fuentes de datos asegura que el dataset abarca una amplia gama de prácticas de adquisición de imágenes y demografías de pacientes, mejorando la generalización de los modelos de inteligencia artificial desarrollados con estos datos.
Además, el análisis de la distribución por el fabricante del equipo de resonancia magnética reveló que la mayoría de las imágenes fueron adquiridas con equipos de General Electric (66.7%), seguidos por Philips (25.1%) y Siemens (8.13%). Asimismo, la mayoría de las sesiones se realizaron con máquinas de 1.5 Tesla (63%), seguidas de máquinas de 3.0 Tesla (36.5%), reflejando las prácticas clínicas estándar en la región.
En cuanto a la distribución de las etiquetas dentro del dataset, de los casos totales, 4871 (aproximadamente el 52%) están etiquetados como csPCa positivo, mientras que 3514 casos (aproximadamente el 37%) están etiquetados como csPCa negativo.
Para acceder al dataset por favor rellene la siguiente encuesta: https://forms.office.com/e/frV3A5dT6r
Files
Additional details
Funding
Software
- Repository URL
- https://github.com/BIMCV-CSUSP/BIMCV-Prostate-Classification
- Programming language
- Python
- Development Status
- Active