Spanish Twitter Dataset for Pride Day (2015–2025)

Ramiro Ortega, María del Mar; Hassan, Samer

doi:10.5281/zenodo.17116473

Published September 14, 2025 | Version v3

Dataset Open

Spanish Twitter Dataset for Pride Day (2015–2025)

1. Harvard University
2. Universidad Complutense de Madrid

English Version:

Two datasets are published as part of my Bachelor's final thesis on hate speech, titled Hate Speech on Twitter: Analysis of LGBTIQ-phobia Before and After Elon Musk:

Main.csv: This dataset contains the IDs of 695,000 tweets in Spanish related to the LGBTIQ+ community, collected using specific keywords. The tweets correspond to each June 28th from 2015 to 2025.
Benchmark.csv: This dataset includes the IDs of 657,000 random tweets in Spanish, obtained through a selection of keywords. The tweets represent a 6-minute sample from every hour on each June 28th from 2015 to 2025.

Due to the X Developer Agreement policy, we can only share the tweet IDs.

For further details, you can find the code for processing and analysis in the project's GitHub repository.

Acknowledgements

We would like to acknowledge the use of tools and support provided by twitterapi.io for data extraction, as well as the Perspective API, which played a crucial role in analyzing tweet toxicity. These resources were indispensable for the successful completion of this project.

Versión en Español:

Se publican dos conjuntos de datos como parte de mi trabajo de fin de grado (TFG) sobre el discurso de odio, titulado Discurso de odio en Twitter: Análisis de la LGTBIQ-fobia antes y después de Elon Musk:

Main.csv: Este conjunto de datos contiene los IDs de 695,000 tuits en español relacionados con la comunidad LGTBIQ+, recopilados mediante el uso de palabras clave. Los tuits corresponden a cada 28 de junio de cada año, desde 2015 hasta 2025.
Benchmark.csv: Este conjunto de datos incluye los IDs de 657,000 tuits aleatorios en español, obtenidos a partir de una selección de palabras clave. Los tuits representan una muestra de 6 minutos de cada hora, correspondiente a cada 28 de junio, desde 2015 hasta 2025.

Debido a la X Developer Agreement policy, únicamente podemos compartir los IDs de los tuits.

Para más detalles, puede consultar el código de procesamiento y análisis de los datos en el repositorio de GitHub del proyecto.

Agradecimientos

Queremos agradecer el apoyo y las herramientas proporcionadas por twitterapi.io para la extracción de datos, así como la Perspective API, que jugó un papel crucial en el análisis de la toxicidad de los tuits. Estos recursos fueron indispensables para la realización exitosa de este proyecto.

Files

Benchmark.csv

Files (28.1 MB)

Name	Size	Download all
Benchmark.csv md5:c7768c2826c640f554818c13e8d9071b	13.6 MB	Preview Download
Main.csv md5:c3a417b99a38e6863123773e37a8b745	14.4 MB	Preview Download

	All versions	This version
Views	140	40
Downloads	188	48
Data volume	32.9 GB	996.2 MB

Spanish Twitter Dataset for Pride Day (2015–2025)

Creators

Description

English Version:

Versión en Español:

Files

Benchmark.csv

Files (28.1 MB)