Published September 14, 2025 | Version v3
Dataset Open

Spanish Twitter Dataset for Pride Day (2015–2025)

  • 1. ROR icon Harvard University
  • 2. ROR icon Universidad Complutense de Madrid

Description

English Version:

Two datasets are published as part of my Bachelor's final thesis on hate speech, titled Hate Speech on Twitter: Analysis of LGBTIQ-phobia Before and After Elon Musk:

  1. Main.csv: This dataset contains the IDs of 695,000 tweets in Spanish related to the LGBTIQ+ community, collected using specific keywords. The tweets correspond to each June 28th from 2015 to 2025.
  2. Benchmark.csv: This dataset includes the IDs of 657,000 random tweets in Spanish, obtained through a selection of keywords. The tweets represent a 6-minute sample from every hour on each June 28th from 2015 to 2025.

Due to the X Developer Agreement policy, we can only share the tweet IDs

For further details, you can find the code for processing and analysis in the project's GitHub repository.

Acknowledgements

We would like to acknowledge the use of tools and support provided by twitterapi.io for data extraction, as well as the Perspective API, which played a crucial role in analyzing tweet toxicity. These resources were indispensable for the successful completion of this project.

 

Versión en Español:

Se publican dos conjuntos de datos como parte de mi trabajo de fin de grado (TFG) sobre el discurso de odio, titulado Discurso de odio en Twitter: Análisis de la LGTBIQ-fobia antes y después de Elon Musk:

  1. Main.csv: Este conjunto de datos contiene los IDs de 695,000 tuits en español relacionados con la comunidad LGTBIQ+, recopilados mediante el uso de palabras clave. Los tuits corresponden a cada 28 de junio de cada año, desde 2015 hasta 2025.
  2. Benchmark.csv: Este conjunto de datos incluye los IDs de 657,000 tuits aleatorios en español, obtenidos a partir de una selección de palabras clave. Los tuits representan una muestra de 6 minutos de cada hora, correspondiente a cada 28 de junio, desde 2015 hasta 2025.

Debido a la X Developer Agreement policy, únicamente podemos compartir los IDs de los tuits

Para más detalles, puede consultar el código de procesamiento y análisis de los datos en el repositorio de GitHub del proyecto.

Agradecimientos

Queremos agradecer el apoyo y las herramientas proporcionadas por twitterapi.io para la extracción de datos, así como la Perspective API, que jugó un papel crucial en el análisis de la toxicidad de los tuits. Estos recursos fueron indispensables para la realización exitosa de este proyecto.

Files

Benchmark.csv

Files (28.1 MB)

Name Size Download all
md5:c7768c2826c640f554818c13e8d9071b
13.6 MB Preview Download
md5:c3a417b99a38e6863123773e37a8b745
14.4 MB Preview Download