Dateset for "Referencias al prejuicio de género en medios de comunicación españoles"

David Rozado

doi:10.5281/zenodo.7703353

Published March 7, 2023 | Version v1

Dataset Open

Dateset for "Referencias al prejuicio de género en medios de comunicación españoles"

David Rozado

Análisis de uso de palabras que denuncian prejuicio de género en el contenido escrito de 124 medios de comunicación de 36 países distintos que representan distintas regiones del planeta (Europa continental, países occidentales de habla inglesa, Asia, América Latina, región del Golfo Pérsico y África). El análisis incluye cuatro periódicos españoles (El País, El Mundo, ABC, La Vanguardia) y 5 cadenas de televisión, 2 públicas (Televisión Española y EITB) y 3 privadas (La Sexta, Telecinco y Antena 3).

Nuestro análisis cuantifica la frecuencia anual de palabras que denuncian prejuicio de género en el contenido escrito de dichos medios y está circunscrito a los titulares de los artículos y su cuerpo principal de texto. El análisis no incluye palabras presentes en otros elementos del artículo tales como los pies de fotos o subtitulos. Las palabras (unigramas) o expresiones (n-gramas) analizadas fueron localizadas en los textos de cada artículo utilizando expresiones XPath específicas para cada medio. Todos los caracteres de texto fueron convertidos a minúsculas previamente a la estimación de frecuencias.

El contenido de texto de los artículos analizados está disponible en los dominios web de los respectivos medios de comunicación y a menudo también en repositorios de caché en Internet como Common Crawl, Google caché o el Archivo de Internet.

Para facilitar la verificación de las frecuencias reportadas en este análisis incluyo archivos qué contienen datos derivados de todos los artículos del análisis. Específicamente, la fecha de publicación, el número de palabras objetivos en dicho artículo y el número de palabras totales en cada artículo. Así mismo también incluyó las 5 primeras palabras de cada titular de artículo para que cualquier persona pueda verificar la existencia de las palabras objetivos en dichos artículos y su frecuencia. Agregando los contadores de frecuencia de una palabra objetivo y dividiendo por todas las palabras de cada artículo se pueden obtener las frecuencias relativas de cada año y medio. El buscador Google se puede utilizar para verificar la existencia de los artículos referenciados en

Los países fueron seleccionados para ser incluidos en nuestro análisis dando prioridad al tamaño de la población, a la diversidad de regiones del mundo representadas y a la importancia geopolítica. Se estableció un umbral mínimo de dos medios de comunicación por país para su inclusión en el análisis. El número promedio de medios de comunicación por país fue de 3,6. Los medios de comunicación se seleccionaron según su popularidad en el país, la disponibilidad de contenido histórico en sus dominios web en línea y la viabilidad técnica del análisis de contenido automatizado de sus dominios web. Priorizamos los medios de comunicación con contenido en inglés para nuestra muestra para facilitar el análisis, pero también analizamos 41 medios de comunicación en otros idiomas como español, francés, alemán, sueco, italiano o portugués. Cuando había versiones en inglés integrales del contenido de los medios de comunicación disponibles en el dominio web del medio, utilizamos esos datos en el análisis. Tradujimos nuestro conjunto de palabras objetivo en inglés (sexism, sexist, etc.) a los diferentes idiomas de los medios de comunicación analizados usando Google Translate.

Las frecuencias de las palabras o expresiones estudiadas fueron estimadas dividiendo el número de ocurrencias de la palabra o expresión objetivo en todos los artículos de un medio de comunicación en un año por todas las palabras de todos los artículos de ese medio en ese año. Esta forma de normalizar los contadores de frecuencia absoluta produce frecuencias relativas que controlan por la variabilidad en el número de artículos y el volumen de texto publicado en distintos años, permitiendo por tanto la comparación de frecuencias a lo largo del tiempo independientemente de cuántos artículos el medio de comunicación haya publicado en un año determinado o el volumen textual de los mismos.

La disponibilidad temporal de artículos en los diferentes dominios web de los medios analizados es variable. El periódico El País, fundado en 1976, posee una extensa disponibilidad de artículos en su dominio web desde el año de su creación. La disponibilidad de artículos del ABC es más limitada y comienza en el año 2001. La disponibilidad de artículos en La Vanguardia y El Mundo comienza en el año 2002.

Para evitar derivar estimaciones de frecuencia inexactas provenientes de medios de comunicación con contenido de texto incompleto o escaso en un determinado año, hemos establecido un umbral para solo incluir en nuestro análisis artículos de años en los que el medio de comunicación tiene disponibilidad en su dominio web de al menos un 250,000 palabras en los artículos de ese año.

El número de artículos analizados por medio y año depende por tanto de la disponibilidad de artículos en los dominios web de cada medio y que el contenido de texto disponible supere el umbral de 250,000 palabras en artículos por medio y año. En total, el número de artículos analizados en los 124 medios de comunicación españoles analizados supera los 98 millones.

En un análisis de datos de millones de artículos, es imposible examinar de forma manual la exactitud de la cuenta de frecuencias absolutas de cada artículo. El autor de este trabajo ha notado que ocasionalmente, las expresiones XPath para localizar el texto objetivo en un artículo pueden fallar debido a combinaciones inusuales o erróneas en el código fuente HTML o estilístico CSS en el que la carga textual del artículo está embutida. Esto puede resultar ocasionalmente en frecuencias relativas incorrectas para un reducido número de artículos. A pesar de todo, el método produce resultados temporalmente precisos. Una visualización de frecuencias anuales de palabras y expresiones ilustrativas en el periódico El País durante los últimos 44 años muestra que nuestro método es capaz de capturar correctamente las dinámicas temporales de los términos analizados, ver Figura 1 del artículo asociado con este repositorio de datos en la siguiente URL: https://davidrozado.substack.com/epg

Files

Files (1.5 GB)

Name	Size
targetWordsInArticlesCounts.rar md5:3710015d9d9629847d671109337fb807	1.4 GB	Download
targetWordsInArticlesCountsElPaisSampleTerms.rar md5:a156b93e9a250b1a7d01b1a761b779f1	43.4 MB	Download

	All versions	This version
Views	793	780
Downloads	132	130
Data volume	123.2 GB	121.8 GB

Dateset for "Referencias al prejuicio de género en medios de comunicación españoles"

Authors/Creators

Description

Files

Files (1.5 GB)