Published December 15, 2024 | Version v2
Dataset Open

Web browser useragent and activity tracking data

  • 1. ROR icon Budapest University of Technology and Economics

Description

600 000 000 web traffic records normalized into MySQL tables using TokuDB storage, complete with original web server response codes. Suitable for browser data and trend analysis as well as AI training of exploit and bot detection algorithms. The data had been collected from multiple Apache 2.x web servers across 8000+ domain names with special care for GDPR compliance.

 

Abstract (Spanish)

600 000 000 de registros de tráfico web normalizados en tablas MySQL mediante almacenamiento TokuDB, junto con los códigos de respuesta del servidor web original. Adecuado para el análisis de tendencias y datos del navegador, así como para el entrenamiento de IA de algoritmos de detección de exploits y bots. Los datos se recopilaron de varios servidores web Apache 2.x en más de 8000 nombres de dominio con especial atención al cumplimiento del RGPD.

Abstract (German)

600 000 000 Webverkehrsdatensätze, normalisiert in MySQL-Tabellen unter Verwendung von TokuDB-Speicher, komplett mit Original-Antwortcodes des Webservers. Geeignet für Browserdaten- und Trendanalyse sowie KI-Training von Exploit- und Bot-Erkennungsalgorithmen. Die Daten wurden von mehreren Apache 2.x-Webservern über mehr als 8000 Domänennamen gesammelt, wobei besonders auf die Einhaltung der DSGVO geachtet wurde.

Files

Files (31.9 GB)

Name Size Download all
md5:8fcc670056c7335710933a9264e55ee3
31.9 GB Download

Additional details

Additional titles

Alternative title (English)
Web browser useragent and geo-located source data
Alternative title (English)
First and last seen information for web browser useragent string data

Dates

Collected
2019-03-01
Collection start
Collected
2023-03-01
Collection end

Software

Repository URL
https://github.com/glucz/normalized_apache_log_collection
Programming language
Perl, SQL
Development Status
Active