Das Public Use File des Forschungsdatenzentrum Gesundheit

Kühnel, Lisa; Pauly, Hannah; Pakusa, Wied; Heß, Steffen; Brachem, Christian

doi:10.5281/zenodo.14524120

Published January 15, 2025 | Version 1.0.0

Dataset Open

Das Public Use File des Forschungsdatenzentrum Gesundheit

1. Forschungsdatenzentrum Gesundheit
2. Hochschule des Bundes für öffentliche Verwaltung

Das Forschungsdatenzentrum Gesundheit

Das Forschungsdatenzentrum (FDZ) Gesundheit hat sich zum Ziel gesetzt, die medizinische Versorgung in Deutschland und der EU zu verbessern. Dies geschieht durch neue Forschung, die durch den Zugang zu Krankenversicherungsdaten ermöglicht wird. Die Datennutzung wird jedoch von strengen Datenschutzbestimmungen eingeschränkt. Folgende Schritte sind für die Datennutzung notwendig:

Forschende können den Zugang zu Gesundheitsdaten gemäß §303e SGB V beantragen.
Nach Genehmigung erhalten Forschende Zugriff auf eine sichere Verarbeitungsumgebungen im Sinne des Europäischen Gesundheitsdatenraums (EHDS).
In diesen Umgebungen werden anonymisierte, synthetische oder pseudonymisierte Daten für die Entwicklung von Algorithmen verwendet. Die endgültigen Analysen werden unter strenger Aufsicht auf dem gesamten Originaldatensatz durchgeführt, um den Datenschutz zu gewährleisten. Für weitere Informationen zum FDZ Gesundheit können Sie unsere Website besuchen.

Das Public Use File

Um den Herausforderungen des zeitaufwändigen Antragsverfahrens zu begegnen und den Forschenden die Möglichkeit zu geben, sich mit der Datenstruktur vertraut zu machen, hat das FDZ ein Public Use File (PUF) entwickelt. Das PUF ist ein anonymisierter Datensatz, der aus den Originaldaten der Krankenkassen abgeleitet wurde. Er behält die univariaten Verteilungen der Originaldaten bei, entfernt aber die Korrelationen zwischen den Variablen, um den Datenschutz zu gewährleisten. Der Datensatz enthält realistische Fehler aus den Originaldaten, was seinen Nutzen für vorläufige Analysen, Softwareentwicklung und Testskripte erhöht.

Das PUF ist ein öffentliches Datenprodukt des Forschungsdatenzentrum Gesundheit. Um die Publikation des Datenprodukts zu ermöglichen, muss der Datensatz anonym sein. Um Anonymität zu erreichen, haben wir folgende Methoden angewandt:

Auflösung aller Korrelationen zwischen Variablen
Vergröberung von Variablen, bei denen ein Wert nicht mindesten k-mal vorkommt
Ersetzung der Pseudonyme durch zufällige (aber theoretisch gültige) Werte
Veröffentlichung einer Stichprobe (1%)
Veröffentlichung nur eines Berichtsjahres pro Datenmodell

Der vollständige Code zu Erstellung des Public Use Files ist ebenfalls öffentlich einsehbar in diesem Github Repository.

Die Daten sind in drei Datenmodellen verfügbar. Eine genaue Beschreibung der Datenmodelle und dem Inhalt der einzelnen Variablen ist in unserer Datensatzbeschreibung einsehbar. Wir stellen pro Datenmodell eine ZIP-Datei bereit, welche alle Tabellen dieses Datenmodells enthält. Zusätzlich ist in jeder Tabelle eine Spalte "Datenmodell" enthalten, welche die Zugehörigkeit zum Datenmodell eindeutig kennzeichnet.

Die Daten für das dritte Datenmodell folgen zeitnah.

Hinweis zum Einlesen der Dateien

Beim Einlesen der Dateien bitte auf die in der Datensatzbeschreibung angegebenen Datentypen achten und explizit angeben, andernfalls werden zum Beispiel führende Nullen abgeschnitten.

Beispiel (Python):

import pandas as pd 

df_sa451 = pd.read_csv('DM1/SA451.csv', dtype={'SA451_VSID': str, 'SA451_PHARMAZENTRALNUMMER': str})

Kontakt

Bei Fragen oder Anregungen wenden Sie sich gerne an fdz@bfarm.de.

Files

DM1.zip

Files (1.7 GB)

Name	Size	Download all
DM1.zip md5:dd76ce450dea87d5f05e4c8451ce15da	781.0 MB	Preview Download
DM2.zip md5:d55d24bc053ed96c65502fd4d0a5b0ca	968.0 MB	Preview Download

Additional details

Translated title: The Health Data Lab's Public Use File

Has metadata: Dataset: 10.5281/zenodo.11056800 (DOI)

Repository URL: https://github.com/FDZ-Gesundheit/Public-Use-File
Programming language: Python
Development Status: Active

	All versions	This version
Views	7,444	2,370
Downloads	2,605	471
Data volume	12.0 TB	450.3 GB

Das Forschungsdatenzentrum Gesundheit

Das Public Use File

Hinweis zum Einlesen der Dateien

Kontakt

DM1.zip

Files (1.7 GB)

Additional titles

Related works

Software

Das Public Use File des Forschungsdatenzentrum Gesundheit

Authors/Creators

Description

Das Forschungsdatenzentrum Gesundheit

Das Public Use File

Hinweis zum Einlesen der Dateien

Kontakt

Files

DM1.zip

Files (1.7 GB)

Additional details

Additional titles

Related works

Software