Synthea→OMOP DWH + Feature Engineering + ML (Pre-) Diabetes Prediction (Notebook Release V13)
Authors/Creators
Description
Dieses Deposit enthält eine reproduzierbare Projektpipeline zur Verarbeitung synthetischer Gesundheitsdaten auf Basis von Synthea in Richtung eines OMOP Common Data Model (OMOP CDM)-nahen Data-Warehouse-Workflows. Der Fokus liegt auf einer nachvollziehbaren Datenkette von Rohdaten über Qualitätsprüfungen und Mapping-/Coverage-Auswertungen bis hin zu abgeleiteten Feature-Tabellen und (optional) Machine-Learning-Auswertungen. Die Abläufe sind in einem Notebook-basierten Workflow umgesetzt und in Phasen dokumentiert (Phase 0/A/B/C), sodass einzelne Schritte isoliert überprüft und wiederholt werden können.
Inhalt und Struktur
Das Deposit wird als Release-Paket bereitgestellt (Dissemination/Access Copy) und enthält insbesondere:
-
Dokumentation (u. a.
README.md) mit Projektstruktur, Ausführungslogik und Reproduktionshinweisen -
Phase-Reports als Markdown-Dateien (
docs/phase_reports/phase0_report.md,phaseA_report.md,phaseB_report.md,phaseC_report.md) mit den wichtigsten Outputs und Kennzahlen pro Phase -
Run-Metadaten / Provenance:
run_manifest.jsonmit Laufkontext (Notebook-Version, Zeitstempel, Pfade, Konfiguration/Parameter) -
Fixity / Integrität:
checksums.sha256sowiesip_manifest.json(Dateiliste inkl. Größe/Hash), um spätere Integritätsprüfungen zu ermöglichen -
Ausgewählte Ergebnisartefakte (z. B. Quality-/Coverage-Tabellen, Feature-Exporte, Modellmetriken), soweit im Paket enthalten und im Report referenziert
Die Archivlogik orientiert sich an einem OAIS-nahen Minimalmodell:
-
SIP (Submission Information Package): kuratiertes Arbeits-/Abgabepaket (Doku, Reports, Metadaten, ausgewählte Outputs)
-
AIP/DIP: Verpackungen zur stabilen Langzeitablage bzw. zum Teilen/Publizieren (z. B. AIP als
tar.gz, DIP alszip)
Datenbasis und Einschränkungen (Lizenz/Größe)
Das Projekt verwendet synthetische Daten aus Synthea. Bestimmte große oder lizenzkritische Abhängigkeiten werden nicht im Deposit mitpubliziert, insbesondere:
-
OHDSI/Athena OMOP Vocabulary-Dateien (typischerweise ausgeschlossen aus Lizenz-/Terms-of-Use-Gründen sowie wegen Größe)
Stattdessen wird der Bezug dieser Ressourcen über die Dokumentation beschrieben und die verwendete Vokabular-Version (soweit möglich) im Projekt dokumentiert.
Ebenfalls üblicherweise ausgeschlossen sind große, reproduzierbare Zwischenstände (z. B. Cache-Verzeichnisse oder entpackte Roh-CSV-Bestände), sofern diese nicht zwingend zur Bewertung/Validierung benötigt werden.
Reproduzierbarkeit
Die Reproduzierbarkeit wird durch mehrere Ebenen unterstützt:
-
Klare Phasenstruktur (0/A/B/C) mit zugehörigen Reports und Artefakten
-
Run-Manifest (
run_manifest.json) als Provenance- und Konfigurationsquelle (Version, Laufzeit, Parameter, relevante Pfade) -
Fixity-Checks über
checksums.sha256undsip_manifest.json(Hash-basierte Integritätsprüfung der Paketdateien)
Die Reproduktionsschritte sind in README.md beschrieben (u. a. Abhängigkeiten, erwartete Verzeichnisstruktur und Hinweise zu extern zu beschaffenden Vokabular-Dateien).
Zweck und Zielgruppe
Das Paket dient als nachvollziehbares Beispiel für:
-
ETL-orientierte Verarbeitung synthetischer Gesundheitsdaten
-
Qualitäts- und Coverage-Auswertungen (Data Quality Checks, Mapping Coverage)
-
Ableitung von Feature-Tabellen für analytische Auswertungen/ML
-
Archivierungs- und Publikationsfähigkeit (FAIR-orientierte Dokumentation, Provenance, Fixity)
Zielgruppe sind Studierende/Lehrende sowie Reviewer mit Grundkenntnissen in Python, SQLite und OMOP-naher Datenmodellierung, die eine reproduzierbare Pipeline prüfen oder als Vorlage adaptieren möchten.
Zitation und Versionierung
Dieses Deposit entspricht einer bestimmten Notebook-/Release-Version (z. B. V13) und einem eindeutigen Laufzeitstempel. Bei späteren Änderungen werden neue Versionen als separate Releases publiziert; die Provenance wird über run_manifest.json fortgeführt.
Methods (German)
Die Verarbeitung erfolgt in einer modularen, phasenbasierten Notebook-Struktur: (Phase 0) Setup, Download/Import und Rohdatenpersistenz (RAW_DB), (Phase A/B) Qualitätsprüfungen, Codesystem-Erkennung sowie Mapping-/Coverage-Auswertungen und Aufbau eines OMOP-nahen Data-Warehouse (DWH_DB), (Phase C) Ableitung standardisierter Exporte/Feature-Tabellen und optionaler ML-Auswertungen. Alle wesentlichen Outputs werden als Markdown-Reports je Phase abgespeichert; Provenance wird über ein run_manifest.json und Integrität über SHA-256-Checksums dokumentiert. Lizenzkritische und große externe Ressourcen (insbesondere OHDSI/Athena Vokabular-Dateien) werden nicht mitpubliziert, sondern in der Dokumentation als externe Abhängigkeit referenziert.
Files
README.md
Files
(68.3 kB)
| Name | Size | Download all |
|---|---|---|
|
md5:4c414db06eb4cc2442ff31a1cb7ee834
|
2.1 kB | Preview Download |
|
md5:8724fb071b5de856fc41bbed34953786
|
974 Bytes | Preview Download |
|
md5:e15bda26e937ffe148beda50a94e2958
|
687 Bytes | Preview Download |
|
md5:a7384be83a3c989db9e51fc77bf52f78
|
2.6 kB | Download |
|
md5:889cba7dfa449d227c430f7a4c8cc368
|
1.8 kB | Preview Download |
|
md5:765e409a1f89cc4de3d9e92520f83c3b
|
159 Bytes | Preview Download |
|
md5:9da7bc95eb9037893aca192697b8f5f3
|
4.6 kB | Preview Download |
|
md5:ae9c38aa2022eaa7d886f7230d714fad
|
660 Bytes | Preview Download |
|
md5:fbfc579196e7aa9e78a20c575c2b943d
|
1.2 kB | Preview Download |
|
md5:fb185984266841ab42193069b771c073
|
4.3 kB | Preview Download |
|
md5:1422e5f69c932c3b71cc084763260b2b
|
3.0 kB | Preview Download |
|
md5:4dce9a9a617171a77e7346d19dea2296
|
2.5 kB | Preview Download |
|
md5:67745499b2829cdd57537edfcc2d6858
|
8.5 kB | Preview Download |
|
md5:8200d7ca5c4763d7bec5517e53c6dff6
|
2.5 kB | Preview Download |
|
md5:e9714e5e8443a9be788fba7312f86605
|
6.8 kB | Preview Download |
|
md5:c7f99ccea07c6acdf4e276e1417b2cf7
|
4.5 kB | Preview Download |
|
md5:f2f840d1f7a07b609441f625e8f4136a
|
13.3 kB | Preview Download |
|
md5:75323d0bf39dddb19e14eb1140faa708
|
1.2 kB | Preview Download |
|
md5:b6f91c9f02712c35d0fba105dcfd038a
|
5.6 kB | Preview Download |
|
md5:a6ba291648d2df0f814c3f4ced0ef644
|
674 Bytes | Preview Download |
|
md5:8d57c4d2820fc1a17c1608443bb3d6f6
|
536 Bytes | Preview Download |
Additional details
Dates
- Collected
-
2026-01-05
- Updated
-
2026-01-20
- Available
-
2026-02-10