Published January 31, 2026 | Version v13
Software Open

Synthea→OMOP DWH + Feature Engineering + ML (Pre-) Diabetes Prediction (Notebook Release V13)

Description

Dieses Deposit enthält eine reproduzierbare Projektpipeline zur Verarbeitung synthetischer Gesundheitsdaten auf Basis von Synthea in Richtung eines OMOP Common Data Model (OMOP CDM)-nahen Data-Warehouse-Workflows. Der Fokus liegt auf einer nachvollziehbaren Datenkette von Rohdaten über Qualitätsprüfungen und Mapping-/Coverage-Auswertungen bis hin zu abgeleiteten Feature-Tabellen und (optional) Machine-Learning-Auswertungen. Die Abläufe sind in einem Notebook-basierten Workflow umgesetzt und in Phasen dokumentiert (Phase 0/A/B/C), sodass einzelne Schritte isoliert überprüft und wiederholt werden können.

Inhalt und Struktur

Das Deposit wird als Release-Paket bereitgestellt (Dissemination/Access Copy) und enthält insbesondere:

  • Dokumentation (u. a. README.md) mit Projektstruktur, Ausführungslogik und Reproduktionshinweisen

  • Phase-Reports als Markdown-Dateien (docs/phase_reports/phase0_report.md, phaseA_report.md, phaseB_report.md, phaseC_report.md) mit den wichtigsten Outputs und Kennzahlen pro Phase

  • Run-Metadaten / Provenance: run_manifest.json mit Laufkontext (Notebook-Version, Zeitstempel, Pfade, Konfiguration/Parameter)

  • Fixity / Integrität: checksums.sha256 sowie sip_manifest.json (Dateiliste inkl. Größe/Hash), um spätere Integritätsprüfungen zu ermöglichen

  • Ausgewählte Ergebnisartefakte (z. B. Quality-/Coverage-Tabellen, Feature-Exporte, Modellmetriken), soweit im Paket enthalten und im Report referenziert

Die Archivlogik orientiert sich an einem OAIS-nahen Minimalmodell:

  • SIP (Submission Information Package): kuratiertes Arbeits-/Abgabepaket (Doku, Reports, Metadaten, ausgewählte Outputs)

  • AIP/DIP: Verpackungen zur stabilen Langzeitablage bzw. zum Teilen/Publizieren (z. B. AIP als tar.gz, DIP als zip)

Datenbasis und Einschränkungen (Lizenz/Größe)

Das Projekt verwendet synthetische Daten aus Synthea. Bestimmte große oder lizenzkritische Abhängigkeiten werden nicht im Deposit mitpubliziert, insbesondere:

  • OHDSI/Athena OMOP Vocabulary-Dateien (typischerweise ausgeschlossen aus Lizenz-/Terms-of-Use-Gründen sowie wegen Größe)
    Stattdessen wird der Bezug dieser Ressourcen über die Dokumentation beschrieben und die verwendete Vokabular-Version (soweit möglich) im Projekt dokumentiert.

Ebenfalls üblicherweise ausgeschlossen sind große, reproduzierbare Zwischenstände (z. B. Cache-Verzeichnisse oder entpackte Roh-CSV-Bestände), sofern diese nicht zwingend zur Bewertung/Validierung benötigt werden.

Reproduzierbarkeit

Die Reproduzierbarkeit wird durch mehrere Ebenen unterstützt:

  • Klare Phasenstruktur (0/A/B/C) mit zugehörigen Reports und Artefakten

  • Run-Manifest (run_manifest.json) als Provenance- und Konfigurationsquelle (Version, Laufzeit, Parameter, relevante Pfade)

  • Fixity-Checks über checksums.sha256 und sip_manifest.json (Hash-basierte Integritätsprüfung der Paketdateien)

Die Reproduktionsschritte sind in README.md beschrieben (u. a. Abhängigkeiten, erwartete Verzeichnisstruktur und Hinweise zu extern zu beschaffenden Vokabular-Dateien).

Zweck und Zielgruppe

Das Paket dient als nachvollziehbares Beispiel für:

  • ETL-orientierte Verarbeitung synthetischer Gesundheitsdaten

  • Qualitäts- und Coverage-Auswertungen (Data Quality Checks, Mapping Coverage)

  • Ableitung von Feature-Tabellen für analytische Auswertungen/ML

  • Archivierungs- und Publikationsfähigkeit (FAIR-orientierte Dokumentation, Provenance, Fixity)

Zielgruppe sind Studierende/Lehrende sowie Reviewer mit Grundkenntnissen in Python, SQLite und OMOP-naher Datenmodellierung, die eine reproduzierbare Pipeline prüfen oder als Vorlage adaptieren möchten.

Zitation und Versionierung

Dieses Deposit entspricht einer bestimmten Notebook-/Release-Version (z. B. V13) und einem eindeutigen Laufzeitstempel. Bei späteren Änderungen werden neue Versionen als separate Releases publiziert; die Provenance wird über run_manifest.json fortgeführt.

Methods (German)

Die Verarbeitung erfolgt in einer modularen, phasenbasierten Notebook-Struktur: (Phase 0) Setup, Download/Import und Rohdatenpersistenz (RAW_DB), (Phase A/B) Qualitätsprüfungen, Codesystem-Erkennung sowie Mapping-/Coverage-Auswertungen und Aufbau eines OMOP-nahen Data-Warehouse (DWH_DB), (Phase C) Ableitung standardisierter Exporte/Feature-Tabellen und optionaler ML-Auswertungen. Alle wesentlichen Outputs werden als Markdown-Reports je Phase abgespeichert; Provenance wird über ein run_manifest.json und Integrität über SHA-256-Checksums dokumentiert. Lizenzkritische und große externe Ressourcen (insbesondere OHDSI/Athena Vokabular-Dateien) werden nicht mitpubliziert, sondern in der Dokumentation als externe Abhängigkeit referenziert.

Files

README.md

Files (68.3 kB)

Name Size Download all
md5:4c414db06eb4cc2442ff31a1cb7ee834
2.1 kB Preview Download
md5:8724fb071b5de856fc41bbed34953786
974 Bytes Preview Download
md5:e15bda26e937ffe148beda50a94e2958
687 Bytes Preview Download
md5:a7384be83a3c989db9e51fc77bf52f78
2.6 kB Download
md5:889cba7dfa449d227c430f7a4c8cc368
1.8 kB Preview Download
md5:765e409a1f89cc4de3d9e92520f83c3b
159 Bytes Preview Download
md5:9da7bc95eb9037893aca192697b8f5f3
4.6 kB Preview Download
md5:ae9c38aa2022eaa7d886f7230d714fad
660 Bytes Preview Download
md5:fbfc579196e7aa9e78a20c575c2b943d
1.2 kB Preview Download
md5:fb185984266841ab42193069b771c073
4.3 kB Preview Download
md5:1422e5f69c932c3b71cc084763260b2b
3.0 kB Preview Download
md5:4dce9a9a617171a77e7346d19dea2296
2.5 kB Preview Download
md5:67745499b2829cdd57537edfcc2d6858
8.5 kB Preview Download
md5:8200d7ca5c4763d7bec5517e53c6dff6
2.5 kB Preview Download
md5:e9714e5e8443a9be788fba7312f86605
6.8 kB Preview Download
md5:c7f99ccea07c6acdf4e276e1417b2cf7
4.5 kB Preview Download
md5:f2f840d1f7a07b609441f625e8f4136a
13.3 kB Preview Download
md5:75323d0bf39dddb19e14eb1140faa708
1.2 kB Preview Download
md5:b6f91c9f02712c35d0fba105dcfd038a
5.6 kB Preview Download
md5:a6ba291648d2df0f814c3f4ced0ef644
674 Bytes Preview Download
md5:8d57c4d2820fc1a17c1608443bb3d6f6
536 Bytes Preview Download

Additional details

Dates

Collected
2026-01-05
Updated
2026-01-20
Available
2026-02-10

Software

Programming language
Python , SQL
Development Status
Active