Published October 23, 2025
| Version v2
Dataset
Restricted
CO.RA.PAN Full Corpus (Restricted)
Description
## CO.RA.PAN Full Corpus (Restricted) – Übersicht
Dieses Verzeichnis enthält das **Full Corpus** der CO.RA.PAN-Daten, aufgeteilt in länderspezifische ZIP-Archive mit Audiodateien und Transkriptionen.
### Zugriffsbedingungen
* **Visibility:** Restricted (Zugriff auf Anfrage)
* **Grund:** Urheberrechtlich geschützte Audiodaten und Transkriptionen; Freigabe nur für berechtigte Nutzer\:innen.
### Inhaltsstruktur
| Datei | Beschreibung |
| ------------------ | ---------------------------------------- |
| `README.md` | Diese Übersicht und Gebrauchsanleitung |
| `{LÄNDERCODE}.zip` | ZIP-Archiv für jedes Land (Audio & JSON) |
#### ZIP-Struktur pro Land
Jede `{LÄNDERCODE}.zip` Datei enthält:
```
{LÄNDERCODE}/
├── mp3-files/
│ ├── *.mp3 (Audiodateien)
│ └── ...
└── json-transcripts/
├── *.json (Transkriptionen mit Annotationen)
└── ...
```
### Zusammenstellung der ZIP-Archive
1. **Quellordner:**
* `media/mp3-full/` – gruppiert nach Ländercode mit Audiodateien
* `media/transcripts/` – gruppiert nach Ländercode mit annotierten Transkriptionen (JSON)
2. **Skript:** `zenodo_corpus_zip.py` erstellt für jedes Land ein ZIP im Ordner `ZIPs/`.
3. **Log-Datei:** `zip_process.log` dokumentiert Dateien und Änderungszeiten für inkrementelle Updates.
### Versionierung & Updates
* **Zenodo-Datensatz:** Full Corpus (Restricted)
* **DOI:** [https://doi.org/10.5281/zenodo.15360942](https://doi.org/10.5281/zenodo.15360942)
* **Neue Versionen:** werden als neue Versionseinträge auf Zenodo hochgeladen (automatische Versionsnummern)
* **Update-Prozess:**
1. Lokale Änderungen oder neue Länder in `media/mp3-full/` und `media/transcripts/`
2. Ausführen von `zenodo_corpus_zip.py` → aktualisierte ZIPs
3. Neue Version des Full Corpus auf Zenodo hochladen (nur veränderte ZIPs + `README.md`)
### Links & DOIs
| Datensatz | DOI |
| --- | --- |
| **Full Corpus (Restricted)** | [https://doi.org/10.5281/zenodo.15360942](https://doi.org/10.5281/zenodo.15360942) |
| **Sample Corpus (Public)** | [https://doi.org/10.5281/zenodo.15378479](https://doi.org/10.5281/zenodo.15378479) |
| **Web-App & Code** | [https://doi.org/10.5281/zenodo.15359652](https://doi.org/10.5281/zenodo.15359652) |
### Datenverarbeitung & Annotation
Die JSON-Transkriptionen enthalten linguistische Annotationen:
* **Morphologische Analyse:** POS-Tags, Lemmata, Dependenzen
* **Zeitformen-Erkennung:** Automatische Klassifikation von Vergangenheits- und Futurformen
* **Annotationswerkzeug:** spaCy (`es_dep_news_trf`)
### Kontakt & Support
Für Fragen zum Datensatz oder zur Nutzung bitte:
* Zenodo-Datensatz-Seite nutzen (Direct Message oder Kontaktformular)
* Oder: CO.RA.PAN-Projektteam kontaktieren
---
**Hinweis:** Dieses Verzeichnis enthält **ausschließlich** die länderspezifischen ZIP-Archive des Full Corpus. Zur Nutzung der Daten bitte Zugriff via Zenodo anfragen.