Published October 23, 2025 | Version v2
Dataset Restricted

CO.RA.PAN Full Corpus (Restricted)

  • 1. ROR icon Philipps University of Marburg

Description

## CO.RA.PAN Full Corpus (Restricted) – Übersicht


Dieses Verzeichnis enthält das **Full Corpus** der CO.RA.PAN-Daten, aufgeteilt in länderspezifische ZIP-Archive mit Audiodateien und Transkriptionen.


### Zugriffsbedingungen


* **Visibility:** Restricted (Zugriff auf Anfrage)
* **Grund:** Urheberrechtlich geschützte Audiodaten und Transkriptionen; Freigabe nur für berechtigte Nutzer\:innen.


### Inhaltsstruktur


| Datei              | Beschreibung                             |
| ------------------ | ---------------------------------------- |
| `README.md`        | Diese Übersicht und Gebrauchsanleitung   |
| `{LÄNDERCODE}.zip` | ZIP-Archiv für jedes Land (Audio & JSON) |


#### ZIP-Struktur pro Land

Jede `{LÄNDERCODE}.zip` Datei enthält:

```
{LÄNDERCODE}/
├── mp3-files/
│   ├── *.mp3        (Audiodateien)
│   └── ...
└── json-transcripts/
    ├── *.json       (Transkriptionen mit Annotationen)
    └── ...
```


### Zusammenstellung der ZIP-Archive


1. **Quellordner:**
   * `media/mp3-full/` – gruppiert nach Ländercode mit Audiodateien
   * `media/transcripts/` – gruppiert nach Ländercode mit annotierten Transkriptionen (JSON)
2. **Skript:** `zenodo_corpus_zip.py` erstellt für jedes Land ein ZIP im Ordner `ZIPs/`.
3. **Log-Datei:** `zip_process.log` dokumentiert Dateien und Änderungszeiten für inkrementelle Updates.


### Versionierung & Updates


* **Zenodo-Datensatz:** Full Corpus (Restricted)
  * **DOI:** [https://doi.org/10.5281/zenodo.15360942](https://doi.org/10.5281/zenodo.15360942)
  * **Neue Versionen:** werden als neue Versionseinträge auf Zenodo hochgeladen (automatische Versionsnummern)

* **Update-Prozess:**
  1. Lokale Änderungen oder neue Länder in `media/mp3-full/` und `media/transcripts/`
  2. Ausführen von `zenodo_corpus_zip.py` → aktualisierte ZIPs
  3. Neue Version des Full Corpus auf Zenodo hochladen (nur veränderte ZIPs + `README.md`)


### Links & DOIs


| Datensatz | DOI |
| --- | --- |
| **Full Corpus (Restricted)** | [https://doi.org/10.5281/zenodo.15360942](https://doi.org/10.5281/zenodo.15360942) |
| **Sample Corpus (Public)** | [https://doi.org/10.5281/zenodo.15378479](https://doi.org/10.5281/zenodo.15378479) |
| **Web-App & Code** | [https://doi.org/10.5281/zenodo.15359652](https://doi.org/10.5281/zenodo.15359652) |


### Datenverarbeitung & Annotation


Die JSON-Transkriptionen enthalten linguistische Annotationen:

* **Morphologische Analyse:** POS-Tags, Lemmata, Dependenzen
* **Zeitformen-Erkennung:** Automatische Klassifikation von Vergangenheits- und Futurformen
* **Annotationswerkzeug:** spaCy (`es_dep_news_trf`)


### Kontakt & Support


Für Fragen zum Datensatz oder zur Nutzung bitte:
* Zenodo-Datensatz-Seite nutzen (Direct Message oder Kontaktformular)
* Oder: CO.RA.PAN-Projektteam kontaktieren


---

**Hinweis:** Dieses Verzeichnis enthält **ausschließlich** die länderspezifischen ZIP-Archive des Full Corpus. Zur Nutzung der Daten bitte Zugriff via Zenodo anfragen.

Files

Restricted

The record is publicly accessible, but files are restricted to users with access.