Kölner Korpus des Kiezdeutschen / Cologne Corpus of Kiezdeutsch

Neubauer, Antonia Marie; Catasso, Nicholas

doi:10.5281/zenodo.15337948

Published May 11, 2025 | Version v1.0

Dataset Open

Kölner Korpus des Kiezdeutschen / Cologne Corpus of Kiezdeutsch

1. University of Wuppertal

Deutsch

Das Kölner Korpus des Kiezdeutschen ist ein kompakter Datensatz zur urbanen jugendsprachlichen Varietät Kiezdeutsch in Köln. Es enthält Tonaufnahmen und Transkriptionen informeller Gespräche jugendlicher männlicher Sprecher im Alter von 17 bis 20 Jahren. Die Aufnahmen wurden im Jahr 2023 an einem Berufskolleg in Köln (Nordrhein-Westfalen) durchgeführt, dessen fachlicher Schwerpunkt auf Technik und Medien liegt. Für die Studie wurden 13 Schüler aus einem zweijährigen Bildungsgang der Höheren Berufsfachschule für Technik/Informationstechnik ausgewählt. Die Teilnehmer stammen aus verschiedenen Schulformen und weisen unterschiedliche sprachliche Hintergründe auf – rund 40 % der Schüler haben einen Migrationshintergrund, mit Erst- oder Zweitsprachen wie Türkisch, Arabisch, Kurdisch, Persisch, Italienisch oder Albanisch.

Ziel war es, authentische Sprachdaten im Stil alltäglicher Pausengespräche zu erheben. Es wurden drei In-Group-Gespräche aufgezeichnet – je eine Gruppe mit ausschließlich monolingualen Sprechern, eine mit ausschließlich multilingualen Sprechern und eine gemischte Gruppe. Die Gespräche fanden ohne die Anwesenheit von Lehrkräften oder Forschenden statt, um maximale Natürlichkeit zu gewährleisten. Insgesamt umfasst das Korpus ca. drei Stunden Audiomaterial, das nach dem Gesprächsanalytischen Transkriptionssystem (GAT 2, Selting et al. 2009) transkribiert wurde.

Das Korpus beinhaltet:

- Transkriptionsdateien:

o G1 – Multilingual speakers (transcription)

o G2 – Monolingual speakers (transcription)

o G3 – Multilingual & monolingual speakers (transcription)

- Audiodateien:

o G1 – Multilingual speakers (audio)

o G2 – Monolingual speakers (audio)

o G3 – Multilingual & monolingual speakers (audio)

Die Gespräche behandeln Themen wie Schule, Essen, Autos, Religion, Fußball und Zukunftspläne. Die Transkriptionen wurden pseudonymisiert, persönliche Daten anonymisiert und methodisch kontrolliert verarbeitet. Die Transkriptionen wurden pseudonymisiert, persönliche Daten anonymisiert und methodisch kontrolliert verarbeitet. Das Korpus bietet eine empirische Grundlage zur Erforschung jugendsprachlichen Sprachgebrauchs im urbanen Raum – insbesondere im Hinblick auf regionale Varianten von Kiezdeutsch in Köln. Die Transkriptionen liegen auf Deutsch vor. Parasprachliche Merkmale (z. B. Pausen, Lachen, Betonungen) wurden nach GAT 2 in englischer Notation verschriftlicht, um internationale Nachvollziehbarkeit zu gewährleisten.

Das Kölner Korpus des Kiezdeutschen umfasst in seiner aktuellen Form 33.019 Tokens (G1: 8.220 / 50 Transkriptseiten; G2: 10.243 / 51 Transkriptseiten; G3: 14.556 / 65 Transkriptseiten) sowie insgesamt 3.721 Redebeiträge / Sprecherwechsel (G1: 1.392, G2: 1.188, G3: 1.141).

Das Korpus ist unter der Creative Commons Attribution 4.0 International License (CC BY 4.0) veröffentlicht. Es darf frei genutzt und geteilt werden, sofern eine korrekte Quellenangabe erfolgt (inkl. Autorennamen, Titel und DOI).

Empfohlene Zitierweise

Neubauer, Antonia Marie & Catasso, Nicholas (2025): Kölner Korpus des Kiezdeutschen / Cologne Corpus of Kiezdeutsch [Datensatz]. Zenodo. https://doi.org/10.5281/zenodo.15337948

Bitte geben Sie bei jeder wissenschaftlichen Nutzung oder Weiterverarbeitung des Korpus die Quelle gemäß der Lizenz CC BY 4.0 an. Veränderungen und Bearbeitungen sind im Rahmen dieser Lizenz zulässig, sofern die ursprüngliche Quelle genannt und eventuelle Änderungen kenntlich gemacht werden.

English

The Cologne Corpus of Kiezdeutsch is a compact dataset documenting the urban youth variety known as Kiezdeutsch in Cologne. It contains audio recordings and transcriptions of informal conversations among adolescent male speakers aged 17 to 20. The recordings were made in 2023 at a vocational college in Cologne (North Rhine-Westphalia) with a focus on technology and media. Thirteen students were selected from a two-year upper-level vocational education program in information technology. The participants came from various school backgrounds and displayed diverse linguistic profiles – around 40% of the students had a migration background, with first or second languages such as Turkish, Arabic, Kurdish, Persian, Italian, or Albanian.

The aim was to collect authentic spoken data in the style of everyday break-time conversations. Three in-group conversations were recorded – one group consisting only of monolingual speakers, one only of multilingual speakers, and one mixed group. The recordings took place without the presence of teachers or researchers in order to ensure maximum naturalness. In total, the corpus includes around three hours of audio material, transcribed using the GAT 2 (Conversation Analytic Transcription System).

The corpus includes:

- Transcription files:

o G1 – Multilingual speakers (transcription)

o G2 – Monolingual speakers (transcription)

o G3 – Multilingual & monolingual speakers (transcription)

- Audio files:

o G1 – Multilingual speakers (audio)

o G2 – Monolingual speakers (audio)

o G3 – Multilingual & monolingual speakers (audio)

Topics include school, food, cars, religion, football, and future plans. All transcripts are pseudonymized, personal data are anonymized, and the dataset has been processed in accordance with qualitative and quantitative research standards. It is designed to support research on youth language in urban settings, with a focus on regional Kiezdeutsch as spoken in Cologne.

Transcriptions are provided in German. Paralinguistic features (e.g., pauses, laughter, emphasis) are notated using standard GAT 2 (Selting et al. 2009) conventions in English, to support international accessibility.

The Cologne Corpus of Kiezdeutsch currently contains 33,019 tokens (G1: 8,220 / 50 transcript pages; G2: 10,243 / 51 transcript pages; G3: 14,556 / 65 transcript pages) and a total of 3,721 turn-takes (G1: 1,392; G2: 1,188; G3: 1,141).

The corpus is published under the Creative Commons Attribution 4.0 International License (CC BY 4.0). It may be freely used and shared, provided that proper attribution is given (including author names, title, and DOI).

Recommended Citation

Neubauer, Antonia Marie & Catasso, Nicholas (2025). Kölner Korpus des Kiezdeutschen / Cologne Corpus of Kiezdeutsch [Dataset]. Zenodo. https://doi.org/10.5281/zenodo.15337948

Please cite the source in accordance with the CC BY 4.0 license for any scholarly use or further processing of the corpus. Modifications and adaptations are permitted under this license, provided that the original source is credited and any changes are clearly indicated.

Files

01_G1 - Multilingual speakers (audio).mp3

Files (158.8 MB)

Name	Size	Download all
01_G1 - Multilingual speakers (audio).mp3 md5:4710b4502cb1f549dc8a65cb197cdfca	42.9 MB	Preview Download
02_G1 - Multilingual speakers (transcription).pdf md5:1950da49689e4577e7b1d9bc11d44917	306.5 kB	Preview Download
03_G2 - Monolingual speakers (audio).mp3 md5:d221f99e78af833c9c381e0e32569992	51.0 MB	Preview Download
04_G2 - Monolingual speakers (transcription).pdf md5:1af41e67d8e115099185ababa960f840	299.0 kB	Preview Download
05_G3 - Multilingual & monolingual speakers (audio).mp3 md5:a0af49a88212ba454867bc5626133a57	63.9 MB	Preview Download
06_G3 - Multilingual & monolingual speakers (transcription).pdf md5:3c84285e3b86a55da568aebb5eb4bacf	363.6 kB	Preview Download

Additional details

Available: 2025-05-10

	All versions	This version
Views	409	201
Downloads	952	451
Data volume	43.2 GB	23.8 GB

Kölner Korpus des Kiezdeutschen / Cologne Corpus of Kiezdeutsch

Authors/Creators

Description

Files

01_G1 - Multilingual speakers (audio).mp3

Files (158.8 MB)

Additional details

Dates