Webis-WikiDiscussions-18

doi:10.5281/zenodo.3339152

Published July 17, 2018 | Version v1

Dataset Open

Webis-WikiDiscussions-18

1. Bauhaus-Universität Weimar
2. Martin-Luther-Universität Halle-Wittenberg

Webis-WikiDiscussions-18 Corpus is the output of parsing the entire set of Wikipedia talk pages. The corpus contains about six million discussions, consisting of about 20 million turns. The turns comprise around 74,000 different tags with a total of about 100,000 instances, around 7000 different shortcuts with about 400,000 instances, and around 51,000 different inline templates with about 3.3 million instances.

The database has the following structure:

PAGES: PAGE-ID, URL, TITLE
DISCUSSIONS: DISCUSSION-ID, PAGE-ID, TITLE
COMMENTS: COMMENT-ID, DISCUSSION-ID, PARENT-ID, TEXT-RAW, TEXT-CLEAN, USER
TAGS: TAG-ID, COMMENT-ID, TAG-TEXT, TAG-CLASS
TEMPLATES: TEMPLATE-ID, DISCUSSION-ID, TEMPLATE-TEXT
SHORTCUTS: SHORTCUT-ID, COMMENT-ID, SHORTCUT-TEXT, SHORTCUT-CLASS
LINKS: LINK-ID, COMMENT-ID, LINK-TEXT
INLINE-TEMPLATES: IL-TEMPLATE-ID, COMMENT-ID, IL-TEMPLATE-TEXT, TYPE, DESCRIPTION

Files

Files (4.8 GB)

Name	Size	Download all
Webis-WikiDiscussions-18-TSV.tar.gz md5:3b008055bd84f5d4808931ce0797bdf8	4.8 GB	Download

	All versions	This version
Views	398	395
Downloads	61	61
Data volume	380.5 GB	380.5 GB

Webis-WikiDiscussions-18

Creators

Description

Files

Files (4.8 GB)