Published April 16, 2019
| Version 0.0.2-20190408
Dataset
Open
N-gram dataset of Chinese local gazetteers (中國地方誌)
Description
This dataset contains the N-grams (1-3) collected from 11083 Chinese local gazetteers (中國地方誌).
The dataset comprises of the following resources:
- local_gazetteer_1.7z Unigram dataset in tab separated format (one file per book, each row contains the N-gram and its count)
- local_gazetteer_2.7z Bigram dataset in tab separated format (one file per book, each row contains the N-gram and its count)
- local_gazetteer_3.7z Trigram dataset in tab separated format (one file per book, each row contains the N-gram and its count)
- local_gazetteer_metadata.xlsx Metadata of each book
Dieses Datenset enthält die in 11083 chinesischen Lokalmonographien (中國地方誌) enthaltenen N-Gramme (1-3).
Das Datenset besteht aus den folgenden Dateien:
- local_gazetteer_1.7z Monogramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text)
- local_gazetteer_2.7z Bigramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text)
- local_gazetteer_3.7z Trigramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text)
- local_gazetteer_metata.xlsx Metadaten der enthaltenen Bücher
11083 中國地方誌n元語法統計資料 (N-gram Dataset)
以下是檔案簡說:
- local_gazetteer_1.7z 中國地方誌一元分詞(Unigram)的統計資料 (每本書一個檔案, 以tab作欄區分, 每一行紀錄該N-gram在書中出現的次數)
- local_gazetteer_2.7z 中國地方誌二元分詞(Bigram)的統計資料 (每本書一個檔案, 以tab作欄區分, 每一行紀錄該N-gram在書中出現的次數)
- local_gazetteer_3.7z 中國地方誌三元分詞(Trigram)的統計資料 (每本書一個檔案, 以tab作欄區分, 每一行紀錄該N-gram在書中出現的次數)
- local_gazetteer_metadata.xlsx 紀錄每本書的基本Metadata
Files
Files
(6.5 GB)
| Name | Size | Download all |
|---|---|---|
|
md5:e939ca8225c32080095e946bd8add59a
|
1.8 MB | Download |
|
md5:e2a66dad688912ef229eab41b7fc207c
|
80.5 MB | Download |
|
md5:ce2dee475df8ab817307e0c77db02a0b
|
1.5 GB | Download |
|
md5:bb6a2a7b57cf7a26798663a3a81e3f71
|
4.9 GB | Download |