Published May 20, 2024 | Version First version (20240520)
Dataset Open

Slovenský Supermodel P&T1 (SSPT1) : Matej Bel University SKRIPTOR project datasets

Description

SLO:

Dňa 17.05.2024 sme spustili vo webovej aplikácii Transkribus tvorbu nového agregovaného slovenského supermodelu. Základ pre tvorbu supermodelu pre určité slovenské tlačené historické dokumenty a strojom písané dokumenty tvorili parciálne modely riešiteľov úloh v projekte  Skriptor (Univerzita Mateja Bela v Banskej Bystrici a Štátna vedecká knižnica v Banskej Bystrici), ako aj transkripcie, ktoré pripravili študenti Slezskej univerzity v Opave v rámci Študentskej grantovej súťaže a vzdelávacích aktivít. 

Michaela Mikušková a Lucia Nižníková v rámci projektu Skriptor kompletne spracovali náročnú segmentáciu a manuálnu transkripciu 92 s. GT historickej tlačenej knihy J.A. Komenského Orbis Pictus (vydanie z roku 1798). Išlo, z hľadiska transkripcie o mimoriadne komplikovanú úlohu, pretože kniha má mnoho ilustrácií, je písaná v 4 jazkoch (latinčina, maďarčina, nemčina, čeština), navyše vo forme tabuliek a písmom antikva a švabach. 

Dušan Katuščák v rámci projektu Skriptor, vzdelávacích aktivít a študentskej grantovej súťaže SGS na Slezskej univerzite a vedenia diplomovej práce v Opave spracoval celý do kvality GT celý rad historických novín, časopisov a kníh z 19. a začiatku 20 storočia (Moravské noviny (1849), Programové bulletiny Slovenskej filharmónie (1849-1970), Opavský Besedník (1863), Jitrenka (1840), I. Palugyay: Kde jest pravda (1854), lužickosrbský časopis Lužica (1909), Šlabikár (1872), J.M. Hurban: Cirkev Ewanjelicko-Lutheránska (1861), J.N. Bobula: Jánošík (1862), D. Lichard: Obzor (1866) a i. Niektoré dokumenty sú už kompletne transkribované použitím privátnych modelov (ca 1000 s.), avšak do datasetu SSPT1 boli použité len sety GT.

Klára Kováčová-Pohlová (Diplomová práca, 2024, FPF SU Opava) a Matej Šmida (UMB Banská Bystrica) spracovali strojopisné dokumenty, pričom použili vzorky rôznych fontov v slovenskom, českom, nemeckom jazyku (ca 150 s.)

Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4. roč, FPF SLU)v predmete prof. Dušana Katuščáka Digitalizace II. pripravili ca 80 s. prepisov GT z rôznych historických tlačí z 18. a 19. storočia písaných v češtine (švabach). 

Model má označenie ID78289 SLOVAK Supermodel print&typewriter (SSPT1)  sme použili  542 strán v kvalite Ground Truth (GT 37897 riadkov a 200697 slov). 59 strán na overenie nového modelu (Validation set ) . repozitárov Štátnej vedeckej knižnice v Ostrave, Slovenskej národnej knižnice v Martine, z repozitára Manuskriptorium, zo Štátneho archívu v Banskej Bystrici a z Knižnice Univerzity Mateja Bela v Banskej Bystrici. 
Samotné ukážky považujeme pre používanie ďalšieho a zdokonaľovania modelu za veľmi dôležitý, ďalší výskumníci dostanú predstavu o podobnom alebo odlišnom písme vlastných dokumentov, ktoré chcú transkribovať. 

V modeli ID78289 SLOVAK Supermodel print&typewriter (SSPT1) boli dosiahnuté hodnoty Train set: 1,00% a Validation set: 1,00%. Znamená to teda „presnosť“ automatickej transkripcie 99%.

Tvorba modelu SSM1 na servri Transkribus trvala 21 hodín a 52 minút. Proces tvorby bol nastavený na 100 cyklov a skončený po  100 cykloch (epoch). 
Model SSPT1 je prvým pokusom na Slovensku av Česku o tvorbe agregovaného nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy tlačených a strojopisných dokumentov, ktoré sú podobné písmam použitým v jeho tvorbe. 
V prípadných nemožnoch ID78289 SLOVAK Supermodel print&typewriter (SSPT1) považujeme za definitívny univerzálny model transkripcie historických tlačí a strojopisov slovenskej proveniencie všetkých typov a období. Varieta písiem a štýlov je rozmanitá a tvorba optimálneho agregovaného modelu predstavuje úlohu pre ďalších výskumníkov a entuziastov v nasledujúcich rokoch. 
Domnievame sa však, že náš prvý agregovaný model SSPT1 môže byť potrebný automatickú transkripciu ďalších analógových dokumentov. 
Výskumný tým plánuje sprístupniť datasety v rámci udržateľnosti projektu v roku 2024-2028 prednostné pre výskumné a vzdelávacie účely pre inštitúcie a výskumníkov, ktorí budú chcieť prispieť k modelu historických a nových dokumentov v západoslovanských jazykoch, resp. jazykov slovenskej a bohemikálnej proveniencie.  Copyright: CC BY-NC-SA.
Samozrejme, takáto automatická transkripcia neprinesie hneď uspokojivé výsledky. Môže však byť „hrubú“ postupnú automatickú transkripciu ďalších strán, ich manuálnu opravu do stavu GT a následné použitie väčších datasetov GT na zdokonalenie nového modelu na báze nášho SSPT1. Po vytvorení ďalších stoviek a tisícov strán GT bude možné pristúpiť k tvorbe ďalších generácií nových modelov na základe SSPT1 . Vývoj by mohol pokračovať pre tlač a strojopisy modelmi nových generácií SSPT2 , SSPT3 ap.

Výzvu pre výskumníkov predstavuje aj vývoj a tvorbu nového agegovaného supermodelu, ktorý by zahrnul jednak rukopisy a jednak tlače a strojopisy. Tento slovenský supermodel by mohol byť zdieľaný v rámci komunity odborníkov Transkribus a zahrnutý do niektorého veľkého supermodelu Transkribus Community ap. 

 

ENG: 

On May 17, 2024, we launched the creation of a new aggregated Slovak supermodel in the Transkribus web application. The basis for the creation of a supermodel for certain Slovak printed historical documents and typewritten documents was the partial models of task solvers in the Skriptor project (Matej Bela University in Banská Bystrica and the State Science Library in Banská Bystrica), as well as transcriptions prepared by students of the University of Silesia in Opava in within the Student Grant Competition and educational activities.

As part of the Skriptor project, Michaela Mikušková and Lucia Nižníková completely processed the demanding segmentation and manual transcription of 92 s. GT of historical printed book J.A. Comenius' Orbis Pictus (1798 edition). From the point of view of transcription, it was an extremely complicated task, because the book has many illustrations, it is written in 4 languages (Latin, Hungarian, German, Czech), in addition in the form of tables and in antique and Swabian script.

Dušan Katuščák, as part of the Skriptor project, educational activities and the SGS student grant competition at the University of Silesia, and the management of the diploma thesis in Opava, processed a whole series of historical newspapers, magazines and books from the 19th and early 20th centuries (Moravské noviny (1849), Program bulletins of the Slovak Philharmonic (1849-1970), Opavský Besedník (1863), Jitrenka (1840), I. Palugya: Kde jest pravda (1854), Lusatian Serbian magazine Lužica (1909), Šlabikár (1872), J.M. Hurban: Cirkev Ewanjelicko- Lutheránska (1861), J.N. Bobula: Jánošík (1862), D. Lichard: Obzor (1866) and others. Some documents are already completely transcribed using private models (about 1000 pages), but only GT sets were used.

Klára Kováčová-Pohlová (Diplomová práce, 2024, FPF SU Opava) and Matej Šmida (UMB Banská Bystrica) processed typewritten documents, using samples of various fonts in Slovak, Czech, and German languages (ca. 150 pp.)

Nikola Halfarová, Terezie Gajdošová, Lenka Málková, Nikol Taufrová, Nela Kociánová (4th year, FPF SLU) in the subject of prof. Dušan Katuščák Digitization II. they prepared ca. 80 s. of GT transcriptions from various historical prints from the 18th and 19th centuries written in Czech (Svabian).

The model has ID78289 SLOVAK Supermodel print&typewriter (SSPT1) we used 542 pages in Ground Truth quality (GT 37897 lines and 200697 words). 59 pages for validation of the new model (Validation set). repositories of the State Scientific Library in Ostrava, the Slovak National Library in Martin, from the Manuscriptorium repository, from the State Archive in Banská Bystrica and from the Library of Matej Bel University in Banská Bystrica.
We consider the samples themselves to be very important for further use and refinement of the model, other researchers will get an idea of the similar or different writing of their own documents that they want to transcribe.

In model ID78289 SLOVAK Supermodel print&typewriter (SSPT1) the values Train set: 1.00% and Validation set: 1.00% were achieved. So it means the "accuracy" of the transcription is 99%.

The creation of the SSM1 model on the Transkribus server took 21 hours and 52 minutes. The creation process was set to 100 cycles and ended after 100 cycles (epochs).
The SSPT1 model is the first attempt in Slovakia and the Czech Republic to create an aggregated tool through which it would be possible to automatically make available certain types of printed and typewritten documents that are similar to the fonts used in its creation.
In the event of an impossibility, we consider the ID78289 SLOVAK Supermodel print&typewriter (SSPT1) to be the definitive universal model for the transcription of historical prints and typewriters of Slovak provenance of all types and periods. The variety of fonts and styles is diverse, and the creation of an optimal aggregate model is a task for other researchers and enthusiasts in the years to come.
However, we believe that our first aggregated SSPT1 model may be necessary for the automatic transcription of other analog documents.
The research team plans to make available datasets within the sustainability of the project in 2024-2028 prioritized for research and educational purposes for institutions and researchers who will want to contribute to the model of historical and new documents in West Slavic languages, respectively. languages of Slovak and Bohemian origin. Copyright: CC BY-NC-SA.
Of course, such automatic transcription will not immediately bring satisfactory results. However, it can be "rough" to gradually automatically transcribe additional pages, manually correct them to GT status, and then use larger GT datasets to refine a new model based on our SSPT1. After the creation of hundreds and thousands of pages of GT, it will be possible to proceed with the creation of further generations of new models based on SSPT1. Development could continue for printing and typewriting with models of new generations SSPT2, SSPT3 etc.

The challenge for researchers is also the development and creation of a new aged supermodel, which would include both manuscripts and prints and typescripts. This Slovak supermodel could be shared within the Transkribus community of experts and included in some big Transkribus Community supermodel, etc.

Files

alto.zip

Files (410.8 MB)

Name Size Download all
md5:eb9f78e4477ad104a79d9b58fd61955e
5.6 MB Preview Download
md5:e5ede9b928ce58790c4811effdb90f28
1.0 kB Preview Download
md5:c909a2687cf139528c0d2007896a5a92
8.6 MB Preview Download
md5:f5ffbda81850afb2049dc3b6c5fdd066
396.6 MB Preview Download

Additional details

Additional titles

Subtitle (Slovak)
Project: APVV-19-0456 SCRIPTOR – Innovative access to the written heritage of Slovakia through a system of automatic transcription of historical manuscripts

Identifiers

Crossref Funder ID
https://doi.org/10.24040/2022.9788055720203

Related works

Is supplemented by
Dataset: 10.24040/2022.9788055720203 (DOI)

Funding

Slovak Research and Development Agency
Innovative access to the written heritage of Slovakia through a system of automatic transcription of historical manuscripts. APVV-19-0456 SKRIPTOR

Dates

Accepted
2024-05-20
Akceptované pre komunitu výskumníkov v rámci projektu APVV a študentov Slezskej univerzity v Opave

References

  • APVV-19-0456 SKRIPTOR