This dataset: STEINER, Ludvík, 2021. Underlying Data for DOI Assignment Practice of Czech Scientific Journal Publishers: supporting Data for bachelor thesis [online dataset]. Available from: https://doi.org/10.5281/zenodo.4739127 Thesis reference: STEINER, Ludvík. DOI Assignment Practice of Czech Scientific Journal Publishers [online]. Praha, 2021[cit. 2021-05-05]. Bachelor thesis. Charles University. Faculty of Arts. Institute of Information Studies and Librarianship. This dataset contains data about scholarly journals published in the Czech Republic and about DOIs, which these journals assign. It was used to explore common patterns of DOIs and for assessment of quality of the associated metadata. It also contains data about editiorial systems of the journals and the DOI registration workflow. The thesis, the data and the rest of the description is in Czech language only. 000_export_dat_z_IS_VaVaI.zip ----------------------------- Tento soubor obsahuje záznamy stažené z databáze RIV dne 6.11.2019 viz sekce 6.1.1 práce. Obsah: _README.txt - doprovodný textový soubor s informacemi o stažení záznamů z databáze RIV. RIV.csv - stažené záznamy z databáze RIV ve formátu CSV (comma-separated values). RIV.ods - stažené záznamy z databáze RIV ve formátu ODS (OpenOffice/LibreOffice). RIV.xml - stažené záznamy z databáze RIV ve formátu XML (Microsoft Office). 001_vyber_dat_z_RIV.xlsx ------------------------ Tento sešit dokumentuje podvýběr záznamů ze stažených záznamů z RIV. Listy: 1_Vystup_z_RIV - Export záznamů z databáze RIV za období 2016-2018, viz sekce 6.1.1 práce 2_RIV_Ceske - podvýběr záznamů z ČR, viz sekce 6.1.2 práce 3_s_DOI - podvýběr záznamů, které obsahuje záznamy s DOI, viz sekce 6.1.2 práce 4_s_DOI_pouze_Ceske - podvýběr záznamů, které byly přidělené v ČR (dohledání podle https://portal.issn.org/resource/ISSN/) 002_vstup_pro_Actavii.xlsx -------------------------- Tento sešit dokumentuje seznam DOI, u kterých byla vyžádána metadata z registrační agentury Crossref, viz sekce 6.1.3 práce. List: 1_seznam_DOI - seznam záznamů zaslaných záznamů (31. 3. 2020) 003_vystup_z_Actavie.xls ------------------------ Obsahuje extahovaná metadata z databáze Crossref k DOI dle sešitu 002_vstup_pro_Actavii.xlsx, viz sekce 6.1.3 práce. List: 1_vystup_Actavia - obsahuje metadata k záznamům DOI ve vnitřní struktuře Actavia (bude popsáno dále) 004_DOI_a_metadata.xlsx ----------------------- Tento sešit je sestava DOI a metadat pro další výzkum doplněný chybějícím záznamem 10.14712/23363177.2017.2. 6.1.3 práce. List: 1_metadata_ke_vsem_DOI, viz sekce 6.1.3 práce, popis významých sloupců datové struktury. 011_struktura_DOI_a_registrace.xlsx ----------------------------------- Tento sešit dokumentuje analýzu v sekce 6.1.3 a 6.2 práce. Listy: 1_prefix_Ra_rozmezi - viz sekce 6.1.3 a 6.2.1 práce, obsahuje údaje o časopisech a o jednotlivých prefixech DOI. Zelené řádky označují časopis, který má svého předchůce. Žlutá je označení časopisu, který změnil registrátora. Růžová značí časopis, který je zahraniční a bude následně vyřazen do listu 3_vyrazeny_casopis 2_prefix_Ra_rozmezi_a_predchudci - viz sekce 6.1.3 a 6.2.1 práce, obsahuje údaje z předchozího listu a údaje o předchůdci. 3_syntax_sufixu - viz sekce 6.2.1 práce, obsahuje strukturu sufixu časopisů z listu 2_prefix_Ra_rozmezi_a_predchudci. 4_vyrazeny_casopis - viz sekce 6.2.1 práce, obsahuje vyřazený zahraniční časopis Indogermanische Forschungen. 5_redakcni_systemy_reg_DOI - viz sekce 6.2.1, obsahuje údaje o redakčním systému časopisu a způsobu registrace metadat DOI. Sloupce E, F, G jsou označeny barvou. Žlutá značí ověřená informace, červená barva nedostatečný nebo žádný údaj. 6_finalni_poradi_casopisu - viz sekce 6.2.1, obsahuje konečnou sadu časopisů seřazeno podle názvu. Řádky označené zelenou barvu značí časopis předchůdce a následnovníka. 7_crossref_report_cerven_2020 - viz sekce 6.2.1, všechny záznamy z Crossref reportu. Sloupce A, B, C jsou v rámci jednoho časopisu identické. Pokrývají celou historii časopisů patřící pod registrační agenturu Crossref. Záznamy byly staženy v červnu 2020. 8_crossref_report_28.10.2020 - viz sekce 6.2.1, všechny záznamy z Crossref reportu. Sloupce A, B, C jsou v rámci jednoho časopisu identické. Pokrývají celou historii časopisů patřící pod registrační agenturu Crossref. Záznamy byly staženy v 28. 10. 2020. 9_crossref_rep.SSRN_30.6.20 - viz sekce 6.2.1 výpis Crossref report z repozitáře SSRN. Obdržené 30.6.2020 od registrační agentury Crossref. 10_mEDRA_DOI_z_RIV - viz sekce 6.2.1, obsahuje metadata DOI z registrační agentury mEDRA, které byly uvedeny v RIV. 11_mEDRA_Czech_DOI_history - viz sekce 6.2.1, všechny záznamy DOI českých časopisů od svého vzniku do 9.7.2020. 12_DataCite_BEH_PRADEC - viz sekce 6.2.1, všechny záznamy časopisu Business and Economic Horizons, které jsou zaregistrovány u registrační agentury DataCite k datu 3.8.2020. 13_vydavatel_ID_member - viz sekce 6.2.1, všechny ID registrátorů z registračních agentur Crossref a mEDRA. V době kompilace data pro tento list nebyly záznamy z DataCite. 14_poradi_cas._dle_data_vzniku - viz sekce 6.2.1, seřazení časopisů dle prvního zaregistrovaného záznamu DOI daného časopisu. 15_tabulka_sufix_cetnost_zaznam - viz sekce 6.2.3, hlavní list celého souboru. Všechna data v předcházejících listech spojená do jednoho listu. Obsahuje tvary sufixu, velikosti časopisu i vydavatelů, typ organizace, redakční systémy a typ registrace metadat DOI. 16_graf_casop_registrujici_DOI - počet zaregistrovaných časopisů k danému roku v rozmezí 2002-2018. 021_metadata_kontroly_seznamu_DOI_dokumentu.xlsx. ------------------------------------------------ Tento sešit dokumentuje záznamy, které zůstavají po vyřazení záznamů nebo jejich přeřazení do oprav. Listy: 1_metadata_ke_vsem_DOI - viz sekce 6.3.1 práce, tento list je kopie listu 1_metadata_ke_vsem_DOI ze souboru 004_DOI_a_metadata.xlsx. Celkově je v listu 5 899 záznamů DOI. 2_DOI_patrici_jinym_casopisum - viz sekce 6.3.2 práce, 8 záznamů DOI přesunuto do souboru 022_metadata_dodatecne_opravene.xlsx, list 1_patri_jinym_casop_zduvodneni. Celkově je v listu 5 891 záznamů DOI. 3_Casopisy_cisla_casopisu - viz sekce 6.3.2 práce, 19 záznamů DOI přesunuto do souboru 023_metadata_kontroly_odstranene_zaznamy.xlsx, list 2_casopisy_cisla_casopisu. Celkově je v listu 5 872 záznamů DOI. 4_Jina_RA - viz sekce 6.3.2 práce, 14 záznamů DOI přesunuto do souboru 023_metadata_kontroly_odstranene_zaznamy.xlsx, list 3_jina_RA_mEDRA. Celkově je v listu 5 858 záznamů DOI. 5_&_nahrazeno - viz sekce 6.3.2 práce, z URL nahrazeny sekvence "&" za "amp". 6_odebrane_duplicity - viz sekce 6.3.2 práce, 152 záznamů DOI přesunuto do souboru 023_metadata_kontroly_odstranene_zaznamy.xlsx, list 4_odebrane_duplicity. Celkově je v listu 5 706 záznamů DOI. 7_odebrane_zaznamy_bez_URL - viz sekce 6.3.2 práce, 186 záznamů DOI přesunuto do souboru 022_metadata_dodatecne_opravene.xlsx, list 2_nefunkcni_URL_zduvodneni. Celkově je v listu 5 520 záznamů DOI. 8_vse_bez_oprav - viz sekce 6.3.2 práce, 435 záznamů DOI je přesunuto do souboru 022_metadata_dodatecne_opravene.xlsx, listů 3_chybne_zaznamy_zduvodneni 394 záznamů DOI nefunkčních a 4_zvlastnosti_zduvodneni 41 záznamů DOI, které vykazovaly neobvyklé nebo částečně chybějící záznamy. Celkově je v listu 5085 záznamů DOI. 9_vsechny_zaznamy_mimo_vyraz - viz sekce 6.3.2 práce, všechny opravené nebo alespoň částečně opravené záznamy DOI ze souboru 022_metadata_dodatecne_opravene.xlsx byly připojeny ke zbylým záznamům DOI z předešlého listu 8_vse_bez_oprav. Celkově se jedná o 5 657 záznamů DOI. 022_metadata_dodatecne_opravene.xlsx. ------------------------------------ Tento sešit dokumentuje záznamy DOI, které byly vyřazené nebo se jednalo o opravy vadných záznamů ze souboru 021_metadata_kontroly_seznamu_DOI_dokumentu.xlsx. V případě, že se nepodaří záznamy DOI alespoň částečně zprovoznit, budou přesunty do souboru 023_metadata_kontroly_odstranene_zaznamy.xlsx. Pokud se je podaří alespoň částečně opravit, vrátí se do souboru 021_metadata_kontroly_seznamu_DOI_dokumentu.xlsx, list 9_vsechny_zaznamy_mimo_vyraz. Každý záznam ve sloupi A je označen barevně značící určitý význam: 1/ fialová - záznam DOI je v pořádku, původně bylo v RIV uvedeno jiné DOI, 2/ zelená - záznam DOI je v pořádku, 3/ růžová - záznam DOI je vyřazen (přesouvají se do souboru 023_metadata_kontroly_odstranene_zaznamy.xlsx), 4/ hnědá - záznam DOI měl původně špatné URL, ale je opraveno, 5/ žlutá - částečně opravený záznam DOI, 6/ tyrkysově modrá - chybějící metadata u záznamu DOI, 7/ tmavě modrá a bílé písmo - záznamy DOI s plným textem, ponechaným ve verzi před zveřejněním (online first). Listy: 1_patri_jinym_casop_zduvodneni - viz sekce 6.3.2 práce, obsahuje metadata záznamů DOI, které napatří daným článkům. 2_nefunkcni_URL_zduvodneni - viz sekce 6.3.2 práce, obsahuje záznamy DOI, které mají nefunkční URL. Ve sloupci D jsou popsány důvody a opravy. 3_chybne_zaznamy_zduvodneni - viz sekce 6.3.2 práce, obsahuje záznamy DOI, které byly chybné. 4_zvlastnosti_zduvodneni - viz sekce 6.3.2 práce, obsahuje záznamy DOI, které byly neobvyklé nebo byly částečně bez metadat. 023_metadata_kontroly_odstranene_zaznamy.xlsx --------------------------------------------- Tento sešit dokumentuje záznamy DOI, které byly přesunuty a to buď přímo ze souboru 021_metadata_kontroly_seznamu_DOI_dokumentu nebo souboru 022_metadata_dodatecne_opravene.xlsx. Listy: 1_DOI_patrici_jinym_casopisum - viz sekce 6.3.2 práce, odstraněné záznamy bez DOI. 2_casopisy_cisla_casopisu - viz sekce 6.3.2 práce, odstraněné záznamy DOI samotných časopisů nebo jejich čísel. 3_jina_RA_mEDRA - viz sekce 6.3.2 práce, odstraněné záznamy DOI z registrační agentury mEDRA. 4_odebrane_duplicity - viz sekce 6.3.2 práce, odstraněné duplicitní záznamy DOI. 5_odebrane_zaznamy_bez_URL - viz sekce 6.3.2 práce, odstraněné záznamy DOI s chybným URL. 024_metadata_rozdily_datumu.xlsx -------------------------------- Tento sešit je pomocný soubor, který dokumentuje konverzi datumů do jednotného formátu a výpočet rozdílu doby registrace DOI u Crossref a dobou uvedenou v metadatech z Crossref, Landing page a v plném textu. 1_Datumy_versus_Created - viz sekce 6.3.2 práce, tento list je kopie listu 021_metadata_kontroly_seznamu_DOI_dokumentu.xlsx, list 9_vsechny_zaznamy_mimo_vyraz. 2_Output_rozdily - viz sekce 6.3.2 práce, zobrazuje zkonvertované datumy do jednotného formátu a časové rozdíly mezi dobou registrace a časových údajů z metadat z Crossref a metadat z Landing page a plného textu. Ludvík Steiner, ORCID https://orcid.org/0000-0003-3026-7382