Webcrawling zu Akzeptanzproblematiken der Telemedizin

doi:10.5281/zenodo.4557101

Published February 23, 2021 | Version v1

Dataset Open

Webcrawling zu Akzeptanzproblematiken der Telemedizin

Das Korpus umfasst Metadaten eines im März 2019 durchgeführten Webcrawlings zum Thema Akzeptanzproblematiken der Telemedizin. Es handelt sich um insgesamt 8.788 Websites, die mittels des hermA-Webcrawlers (Adelmann 2020a) gespeichert und der zugehörigen Toolbox (Adelmann 2020b) aufbereitet wurden.

Mit vorgegebenen Seed-URLs, die in der Datei seed_urls.txt enthalten sind, ist der Crawler den Links in HTML-Webseiten gefolgt und hat alle Dokumente gespeichert, die mindestens einen der vorgegebenen Begriffe aus der Datei wortfeld_telemedizin.txt enthalten. Mit der manuell erstellten Liste von ausgeschlossenen Websites aus der Datei blacklist.txt wurde verhindert, dass Daten von Social Media und aus Online-Shopping-Portalen gespeichert werden. Das so fokussierte Crawling wurde mit der Toolbox aufbereitet in drei Ausgabedateien: urls.txt listet alle gespeicherten Webadressen und den Zeitpunkt des Besuchs sowie die erkannte Dateiform und den Titel der aufgerufenen Webseite. files.txt benennt die aufbereiteten Versionen der Dateien. Die Datei matches.txt listet die in jeder Datei gefundenen Begriffe des Wortfelds sowie die Anzahl der entsprechenden Treffer auf.
Das Vorgehen des Crawling ist beschrieben bei Adelmann/Franken 2020. Aus rechtlichen Gründen können die gespeicherten Dateien nicht zur Verfügung gestellt werden.

Notes

Das Projekt hermA wurde gefördert durch die Landesforschungsförderung Hamburg (LFF-FV 35).

Files

blacklist.txt

Files (3.8 MB)

Name	Size	Download all
blacklist.txt md5:9d96db38e5d2b019e1976dd8e875d562	667 Bytes	Preview Download
files.txt md5:85608f4f51a319bd73ee43f1537458a0	1.3 MB	Preview Download
matches.txt md5:125fc552bc317bb218cf2089452bc262	585.0 kB	Preview Download
seed_urls.txt md5:2fe4e9a67713ffa1222af1d1797e1b1f	9.4 kB	Preview Download
urls.txt md5:2417d2cf31df60ce614596d3e8caf702	1.9 MB	Preview Download
wortfeld_telemedizin.txt md5:37f006e87a84b63e24be89f118d71431	592 Bytes	Preview Download

Additional details

Cites: Software: 10.5281/zenodo.4451983 (DOI); Software: 10.5281/zenodo.4449814 (DOI); Conference paper: 10.5281/zenodo.4058013 (DOI)

Adelmann, Benedikt (2020a): hermA-Crawler. A web crawler with integrated linguistic processing for thematic crawling and web document collection developed in the research project hermA. https://github.com/benadelm/hermA-Crawler [23.02.2021].
Adelmann, Benedikt (2020b): hermA-Crawler-Toolbox. Toolbox with various tools for analyzing or post-processing outputs of the hermA-Crawler. https://github.com/benadelm/hermA-Crawler-Toolbox [23.02.2021].
Adelmann, Benedikt; Franken, Lina (2020): Thematic web crawling and scraping as a way to form focussed web archives. In: Book of Abstracts. Engaging with Web Archives: Opportunities, Challenges and Potentialities (EWA20). Kildare 2020. https://zenodo.org/record/4058013#.X_YtdRYxmM8. [23.02.2021].

	All versions	This version
Views	149	148
Downloads	86	86
Data volume	62.6 MB	62.6 MB

Webcrawling zu Akzeptanzproblematiken der Telemedizin

Notes

Files

blacklist.txt

Files (3.8 MB)

Additional details

Related works

References

Webcrawling zu Akzeptanzproblematiken der Telemedizin

Creators

Description

Notes

Files

blacklist.txt

Files (3.8 MB)

Additional details

Related works

References