Published February 23, 2021 | Version v1
Dataset Open

Webcrawling zu Akzeptanzproblematiken der Telemedizin

Description

Das Korpus umfasst Metadaten eines im März 2019 durchgeführten Webcrawlings zum Thema Akzeptanzproblematiken der Telemedizin. Es handelt sich um insgesamt 8.788 Websites, die mittels des hermA-Webcrawlers (Adelmann 2020a) gespeichert und der zugehörigen Toolbox (Adelmann 2020b) aufbereitet wurden.

Mit vorgegebenen Seed-URLs, die in der Datei seed_urls.txt enthalten sind, ist der Crawler den Links in HTML-Webseiten gefolgt und hat alle Dokumente gespeichert, die mindestens einen der vorgegebenen Begriffe aus der Datei wortfeld_telemedizin.txt enthalten. Mit der manuell erstellten Liste von ausgeschlossenen Websites aus der Datei blacklist.txt wurde verhindert, dass Daten von Social Media und aus Online-Shopping-Portalen gespeichert werden. Das so fokussierte Crawling wurde mit der Toolbox aufbereitet in drei Ausgabedateien: urls.txt listet alle gespeicherten Webadressen und den Zeitpunkt des Besuchs sowie die erkannte Dateiform und den Titel der aufgerufenen Webseite. files.txt benennt die aufbereiteten Versionen der Dateien. Die Datei matches.txt listet die in jeder Datei gefundenen Begriffe des Wortfelds sowie die Anzahl der entsprechenden Treffer auf.
Das Vorgehen des Crawling ist beschrieben bei Adelmann/Franken 2020. Aus rechtlichen Gründen können die gespeicherten Dateien nicht zur Verfügung gestellt werden.

Notes

Das Projekt hermA wurde gefördert durch die Landesforschungsförderung Hamburg (LFF-FV 35).

Files

blacklist.txt

Files (3.8 MB)

Name Size Download all
md5:9d96db38e5d2b019e1976dd8e875d562
667 Bytes Preview Download
md5:85608f4f51a319bd73ee43f1537458a0
1.3 MB Preview Download
md5:125fc552bc317bb218cf2089452bc262
585.0 kB Preview Download
md5:2fe4e9a67713ffa1222af1d1797e1b1f
9.4 kB Preview Download
md5:2417d2cf31df60ce614596d3e8caf702
1.9 MB Preview Download
md5:37f006e87a84b63e24be89f118d71431
592 Bytes Preview Download

Additional details

Related works

Cites
Software: 10.5281/zenodo.4451983 (DOI)
Software: 10.5281/zenodo.4449814 (DOI)
Conference paper: 10.5281/zenodo.4058013 (DOI)

References

  • Adelmann, Benedikt (2020a): hermA-Crawler. A web crawler with integrated linguistic processing for thematic crawling and web document collection developed in the research project hermA. https://github.com/benadelm/hermA-Crawler [23.02.2021].
  • Adelmann, Benedikt (2020b): hermA-Crawler-Toolbox. Toolbox with various tools for analyzing or post-processing outputs of the hermA-Crawler. https://github.com/benadelm/hermA-Crawler-Toolbox [23.02.2021].
  • Adelmann, Benedikt; Franken, Lina (2020): Thematic web crawling and scraping as a way to form focussed web archives. In: Book of Abstracts. Engaging with Web Archives: Opportunities, Challenges and Potentialities (EWA20). Kildare 2020. https://zenodo.org/record/4058013#.X_YtdRYxmM8. [23.02.2021].