Webcrawling zu Akzeptanzproblematiken der Telemedizin
Creators
Description
Das Korpus umfasst Metadaten eines im März 2019 durchgeführten Webcrawlings zum Thema Akzeptanzproblematiken der Telemedizin. Es handelt sich um insgesamt 8.788 Websites, die mittels des hermA-Webcrawlers (Adelmann 2020a) gespeichert und der zugehörigen Toolbox (Adelmann 2020b) aufbereitet wurden.
Mit vorgegebenen Seed-URLs, die in der Datei seed_urls.txt enthalten sind, ist der Crawler den Links in HTML-Webseiten gefolgt und hat alle Dokumente gespeichert, die mindestens einen der vorgegebenen Begriffe aus der Datei wortfeld_telemedizin.txt enthalten. Mit der manuell erstellten Liste von ausgeschlossenen Websites aus der Datei blacklist.txt wurde verhindert, dass Daten von Social Media und aus Online-Shopping-Portalen gespeichert werden. Das so fokussierte Crawling wurde mit der Toolbox aufbereitet in drei Ausgabedateien: urls.txt listet alle gespeicherten Webadressen und den Zeitpunkt des Besuchs sowie die erkannte Dateiform und den Titel der aufgerufenen Webseite. files.txt benennt die aufbereiteten Versionen der Dateien. Die Datei matches.txt listet die in jeder Datei gefundenen Begriffe des Wortfelds sowie die Anzahl der entsprechenden Treffer auf.
Das Vorgehen des Crawling ist beschrieben bei Adelmann/Franken 2020. Aus rechtlichen Gründen können die gespeicherten Dateien nicht zur Verfügung gestellt werden.
Notes
Files
blacklist.txt
Files
(3.8 MB)
Name | Size | Download all |
---|---|---|
md5:9d96db38e5d2b019e1976dd8e875d562
|
667 Bytes | Preview Download |
md5:85608f4f51a319bd73ee43f1537458a0
|
1.3 MB | Preview Download |
md5:125fc552bc317bb218cf2089452bc262
|
585.0 kB | Preview Download |
md5:2fe4e9a67713ffa1222af1d1797e1b1f
|
9.4 kB | Preview Download |
md5:2417d2cf31df60ce614596d3e8caf702
|
1.9 MB | Preview Download |
md5:37f006e87a84b63e24be89f118d71431
|
592 Bytes | Preview Download |
Additional details
Related works
- Cites
- Software: 10.5281/zenodo.4451983 (DOI)
- Software: 10.5281/zenodo.4449814 (DOI)
- Conference paper: 10.5281/zenodo.4058013 (DOI)
References
- Adelmann, Benedikt (2020a): hermA-Crawler. A web crawler with integrated linguistic processing for thematic crawling and web document collection developed in the research project hermA. https://github.com/benadelm/hermA-Crawler [23.02.2021].
- Adelmann, Benedikt (2020b): hermA-Crawler-Toolbox. Toolbox with various tools for analyzing or post-processing outputs of the hermA-Crawler. https://github.com/benadelm/hermA-Crawler-Toolbox [23.02.2021].
- Adelmann, Benedikt; Franken, Lina (2020): Thematic web crawling and scraping as a way to form focussed web archives. In: Book of Abstracts. Engaging with Web Archives: Opportunities, Challenges and Potentialities (EWA20). Kildare 2020. https://zenodo.org/record/4058013#.X_YtdRYxmM8. [23.02.2021].