There is a newer version of the record available.

Published May 29, 2021 | Version 1
Dataset Open

Résultat google scholar théories du complot 2019 à 2021

  • 1. Etudiant

Description

--------------------
INFORMATION GÉNÉRALE
--------------------

Titre du jeu de données: Information sur des articles scientifiques concernant les théories du complot de 2019 à 2021

Renseignements concernant l'auteur (Jermini Stéphane, HEG Genève, Rue de la Tambourine 17 1227 Carouge, stephane-alain.jermini@hesge.ch)

    Chercheur principal: Arnaud Gaudinat
    Co-chercheur ou chercheur associé: Vanessa Besson, Eléonore Crausaz, Stéphane Jermini 

Description sommaire : Résultat google scholar théories du complot 2019 à 2021 

Date de la collecte de données:  2021-04-01

Date de production des données: 2021-04-01

Date de publication des données: 2021-05-29

Localisation géographique de la collecte de données: Monde entier 

Renseignements concernant les organismes subventionnaires ou commanditaires de cette collecte de données: Google Scholar


--------------------------------------------------
INFORMATION D'ACCÈS/PARTAGE DES DONNÉES
-------------------------------------------------- 

Licences/restrictions en lien avec les données, ou limitations d'utilisation: Creative Commons licence

Référence bibliographique de ce jeu de données: -

Références bibliographiques et hyperliens des publications liées à ce jeu de données: -

Autres liens permettant le libre accès à ce jeu de données:

    https://github.com/SJ-palpa/curation_projet

    https://zenodo.org/record/4843312#.YLUeLqgzaUk

    http://5.196.70.206/data/Besson_Jermini_Crausaz/page_web.html                                

-----------------------------
APERÇU DES DONNÉES & FICHIERS
-----------------------------

Liste des fichiers:

Données brutes complètes:
    scrap_all.csv
    
    Données brut par années:
        scrap_2019.csv
        scrap_2020.csv
        scrap_2021.csv

    Données enrichie et transformé :
        conspiracy_theories_data.csv
        
  
--------------------------
INFORMATION METHODOLOGIQUE
--------------------------

Description de la méthodologie de collecte/production des données: 

Ce jeu de données correspond au scraping de 3 années depuis la plateforme web Google Scholar (https://scholar.google.com/). Voici les paramètres que nous avons utilisé pour Google Scholar:

-exclure brevets

-exclure citations

Notre recherche a été faite avec les termes suivants : "social media" AND "conspiracy theories"

Ce jeu de données se concentre sur les années 2019, 2020 et 2021. Pour chaque années 720 résultats de Google Scholar ont été scrapés.

Pour chacun de ces résultats nous avons récupéré 7 champs que nous avons mis dans les 7 colonnes de notre fichier dataset:

-Titre

-Lien

-Citation

-Lien pdf du document

-Auteur, éditeur, année, site internet

-Nombre de citations

-Nombre de versions


Description des opérations de traitement des données: Pour l'extraction de meta données nous avons utilisé TIKA, pour l'extraction des PDF nous avons utilisé un script python.

Identifier les personnes impliquées dans la collecte, le traitement, l'analyse et/ou la diffusion des données: Vanessa Besson, Eléonore Crausaz, Stéphane Jermini


------------------------------------------------------------
RENSEIGNEMENTS CONCERNANT LE CONTENU DES FICHIERS DE DONNÉES 

------------------------------------------------------------
scrap_all.csv (identique pour les autres fichiers de données brutes)


    Nombre de variables: 7

    Nombre d'enregistrements/lignes: 2160

    Liste des variables, définitions et abréviations: 
        titre : Titre de l'article
        lien : Lien vers sa page web
        citation : Court extrait
        pdflink : Lien pdf
        auteurEditeur : Information sur l'auteur, l'éditeur et l'année (Information incomplète)
        cite : Nombre de citations
        version : Nombre de version

    Format des données:
        titre : Texte
        lien : Texte
        citation : Texte
        pdflink : Texte
        auteurEditeur : Texte
        cite : Texte
        version : Texte    

conspiracy_theories_data.csv

    Nombre de variables: 20

    Nombre d'enregistrements/lignes: 2160

    Liste des variables, définitions et abréviations:
    titre : Titre de l'article
    lien : Lien vers sa page web
    citation : Court extrait
    pdflink : Lien pdf
    contenu_pdf : Contenu de l'article
    illuminati : Présence du terme "illuminati" ou qui s'en rapproche dans l'article
    crop circle : Présence du terme "crop circle" ou qui s'en rapproche dans l'article
    reptilian : Présence du terme "reptilian" ou qui s'en rapproche dans l'article
    moon landing : Présence du terme "moon landing" ou qui s'en rapproche dans l'article
    chemtrails : Présence du terme "chemtrails" ou qui s'en rapproche dans l'article
    Alska mind-control : Présence du terme "alska mind-control" ou qui s'en rapproche dans l'article
    Area 51 aliens : Présence du terme "Area 51" ou qui s'en rapproche dans l'article
    kennedy assassination : Présence du terme "Kennedy assassination" ou qui s'en rapproche dans l'article
    CoronaTrueFalse : Présence du terme "corona" ou qui s'en rapproche dans l'article
    meta : meta données du pdf de l'article
    Author : Auteur de l'article réconcilié à partir de TIKA
    auteurEditeur : Information sur l'auteur, l'éditeur et l'année (Information incomplète)
    cite : Nombre de citations
    version : Nombre de version
    year : Année de publication de l'article
   
    Format des données:

    titre : Texte
    lien : Texte
    citation : Texte
    pdflink : Texte
    contenu_pdf : Texte
    illuminati : Texte
    crop circle : Boolean
    reptilian : Boolean
    Moon landing : Boolean
    chemtrails : Boolean
    Alska mind-control : Boolean
    Area 51 aliens : Boolean
    Kennedy assassination : Boolean
    CoronaTrueFalse : Boolean
    meta : Json
    Author : Texte
    auteurEditeur :Texte
    cite : Texte
    version : Texte
    year: Number

Notes

Ce jeu de données à été récolté pour le cours de curation de données de la HEG (Hautes Ecole de Gestion ) Genève.

Files

webscraper_all.csv

Files (1.3 MB)

Name Size Download all
md5:674ec95bded8bc9320e6a8bcd8e8dd68
1.3 MB Preview Download