{ "version": 3, "collectionsIds": [ "10.34847/nkl.abcb8377", "10.34847/nkl.c675l290" ], "files": [ { "name": "exo-sr3_trie_idu_menage_idu.csv", "extension": "csv", "size": 9324787, "mime_type": "text/csv", "sha1": "0d3da2f1aef0245aa66c77aec9fe97a867136108", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "exo-sr3_trie_idu.csv", "extension": "csv", "size": 8750413, "mime_type": "text/csv", "sha1": "6459af2eaf729d3afac3fe0cd308d303d6a11322", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "exo-sr3_trie_sans_doublon.csv", "extension": "csv", "size": 8116756, "mime_type": "text/csv", "sha1": "374b56ca141838f3fdc89b3051169dbf05972b3f", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "exo-sr3_trie.csv", "extension": "csv", "size": 8814224, "mime_type": "text/csv", "sha1": "33d23ad76ead1e701f0e5fb77e6b591a97647f0b", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "exo-sr3.csv", "extension": "csv", "size": 8692966, "mime_type": "text/csv", "sha1": "0a9e69dfcaeced624a9a0ae157723bf50e5d37a2", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "s0_trace_pass_1.txt", "extension": "txt", "size": 348, "mime_type": "text/plain", "sha1": "344803dd496d4abeece9de2aa0c04927ae953e02", "embargoed": null, "description": "fichier de résultat du traitement effectué par le fichier \"s0.py\"", "humanReadableEmbargoedDelay": [] }, { "name": "s0_trace.txt", "extension": "txt", "size": 74, "mime_type": "text/plain", "sha1": "96ccbea05d5fc22f87af4b8c097a4786784991b1", "embargoed": null, "description": "fichier de résultat du traitement effectué par le fichier \"s0.py\"", "humanReadableEmbargoedDelay": [] }, { "name": "s0.py", "extension": "py", "size": 1274, "mime_type": "text/x-python", "sha1": "990e04e4aaf7a8933b43afe7a9dc28e3dd62e6d8", "embargoed": null, "description": "1. Teste si le fichier de données original a bien 8 champs par ligne. Le fichier est traité non comme un csv mais comme un fichier ordinaire\r\n2. Affiche les lignes du fichier csv qui n'ont pas 8 champs, préfixées par:\r\n- leur numéro de ligne,\r\n- leur nombre de champs,\r\n afin de pouvoir faire une correction manuelle.", "humanReadableEmbargoedDelay": [] }, { "name": "s1_doublon.txt", "extension": "txt", "size": 464778, "mime_type": "text/plain", "sha1": "5592dcced319a87b7795ee833d47af276c568b92", "embargoed": null, "description": "fichier de résultat du traitement effectué par le fichier \"s1.py\"", "humanReadableEmbargoedDelay": [] }, { "name": "s1_trace.txt", "extension": "txt", "size": 1098, "mime_type": "text/plain", "sha1": "ed237baaa8bb4fd95e7ec7d9ed717ea217fbdb8a", "embargoed": null, "description": "fichier de résultat du traitement effectué par le fichier \"s1.py\"", "humanReadableEmbargoedDelay": [] }, { "name": "s1.py", "extension": "py", "size": 4880, "mime_type": "text/x-python", "sha1": "cce0525fc35f6000df0637f54183784c7fd680f5", "embargoed": null, "description": "Pour observer s'il y a des lignes en double (ou plus) en considérant les champs tuple [depart:] Tri sur les champs \"nom\" \"date\" dans cet ordre en laissant la ligne d'entête à sa place.\r\nÉcriture des données triées dans le fichier de sortie pour une analyse facilitée.", "humanReadableEmbargoedDelay": [] }, { "name": "s2_trace.txt", "extension": "txt", "size": 669, "mime_type": "text/plain", "sha1": "b95607a41c5d70afc8581247b7f9f9c72eeda7e0", "embargoed": null, "description": "fichier de résultat du traitement effectué par le fichier \"s2.py\"", "humanReadableEmbargoedDelay": [] }, { "name": "s2.py", "extension": "py", "size": 6221, "mime_type": "text/x-python", "sha1": "db0be052e78ffc004d1f944253cd324c36ec8e65", "embargoed": null, "description": "1. Vérification de la forme des dates \"aaaa=mm=jj\" . Si non conforme on corrige les champs manquants en mettant \"01\" comme valeur dans les champs manquants. Le fichier n'est pas modifié. Le travail se fait en mémoire. En revanche s'il y a des problèmes ( Exception ou indication ) on corrige le fichier et on recommence\r\n2. À partir d'une date sous la forme \"aaaa=mm=jj\" retourne une datetime.date\r\n3.Renvoie True si la différence d2 - d1 est inférieur à 50 ans. d1 et d2 sont des str de la forme aaaa=mm=jj, d2 doit être postérieur à d1\r\n4. Lecture du fichier de données trié par nom et date et génération d'un fichier avec un identifiant unique.", "humanReadableEmbargoedDelay": [] }, { "name": "s3_trace.txt", "extension": "txt", "size": 1744, "mime_type": "text/plain", "sha1": "7eedde0ac354567da7bf3a15a28114b6a898a514", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "s3.py", "extension": "py", "size": 2385, "mime_type": "text/x-python", "sha1": "f46812781002bda1f0c511dfe76c1655bf6ba5e4", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "s4_trace_menage.csv", "extension": "csv", "size": 12764, "mime_type": "text/csv", "sha1": "c0d4bd5937f3f42ee4249af3bd3b2d8915fc5216", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "s4_trace.txt", "extension": "txt", "size": 388, "mime_type": "text/plain", "sha1": "7096524f162a88dd1d225d653c85d7221893d10c", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "s4.py", "extension": "py", "size": 6394, "mime_type": "text/x-python", "sha1": "8cb0cd6bc6353c3c0acd1c221e743e389d898bb1", "embargoed": null, "description": null, "humanReadableEmbargoedDelay": [] }, { "name": "traitements.pdf", "extension": "pdf", "size": 114600, "mime_type": "application/pdf", "sha1": "8d47efb54e8ace30b780dd81adf7dc2a621ad07f", "embargoed": "2022-05-31T00:00:00+02:00", "description": null, "humanReadableEmbargoedDelay": [] } ], "relations": [ { "type": "Reviews", "repository": "nakala", "target": "10.34847/nkl.45e8if92", "date": "2022-10-10T14:54:12+02:00", "comment": "Data mining ayant permis l'extraction et la compréhension de la structuration des données issues de l'ANR \"mpf\".", "uri": "https://nakala.fr/10.34847/nkl.45e8if92", "isInferred": true } ], "status": "published", "fileEmbargoed": true, "citation": "rassat, sylvain (2021) «Exploration de données historiques (projet \"Charleville\") par utilisation du langage Python» [Software] NAKALA. https://doi.org/10.34847/nkl.eedfy9p3", "uri": "https://doi.org/10.34847/nkl.eedfy9p3", "identifier": "10.34847/nkl.eedfy9p3", "metas": [ { "value": "Exploration de données historiques (projet \"Charleville\") par utilisation du langage Python", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/title" }, { "value": "Historical data exploration (\"Charleville\" project) using the Python language", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/title" }, { "value": "2019-03-01", "lang": null, "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/date" }, { "value": "CC-BY-SA-4.0", "lang": null, "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/rights" }, { "value": "http://purl.org/coar/resource_type/c_5ce6", "lang": null, "typeUri": "http://www.w3.org/2001/XMLSchema#anyURI", "propertyUri": "http://purl.org/dc/elements/1.1/type" }, { "value": "sylvain rassat", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/creator" }, { "value": "Charleville-Mézières", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Recensement", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "charleville", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Archives historiques", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Python (langage de programmation)", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Data mining", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Python (Computer program language)", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Data mining", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "charleville", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Charleville-Mézières", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "census", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "historical archives", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/subject" }, { "value": "Bien que totalement normalisés, restructurés et extraits de l’environnement propriétaire, les différents corpus numériques de l'enquête Charleville (édifiés entre 2007 et 2011) n’étaient pas exploitables en tant que base de données relationnelles. Fin 2018, l’identifiant unique (ou clé étrangère) servant à lier toutes les informations n’avait pas été extrait du travail effectué entre 2007 et 2011.\r\nEn suivant le modèle de certaines expérimentations probantes en SHS, le choix fut pris de traiter les données « mpf » par un emploi modeste de méthodes de datamining associé au langage de programmation interprété Python pour découvrir cet identifiant unique, des liens cachés et des possibilités d’alignements patronymiques.\r\nTrouver un modèle commun d’identifiant unique entre cette base de données « Recensement » et celle allouée aux événements ou « BMS » (pour baptême-mariage-sépulture) issue des dépouillements et numérisations des registres paroissiaux et d’état civil était primordial pour exploiter de nouveau ce corpus.\r\nUn datamining des données « mpf » a donc été effectué en suivant deux étapes majeures :\r\n–le passage en revue de toutes les informations ou occurrences et leur conversion sous une forme compréhensible ;\r\n–la vérification des modèles interprétatifs et, plus précisément, des associations éventuellement détectées.\r\nLe fichier tabulé contenant les recensements « restructurés » a servi de point de départ à cette recherche, avec la sélection de huit champs informels comme champs exploratoires.\r\nQuant à la table « BMF », elle comportait deux champs pouvant faire la jonction avec « Recensement » :\r\n–« id_base » ou l’identifiant alphanumérique de chaque individu recensé et défini par l’équipe de l’ANR ;\r\n– « id_événement » ou l’identifiant de chaque événement (baptême, mariage, sépulture, etc.) lié au parcours de vie des individus.\r\nNéanmoins, le lien entre les événements et les individus s’est avéré difficile à mettre en évidence du fait de l’absence de correspondance claire entre ces deux corpus . Le postulat d’exploration fut d’agréger les données de recensement (une ligne est égale à un individu par année) par le patronyme (nom et prénom) associé à une limite temporelle de recherche de 50 ans. Le passage en revue des données et des associations détectées s’est avant tout déroulé au sein des recensements.", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/description" }, { "value": "Although completely standardized, restructured and extracted from the proprietary environment, the various digital corpus of the Charleville survey (built between 2007 and 2011) could not be used as a relational database. At the end of 2018, the unique identifier (or foreign key) used to link all the information had not been extracted from the work carried out between 2007 and 2011.\r\nBy following the model of certain convincing experiments in SHS, the choice was made to process the “mpf” data by a modest use of datamining methods associated with the interpreted programming language Python to discover this unique identifier, hidden links and possibilities of patronymic alignments.\r\nFinding a common model of unique identifier between this \"Census\" database and that allocated to events or \"BMS\" (for baptism-marriage-burial) resulting from the analysis and digitization of parish and civil status registers was essential to exploit this corpus again.\r\nA datamining of the \"mpf\" data was therefore carried out by following two major steps:\r\n–Reviewing all information or occurrences and converting them into an understandable form;\r\n–The verification of interpretative models and, more precisely, of any associations detected.\r\nThe tabulated file containing the “restructured” censuses served as a starting point for this research, with the selection of eight informal fields as exploratory fields.\r\nAs for the “BMF” table, it had two fields that could link up with “Census”:\r\n- \"id_base\" or the alphanumeric identifier of each individual identified and defined by the ANR team;\r\n- \"event_id\" or the identifier of each event (baptism, marriage, burial, etc.) linked to the life course of individuals.\r\nHowever, the link between events and individuals proved difficult to identify due to the lack of clear correspondence between these two corpora. The exploration postulate was to aggregate the census data (one row equals one individual per year) by the patronymic (surname and first name) associated with a research time limit of 50 years. The review of the data and the associations detected took place above all within the censuses.", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/description" }, { "value": "Centre Roland Mousnier (UMR 8596)", "lang": "fr", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/publisher" }, { "value": "Centre Roland Mousnier (UMR 8596), Paris, France", "lang": "en", "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/publisher" }, { "value": "fr", "lang": null, "typeUri": "http://www.w3.org/2001/XMLSchema#string", "propertyUri": "http://purl.org/dc/elements/1.1/language" }, { "value": { "givenname": "sylvain", "surname": "rassat", "orcid": "https://orcid.org/0000-0002-6451-687X", "authorId": "fc2e0452-6043-4f17-82eb-f6b32311203d", "fullName": "sylvain rassat" }, "propertyUri": "http://purl.org/dc/elements/1.1/creator" } ], "creDate": "2021-08-05T09:43:50+02:00", "depositor": { "id": "b478ecf2-3a51-437e-95db-ead16b1f987a", "name": "Sylvain Rassat", "type": "user", "username": "srassat", "givenname": "Sylvain", "surname": "Rassat", "photo": null }, "owner": { "id": "b478ecf2-3a51-437e-95db-ead16b1f987a", "name": "Sylvain Rassat", "type": "user", "username": "srassat", "givenname": "Sylvain", "surname": "Rassat", "photo": null }, "isDepositor": true, "isOwner": true, "isAdmin": true, "isEditor": true, "modDate": "2022-06-30T10:05:50+02:00" }