Published August 2023 | Version v2
Conference paper

Detección de comunidades y filtrado de redes sobre datos en salud


El presente trabajo surge de los datos generados para el estudio de las Enfermedades No Transmisibles (ENT) para pacientes
que se atendieron entre 2015 y 2016 en la Facultad de Odontologı́a de la Universidad de la República en Montevideo, Uruguay a través de una muestra probabilı́stica de pacientes obtenida mediante un diseño sistemático, para el aque parecen primeros resultados en el capı́tulo 7 del libro Actualidad en Probabilidad y Estadı́stica [1]. Del estudio original surge este nuevo trabajo, que consiste en el uso de análisis de redes sobre los datos, con los cuales se construye una red formada por los pacientes, los cuales se toman como nodos y se considera que dos individuos están conectados si comparten al menos un factor de riesgo o patologı́a, que aparecen codificados como 11 variables binarias.

Posteriormente, se considera un umbral más exigente para definir que dos individuos se encuentran conectados por un enlace, mediante la aplicación de una función de filtrado. Con este criterio ad hoc, se considera la red formada por pacientes que comparten al menos cinco patologı́as. Más allá de que esto permite descartar asociaciones ”débiles”y facilita la visualización de la red, es interesante en la medida que a través de diferentes algoritmos de detección de comunidades se logran detectar grupos de pacientes con diferentes perfiles epidemiológicos, en base a la prevalencia local ( en los clústeres) de las variables que se usan para formar la red y de otros atributos como sexo y edad .

Abstract (English)

This work arises from the data generated for the study of Non-Communicable Diseases (NCD) for patients who were treated between 2015 and 2016 at the Faculty of Dentistry of the University of the Republic in Montevideo, Uruguay through a probabilistic sample of patients obtained through a systematic design, for which the first results appear in chapter 7 of the book Current Probability and Statistics [1]. This new work arises from the original study, which consists of the use of network analysis on the data, with which a network is built formed by the patients, which are taken as nodes and it is considered that two individuals are connected if they share at least one risk factor or pathology, which appear coded as 11 binary variables.

Subsequently, a more demanding threshold is considered to define that two individuals are connected by a link, by applying a filtering function. With this ad hoc criterion, the network formed by patients who share at least five pathologies is considered. Beyond the fact that this allows to discard "weak" associations and facilitates the visualization of the network, it is interesting to the extent that through different community detection algorithms, groups of patients with different epidemiological profiles can be detected, based on the local prevalence (in the clusters) of the variables used to form the network and other attributes such as sex and age.



Community detection and network filtering on health data