Comparative Evaluation of Commercial Genomic Data Sources and Imputation Protocols for Polygenic Risk Score Calculation.
Authors/Creators
Description
Português
A escolha da fonte de dados genômicos e do protocolo de imputação exerce impacto direto e mensurável sobre os escores poligênicos de risco (PRS) utilizados em análises clínicas e de pesquisa. O presente estudo avalia empiricamente seis abordagens metodológicas distintas utilizando dados reais. Os resultados demonstram que a fusão hierárquica de múltiplas fontes com restauração pós-imputação reduz o erro de genotipagem de 12,81% para 0,0001%. O método M4, que utiliza a fusão TellmeGen→MyHeritage→Nebula VCF com imputação NYGC 1000G 30x, apresentou o menor desvio normalizado da mediana (0,2065), sendo recomendado como protocolo padrão para análises de PRS.
English
The choice of genomic data source and imputation protocol has a direct and measurable impact on polygenic risk scores (PRS) used in clinical and research settings. This study empirically evaluates six distinct methodological approaches using real-world data. The results demonstrate that hierarchical merging of multiple sources combined with post-imputation restoration reduces genotyping error from 12.81% to 0.0001%. Method M4, utilizing the TellmeGen→MyHeritage→Nebula VCF fusion with NYGC 1000G 30x imputation, showed the lowest normalized median deviation (0.2065) and is recommended as the standard protocol for PRS analysis.
Español
La elección de la fuente de datos genómicos y del protocolo de imputación tiene un impacto directo y mensurable en las puntuaciones de riesgo poligénico (PRS) utilizadas en análisis clínicos y de investigación. El presente estudio evalúa empíricamente seis enfoques metodológicos distintos utilizando datos reales. Los resultados demuestran que la fusión jerárquica de múltiples fuentes con restauración post-imputación reduce el error de genotipado del 12,81% al 0,0001%. El método M4, que utiliza la fusión TellmeGen→MyHeritage→Nebula VCF con imputación NYGC 1000G 30x, presentó la menor desviación normalizada de la mediana (0,2065), siendo recomendado como protocolo estándar para el análisis de PRS.
Files
COMPARATIVE EVALUATION OF COMMERCIAL GENOMIC DATA SOURCES AND IMPUTATION PROTOCOLS FOR POLYGENIC RISK SCORE CALCULATION.pdf
Additional details
Additional titles
- Translated title (Portuguese)
- Avaliação comparativa de fontes de dados genômicos comerciais e protocolos de imputação para cálculo de escores poligênicos de risco.
- Translated title (Spanish)
- Evaluación comparativa de fuentes de datos genómicos comerciales y protocolos de imputación para el cálculo de puntuaciones de riesgo poligénico.
Dates
- Issued
-
2026-04-09