РАЗРАБОТКА ПРОГРАММНОГО СРЕДСТВА ПОИСКА ДУБЛИКАТОВ ПЕРСОНАЛЬНЫХ ДАННЫХ КЛИЕНТОВ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
Description
В данной статье приводится обзор и анализ современных методов дедупликации информации в базах персональных данных клиентов на основе методов машинного обучения. Предметом исследования являются этапы дедупликации данных, алгоритмы вычисления схожести пар данных, их классификации и обнаружения дубликатов. Исследуется реализация данных алгоритмов с помощью технологий машинного обучения и нейронных сетей. Рассматриваются различные способы их применения; анализируются преимущества и недостатки существующих алгоритмов и нескольких программных решений, созданных на их основе, а также выделяются функции, которые необходимо реализовать в программном обеспечении для возможности эффективной дедупликации данных с помощью рассмотреных методов.
Files
26.pdf
Files
(912.1 kB)
Name | Size | Download all |
---|---|---|
md5:9f4172f524e284e9c28cfe784d42312d
|
912.1 kB | Preview Download |