Дослідження ефективності розподілених алгоритмів машинного навчання

Abstract
UKR: Робота присвячена дослідженню ефективності розподілених алгоритмів машинного навчання реалізованих в проекті Apache Mahout. В результаті роботи був проведений аналіз ефективності алгоритмів машинного навчання за допомогою методу кластеризації к-середніх (k-Means) і методу нечіткої кластеризації к-середніх (fuzzy k-Means / c-Means), реалізованих в проекті Apache Mahout. Отримано результати тестування обох методів кластеризації на однакових наборах даних. Розглянуто точність кластеризації кожного методу, а також побудовані порівняльні діаграми результатів досліджуваних методів.
RUS: Работа посвящена исследованию эффективности распределенных алгоритмов машинного обучения реализованных в проекте Apache Mahout. В результате работы был проведен анализ эффективности алгоритмов машинного нав-жение с помощью метода кластеризации к-средних (k-Means) и метода нечеткой кластеризации к-средних (fuzzy k-Means / c-Means), реализованных в проекте Apache Mahout. Получены результаты тестирования обоих методов кластеризации на одинаковых наборах данных. Рассмотрены точность кластеризации каждого метода, а также построены сравнительные диаграммы результатов исследуемых методов.
ENG: This paper discusses the storage, processing and analysis of large amounts of data, as well as machine learning algorithms that implement the processing and extraction of the necessary information from large, not always structured amounts of data. The work is devoted to the study of the effectiveness of distributed machine learning algorithms implemented in the Apache Mahout project. As a result of the work, an analysis of the effectiveness of machine-guided algorithms was carried out using the k-Means clustering method and the fuzzy k-Means / c-Means method, implemented in the Apache Mahout project. The results of testing both clustering methods on the same data sets are obtained. The accuracy of clustering of each method is considered, and comparative diagrams of the results of the investigated methods are constructed.
Description
Keywords
алгоритм, apache mahout, k-means, fuzzy k-means / c-means, нечітка кластеризація, машинне навчання, hadoop, КІТС
Citation
Островська К. Ю., Стовпченко І. В., Аніщенко В. В. Дослідження ефективності розподілених алгоритмів машинного навчання. Системні технології. Дніпро, 2021. Т. 1. № 132. С. 145–158. DOI: 10.34185/1562-9945-1-132-2021-14.