КЛАСТЕРЗАЦІЯ БІЗНЕС-СТРУКТУР ЗА РІВНЕМ ЇХ ЦФРОВОЇ ЗРІЛОСТІ З ВКОРСТАННЯМ ДВОХ ПІДХОДІВ: ІТЕРАТВНОГО ТА ІЄРАРХІЧНОГО
Анотація
Струтинська І.В. КЛАСТЕРЗАЦІЯ БІЗНЕС-СТРУКТУР ЗА РІВНЕМ ЇХ ЦФРОВОЇ ЗРІЛОСТІ З ВКОРСТАННЯМ ДВОХ ПІДХОДІВ: ІТЕРАТВНОГО ТА ІЄРАРХІЧНОГО
Мета. Експериментальне знаходження оптимальної кількості кластерів та їх характерних рис для інтерпретованої (такої, що можна зрозуміти і пояснити) сегментації бізнес-структур за рівнем цифрової зрілості за допомогою декількох методів; порівняння результатів, отриманих різними методами, та визначення найбільш ефективного для конкретної задачі аналізу даних.
Методика дослідження. У дослідженні використовувалось два методи кластеризації: 1) за допомогою надбудови Data Mining для електронних таблиць MS Excel. Можливості кластеризації в середовищі MS Excel представлено ітеративними алгоритмами: k-means та Expectation-Maximization. За опорний було визначено саме EM-алгоритм; 2) за допомогою функцій бібліотек для машинного навчання мови програмування Python.
Результати дослідження. Проведено експериментальне порівняння застосування двох підходів до кластеризації респондентів за результатами онлайн-анкетування з допомогою сервісу Google Forms – hard and soft кластеризації. Hard кластеризацію було реалізовано засобами Python із застосуванням ієрархічного агломеративного методу, soft – з допомогою надбудови Data Mining середовища MS Excel та застосуванням ітеративного ЕМ-методу. Порівняльний аналіз результатів, отриманих двома методами показав, що метод агломеративної ієрархічної кластеризації є ефективним методом для вирішення задачі кластеризації даних змішаного типу, отриманих в результаті опитування респондентів.
Наукова новизна результатів дослідження. Запропоновано алгоритм розв’язання задачі кластеризації респондентів за результатами онлайн-опитування, включаючи етапи збору, підготовки даних, отримання основних підсумків та вироблення майбутніх цілей, що сприятиме вирішенню проблеми обробки та кластеризації даних змішаного типу та забезпечуватиме вищу продуктивність аналітичної обробки та точності даних соціологічних опитувань.
Практична значущість результатів дослідження. Даний підхід може бути використаний для розробки Індексу цифрової трансформації вітчизняних бізнес-структур та вимірювання їх цифрової зрілості, що сприятиме підвищенню їх економічного потенціалу, а отже, і зростання економіки країни.
Ключові слова: цифрова зрілість; цифрова трансформація; бізнес-структури; методи кластеризації; дані змішаного типу; опитування.
Струтинська .В. КЛАСТЕРЗАЦЯ БЗНЕС-СТРУКТУР ПО УРОВНЮ Х ЦФРОВОЙ ЗРЕЛОСТ С СПОЛЬЗОВАНЕМ ДВУХ ПОДХОДОВ: ТЕРАТНОГО ЕРАРХЧЕСКОГО
Цель. Экспериментальное нахождения оптимального количества кластеров и их характерных черт для интерпретированной (такой, что можно понять и объяснить) сегментации бизнес-структур по уровню цифровой зрелости с помощью нескольких методов; сравнение результатов, полученных разными методами, и определение наиболее эффективного для конкретной задачи анализа данных.
Методика исследования. В исследовании использовалось два метода кластеризации: 1) с помощью надстройки Data Mining для электронных таблиц MS Excel. Возможности кластеризации в среде MS Excel представлено итеративными алгоритмам: k-means и Expectation-Maximization. Было определено опорным именно EM-алгоритм; 2) с помощью функций библиотек для машинного обучения языка программирования Python.
Результаты исследования. Проведено экспериментальное сравнение применения двух подходов к кластеризации респондентов по результатам онлайн-анкетирование с помощью сервиса Google Forms – hard and soft кластеризации. Hard кластеризацию было реализовано средствами Python с применением иерархического агломеративного метода, soft - с помощью надстройки Data Mining среды MS Excel и применением итеративного ЭМ-метода. Сравнительный анализ результатов, полученных двумя методами показал, что метод агломеративной иерархической кластеризации является эффективным методом для решения задачи кластеризации данных смешанного типа, полученных в результате опроса респондентов.
Научная новизна результатов исследования. Предложен алгоритм решения задачи кластеризации респондентов по результатам онлайн-опроса, включая этапы сбора, подготовки данных, получение основных итогов и выработки будущих целей, способствовать решению проблемы обработки и кластеризации данных смешанного типа и обеспечивать высокую производительность аналитической обработки и точности данных социологических опросов.
Практическая значимость результатов исследования. Данный подход может быть использован для разработки ндекса цифровой трансформации отечественных бизнес-структур и измерения их цифровой зрелости, что будет способствовать повышению их экономического потенциала, а следовательно, и рост экономики страны.
Ключевые слова: цифровая зрелость; цифровая трансформация; бизнес-структуры; методы кластеризации; данные смешанного типа; опросы.
Strutynska I.V. CLUSTERING OF BUSINESS STRUCTURES BY THE LEVEL OF THEIR DIGITAL MATURITY USING TWO APPROACHES: ITERATIVE AND HIERARCHICAL
Purpose. The aim of the article is experimental finding of the optimal number of clusters and their characteristic features for interpreted (understandable) segmentation of business structures by the level of digital maturity by several methods; comparing the results obtained by different methods and determining the most effective for a particular data analysis task.
Methodology of research. Two clustering methods are used in the study: 1) using the Data Mining add-in for MS Excel spread sheets. Clustering capabilities in MS Excel are represented by iterative algorithms: k-means and Expectation-Maximization. For the reference, it was determined EM-algorithm; 2) using the functions of libraries for machine learning Python programming language.
Findings. An experimental comparison of the use of two approaches to the clustering of respondents according to the results of online questionnaire using Google Forms service – hard and soft clustering, is conducted. Hard clustering was implemented using Python tools using the hierarchical agglomerative method, soft using the Data Mining add-in MS Excel and using the iterative EM method. A comparative analysis of the results obtained by the two methods showed that the agglomerative hierarchical clustering method is an effective method for solving the problem of clustering of mixed-type data obtained from the survey of respondents.
Originality. An algorithm for solving the problem of respondents' clustering according to the results of online survey is proposed, including the stages of collection, preparation of data, obtaining the main results and development of future goals, which will help to solve the problem of processing and clustering of data of mixed type and to provide higher productivity of analytical data and analytical data.
Practical value. This approach can be used to develop a Digital Transformation Index for domestic business structures and to measure their digital maturity, which will enhance their economic potential and therefore the country's economy.
Key words: digital maturity; digital transformation; business structures; clustering methods; mixed-type data; surveys.
Ключові слова
Посилання
Черезов Д. С., Тюкачев Н. А. Обзор основных методов классификации и кластеризации данных. Вестник ВГУ. Серия: системный анализ и информационные технологии. 2009. № 2. C. 25-29. URL: http://www.vestnik.vsu.ru/pdf/analiz/2009/02/2009-02-05.pdf (дата звернення: 14.08.2019).
Clustering Online Poll Data: Towards a Voting Assistance System / F. Mendes, I. Katakis, N. Tsapatsoulis, C. Tziouvas, V. Triga. Seventh International Workshop on Semantic and Social Media Adaptation and Personalization. 2012. URL: https://www.researchgate.net/publication/261486679_ Clustering_Online_Poll_Data_Towards_a_Voting_Assistance_System (дата звернення: 14.10.2019).
McCaffrey J. Machine Learning Using C#Succinctly. Syncfusion. 2014. 148 p. URL: https://www.syncfusion.com/ebooks/machine/k-means-clustering (дата звернення: 10.10.2019).
Python. URL: https://www.python.org (дата звернення: 18.10.2019).
Scikit. Clustering documentation / Scikit learn. URL: https://scikit-learn.org/stable/modules/clustering.html (дата звернення: 12.10.2019).
Зацерковний В. І., Бурачек В. Г., Железняк О. О., Терещенко А. О. Геоінформаційні системи і бази даних : монографія. Ніжин : НДУ ім. М. Гоголя, 2017. Кн. 2. 237 с.
Google Forms. URL: https://www.google.com/intl/uk_ua/forms (дата звернення: 17.10.2019).
Microsoft. Cluster Wizard (Data Mining Add-ins for Excel), Microsoft Docs. (2017 Dec). URL: https://docs.microsoft.com/en-us/sql/analysis-services/cluster-wizard-data-mining-add-ins-for-excel?view=sql-server-2014 (дата звернення: 13.10.2019).
Small and Medium Business Structures Clustering Method Based on Their Digital Maturity / I. Strutynska, H. Kozbur, L. Dmytrotsa, I. Bodnarchuk and O. Hlado. International Scientific-Practical Conference Problems of Infocommunications. Science and Technology, (October 10–11, 2019). 2019. P. 278-282. URL: http://www.dut.edu.ua/uploads/n_7589_67076384.pdf (дата звернення: 15.10.2019).
Cluster analysis / Wikipedia. URL: https://en.wikipedia.org/wiki/Cluster_analysis (дата звернення: 17.10.2019).
Expectation-maximization algorithm / Wikipedia. URL: https://en.wikipedia.org/wiki/Expectation-maximization_algorithm (дата звернення: 12.10.2019).
DOI: https://doi.org/10.37332/2309-1533.2019.7-8.10
Посилання
- Поки немає зовнішніх посилань.
Інноваційна економіка 2006 – 2024