Съдържание
Клъстерният анализ е метод за организиране на данни в представителни групи въз основа на подобни характеристики. Всеки член на клъстера има повече общо с другите членове на същия клъстер, отколкото с членовете на другите групи. Най-представителната точка в групата се нарича центроид. Обикновено това е средната стойност на стойностите на точките от данни в клъстера.
Организирайте данните. Ако данните се състоят от една променлива, може да е подходяща хистограма. Ако са включени две променливи, графирайте данните на координатна равнина. Например, ако гледате височината и теглото на децата в училище в класната стая, начертайте точките с данни за всяко дете на графика, като теглото е хоризонталната ос, а височината - вертикалната ос. Ако са включени повече от две променливи, може да са необходими матрици за показване на данните.
Групирайте данните в клъстери. Всеки клъстер трябва да се състои от точките от данни, които са най-близо до него. В примера на височината и теглото групирайте всякакви точки от данни, които изглежда са близо една до друга. Броят на клъстерите и дали всяка точка от данни трябва да бъде в клъстер, може да зависи от целите на изследването.
За всеки клъстер добавете стойностите на всички членове.Например, ако клъстер от данни се състои от точките (80, 56), (75, 53), (60, 50) и (68,54), сумата от стойностите ще бъде (283, 213).
Разделете общата на броя членове на клъстера. В горния пример 283, разделен на четири, е 70,75, а 213, разделен на четири, е 53,25, така че центроидът на клъстера е (70,75, 53,25).
Начертайте центроидите на клъстера и определете дали някакви точки са по-близо до центроид на друг клъстер, отколкото са до центроида на техния собствен клъстер. Ако някоя точка е по-близо до различен центроид, преразпределете ги в клъстера, съдържащ по-близкия центроид.
Повторете стъпки 3, 4 и 5, докато всички точки от данни се окажат в клъстера, съдържащ центроида, до който са най-близо.