Съдържание
Бизнес, държавни и академични дейности почти винаги изискват събиране и анализ на данни. Един от начините за представяне на числови данни е чрез графики, хистограми и диаграми. Тези техники за визуализация позволяват на хората да получат по-добър поглед върху проблемите и да намерят решения. Пропуските, клъстерите и отшелниците са характеристики на наборите от данни, които влияят на математическия анализ и са лесно видими на визуалните изображения.
Дупки в данните
Пропуските се отнасят за липсващи области в набор от данни. Например, ако научен експеримент събира данни за температурата в диапазона от 50 градуса по Фаренхайт до 100 градуса по Фаренхайт, но нищо между 70 и 80 градуса, това би представлявало празнина в набора от данни. Линия на този набор от данни ще има "х" маркировки за температури между 50 и 70 и отново между 80 и 100, но няма да има нищо между 70 и 80. Изследователите могат да копаят по-дълбоко и да проучат защо определени точки от данни не се показват в събрана проба.
Изолирани групи
Клъстерите са изолирани групи от точки от данни. Графиките на линиите, които са един от начините за представяне на набори от данни, са линии с маркировки "x", поставени над конкретни числа, за да се изобрази тяхната честота на възникване в набора от данни. Клъстерът е изобразен като колекция от тези марки "x" в малък интервал или подмножество от данни. Например, ако оценките за изпита за клас от 10 ученици са 74, 75, 80, 72, 74, 75, 76, 86, 88 и 73, най-много „х“ оценки на линията на линията биха били в 72- интервал от точки до 76 Това би представлявало клъстер от данни. Обърнете внимание, че честотата за 74 и 75 е две, но за всички останали резултати е една.
В крайностите
Outliers са крайни стойности - точки от данни, които се намират значително извън другите стойности в набор от данни. Един външен човек трябва да е значително по-малък или по-голям от по-голямата част от числата в набор от данни. Определението за "крайност" зависи от обстоятелството и консенсус на анализаторите, участващи в изследването. Преживелиците може да са лоши точки от данни, известни също като шум, или могат да съдържат ценна информация за изследваното явление и самата методология за събиране на данни. Например, ако оценките за класа са предимно в диапазона от 70 до 80, но няколко оценки са в ниските 50-те години, те могат да представляват остатъци.
Поставяме всичко заедно
Пропуските, остатъците и клъстерите в наборите от данни могат да повлияят на резултатите от математическия анализ. Пропуските и клъстерите могат да представляват грешки в методологията за събиране на данни. Например, ако телефонно проучване анкетира само определени кодове на райони, като жилищни комплекси с ниски доходи или крайградски жилищни райони от висок клас, а не е широко напречно сечение на населението, има вероятност да има пропуски и клъстери в данните , Отричащите могат да изкривят средната или средната стойност на набор от данни. Например средната или средната стойност на набор от данни, състоящ се от четири числа - 50, 55, 65 и 90 - е 65. Без другия 90 обаче средната стойност е около 57.