Як використовувати винсорифіковане середнє
Що означає винсоризоване значення?
Вінсоризоване середнє - це метод усереднення, який спочатку замінює найменші та найбільші значення спостереженнями, найближчими до них. Це робиться для того, щоб обмежити вплив викидів або аномальних екстремальних значень, або викидів, на розрахунок.
Після заміни значень, середнє арифметичне потім формула використовується для обчислення виграшного середнього.
ключові висновки
- Вінсоризоване середнє - це метод усереднення, який передбачає заміну найменшого та найбільшого значень набору даних найближчими до них спостереженнями.
- Він пом'якшує наслідки викидів, замінюючи їх менш екстремальними значеннями.
- Визначене середнє значення не те саме, що обрізане середнє, яке передбачає видалення точок даних на відміну від їх заміни - хоча результати двох, як правило, близькі.
Формула для вищого значення середнього значення
Визначене середнє=Nxn…xn+1+xn+2…xnде:n=Кількість найбільших і найменших данихточки замінити спостереженнямнайближчий до нихN=Загальна кількість точок даних
Вінсорні засоби виражаються двома способами. А "кn"winsorized mean" означає заміну "k" найменшого і найбільшого спостережень, де "k" - ціле число. Визначене середнє значення "X%" передбачає заміну заданого відсотка значень з обох кінців даних.
Визначене середнє значення досягається шляхом заміни найменших і найбільших точок даних, потім підсумовування всіх точок даних і ділення суми на загальну кількість точок даних.
Що вам означає Winsorized?
Визначене середнє значення менш чутливе до викидів, оскільки може замінити їх менш екстремальними значеннями. Тобто він менш сприйнятливий до викидів порівняно із середнім арифметичним. Однак, якщо розподіл має жирні хвости, ефект видалення найвищих та найнижчих значень у розподілі матиме невеликий вплив через високий ступінь мінливості розподіл цифри.
Одним з істотних недоліків засобів winsorized є те, що вони, природно, вносять певну зміну у набір даних. Зменшуючи вплив викидів, аналіз модифікується для кращого аналізу, але також видаляється інформація про основні дані.
Приклад використання Winsorized Mean
Давайте обчислимо середнє значення для наступного набору даних: 1, 5, 7, 8, 9, 10, 34. У цьому прикладі ми припускаємо, що вибіркове середнє знаходиться у першому порядку, в якому ми замінюємо найменше та найбільше значення на їх найближчі спостереження.
Набір даних тепер виглядає наступним чином: 5, 5, 7, 8, 9, 10, 10. Врахування середнього арифметичного нового набору дає середнє значення 7,7 або (5 + 5 + 7 + 8 + 9 + 10 + 10), поділене на 7. Зауважте, що середнє арифметичне було б вищим - 10,6. Визначене середнє значення ефективно зменшує вплив значення 34 як викиду.
Або розгляньте 20% виграшне середнє значення, яке займає верхні 10% і нижнє 10% і замінює їх наступним найближчим значенням. Ми виграємо такий набір даних: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Дві найменші та дві найбільші точки даних - 20% з 20 точок даних - будуть замінені їх наступним найближчим значенням. Таким чином, новий набір даних виглядає наступним чином: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Визначене середнє значення становить 33,9, або сума даних (678), поділена на загальну кількість точок даних (20).
Визначене середнє проти Обрізане середнє
Визначене середнє значення включає зміну точок даних, тоді як підрізане середнє передбачає видалення точок даних. Загальноприйнятим є те, що винсорифіковане середнє та обрізане середнє значення є близькими або іноді рівними за значенням один одному.