Czym są miary rozproszenia
Miary rozproszenia, inaczej też nazywane miarami rozrzutu, dyspersji lub zmienności, pozwalają określić zróżnicowanie wartości danej cechy wokół wartości centralnych. Najczęściej badają one zmienność wartości wokół średniej arytmetycznej ale warto pamiętać, że również mogą być obliczone dla mediany. Miary rozproszenia będą wskazywały, czy wyniki będą zbliżone do wartości centralnej, czy też są duże różnice między poszczególnymi wynikami. Jeśli rozproszenie jest duże to wyliczona wartość centralna najczęściej niewiele nam powie o badanej grupie, jeśli wynik jest natomiast mały, to oznacza, że średnia lub mediana dobrze reprezentują wszystkie jednostki.
Chcesz wiedzieć więcej?
Zapraszamy na szkolenie ST 1. Podstawy statystyki dla każdego
Warto pamiętać o tym, że dwie zmienne mogą mieć taką samą średnią, ale mogą w dużym stopniu różnić się między sobą. Aby więc poprawnie opisać analizowane dane, trzeba znać wielkość rozproszenia zmiennych. Przyjrzyjmy się poniższemu przykładowi. Mamy dwie zmienne informujące nas o wynagrodzeniu poszczególnych osób w dwóch różnych firmach. W obu firmach pracuje 14 osób. Średnia oraz mediana zarobków dla obu badanych firm jest taka sama i wynosi 3500 zł. Czy to oznacza, że pod względem zarobków obie firmy są takie same?
Tabela 1. Statystyki opisowe oraz zarobki pracowników firmy A i B
Jak widać w tabeli obie firmy różnią się pod względem zarobków. Pomimo tego, że średnia i mediana w obu przypadkach jest taka sama to płace w tych firmach znacząco się różnią. W pierwszej można zauważyć, że pracownicy zarabiają podobne kwoty, tym samym możemy powiedzieć, że zróżnicowanie jest niewielkie. Rozstęp wynosi 1000 zł, a odchylenie standardowe (o którym więcej niżej) wynosi 438 zł. W drugiej firmie znajduje się osoba, która zarabia znacznie więcej niż pozostałe osoby i jest też kilka osób zarabiających mało. Zróżnicowanie wyników w tym przypadku jest większe niż w pierwszej firmie (rozstęp = 7500 zł, odchylenie standardowe 2057 zł).
Podział miar rozproszenia
Miary rozproszenia możemy podzielić na klasyczne, które są obliczane na podstawie wszystkich wartości badanej zmiennej oraz pozycyjne, które wyliczane są na podstawie niektórych (stojących na określonej pozycji) wartości.
Dodatkowo miary rozproszenia możemy podzielić na bezwzględne miary zmienności, tj. rozstęp, odchylenie ćwiartkowe, wariancja oraz odchylenie standardowe, które są wielkościami mianowanymi i wyrażone są w jednostkach, które przyjmuje analizowana zmienna. Względną miarą rozproszenia jest np. współczynnik zmienności, wyrażany w procentach.
Tabela 2. Przykładowe miary rozproszenia, które możemy zaliczyć do miar klasycznych i pozycyjnych
Rodzaje miar rozproszenia
Rozstęp
Rozstęp jest różnicą między największą a najmniejszą wartością. Rozstęp jest przydatny, gdy chcemy szybko określić obszar zmienności badanej cechy. Ta miara, nie informuje nas o wartościach ze „środka” analizowanej zmiennej, np. jaka wartość występowała najczęściej, czy jaka jest średnia dla tych obserwacji. Miarę tą może stosować np. do wieku badanych, czy też zarobków. Rozstęp pozwoli wtedy określić dysproporcje między osobą najmłodszą a najstarszą, czy też w przypadku zarobków różnice między osobą o najniższych dochodach a najwyższych.
Rozstęp ćwiartkowy (rozstęp międzykwartylowy, rozstęp kwartylny, IQR -od ang. interquartile range)
Rozstęp ćwartkowy to różnica między wartością trzeciego i pierwszego kwartyla, która obejmuje 50% obserwacji. Im większa szerokość rozstępu ćwiartkowego, tym większe zróżnicowanie cechy.
Odchylenie ćwiartkowe
Odchylenie ćwiartkowe jest połową rozstępu ćwiartkowego i wskazuje zmienność jedynie połowy zebranych wyników, pomiędzy pierwszym i trzecim kwartylem. Wskazuje jak kwartale przeciętnie odchylają się od mediany, czyli wskazuje przeciętne rozproszenie typowych obserwacji wokół środka rozkładu. Ta miara jest wykorzystywana w budowie wykresu skrzynkowego i używamy jej również do obliczania pozycyjnego współczynnika zmienności oraz pozycyjnego typowego obszaru zmienności cechy.
Rozstęp ćwiartkowy i odchylenie ćwiartkowe bazuje na kwartylach, które dzielą zbiór danych na ćwiartki, podobnie jak mediana dzieli go na pół. Te dwie miary rozproszenia są przydatne, ale też mają swoje ograniczania, ponieważ nie uwzględniają każdego wyniku analizowanej zmiennej. Aby uzyskać pełniejszy obraz i określić jakie jest rozproszenie, musimy wziąć pod uwagę rzeczywiste wartości każdego wyniku w analizowanych zmiennych. Takimi miarami są odchylenie przeciętne, wariancja i odchylenie standardowe.
Odchylenie przeciętne (średnie odchylenie bezwzględne od średniej)
Odchylenie przeciętne to średnia arytmetyczna z odchyleń wyników (wartość bezwzględna) od średniej. Miara ta wskazuje jak średnio - lub inaczej ujmując, jak przeciętnie wyniki odchylają się od średniej wartości. Miara ta występuje w dwóch wersjach: klasycznej (odchylenie wyników od średniej arytmetycznej) oraz pozycyjnej (odchylenie wyników od średniej mediany).
Współczynnik dyspersji
Jeżeli rozkład zmiennej jest skośny to średnia nie pokrywa się z medianą. Zauważyć to można również, porównując odchylenie standardowe z odchyleniem bezwzględnym. Na podstawie odchylenia bezwzględnego, można wyliczyć współczynnik dyspersji, który jest popularną miarą zmienności w przypadku analizy proporcji. Informuje o tym, jaką częścią mediany jest odchylenie bezwzględne. Jest to miara podobna do klasycznego współczynnika zmienności. Im większe przyjmuje wartości, tym większe jest rozproszenie badanej zmiennej.
Wariancja
Oprócz odchylenia standardowego jest to podstawowa miara zmienności obserwowanych wyników, która jest wykorzystywana w wielu testach statystycznych. Zasada interpretacji wariancji jest podobna jak w przypadku innych miar rozproszenia. Jeśli wyniki zmiennej są rozproszone, wariancja będzie duża, jeśli wyniki są skoncentrowane blisko średniej, wariancja będzie mniejsza. Wariancja bazuje na wszystkich wynikach badanej cechy. Interpretacja wyniku wariancji nie jest intuicyjna ponieważ wartość wariancji jest wyrażona w kwadracie jednostki (wariancja zarobków firmy A z przykładu wynosi 192307,7).
Odchylenie standardowe
Pojęcie odchylenia standardowego zostało wprowadzone przez Karla Pearsona, w 1894 r. Wariancja i odchylenie standardowe to klasyczne miary rozproszenia, które mogą być policzone tylko dla zmiennych ilościowych ponieważ do obliczenia potrzebna jest średnia. Odchylenie standardowe to pierwiastek kwadratowy z wariancji. Odchylenie standardowe jest wyrażane w tych samych jednostkach, co wartość analizowanej zmiennej tym samym interpretacja wyniku jest bardziej intuicyjna niż w przypadku wariancji (dla przypomnienia odchylenie standardowe zarobków firmy A wynosi 438,5 zł).
Współczynnik zmienności
Stanowi procentowy udział odchylenia standardowego w średnim poziomie badanej zmiennej. Podobnie jak w przypadku innych miar, im wyższa jego wartość, tym silniejsze zróżnicowanie (niejednorodność) badanej zmiennej. Współczynnik zmienności wyrażony jest w procentach co pozwala łatwiej ocenić rozproszenie i uniezależnić się od jednostek pomiaru zmiennych. Możliwe jest obliczenie klasycznego współczynnika zmienności (bazując na średniej arytmetycznej i odchyleniu standardowym) oraz pozycyjnego współczynnika zmienności (bazując na medianie i odchyleniu ćwiartkowym).
Na koniec warto wskazać na miary rzadziej omawiane w literaturze, a które również są pomocne w analizie danych. W miarach rozproszenia można wskazać dwie, bardzo podobne do siebie statystyki. Pierwszą z nich, jest centrowany średnią współczynnik wariancji oraz centrowany medianą współczynnik wariancji. Mierzą one, jaką częścią średniej lub mediany jest odchylenie standardowe. Większe wartości wskazują na większą zmienność. Obie te miary są miarami względnymi, wyrażonymi w procentach.
Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO
Podsumowując, rozpoczynając pracę z danymi, często w pierwszej kolejności analityk sięga po statystyki opisowe w celu wstępnej analizy struktury danych. W zależności od poziomu pomiaru analizowanych zmiennych do określenia jaka jest typowa wartość dla danej zmiennej, można skorzystać z takich miara jak średnia, mediana oraz dominanta. Warto jednak pamiętać, że bazowanie tylko na tych miarach nie prezentuje nam pełnego obrazu analizowanej zmiennej. Dopełnienie takiej analizy będą miary rozproszenia, które służą do opisania zmienności analizowanych danych, zwykle używane są w połączeniu z miarami tendencji centralnej co pozwala zapewnić ogólny opis zestawu danych.