Ocena jakości rozwiązania

Tekst przeczytasz w: 6 minut.
Główną zaletą analizy korespondencji jest to, że pozwala na graficzną wizualizację tych zależności w postaci tzw. mapy percepcyjnej.

Sprawdź również:

Analiza korespondencji jest techniką, o której najczęściej myśli się jako o alternatywie wobec tabeli krzyżowej (tabeli kontyngencji). Jest to spowodowane tym, że obie te techniki nadają się do analizy zależności pomiędzy dwoma zmiennymi o nominalnym lub porządkowym poziomie pomiaru.

W porównaniu do tabeli krzyżowej, główną zaletą analizy korespondencji jest to, że pozwala na graficzną wizualizację tych zależności w postaci tzw. mapy percepcyjnej. To sprawia, że jest to technika przyjazna zarówno analitykom, jak i odbiorcom raportów. Szczególnie wysoko jest ona ceniona przez osoby, które poszukują sposobów na przyspieszenie eksploracyjnej analizy danych jakościowych.

Dane w tabeli krzyżowej

Dane w tabeli krzyżowej

Mapa percepcyjna stworzona na podstawie tych samych dancyh

Mapa percepcyjna stworzona na podstawie tych samych danych

Najistotniejszym celem analizy korespondencji jest więc wyznaczenie dla każdej kategorii zmiennej jakościowej współrzędnych, które pozwolą przedstawić tę kategorię w postaci punktu na wykresie rozrzutu. Oznacza to, że w pewnym sensie, ze zmiennej jakościowej tworzymy zmienną ilościową (nadajemy ilościowe kwantyfikacje poszczególnym kategoriom tej zmiennej). Ta idea jest charakterystyczna nie tylko dla analizy korespondencji, ale także dla innych technik z rodziny skalowania optymalnego. Oczywiście, opisane powyżej nadanie współrzędnych musi być tak przeprowadzone, aby odległości pomiędzy punktami na mapie percepcyjnej odzwierciedlały istniejące stosunki podobieństwa i niepodobieństwa pomiędzy kategoriami.

Chcesz dowiedzieć się więcej o raportowaniu ?

MC3a. Pozycjonowanie z wykorzystaniem map percepcyjnych i technik skalowania optymalnego.

 

Do tej pory, we wpisach Związek analizy korespondencji z tabelą krzyżową – skąd się biorą współrzędne punktów? i Wybór metody normalizacji koncentrowaliśmy się głównie na tworzeniu i interpretacji mapy percepcyjnej. Wiemy, że mapa przedstawia na dwóch wymiarach zjawiska, które tak naprawdę są wielowymiarowe. Spokojnie godziliśmy się na to, że mapa ignoruje pozostałe wymiary. Wystarczało nam zapewnienie, że dwa prezentowane wymiary to te, które są najważniejsze, a pozostałe można spokojnie pominąć. W tym artykule chciałabym jednak pokazać, że wykonując analizę korespondencji dysponujemy narzędziami, które umożliwiają dokonanie diagnostyki podawanego rozwiązania. Wprawdzie analiza korespondencji jest techniką eksploracyjną, nie znaczy to jednak, że kwestia jakości rozwiązania nie jest ważna. Postaram się przekonać Państwa, że zanim opublikuje się w raporcie mapę percepcyjną, warto spojrzeć na tabele, które program udostępnia oprócz tej wizualizacji.

Podstawowa kwestia, na którą warto zwrócić uwagę,  to jaki procent zmienności analizowanych zmiennych ignorujemy, gdy odrzucamy kolejne wymiary.

Posłużymy się przykładem producenta czekolady, który zastanawia się, o jakich porach najlepiej emitować reklamy poszczególnych wariantów produktu. We wpisie Wybór metody normalizacji wykonywaliśmy analizę korespondencji i interpretowaliśmy uzyskaną mapę percepcyjną. Teraz skupimy się na tabelach, które uzyskujemy oprócz mapy percepcyjnej. Na początek zwróćmy uwagę na tabelę „Podsumowanie”. Niektóre z jej elementów już znamy. W poszczególnych wierszach tej tabeli znajdują się informacje dotyczące kolejnych wymiarów. W pierwszej kolumnie przedstawione są wartości osobliwe uzyskane w wyniku dekompozycji macierzy wejściowej. W tabeli znajdują się też wyniki znanego nam testu chi-kwadrat.  

Podsumowanie jakości rozwiązania - tabela

Teraz jednak skupmy się na kolumnie „Bezwładność”. Bezwładność to miara rozproszenia punktów. Można ją traktować jak coś w rodzaju wariancji. Wymiary są posortowane od tego, który w największym stopniu odpowiada za rozproszenie punktów. Pierwszy wymiar zawsze ma największą bezwładność, kolejny – trochę mniejszą itd.  Bezwładność każdego wymiaru można obliczyć przez podniesienie do kwadratu odpowiedniej wartości osobliwej. Suma bezwładności wymiarów daje bezwładność całkowitą tabeli. Ciekawe jest to, że bezwładność całkowitą można też policzyć inaczej. Wystarczy podzielić wartość chi-kwadrat przez liczbę przypadków w naszym zbiorze danych (N). W naszym zbiorze było 500 respondentów, a więc:

Sama bezwładność poszczególnych wymiarów jeszcze niewiele nam mówi. Jednak, gdy odniesiemy wartość bezwładności danego wymiaru do bezwładności całkowitej, otrzymamy udział bezwładności tego wymiaru w całkowitej bezwładności tabeli. Tę informację znajdziemy w kolumnie „Proporcja bezwładności wyjaśniona”. Jak widać, w naszym przykładzie pierwszy wymiar odpowiada za ponad 48% bezwładności, a drugi za kolejne 28%. Kolejne wymiary są już mniej znaczące. Trzeci odpowiada za ok. 11% bezwładności, czwarty – ok. 7%, piąty – ok.3.5% a szósty – ok.1,5%. Wszystkich możliwych wymiarów jest sześć, ponieważ maksymalna liczba wymiarów obliczana jest z następującego wzoru:

Gdzie:

I to liczba kategorii zmiennej wierszowej,
J to liczba kategorii zmiennej kolumnowej;

Razem wszystkie wymiary wyjaśniają oczywiście 100% bezwładności. Ograniczając się do dwóch pierwszych wymiarów, jesteśmy natomiast w stanie wyjaśnić ok. 77% całkowitej bezwładności (zob. kolumna „Proporcja bezwładności skumulowana”). Czy to dużo czy mało? To oczywiście kwestia dyskusyjna. Uwzględnienie trzeciego wymiaru poprawiłoby ten wynik do poziomu 88%, ale za to interpretacja wyników stałaby się znacznie bardziej skomplikowana. W tej chwili zostaniemy przy dwóch wymiarach.

Tabela 2. Masa, współrzędne i bezwładność punktów wierszowych

Przejdźmy teraz do omówienia wyników w tabeli Przegląd punktów wierszowych (Tabela 2). Ponieważ jest to duża tabela, w tym opracowaniu celowo rozbijam ją na trzy osobne części, aby móc szczegółowo omówić zawartość poszczególnych kolumn. W pierwszej kolumnie mamy informację o masie danej kategorii. Masa to po prostu udział tej kategorii w stosunku do ogółu respondentów. W naszym przykładzie widać, że 30% wszystkich respondentów ogląda telewizję wieczorem (jest to najczęściej wskazywana pora oglądania telewizji). Takich, którzy wcale nie oglądają telewizji było w próbie 15%. W kolejnych dwóch kolumnach otrzymujemy obliczone dla poszczególnych punktów współrzędne, dzięki temu zawsze jest możliwość, żeby zreplikować mapę percepcyjną ręcznie. Następnie mamy informację o bezwładności poszczególnych punktów, czyli o rozproszeniu w ramach danej kategorii. Wartości bezwładności poszczególnych punktów sumują się do bezwładności całej tabeli. Największą bezwładność ma kategoria „wcale nie oglądam”.  

W kolejnych kolumnach znajdziemy istotne informacje o tym, jaki jest udział poszczególnych punktów w bezwładności pierwszego i drugiego wymiaru. Możemy sprawdzić, które kategorie zdeterminowały orientację osi x oraz osi y. Patrząc na ten fragment tabeli możemy łatwo wykryć ewentualne kategorie odstające, które zniekształcają rozwiązanie. Jeśli jakiś punkt ma bardzo duży udział w bezwładności wymiaru, a jednocześnie ma względnie małą masę, to na taką kategorię należy uważać. W naszym przykładzie największy udział w bezwładności pierwszego wymiaru ma kategoria „Wcale nie oglądam”, a na bezwładność wymiaru drugiego, największy wpływ ma kategoria osób, które najczęściej oglądają telewizję nocą. To, co może nas zaniepokoić, to duże znaczenie kategorii nieoglądających telewizji. Analiza ma przecież na celu ustalenie, o jakich porach dnia emitować, które reklamy. Kategoria tych, którzy nie oglądają telewizji jest ważna, ponieważ pokazuje nam, których czekolad w ogóle nie warto reklamować za pomocą tego medium. Nie powinna być to jednak kategoria, która zdominuje całe rozwiązanie. Odpowiedzią na ten problem może być zdefiniowanie tej kategorii jako kategorii pasywnej. Ale wprowadzanie kategorii pasywnych to osobny temat, o którym będzie można przeczytać w kolejnym wpisie z tej serii.

Popatrzmy teraz na trzy ostatnie kolumny omawianej tabeli wynikowej. Mówią one o udziale poszczególnych wymiarów w bezwładności punktów. Tutaj warto spojrzeć na to, w jakim stopniu dwa wymiary są w stanie wyjaśnić bezwładność poszczególnych punktów. Weźmy na przykład kategorię „Nocą”. Pierwszy wymiar nie jest w stanie wyjaśnić bezwładności tego punktu, ale za to drugi wyjaśnia ją znakomicie. Razem obydwa wymiary wyjaśniają 88% bezwładności tego punktu. Zupełnie inaczej jest z kategorią „Wieczorem”. W tym wypadku dwa wymiary wyjaśniają dopiero 37% bezwładności.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

Jeszcze słabiej są reprezentowane kategorie „Po południu” i „Rano”. Prawdopodobnie dodanie trzeciego wymiaru pozwoliłoby na lepszą reprezentację tych punktów. Najlepszy wynik ma kategoria „Wcale nie oglądam”. Dwa pierwsze wymiary wyjaśniają łącznie prawie 99% bezwładności tej kategorii. To kolejna wskazówka, że warto byłoby ograniczyć wpływ tej kategorii na rozwiązanie – po to, aby lepiej reprezentowane były te kategorie, które tak naprawdę bardziej nas interesują ze względu na problem badawczy. Analogicznie można prześledzić statystyki dla punktów kolumnowych. Jak widać, wykonując analizę korespondencji, otrzymujemy oprócz mapy percepcyjnej szereg użytecznych wskaźników, które pomagają ocenić jakość otrzymanego rozwiązania. Po pierwsze, możemy dowiedzieć się jaki procent całkowitej bezwładności jest wyjaśniony przez daną ilość wymiarów. Po drugie, możemy dokonać szczegółowej diagnostyki modelu na poziomie poszczególnych kategorii zmiennej wierszowej czy kolumnowej. Z jednej strony możemy zobaczyć jak poszczególne kategorie wpływają na rozwiązanie (i tym samym wykryć kategorie zniekształcające obraz), z drugiej – sprawdzić czy kategorie, na których nam szczególnie zależy, są dobrze odwzorowane przez model.


Oceń artykuł:

Udostępnij artykuł w social mediach



Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.

Ustawienia dostępności
Zwiększ wysokość linii
Zwiększ odległość między literami
Wyłącz animacje
Przewodnik czytania
Czytnik
Większy kursor