SNA, czyli sieć jako obiekt analizy

Tekst przeczytasz w: 7 minut.

W dzisiejszym wpisie zajmiemy się tematem Social Network Analysis (SNA), czyli najkrócej i najprościej mówiąc, analizą relacji, bądź analizą sieci społecznej. SNA to badanie zbiorowości poprzez sprawdzanie relacji zachodzących pomiędzy jej jednostkami.

W dzisiejszym wpisie zajmiemy się tematem Social Network Analysis (SNA), czyli najkrócej i najprościej mówiąc, analizą relacji, bądź analizą sieci społecznej. SNA to badanie zbiorowości poprzez sprawdzanie relacji zachodzących pomiędzy jej jednostkami. Łączy w sobie elementy statystyki, socjologii i psychologii społecznej. Nie jest to jednak tylko koncept teoretyczny, a kolejne źródło wiedzy coraz śmielej wykorzystywane w różnych obszarach biznesowych i społecznych: od rozpracowywania siatek przestępczych i terrorystycznych, poprzez analizę przepływów bankowych, aż do zarządzania zasobami w ramach organizacji. Jednym wpisem nie jesteśmy w stanie wyczerpać całej złożoności zagadnienia, ale na pewno możemy przybliżyć ten świat i pomóc zrozumieć, na czym SNA polega oraz w jakich zagadnieniach będzie pomocne. Wejście w świat SNA wymaga od nas zmiany perspektywy oraz świeżego spojrzenia na dane, które posiadamy.

Jak już powiedzieliśmy, analiza sieciowa to odkrywanie relacji między jednostkami i ocena wpływu tych relacji na zachowanie jednostek. Oznacza to, że skupiamy się nie na samych jednostkach, a na ich wzajemnych powiązaniach. U podstaw leży założenie, że to miejsce w strukturze (czyli w sieci) determinuje zachowanie jednostek. I tu istotna uwaga: czy jednostki to muszą być osoby? Nie! Mogą to być: numery telefonów, czy rachunki bankowe. Słowem każdy możliwy do zidentyfikowania obiekt, który jest przedmiotem zainteresowania analityka. Czy w związku z tym SNA będzie nam zawsze potrzebne? Nie. Jeśli potrzebujemy statystyk, np. średniej liczby transakcji w miesiącu albo średniej kwoty transakcji przychodzących w ostatnim tygodniu – nie potrzebujemy wspominanej zmiany perspektywy. Jednak jeśli chcemy wiedzieć jakie są ścieżki przepływu pieniędzy, przez które konto przepływają największe kwoty i do tego w jakim kierunku – to już jak najbardziej tak.

Bo najważniejsze są fundamenty

SNA twardo stąpa po ścieżce analizy danych ponieważ stoi na dwóch nogach, którymi są matematyka i socjologia. A zawężając: teoria grafów i socjometria. Na pozór dziedziny te to nie ta sama „bajka”. Jednak jak się okazuje – świetnie się uzupełniają. Jedna daje nam potwierdzenie w liczbach, druga nadaje tym liczbom znaczenie, interpretację. Jak to się wszystko zaczęło? Pora na pierwszą nogę – teorię grafów. Za ojca teorii grafów uznaje się Leonharda Eulera. Ten XVIII-wieczny matematyk próbował rozwiązać problem znany jako „zagadnienie mostów królewieckich”. Problem ilustruje poniższy rysunek.

Źródło rysunku: Wikipedia, hasło „zagadnienie mostów królewieckich”

Przez Królewiec przepływa rzeka Pregoła, w której rozwidleniu znajdują się dwie wyspy. Na rzece zbudowano 7 mostów, w miejscach oznaczonych na rysunku. Powstała zagadka: czy możliwe jest przejście kolejno przez wszystkie mosty tak, aby przez każdy przejść tylko raz? Powyższy problem możemy zilustrować grafem, gdzie punkty to brzegi rzeki i wyspy, a łączące je linie to nic innego jak mosty.

Źródło rysunku: https://www.oer.uj.edu.pl/mod/book/view.php?id=22&chapterid=133

Czym jest zatem graf? Graf to zbiór wierzchołków oraz krawędzi, które te wierzchołki mogą (choć nie muszą) w różnych konfiguracjach łączyć.

Kilka podstawowych zasad budowy grafów to:

Nie każdy wierzchołek grafu musi być połączony krawędzią z innymi;
Z jednego wierzchołka może wychodzić jedna lub wiele krawędzi (ich liczba to stopień wierzchołka);
Pomiędzy dwoma wierzchołkami może przebiegać więcej niż jedna krawędź;
Krawędź może być pętlą, która zaczyna i kończy się w tym samym wierzchołku.

Wracając do zagadnienia mostów królewieckich: jest to tak naprawdę poszukiwanie cyklu w grafie. Cyklu, czyli drogi zamkniętej - rozpoczynającej i kończącej się w tym samym wierzchołku. Leonhard Euler udowodnił, że dla omawianego przykładu nie da się tego zrobić, ponieważ taki specyficzny cykl (cykl Eulera, gdzie każdy wierzchołek jest wykorzystany tylko raz) istnieje wtedy i tylko wtedy, gdy stopień grafu jest parzysty. Ciekawostką jest, że współcześnie na rzece Pregole znalezienie cyklu Eulera jest możliwe – jest tam 5 mostów (z czego 2 zachowane z XVIII wieku). Jednakże taka wędrówka jest mało praktyczna. Stanie na jednej nodze jest męczące, dlatego zostawmy matematykę i przejdźmy do socjologii, a konkretnie – do pojęć struktury i socjometrii, które pojawiły się już na początku tego artykułu. Za początki socjometrii uznaje się prace Jacoba Moreno z XX w. Badacz ten zwrócił uwagę, że skoro istnieje założenie, że struktura w jakiej funkcjonuje jednostka (rodzina, klasa szkolna, zakład pracy), ma ustalone zasady i przez to definiuje role poszczególnych jednostek i ich zachowanie, to należy badać samą strukturę. Socjometria to metoda badania struktur władzy i komunikacji pomiędzy jednostkami. W pierwotnej i chyba najbardziej rozpowszechnionej formie, polega na testowaniu określonej grupy pytaniem: „kto by cię wybrał?” lub wskazywaniu osoby, która powinna pełnić określoną funkcję. To powoduje, że socjometria stosowana jest przede wszystkim w mniejszych grupach, np. rówieśniczych w szkole. Analizie podlega np. spoistość grupy (poziom wzajemnych relacji), co pomaga w określeniu stopnia integracji zbiorowości.

Socjometria wprowadza pojęcia, z którymi możemy zetknąć się w życiu codziennym i używać w potocznym znaczeniu. W tej metodzie badawczej mają one jednak swoje definicje:

gwiazda socjometryczna – osoba najczęściej wybierana w trakcie badania przez pozostałych członków grupy;
szara eminencja – osoba wskazywana przez gwiazdę socjometryczną i równocześnie na nią wskazująca (tzw. „władza zza tronu”);
klika – podgrupa w ramach całej zbiorowości; każdy członek kliki ma relacje z jej pozostałymi uczestnikami.

Skupmy się na relacjach – co wyrasta z fundamentów?

Mamy już fundamenty, przejdźmy zatem do właściwej analizy SNA. Sieć, będąca przedmiotem analizy SNA to konceptualizacja grafu, gdzie widzimy:

sieć wierzchołków (węzłów, punktów) - reprezentujących aktorów społecznych (obiekty);
sieć linii - reprezentujących relacje między obiektami.

Jednak sieć to więcej niż graf, ponieważ podejmujemy się próby analizy i interpretacji wierzchołków i krawędzi, nadajemy im sens. Spójrzmy na przykład prostej sieci poniżej.

Przykładowa sieć społeczna

Podstawowe pojęcia, z którymi zetkniemy się w analizie sieciowej to:

encja (entity) – czyli wierzchołek, który odpowiada za obiekt (rzeczownik);
link (link) – czyli krawędź, która odpowiada za czynność (czasownik);
atrybut (properties) – przypisany do encji lub linku.

Powyżej przedstawiona sieć składa się z 3 encji oraz 5 krawędzi (w tym połączenia wielokrotne między dwoma encjami). Jednak charakter zarówno encji, jak i krawędzi jest różny, a mówią nam o tym właśnie atrybuty. Na uwagę zasługuje także to, że w ramach jednej sieci mogą być połączone encje różnego typu, np. osoby oraz fałszywe tożsamości. Z tak zbudowanej sieci możemy odczytać, że Anna Nowak, która mieszka w Krakowie, spotkała się w Warszawie ze swoim ojcem. Mężczyzna ten prawdopodobnie kontaktował się z nią telefonicznie (wskazuje na to przerywana linia krawędzi oraz kierunek strzałki). Równocześnie wiemy, że Katarzyna Kowalska, która jest zamieszana w kradzież, podaje się za Annę Nowak. Dodatkowo porównując daty wydarzeń nasuwa się nam pytanie: czy mężczyzna mógł być powiązany z tą kradzieżą? Czy rodzinny charakter relacji ma tutaj znaczenie? Powyżej przedstawione zostało ego-centryczne podejście do badania sieci, gdzie interesuje nas podążanie za jednostką, sprawdzanie jej sieci i powiązań. Taka lokalna perspektywa pozwala prowadzić analizę od konkretnego punktu startu, co często jest wykorzystywane np. w analizach kryminalnych. Drugie podejście w SNA, globalne, to analiza socjo-centryczna, gdzie skupiamy się na strukturze, jej spójności, wyszukiwaniu podgrup itd.[1]

Struktura sieci:

Wpływa na jej funkcjonowanie i możliwość osiągania wyznaczonych kluczowych celów;
Wpływa na opis sieci, który może nie być oczywisty na pierwszy rzut oka np. istnienie mniejszych podsieci;
Wpływa na relacje pomiędzy ważnymi aktorami wpływu, którzy determinują całość;
Wpływa na to, jak szybko i bezpośrednio informacja przepływa pomiędzy encjami i różnymi częściami sieci.[2]

Czy relacje można mierzyć?

W myśl zasad SNA nie tylko można, a nawet trzeba! Pytanie – co mierzyć i jak mierzyć? Zagadnienie miar w ramach analizy sieciowej jest złożone i zasługuje na osobne wpisy, stąd tutaj przedstawione zostaną tylko podstawowe informacje. Ważnym elementem analizy struktury sieci, zarówno w ujęciu lokalnym, jak i globalnym, jest mierzenie jej „centralności”. Jest to pytanie o to, kto jest w sieci najważniejszy (kto ma władzę)? Można tutaj zauważyć analogię do badań w ramach socjometrii.

Centralność encji w ramach sieci może być rozumiana na 3 sposoby:

Aktywność w sieci, czyli posiadanie wielu połączeń, które pozwalają na szybkie przechwytywanie i rozprzestrzenianie informacji;
Bycie efektywnym poprzez posiadanie krótkich dystansów do innych encji – bezpośredniość relacji, która pozwala dotrzeć do każdego fragmentu sieci;
Strażnik przepływu informacji” (gatekeeper) – pozwala na kontrolowanie przepływu informacji między różnymi zakątkami sieci[3].

W zależności od sposobu rozumienia centralności, inne encje lub inne fragmenty sieci mogą dominować w wynikach analizy. Co zatem wybrać? Najlepszą drogą jest sprawdzenie kilku miar i szeroki opis sieci pod wieloma względami. Miarą, która odpowiada na pierwszy sposób rozumienia centralności jest stopień, którym sprawdzamy jak wiele bezpośrednich linków ma dana encja. Może być także mierzony kierunkowo – „do” i „z” encji. Im więcej połączeń, tym większa aktywność. Takie rozumienie jest przydatne wtedy, kiedy szukamy kogoś, kto wyświadczy nam przysługę – w uproszczeniu: im więcej kontaktów, tym łatwiej o sukces. Stopień jest też miarą wykorzystywaną przy lokalnym ujęciu analizy.

Drugi sposób rozumienia centralności mierzony jest poprzez bliskość oraz wektor własny. Podczas liczenia bliskości sprawdzana jest odległość (mierzona linkami) pomiędzy analizowaną, a każdą pozostałą encją – wygrywa ta, która jest najbliżej położonym sąsiadem względem wszystkich. Z kolei wektor własny nie tylko sprawdza połączenia, ale też waży, z kim te połączenia występują. Nie jest ważna sama odległość, ale też czy jest to odległość od istotnych elementów sieci. Wyznaczanie tych miar może przebiegać kierunkowo. Z kolei na wyznaczenie „gatekeeper’a”, również kierunkowo, pozwala pośrednictwo. Wybierając tę miarę sprawdzamy, jak wiele ścieżek (połączeń pomiędzy kilkoma encjami) przebiega przez analizowany obiekt. Oznacza to, że za kontrolę przepływu informacji nie musi odpowiadać encja najaktywniejsza, ani też posiadająca najefektywniejsze relacje z pozostałymi członkami sieci, ale taka, przez którą przechodzi najwięcej ścieżek w ramach sieci.

Analizy prezentowane w tym artykule zostały zrealizowane przy pomocy PS IMAGO PRO

Dowiedz się więcej

Ten wpis to jedynie zarys tego, jak przebiega i czym zajmuje się SNA. Widać jednak nie tylko, jakie są jej możliwości, ale też jak dobrze analitycznie ugruntowana jest to metoda.

Oceń artykuł:

Udostępnij artykuł w social mediach

Tagi:

analiza danychanaliza wielowymiarowabig dataPS CLEMENTINE PROstatystyka

Poprzedni artykuł Następny artykuł

Zostańmy w kontakcie!

Chcesz dostawać wiadomości o nowych wpisach na blogu i webinarach z zakresu analizy danych? Zapisz się na powiadomienia e-mail.