Tajniki badania internetu

Umacnia się rola internetu nie tylko jako samego medium, ale również jako środowiska, w którym realizowane są badania rynkowe. Według danych ESOMAR-u w 2000 roku jedynie 5% wszystkich badań na świecie było realizowanych za pośrednictwem sieci. Przewiduje się, że już w 2005 roku odsetek ten wyniesie 15%, zaś po 2007 roku liczba badań realizowanych kanałem internetowym może przekroczyć liczbę badań realizowanych za pośrednictwem ankieterów. Jak bada się zachowania i oczekiwania internautów?

Umacnia się rola internetu nie tylko jako samego medium, ale również jako środowiska, w którym realizowane są badania rynkowe. Według danych ESOMAR-u w 2000 roku jedynie 5% wszystkich badań na świecie było realizowanych za pośrednictwem sieci. Przewiduje się, że już w 2005 roku odsetek ten wyniesie 15%, zaś po 2007 roku liczba badań realizowanych kanałem internetowym może przekroczyć liczbę badań realizowanych za pośrednictwem ankieterów. Jak bada się zachowania i oczekiwania internautów?

Do analizy popularności witryn i zachowań użytkowników w internecie najczęściej stosuje się takie miary jak: unikalny użytkownik, wizyta, odsłona, czy średni czas spędzony w serwisie. Internauta generuje tzw. odsłony (page views), na które składa się każde wyświetlenie strony. Użytkownik zwykle korzysta z kilku stron w krótkich odstępach czasu. Zbiór takich odsłon jest definiowany jako wizyta, przy czym każda następna wizyta liczona jest dopiero po 30 minutach od ostatniej reakcji użytkownika. Sumując czas pomiędzy kolejnymi odsłonami w ramach wizyty, otrzymujemy jej czas, zaś dodając do siebie czas trwania poszczególnych wizyt - czas spędzony przez użytkownika na stronach danego serwisu.

Za miarę popularności witryny uważa się liczbę tzw. unikalnych użytkowników (unique users lub unique visitors). Użytkownik identyfikowany jest za pomocą IP komputera, z którego nastąpiło połączenie lub/i przez nadane mu cookie. Cookie to niewielki plik tekstowy przechowywany w pamięci przeglądarki. Za każdym razem, gdy użytkownik zażąda obejrzenia strony, serwer sprawdzi, czy przeglądarka użytkownika wysłała nagłówek w cookie. Jeśli nie, program serwera wygeneruje unikatowy identyfikator i prześle żądaną stronę z nagłówkiem – „ustanów cookie”.

Od początku prowadzonych prac nad metodologią badań mierzenia oglądalności stron internetowych zaczęto stosować generalnie dwa typy pomiarów: site-centric (czyli pomiary od strony serwisu) i user centric (pomiary od strony użytkownika). Każdy ma swoje wady i zalety.

Z perspektywy witryny

Badania typu site-centric są prowadzone od strony serwisu (serwera). Zazwyczaj zbierają dane dotyczące tylko wybranego serwisu, albo też - gdy badania realizuje niezależna firma - dotyczą tylko tych serwisów, które zgodziły się na pomiar (w Polsce takie badania realizuje firma Gemius). Generalnie badania te przypominają audyt sprzedaży prasy - nie oferują danych o profilu społeczno-demograficznym użytkowników, za to zbierają dokładne dane dotyczące ruchu na stronie.

Badania typu site-centric to tak naprawdę bezpośrednia analiza logów dziennika serwera. Program jest domyślnie tak skonfigurowany, aby rejestrował każdy dostęp, wpisując za każdym razem linię w pliku systemowym. Dziennik serwera rejestruje sekunda po sekundzie każdą reakcję komputera, z którego wysłano żądanie do danej strony.

Dane uzyskiwane metodą site-centric dotyczą prawie całego audytorium danej witryny (czyli dotyczą zarówno użytkowników korzystających w domu, z pracy jak i w innych miejscach).

Warto jednak podkreślić, że dane uzyskiwane tą metodą obejmują jedynie liczby stron, które zostały „wysłane” użytkownikowi przez serwer danej witryny, a nie liczby stron, które zostały rzeczywiście przez niego obejrzane. Umyka też informacja o stronach tymczasowo przechowywanych na serwerach typu proxy lub w cache’u przeglądarki użytkownika (mamy do czynienia ze zbiorem logów zebranych jedynie przez serwer danej witryny).

Potencjalnym źródłem błędów są też tzw. boty, czyli programy indeksujące, stosowane przez popularne wyszukiwarki. Niejednokrotnie są przyczyną niezwykle silnych wzrostów oglądalności poszczególnych stron, które były przez nich indeksowane.

W przypadku badań site-centric niejednokrotnie występuje trudność dokładnej identyfikacji miejsca skąd pochodzą użytkownicy. Chociaż w logach zawarta jest informacja o lokalizacji komputera użytkownika to nie zawsze można w sposób jednoznaczny zidentyfikować geograficzne pochodzenie wizyt.

Unikalny użytkownik użytkownikowi nie równy

Powszechnie przyjęto określać wielkość internetowego audytorium, podając liczbę tzw. unikalnych użytkowników, czyli takich, którzy odwiedzili daną stronę, co najmniej jeden raz w określonym czasie (zwykle w okresie jednego miesiąca). Jednak z tym terminem wiążą się pewne niejasności.

Po pierwsze, sama liczba unikalnych użytkowników - jak już zostało wspomniane - określana jest na podstawie albo numeru komputera IP, albo też najczęściej na bazie cookie. Dokładnej identyfikacji podlega w ten sposób tak naprawdę komputer użytkownika, a ściślej jego przeglądarka. Z jednego komputera może korzystać więcej niż jeden użytkownik, sam użytkownik może korzystać z wielu komputerów, w różnych miejscach (na przykład w pracy i w domu). W końcu internauta może zainstalować nową przeglądarkę lub po prostu usunąć cookie. Należy pamiętać zatem, że zmiany audytorium danej strony mogą też w jakiejś części wynikać z w/w względów, a nie tylko z rzeczywistego spadku lub wzrostu zainteresowania daną witryną.

Tajniki badania internetu

Ograniczenia te znikają w momencie, gdy odwołanie do danej strony mierzy niezależny serwer, a nie serwer, na którym znajduje się badana strona. Dzieje się tak dzięki specjalnym skryptom, które „wklejone” w strukturę poszczególnych stron umożliwiają pomiar przez serwer firmy badawczej. Tak oznaczone strony są przez niego rozpoznawane, niezależnie od tego, gdzie znajduje się ich lokalizacja (serwer badanej strony, serwer typu proxy, czy pamięć podręczna przeglądarki).