Dlaczego opóźniają się wyniki Megapanelu?

Firma Gemius realizująca badania Megapanel obiecała, że do końca ubiegłego roku pojawią się listopadowe wyniki badania. Od kilku miesięcy czekamy również na wyniki badań w plikach siedmiodniowych. Postanowiliśmy sprawdzić przyczynę tych opóźnień. Bo hipotez nazbierało się sporo.

W chwilach, gdy wyniki tak ważnego badania dla e-rynku jak Megapanel nie są publikowane w terminie zapowiedzianym przez firmę, która je realizuje, pojawiają się najróżniejsze domysły. Listopadowe wyniki miały się pojawić do końca ubiegłego roku. Wyniki w plikach siedmiodniowych są już na tapecie od kilku miesięcy.

Domysły

Najczęściej nasi czytelnicy sugerują w komentarzach, że członkowie PBI znów się pokłócili o wyniki. Drugie wyjaśnienie pojawiło się w blogu futrega.org/stek. Jego autor zasugerował mianowicie, że opóźnienie wyników publikacji listopadowych wyników wynika z odnalezienia poważnego błędu w metodologii badania.

Autor blogu zauważył, że od września, kiedy zrezygnowano z uwzględniania odsłon i użytkowników łączących się spoza granic Polski, zgodnie z oczekiwaniami spadła liczba odsłon, ale - o dziwo - znacznie wzrosła liczba użytkowników, tzw. real users w stosunku do poprzednich miesięcy. Autor zasugerował "niezwykle kompromitujące wytłumaczenie":

- Do obliczania, ile cookies odpowiada jednemu internaucie (osobie), uwzględnianie cookies wszystkich użytkowników (z Polski i zagranicy), które miało miejsce do września 2005, było błędne, jeśli badanie SMG/KRC dostarcza informacji jedynie o liczbie internautów z Polski - napisał. Ponieważ metodologia okazała się błędna - i to od samego początku badań - Gemius musi ją zrewidować, stąd opóźnienie.

Czy jego hipoteza jest trafna?

Jak Gemius estymuje liczbę real users?

Estymacja liczby real users opiera się na algorytmie, uwzględniającym fakt, że łączna liczba cookies na danej witrynie jest zaburzona o ich kasowanie. Gemius szacuje, ile byłoby cookies, gdyby nikt ich nie kasował. W tym celu firma przeanalizowała zachowania osób, które kasują cookies oraz tych, które ich nie kasują. Dzięki sprawdzeniu, czy dane cookie pojawiło się w miesiącu poprzedzającym i następującym po miesiącu, dla którego wyniki są przygotowywane, możliwe jest określenie, które z tych cookies nie zostały w danym miesiącu skasowane. Tym sposobem Gemius otrzymuje dwa zbiory cookies: zbiór takich cookies, które nie zostały skasowane przynajmniej w okresie danego miesiąca oraz zbiór wszystkich cookies.

Gemius zaobserwował, że statystycznie wskaźniki określające wielkość ruchu generowanego przez użytkowników (cookie) z pierwszego zbioru, są proporcjonalnie takie same, jak wskaźniki określające wielkość ruchu przez użytkowników (cookie) z drugiego zbioru. Stosując odpowiednie proporcje uzyskuje się tym samym taką liczbę cookies, która odpowiadałaby rzeczywistej liczbie cookies, gdyby użytkownicy internetu nie kasowali cookies. Następnie, wykorzystując dane o liczbie wszystkich polskich internautów z badania zewnętrznego SMG/KRC, Gemius estymuje, ile cookies odpowiada jednemu internaucie i ostatecznie podaje estymowaną liczbę użytkowników dla każdej witryny.

Gdy w połowie listopada Rada Badania Megapanel podejmowała decyzję o odrzuceniu ruchu z komputerów z numerami IP spoza Polski dla witryn witryn objętych audytem site-centric, argumentowała, że czyni to w trosce o wiarygodność badania. Prawdopodobnie jednym z impulsów tej modyfikacji było rosnące lawinowo zainteresowanie bezpłatnym hostingiem użytkowników z Chin.

Intuicja podpowiadałaby, że skoro ubyło cookies z zagranicy, to zmniejszy się również liczba użytkowników real users na witrynach uwzględnionych w badaniu Megapanel. Przypomnijmy w tym miejscu, że użytkownicy zza granicy stanowią około 20% wszystkich użytkowników polskich witryn według Ranking.pl.

Stało się odwrotnie - użytkowników przybyło.

Przypomnijmy w tym miejscu, jak Gemius szacuje liczbę faktycznych użytkowników witryn.

Rzeczywista liczba użytkowników witryny jest wartością estymowaną. Wskaźnik "liczba użytkowników (real users)", odzwierciedlający rzeczywistą liczbę internautów korzystających z danej witryny, konstruowany jest na podstawie danych dotyczących liczby cookies, całej populacji internautów oraz współoglądalności witryn. Obszerne wyjaśnienie w ramce obok.

Błąd w rozumowaniu autora blogu futrega.org/pl został wskazany w przesłanym nam oficjalnym stanowisku firmy Gemius:

Dlaczego hipoteza autora blogu jest błędna? - oficjalne wyjaśnienie Gemius

Niestety, z nieprawdziwej tezy można wysnuć dowolny, często krzywdzący, wniosek. W tym przypadku, mówiąc o przywołanej przez Panią wypowiedzi, fałszywą przesłanką jest założenie, że do obliczania zasięgów witryn brane są pod uwagę bezpośrednio liczby cookies (których statystyki dla wszystkich stron monitorowanych systemem gemiusTraffic umieszczane są m.in. na serwisie ranking.pl). Autor cytowanego bloga, powołując się na metodologię badania Megapanel PBI/Gemius, nie uwzględnił jednak kluczowej kwestii - do obliczania względnych zasięgów witryn służy algorytm real users, który za podstawę obliczeń przyjmuje nie bezpośrednią liczbę cookies, ale estymowaną liczbę cookies, uwzględniającą m.in. zjawisko ich kasowalności. Liczba około 20% cookies pochodzących z zagranicy oznacza w praktyce kilka procent (około 3%) liczby estymowanych niekasowanych cookies w ogólnej liczbie estymowanych cookies dla wszystkich badanych witryn (dla każdej witryny ten procent jest trochę inny). Podążając tym tropem rozumowania, powinniśmy przyjąć co najwyżej kilkuprocentowy (a z pewnością nie dwudziestoprocentowy!) względny wzrost liczby internautów spowodowany decyzją o nie uwzględnianiu ruchu z zagranicy. Tę informację, co należy podkreślić, oficjalnie przekazaliśmy w komunikacie prasowym publikując wyniki wrześniowe.

Odrębną kwestią jest dyskusja, które podejście z dwóch możliwych: tj. uwzględniające ruch z zagranicy lub nie uwzględniające tego ruchu, jest poprawniejsze i lepiej modeluje badaną rzeczywistość. Od początku uruchomienia badania toczyła się dyskusja nad sposobem uwzględniania ruchu z zagranicy. Celem badania było i jest pokazywanie wyników oglądalności witryn i aplikacji internetowych użytkowanych przez polskich internautów (a nie zagranicznych). Problemem było i jest jednoznaczne odróżnienie ruchu generowanego przez polskich internautów z obszaru Polski, ale rozpoznawanego jako ruch z zagranicznych IP (np.

internauci łączący się przez serwery proxy umieszczone poza granicami Polski), a ruchu generowanego rzeczywiście przez zagranicznych internautów (w tym również Polonię). Jest to klasyczna sytuacja, w której nie ma idealnego rozwiązania - każda decyzja może powodować nie uwzględnianie w badaniu jakiegoś odsetka internautów. Zatem decyzja, aby zastosować zasadę "mniejszego zła", tzn. starać się uwzględniać zawsze jak największą liczbę internautów, jest naturalna w tym przypadku. Na samym początku przyjęto założenie, że ponieważ ruch z zagranicy nie stanowi dużego odsetka całego ruchu generowanego na polskich witrynach, to lepiej jest uwzględniać cały ruch, w tym ruch z zagranicy. Jednocześnie podjęto decyzję o stałym i bieżącym monitorowaniu wszelkich zmiany tak, aby w przypadku pojawienia się niebezpieczeństwa istotnego zaburzenia wyników spowodowanego wzrostem ruchu generowanego z zagranicy, z wyprzedzeniem można było podjąć decyzję o wyłączeniu tego ruchu z wyników badania. Taka potrzeba zaszła we wrześniu ubiegłego roku, gdyż w październiku zaobserwowaliśmy istotny wzrost ruchu z zagranicy, który mógłby (gdybyśmy nie zareagowali) wpłynąć na ostateczne wyniki badania.

Niewątpliwie niesprawiedliwość przytoczonych przez Panią oskarżeń jest bardzo przykra dla nas, tym bardziej, że padają w nich słowa mocne - "kompromitacja". Szczególnie, że zawsze chętnie wyjaśniamy wszelkie niejasności metodologiczne, w tym przypadku jednak nie zwrócono się do nas z prośbą o wytłumaczenie i wskazanie możliwych przyczyn wzrostu

zasięgów witryn. A odpowiedź jest przecież trywialna: we wrześniu wzrosły istotnie zasięgi większości witryn. W badaniach offline NetTrack SMG/KRC, które służą nam do określenia struktury i liczebności populacji Internautów w Polsce, nie było to zauważalne. To wynika ze specyfiki badań deklaratywnych offline, w których krótkotrwałe trendy, np. powrót internautów z wakacji, są słabiej zauważalne niż w badaniach uwzględniających tzw. 'twarde dane', czyli w badaniach oglądalności Megapanel PBI/Gemius.

Co jest więc przyczyną opóźnienia, jeśli nie błąd w metodologii? Odpowiada Karolina Janik, rzeczniczka firmy Gemius. - Niestety nie mogliśmy we wcześniejszym terminie opublikować wyników za listopad ubiegłego roku. Bezpośrednią przyczyną były problemy techniczne związane z tym, że jedna z największych polskich witryn - Allegro.pl - właśnie w połowie listopada przeinstalowała system audytu site-centric na swojej witrynie oraz witrynach swoich partnerów w tym portali internetowych.

Spowodowało to konieczność powtórnego przeliczenia danych audytu site-centric, ich powtórnej kontroli i weryfikacji, co w połączeniu z okresem świąt Bożego Narodzenia i Nowego Roku ostatecznie dało efekt w postaci kilkutygodniowego opóźnienia w stosunku do pierwotnych planów przyspieszenia publikacji.

Dane za listopad mają zostać opublikowane w dotychczasowym trybie i terminie, czyli do 20 stycznia br.

Ten sam powód wyjaśnia również sytuację w opóźnieniem publikacji wyników w plikach siedmiodniowych. -O trybie oraz terminach publikacji plików siedmiodniowych będziemy informować na bieżąco - powiedziała nam Karolina Janik.

***

Więcej:

Metodologia badania Megapanel PBI/Gemius w pytaniach i odpowiedziach.

Aktualizacja: 08 marca 2006 14:28

W nawiązaniu do cytowanej przez Internet Standard wypowiedzi p. Marka Futregi oraz późniejszej korespondencji, Gemius wyjaśnia:

Pan Marek Futrega słusznie zauważył, że wrześniowe('05) wzrosty zasięgów przy jednoczesnym spadku odsłon nie są zjawiskiem naturalnym. Są one wynikiem zmiany metodologii. Metodologia stosowana do września 2005 r. opierała się na błędnym założeniu, iż ruch generowany z zagranicznych IP generowany będzie w większości przez polskich użytkowników internetu. We wrześniu 2005 błąd ten został naprawiony.

Aktualizacja: 16 stycznia 2006 10:15

Autor blogu futrega.org/stek, którego fragmenty cytujemy w tekście, przesłał poniższą wiadomość z prośbą o publikację:

Na wstępnie chciałbym zaprzeczyć, jakobym sugerował, że opóźnienie publikacji listopadowych wyników badania PBI/Gemius Megapanel wynika z odnalezienia poważnego błędu w metodologii badania.

Z niezrozumiałych dla mnie powodów opóźnienie w publikacji wyników połączono w artykule z moim doniesieniem o błędnym obliczaniu zasięgów witryn do września 2005.

W wyjaśnieniu przesłanym przez firmę Gemius tezę o błędnym obliczaniu liczby użytkowników (tzw. "real users") próbuje się obalić tym, że zostały dla niej przyjęte fałszywe przesłanki, a mianowicie, że do obliczeń liczby "real users" są wykorzystywane liczby cookies bezpośrednio z badania gemiusTraffic. Jeśli przyjmiemy takie założenie o przesłankach, pierwotna teza istotnie będzie nieprawdziwa.

Jeśli za "cookies", o których mowa w tezie, prawidłowo przyjmiemy szacunkową liczbę cookies, jaka byłaby zarejestrowana, gdyby ich nie kasowano, to teza pozostanie jednak prawdziwa.

O prawdziwości tezy świadczą nawet informacje zawarte w ramce uzupełniającej artykuł, wyjaśniające, jak Gemius estymuje liczbę "real users". Wystarczy dokładnie zwrócić uwagę na końcowy fragment:

Szacunkową liczbę cookies, jaka byłaby zarejestrowana, gdyby ich nie kasowano, a która do września 2005 uwzględniała ruch WSZYSTKICH użytkowników, tj. z Polski i zagranicy, "łączy się" tam z pochodzącą z badania SMG/KRC liczbą internautów TYLKO Z POLSKI.

Nie trzeba być geniuszem, żeby zrozumieć, dlaczego takie połączenie jest błędne, ale jeśli ktoś ma z tym problemy, to służę wyjaśnieniem: do obliczania, ile cookies odpowiada jednemu internaucie ta szacunkowa liczba cookies uwzględniająca ruch WSZYSTKICH użytkowników powinna była być łączona z liczbą WSZYSTKICH internautów, tj. łączących się z Polski PLUS zagranicy, a nie tylko tych z Polski, których liczbę podaje SMG/KRC.

Próba tłumaczenia rekordowych wrześniowych wzrostów zasięgów w "trywialny" sposób, że dla większości witryn po prostu tak fantastycznie wzrosły, nie jest zbyt przekonująca wobec faktu, że tym wzrostom zasięgów towarzyszyły nienaturalne spadki liczby odsłon, tym bardziej, że w wynikach z innych miesięcy wzrostom zasięgów REGULARNIE towarzyszyły wzrosty liczby odsłon, a spadkom zasięgów - spadki liczby odsłon.