Dlaczego opóźniają się wyniki Megapanelu?

Magdalena Górak | 2006-01-13 13:50:27
Firma Gemius realizująca badania Megapanel obiecała, że do końca ubiegłego roku pojawią się listopadowe wyniki badania. Od kilku miesięcy czekamy również na wyniki badań w plikach siedmiodniowych. Postanowiliśmy sprawdzić przyczynę tych opóźnień. Bo hipotez nazbierało się sporo.

W chwilach, gdy wyniki tak ważnego badania dla e-rynku jak Megapanel nie są publikowane w terminie zapowiedzianym przez firmę, która je realizuje, pojawiają się najróżniejsze domysły. Listopadowe wyniki miały się pojawić do końca ubiegłego roku. Wyniki w plikach siedmiodniowych są już na tapecie od kilku miesięcy.

Domysły

Najczęściej nasi czytelnicy sugerują w komentarzach, że członkowie PBI znów się pokłócili o wyniki. Drugie wyjaśnienie pojawiło się w blogu futrega.org/stek. Jego autor zasugerował mianowicie, że opóźnienie wyników publikacji listopadowych wyników wynika z odnalezienia poważnego błędu w metodologii badania.

Autor blogu zauważył, że od września, kiedy zrezygnowano z uwzględniania odsłon i użytkowników łączących się spoza granic Polski, zgodnie z oczekiwaniami spadła liczba odsłon, ale - o dziwo - znacznie wzrosła liczba użytkowników, tzw. real users w stosunku do poprzednich miesięcy. Autor zasugerował "niezwykle kompromitujące wytłumaczenie":

- Do obliczania, ile cookies odpowiada jednemu internaucie (osobie), uwzględnianie cookies wszystkich użytkowników (z Polski i zagranicy), które miało miejsce do września 2005, było błędne, jeśli badanie SMG/KRC dostarcza informacji jedynie o liczbie internautów z Polski - napisał. Ponieważ metodologia okazała się błędna - i to od samego początku badań - Gemius musi ją zrewidować, stąd opóźnienie.

Czy jego hipoteza jest trafna?
Jak Gemius estymuje liczbę real users?
Estymacja liczby real users opiera się na algorytmie, uwzględniającym fakt, że łączna liczba cookies na danej witrynie jest zaburzona o ich kasowanie. Gemius szacuje, ile byłoby cookies, gdyby nikt ich nie kasował. W tym celu firma przeanalizowała zachowania osób, które kasują cookies oraz tych, które ich nie kasują. Dzięki sprawdzeniu, czy dane cookie pojawiło się w miesiącu poprzedzającym i następującym po miesiącu, dla którego wyniki są przygotowywane, możliwe jest określenie, które z tych cookies nie zostały w danym miesiącu skasowane. Tym sposobem Gemius otrzymuje dwa zbiory cookies: zbiór takich cookies, które nie zostały skasowane przynajmniej w okresie danego miesiąca oraz zbiór wszystkich cookies.

Gemius zaobserwował, że statystycznie wskaźniki określające wielkość ruchu generowanego przez użytkowników (cookie) z pierwszego zbioru, są proporcjonalnie takie same, jak wskaźniki określające wielkość ruchu przez użytkowników (cookie) z drugiego zbioru. Stosując odpowiednie proporcje uzyskuje się tym samym taką liczbę cookies, która odpowiadałaby rzeczywistej liczbie cookies, gdyby użytkownicy internetu nie kasowali cookies. Następnie, wykorzystując dane o liczbie wszystkich polskich internautów z badania zewnętrznego SMG/KRC, Gemius estymuje, ile cookies odpowiada jednemu internaucie i ostatecznie podaje estymowaną liczbę użytkowników dla każdej witryny.


Gdy w połowie listopada Rada Badania Megapanel podejmowała decyzję o odrzuceniu ruchu z komputerów z numerami IP spoza Polski dla witryn witryn objętych audytem site-centric, argumentowała, że czyni to w trosce o wiarygodność badania. Prawdopodobnie jednym z impulsów tej modyfikacji było rosnące lawinowo zainteresowanie bezpłatnym hostingiem użytkowników z Chin.

Intuicja podpowiadałaby, że skoro ubyło cookies z zagranicy, to zmniejszy się również liczba użytkowników real users na witrynach uwzględnionych w badaniu Megapanel. Przypomnijmy w tym miejscu, że użytkownicy zza granicy stanowią około 20% wszystkich użytkowników polskich witryn według Ranking.pl.

Stało się odwrotnie - użytkowników przybyło.

Przypomnijmy w tym miejscu, jak Gemius szacuje liczbę faktycznych użytkowników witryn.

Rzeczywista liczba użytkowników witryny jest wartością estymowaną. Wskaźnik "liczba użytkowników (real users)", odzwierciedlający rzeczywistą liczbę internautów korzystających z danej witryny, konstruowany jest na podstawie danych dotyczących liczby cookies, całej populacji internautów oraz współoglądalności witryn. Obszerne wyjaśnienie w ramce obok.

Błąd w rozumowaniu autora blogu futrega.org/pl został wskazany w przesłanym nam oficjalnym stanowisku firmy Gemius:

Dlaczego hipoteza autora blogu jest błędna? - oficjalne wyjaśnienie Gemius
Niestety, z nieprawdziwej tezy można wysnuć dowolny, często krzywdzący, wniosek. W tym przypadku, mówiąc o przywołanej przez Panią wypowiedzi, fałszywą przesłanką jest założenie, że do obliczania zasięgów witryn brane są pod uwagę bezpośrednio liczby cookies (których statystyki dla wszystkich stron monitorowanych systemem gemiusTraffic umieszczane są m.in. na serwisie ranking.pl). Autor cytowanego bloga, powołując się na metodologię badania Megapanel PBI/Gemius, nie uwzględnił jednak kluczowej kwestii - do obliczania względnych zasięgów witryn służy algorytm real users, który za podstawę obliczeń przyjmuje nie bezpośrednią liczbę cookies, ale estymowaną liczbę cookies, uwzględniającą m.in. zjawisko ich kasowalności. Liczba około 20% cookies pochodzących z zagranicy oznacza w praktyce kilka procent (około 3%) liczby estymowanych niekasowanych cookies w ogólnej liczbie estymowanych cookies dla wszystkich badanych witryn (dla każdej witryny ten procent jest trochę inny). Podążając tym tropem rozumowania, powinniśmy przyjąć co najwyżej kilkuprocentowy (a z pewnością nie dwudziestoprocentowy!) względny wzrost liczby internautów spowodowany decyzją o nie uwzględnianiu ruchu z zagranicy. Tę informację, co należy podkreślić, oficjalnie przekazaliśmy w komunikacie prasowym publikując wyniki wrześniowe.

Odrębną kwestią jest dyskusja, które podejście z dwóch możliwych: tj. uwzględniające ruch z zagranicy lub nie uwzględniające tego ruchu, jest poprawniejsze i lepiej modeluje badaną rzeczywistość. Od początku uruchomienia badania toczyła się dyskusja nad sposobem uwzględniania ruchu z zagranicy. Celem badania było i jest pokazywanie wyników oglądalności witryn i aplikacji internetowych użytkowanych przez polskich internautów (a nie zagranicznych). Problemem było i jest jednoznaczne odróżnienie ruchu generowanego przez polskich internautów z obszaru Polski, ale rozpoznawanego jako ruch z zagranicznych IP (np.
internauci łączący się przez serwery proxy umieszczone poza granicami Polski), a ruchu generowanego rzeczywiście przez zagranicznych internautów (w tym również Polonię). Jest to klasyczna sytuacja, w której nie ma idealnego rozwiązania - każda decyzja może powodować nie uwzględnianie w badaniu jakiegoś odsetka internautów. Zatem decyzja, aby zastosować zasadę "mniejszego zła", tzn. starać się uwzględniać zawsze jak największą liczbę internautów, jest naturalna w tym przypadku. Na samym początku przyjęto założenie, że ponieważ ruch z zagranicy nie stanowi dużego odsetka całego ruchu generowanego na polskich witrynach, to lepiej jest uwzględniać cały ruch, w tym ruch z zagranicy. Jednocześnie podjęto decyzję o stałym i bieżącym monitorowaniu wszelkich zmiany tak, aby w przypadku pojawienia się niebezpieczeństwa istotnego zaburzenia wyników spowodowanego wzrostem ruchu generowanego z zagranicy, z wyprzedzeniem można było podjąć decyzję o wyłączeniu tego ruchu z wyników badania. Taka potrzeba zaszła we wrześniu ubiegłego roku, gdyż w październiku zaobserwowaliśmy istotny wzrost ruchu z zagranicy, który mógłby (gdybyśmy nie zareagowali) wpłynąć na ostateczne wyniki badania.

Niewątpliwie niesprawiedliwość przytoczonych przez Panią oskarżeń jest bardzo przykra dla nas, tym bardziej, że padają w nich słowa mocne - "kompromitacja". Szczególnie, że zawsze chętnie wyjaśniamy wszelkie niejasności metodologiczne, w tym przypadku jednak nie zwrócono się do nas z prośbą o wytłumaczenie i wskazanie możliwych przyczyn wzrostu
zasięgów witryn. A odpowiedź jest przecież trywialna: we wrześniu wzrosły istotnie zasięgi większości witryn. W badaniach offline NetTrack SMG/KRC, które służą nam do określenia struktury i liczebności populacji Internautów w Polsce, nie było to zauważalne. To wynika ze specyfiki badań deklaratywnych offline, w których krótkotrwałe trendy, np. powrót internautów z wakacji, są słabiej zauważalne niż w badaniach uwzględniających tzw. 'twarde dane', czyli w badaniach oglądalności Megapanel PBI/Gemius.


Co jest więc przyczyną opóźnienia, jeśli nie błąd w metodologii? Odpowiada Karolina Janik, rzeczniczka firmy Gemius. - Niestety nie mogliśmy we wcześniejszym terminie opublikować wyników za listopad ubiegłego roku. Bezpośrednią przyczyną były problemy techniczne związane z tym, że jedna z największych polskich witryn - Allegro.pl - właśnie w połowie listopada przeinstalowała system audytu site-centric na swojej witrynie oraz witrynach swoich partnerów w tym portali internetowych.

Spowodowało to konieczność powtórnego przeliczenia danych audytu site-centric, ich powtórnej kontroli i weryfikacji, co w połączeniu z okresem świąt Bożego Narodzenia i Nowego Roku ostatecznie dało efekt w postaci kilkutygodniowego opóźnienia w stosunku do pierwotnych planów przyspieszenia publikacji
.

Dane za listopad mają zostać opublikowane w dotychczasowym trybie i terminie, czyli do 20 stycznia br.

Ten sam powód wyjaśnia również sytuację w opóźnieniem publikacji wyników w plikach siedmiodniowych. -O trybie oraz terminach publikacji plików siedmiodniowych będziemy informować na bieżąco - powiedziała nam Karolina Janik.

***
Więcej:
Metodologia badania Megapanel PBI/Gemius w pytaniach i odpowiedziach.
Aktualizacja: 08 marca 2006 14:28
W nawiązaniu do cytowanej przez Internet Standard wypowiedzi p. Marka Futregi oraz późniejszej korespondencji, Gemius wyjaśnia:

Pan Marek Futrega słusznie zauważył, że wrześniowe('05) wzrosty zasięgów przy jednoczesnym spadku odsłon nie są zjawiskiem naturalnym. Są one wynikiem zmiany metodologii. Metodologia stosowana do września 2005 r. opierała się na błędnym założeniu, iż ruch generowany z zagranicznych IP generowany będzie w większości przez polskich użytkowników internetu. We wrześniu 2005 błąd ten został naprawiony.
Aktualizacja: 16 stycznia 2006 10:15
Autor blogu futrega.org/stek, którego fragmenty cytujemy w tekście, przesłał poniższą wiadomość z prośbą o publikację:


Na wstępnie chciałbym zaprzeczyć, jakobym sugerował, że opóźnienie publikacji listopadowych wyników badania PBI/Gemius Megapanel wynika z odnalezienia poważnego błędu w metodologii badania.
Z niezrozumiałych dla mnie powodów opóźnienie w publikacji wyników połączono w artykule z moim doniesieniem o błędnym obliczaniu zasięgów witryn do września 2005.
W wyjaśnieniu przesłanym przez firmę Gemius tezę o błędnym obliczaniu liczby użytkowników (tzw. "real users") próbuje się obalić tym, że zostały dla niej przyjęte fałszywe przesłanki, a mianowicie, że do obliczeń liczby "real users" są wykorzystywane liczby cookies bezpośrednio z badania gemiusTraffic. Jeśli przyjmiemy takie założenie o przesłankach, pierwotna teza istotnie będzie nieprawdziwa.
Jeśli za "cookies", o których mowa w tezie, prawidłowo przyjmiemy szacunkową liczbę cookies, jaka byłaby zarejestrowana, gdyby ich nie kasowano, to teza pozostanie jednak prawdziwa.
O prawdziwości tezy świadczą nawet informacje zawarte w ramce uzupełniającej artykuł, wyjaśniające, jak Gemius estymuje liczbę "real users". Wystarczy dokładnie zwrócić uwagę na końcowy fragment:
Szacunkową liczbę cookies, jaka byłaby zarejestrowana, gdyby ich nie kasowano, a która do września 2005 uwzględniała ruch WSZYSTKICH użytkowników, tj. z Polski i zagranicy, "łączy się" tam z pochodzącą z badania SMG/KRC liczbą internautów TYLKO Z POLSKI.
Nie trzeba być geniuszem, żeby zrozumieć, dlaczego takie połączenie jest błędne, ale jeśli ktoś ma z tym problemy, to służę wyjaśnieniem: do obliczania, ile cookies odpowiada jednemu internaucie ta szacunkowa liczba cookies uwzględniająca ruch WSZYSTKICH użytkowników powinna była być łączona z liczbą WSZYSTKICH internautów, tj. łączących się z Polski PLUS zagranicy, a nie tylko tych z Polski, których liczbę podaje SMG/KRC.
Próba tłumaczenia rekordowych wrześniowych wzrostów zasięgów w "trywialny" sposób, że dla większości witryn po prostu tak fantastycznie wzrosły, nie jest zbyt przekonująca wobec faktu, że tym wzrostom zasięgów towarzyszyły nienaturalne spadki liczby odsłon, tym bardziej, że w wynikach z innych miesięcy wzrostom zasięgów REGULARNIE towarzyszyły wzrosty liczby odsłon, a spadkom zasięgów - spadki liczby odsłon.
Ocena:
Twoja ocena:
Komentarze (9)
2006-01-16 22:39:55
necke
"Niestety, z nieprawdziwej tezy można wysnuć dowolny, często krzywdzący, wniosek" - ojc, ktos nie uwazal na zajeciach z logiki. Moze tak by tak z laski swojej "z nieprawdziwej przeslanki".
2006-01-16 18:49:40
Vader
Ten megapanel z comiesięcznym kartowaniem powinien umrzeć śmiercią naturalną, już był taki pomysł przejść na urchina którego kupiło google i odciąć się od tej śmiesznej polityki.
2006-01-15 23:20:21
wladek
Sprostowanie - wbrew deklaracjom Gemiusa megapanel obejmuje wyłącznie osoby, które nie potrafią zainstalować przeglądarki i strony zastępczo oglądają zeszłowieczną protezą, czyli Internet Explorerem. Na stronie magapanelu jest to wyraźnie napisane: http://megapanel.pl/?kategoria=9. Tak więc megapanel z zasady pomija ponad 20% badanej populacji - i to akurat tych, którzy naprawdę z internetu potrafią świadomie korzystać. Marek Futrega to badacz o uznanym dorobku, którego publikacje są znane i cytowane. Dla kontrastu firma Gemius nie zatrudnia ani jednego doświadczonego socjologa - i stąd biorą się takie koszmarki, jak publikowanie "estymowanej" liczby odwiedzających dany serwis z dokładnością do 6 cyfr znaczących, choć estymacja oparta jest na parametrach znanych z dokładnością w najlepszym wypadku kilkuprocentową. Głównym powodem niezdolności do opisania metodologii - czego najlepszym dowodem jest załączona ramka z pseudonaukowym bełkotem, wypchanym terminami, których sam autor nie rozumie i w związku z tym tworzy z pozbawione sensu zdania - jest niechęć do ujawnienia najistotniejszego parametru wpływającego na metodologię i publikowane wyniki: wysokości wpłat i udziałów w Radzie Badania. Metodologia jest stale modyfikowana w taki sposób, aby wyniki były jak najkorzystniejsze dla udziałowców PBI. To jest prawdziwy powód przyjęcia liczby przypadkowych gości odwiedzających dany serwis w ciągu miesiąca za podstawowy wskaźnik. I właśnie dlatego nie da się opublikować wyników tygodniowych, bo wzrosłaby względna pozycja serwisów regularnie odwiedzanych.
2006-01-14 13:04:03
Sz
Może czas przenieść statystyki do http://www.google.com/analytics/ Za darmo i nie ma wątpliwości co do ich wyników. Co do gemius, hm, jakoś stat.pl nie ma z tym problemów.
2006-01-14 01:07:25
Vroobelek
dla każdego, kto zna się choć trochę na naturze internetu, megapanel jest wielką ściemą i próbą zastsosowania metodologii, których zastosować się nie da... ps. tajemniczy gosciu, żal mi ciebie.
2006-01-13 22:16:10
ert
Ja rowniez mam w filter.ini w Operze wpisane wszystko co ma w nazwie gemius ;)
2006-01-13 21:14:04
tajemniczy gość
Uwazam, ze opieranie sie na zdaniu "pana" Futregi jest bez sensu. Jak ktos, kto naciaga uzytkownikow swojego portalu na składkę na serwery dla swojego biznesu może pisać, ze ktoś tu kombinuje. Dla mnie jest to osoba zupełnie nieuczciwa, naciągnął luddzi na ponad 50k zł po to aby postawić serwis na szybszych serwerach, po to by zarabiać jeszce więcej i chwilić się na swoim blogu, że za zarobione pieniądze zwiedza świat. Cóż jak widać pukt widzenia zależy od punktu siedzenia i "pan" Futrega jest najlepszym tego przykładem. Może IS zajmie się tematyką naciągania w internecie a przykłąd kurnik.pl będzie idealny: http://www.kurnik.pl/zbiorka2005/ Jak można naciągnąć ludzi na taką kasę tylko po to by zarabiać więcej - to chyba "rydzykowa" strategia. "Panie" Futrega, czekamy tutaj na komentarz do tego tematu i może zajmie się Pan uczciwą pracą a nie szukaniem zadymy bez powodów, bo dla mnie jest pan tylko oszustem
2006-01-13 17:33:52
deque
Mam ustawiony w przeglądarce filtr adblocka na skrypty pochodzące z gemius.pl i blokadę cookisów - podejrzewam, że nie jestem jedyny :). Ile tak naprawde są warte te statystyki?
2006-01-13 15:47:39
Krataai
A IS jak zawsze, ochoczo spieszy i weszy sensacje, tudziez kompromitacje. Kompromitacja dziennikarska jest, ze IS zestawia z jednej strony Gemius, powazna firme robiaca badanie, a z drugiej domoroslego analityka, ktory snuje na swym blogu wlasne widzimisie. Nie chcialo sie podrazyc tematu, czy zabraklo warsztatu, Pani Magdaleno?

reklama
Polecane
Subskrypcje
Prezentujemy raport eCommerce 2011
To piąta edycja naszego raportu. Prezentujemy w nim wyniki naszego - przeprowadzanego do trzech lat - badania polskich sklepów internetowych. W tym roku publikujemy także wyniki innego projektu - zebranych przez Sare opinii użytkowników poczty...
© Copyright 2012 International Data Group Poland S.A.
04-204 Warszawa ul. Jordanowska 12
tel.(+4822)321-78-00 fax(+4822)321-78-88