NetSprint: osiagnęliśmy przewagę nad Google

Dziś NetSprint prezentuje wyniki wyszukiwania pochodzące z udoskonalonego mechanizmu. Algorytm wyszukiwarki bierze pod uwagę nie tylko liczbę linków prowadzących do danego serwisu z innych witryn, lecz również 'wartość' serwisu. Artur Banach, prezes NetSprint wyjaśnia, skąd bierze się ocena serwisu, do czego potrzebne były dane zdobyte przez Gemius od panelistów. I odpowiada na kilka zarzutów, z jakimi nowa propozycja jego firmy może się spotkać. Czy na polskim rynku pojawi się godny rywal Google? Nasz rozmówca jest przekonany, że tak.

NetSprint: osiagnęliśmy przewagę nad Google
Skąd pomysł stworzenia nowego mechanizmu wyszukiwarki NetSprint?

Pod koniec ubiegłego roku, obserwując bardzo szybki wzrost zasobów zgromadzonych w polskim Internecie, wspólnie z Wirtualną Polską stwierdziliśmy, że jednym z naszych głównych celów powinno być indeksowanie niemal wszystkich wartościowych dokumentów znajdujących się w polskiej Sieci. Tylko wtedy wyszukiwarka jest użyteczna dla internautów. Aby się upewnić w tym przekonaniu, ale też lepiej poznać potrzeby polskich użytkowników, poprosiliśmy firmę Gemius o przeprowadzenie dla nas badań, czym możemy przekonać ich do swoich rozwiązań. Jedno z kluczowych pytań w tym badaniu brzmiało: jakie cechy wyszukiwarki zachęciłyby cię do zmiany tego mechanizmu, z którego obecnie korzystasz? Wyniki były zgodne z naszą intuicją. Badani wskazali, że takimi cechami są szybkość wyszukiwarki i większa liczba indeksowanych stron. W czasie przeprowadzania badania, w polskim internecie zaindeksowanych było około 20 milionów różnych dokumentów w wyszukiwarkach.

Włączając w to Google, które też indeksuje polskie dokumenty?

Google miał prawdopodobnie nieco więcej zaindeksowanych stron, jednak nie była to istotna różnica.

Oszacowaliśmy, że aby sprostać wymaganiom naszych użytkowników, powinniśmy mieć do jesieni zaindeksowanych minimum 50 mln polskich stron. Udało nam się zaindeksować 67 mln. To ogromny skok w stosunku do ok. 20 mln stron w grudniu ubiegłego roku.

Ale pojawił się kolejny problem. Nie sztuką jest zwiększyć liczbę indeksowanych stron. Użytkownicy i tak poprzestają na pierwszej stronie wyników wyszukiwania. Równie ważne więc, co liczba zindeksowanych stron jest określenie, które strony są wartościowe dla użytkowników, po to, by już na pierwszej stronie z wynikami otrzymywali najbardziej precyzyjne rezultaty.

NetSprint: osiagnęliśmy przewagę nad Google
Doszliśmy do wniosku, że aby to osiągnąć, wyszukiwarka musi mieć trzy cechy. Opiniotwórcze serwisy powinny być codziennie indeksowane, spam powinien być eliminowany, tak, by jak najrzadziej zdarzały się sytuacje takie, jak opisywany w Internet Standard problem Google z porno w domenie w.kutno.pl. Trzecim najważniejszym celem, na jakim nam zależało, było znalezienie nowego sposobu spojrzenia na to, czym jest wartościowy serwis.

To kluczowa kwestia. Głównym miernikiem wartości serwisu dla Google jest liczba odnośników, które do niego prowadzą z innych serwisów.

To się powoli zmienia. Idea była taka, że wartościowy jest ten serwis, który ma dużo odnośników, które do niego prowadzą i jednocześnie pochodzą z wartościowych stron, czyli takich, które mają dużo linków do siebie. Obecnie Google rozbudował ten mechanizm, ale wciąż Page Rank odgrywa tam dużą rolę. Świadczy o tym chociażby popularność aukcji na których oferowane są linki ze stron z wysoką wartością tego wskaźnika.

Właściciel serwisu może sobie kupić tysiąc odnośników z innych serwisów z page rank równym np. 5 lub 6. Dzięki temu teoretycznie rośnie wartość takiej strony w oczach wyszukiwarki, co jest oczywisty absurdem. Słuszny w swych założeniach mechanizm przestaje więc działać i nie można się tylko na nim opierać, bo nie otrzymamy wtedy najbardziej wartościowych wyników na pierwszej stronie.

Taki mechanizm przypomina nieco błędne koło. Jak NetSprint oceniał wartość poszczególnych dokumentów?

NetSprint był w pierwszej piątce wyszukiwarek na świecie, które po Google wprowadziły analizę linków prowadzących do danego dokumentu. Przez długi czas mechanizm skutecznie określał, które serwisy są wartościowe dla użytkowników. Z czasem jednak webmasterzy, którzy dobrze poznali ten mechanizm, zaczęli go wykorzystywać niezgodnie z intencją wyszukiwarek. Rozpoczęliśmy więc poszukiwanie sposobu na nowe określenie, które serwisy są wartościowe dla użytkowników by połączyć takie dane z naszymi dotychczasowymi algorytmami.

Jak wartość serwisu w oczach wyszukiwarki wpływa na wyniki, jakie otrzymuje użytkownik?

Na wynik wyszukiwania wpływają dwie rzeczy: to, czy serwis jest wartościowy oraz to, jak jego treść odpowiada na zapytanie użytkownika.

Niepożądaną jest sytuacja, gdy strona bezwartościowa, która jest tworzona tylko po to, by zaistnieć w wyszukiwarce, wyskakuje na pierwszej stronie wyników wyszukiwania. Z drugiej strony niepożądane jest też, by na pierwszej stronie z wynikami były wyłącznie Onet, Wirtualna Polska czy IDG. Te miary muszą więc być mnożone. W efekcie na górze są te serwisy, które są zarówno obiektywnie wartościowe, ale także ich treść dobrze odpowiada na zapytania internautów.

Ale jak można ocenić, który serwis jest wartościowy?

W ocenie tej kwestii pomaga nam badanie Megapanel. W wyniku współpracy z Gemiusem otrzymaliśmy niezwykle ważne informacje na temat zachowań internautów na niemal wszystkich polskich serwisach. Gemius analizuje zachowanie kilkudziesięciu tysięcy polskich panelistów w sieci. Widząc, w jaki sposób korzystają z poszczególnych stron, możemy lepiej określać ich obiektywną wartość. Oczywiście, nie tylko ten czynnik wpływa na naszą ocenę, jednak ponieważ jego zastosowanie jest unikalne w skali świata, nasz algorytm nazwaliśmy Traffic Index.