Wyszukiwarka Onetu ulepszona

3 października Onet na poważnie włączy się do wyścigu o użytkowników wyszukiwarek. Stary OnetSzukaj zostanie zaprezentowany w nowej postaci. Sam indeks wrośnie do ponad 200 mln stron, będzie więc trzykrotnie większy niż liczba stron indeksowanych przez ostatnio wzbogacony NetSprint, jednak twórcy nowego produktu podkreślają, że nie to jest jego główną zaletą.

Dr Marek Jerzy Minakowski, dyrektor serwisów wyszukiwawczych Onet.pl - nasza pozycja na polskim rynku internetowym motywowała nas do wytężonych prac nad udoskonaleniem oferowanej wyszukiwarki. O skali dokonanego postępu świadczyć może to, że dwudziestokrotnie zwiększyliśmy liczbę odwiedzanych adresów internetowych. Kierując się ambicją stałego udoskonalania OnetSzukaj, rozbudowaliśmy zespół ludzi zajmujący się weryfikacją wyników wyszukiwania, doskonalący je i eliminujący pozycje niepożądane. Wykorzystaliśmy też dziesięcioletnie doświadczenie w tworzeniu serwisów, które są wygodne i przyjazne w użyciu - skomentował.

- Serwis ma być przezroczysty. Użytkownik powinnien po prostu dostać to, czego szuka - dodał. Dodajmy, że wyszukiwarka Onetu skupia się na indeksowaniu polskich stron, czyli stron w języku polskim i domenie .pl.

Algorytm wyszukiwarki bierze pod uwagę informacje z OnetKatalogu, czyli katalogu polskich stron WWW, który jest tworzony od prawie 10 lat i stale doskonalony ręcznie, dzięki czemu można efektywnie eliminować spam oraz niepożądane rezultaty. Znajduje się w nim ponad 200 tys. opisanych serwisów internetowych, pogrupowanych w 10 tys. głównych kategorii, z których każda ma swojego opiekuna. Liczba gwiazdek przy danym serwisie opisująca jego tematyczną adekwatność, ma wpływ na miejsce w wynikach wyszukiwania.

Przy ocenie danego serwisu, obok informacji z katalogu, pomocne są też dane o popularności danego serwisu pochodzące z Megapanelu.

- O pozycji w wynikach wyszukiwania decyduje przede wszystkim zgodność tematyczna z zapytaniem. Liczymy ją według szeregu parametrów. Bierzemy pod uwagę, czy dane słowa występują w tytule, a jeżeli występują, to w jakim przypadku, czy są w adresie strony czy domenie - wyjaśnia Marek Minakowski. Tzw. page rank ma wpływ na wysokość rezultatów wyszukiwania w tych sytuacjach, gdy strony nie różnią się ze względu na inne aspekty.

Użytkownicy mogą aktywnie włączyć się w redagowanie wyników zgłaszając, że dana strona jest nie na temat, dzieki widocznej koło każdego rezulatatu wyszukiwania ikonki kosza na śmieci. W okienko wyszukiwarki można wpisywać pełne zwroty w języku polskim czyli zwroty z języka naturalnego. Stąd hasło promocyjne "Szukaj jak człowiek".

Silnik nowej wyszukiwarki Onetu został dopracowany dzięki kooperacji z czeskimi i słowackimi specjalistami od wyszukiwarek pracującymi dla Centrum.cz oraz Centrum.sk.

Komentarz Artura Banach, prezesa NetSprint

Informacja, która znalazła się na stronie głównej serwisu, mówiła o "przegladaniu przez Onet ponad 201 mln stron miesięcznie". Jest to więc zupełnie inna wielkość niż liczba stron w indeksie przeszukiwanym przez wyszukiwarkę (jak również inna liczba niż 67.395.841 stron w polskim Internecie, jakie przeszukuje NetSprint). Prawdopodobnie liczba dotyczyła liczby stron, jaką spider Onetu miesięcznie odwiedza.

Z posiadanych przez nas informacji oraz przeprowadzonych badań wynika, że wielkość indeksu NetSprint.pl i Onet.pl są porównywalne, zaś tempo odswieżania stron na NetSprincie jest istotnie większe (np. wszystkie serwisy opiniotwórcze są odwiedzane przez spidery NetSprinta codziennie).

Oczywiście, nie zmienia to faktu, że wielkość indeksu jest ważnym, ale nie najważniejszym kryterium porównawczym dla użytkowników. Rozwiązanie wdrożone przez Onet z pewnością prowadzi do poprawy jakości wyników jaką otrzymują użytkownicy korzystający z wyszukwiarki na tym portalu.

Jesteśmy jednak przekonani, że wykorzystywana przez NetSprint unikalna wiedza na temat ruchu na kilkuset tysiącach polskich serwisów internetowych w połączeniu z całym szeregiem innych czynników przez nas analizowanych przez zaawansowane algorytmy, zaowocuje dużo lepszymi rezultatami niż w konkurencyjnych wyszukiwarkach.

Aktualizacja: 03 października 2005 15:41

Informację uzupełniliśmy o komentarz Artura Banacha, prezesa spółki NetSprint, który zwraca uwagę, że 201 mln stron, o jakich mowa w naszej informacji, nie jest tożsama z liczbą indeksowanych stron. Jest to natomiast liczba stron odwiedzanych przez "pajączka" wyszukiwarki Onetu.

Jednocześnie dr Marek Jerzy Minakowski, dyrektor BU "Wyszukiwarki i Katalog" poinformował nas, że informacja o liczbie stron odwiedzanych przez "spidera" OnetSzukaj zniknęła z wyszukiwarki. "Dla użytkownika nie jest ważna liczba indeksowanych stron, lecz trafność wyników" - powiedział nam. Ruch ten wpisuje się więc w strategię Google, która również usunęła informację o liczbie indeksowanych stron.