Google: Ludzie nam ufają

-Jeśli odnajdziesz długo poszukiwanego przyjaciela lub ważne informacje dotyczące trudnej do zdiagnozowania choroby myślisz "ale mam szczęście". I ten moment, każdy z nich kiedy najważniejsza dla Ciebie strona WWW ukazuje się jako pierwszy wynik w Google, zostaje w twojej pamięci- mówi Marissa Mayer, wiceprezes Google Inc. ds. wyszukiwania i satysfakcji użytkownika. W wywiadzie udzielonym IDG News Service, opowiada o przyszłości wyszukiwania: wyszukiwaniu uniwersalnym i wideo oraz problemach z nimi związanych. Wspomina o tym czego obawia się Google, o tym ile lat będą jeszcze trwały prace nad wyszukiwaniem oraz o tym, że firma... analizuje rozmowy głosowe.

Google: Ludzie nam ufają
Są różne podejścia technologiczne do wyszukiwania wideo. Na przykład firma Blinkx twierdzi, że jest lepsza od Google, ponieważ dzięki wykorzystaniu technologii rozpoznawania mowy, posiada indeks tekstowy tego co jest mówione w klipach wideo. W jakim punkcie, jeśli chodzi o wyszukiwanie wideo, stoi dzisiaj Google?

Google Video rozwijało się w interesujący sposób. Przy starcie wyszukiwanie opierało się na załączonych opisach i, co ciekawe, nie można było odtwarzać wideo. Zmieniliśmy to. Dzisiaj jest możliwość odtwarzania wideo [przy wynikach wyszukiwania - przyp. red.] i przeszukiwania treści na poziomie meta. Jeden z kolejnych elementów, który prawdopodobnie pojawi się w wyszukiwaniu wideo, jest związany z rozpoznawaniem mowy.

Prawdopodobnie słyszałeś o naszej usłudze 1-800-GOOG411 [darmowa usługa telefoniczna działająca w USA - rozmówca komunikuje się głosowo z automatem by uzyskać informacje lokalne, np. o najbliższej pizzerii - przyp. red].

To czy -411 może być rentownym biznesem na razie nie jest jasne. Ja jestem dość sceptyczna. Powodem dla którego naprawdę stworzyliśmy ten system jest zbudowanie doskonałego systemu przetwarzania mowy na tekst... I ten system będzie miał bardzo wiele różnych zastosowań, także wyszukiwanie wideo.

Nasi eksperci od rozpoznawania mowy mówią: jeśli chcecie byśmy zbudowali dobry model rozpoznawania mowy, potrzebujemy jak najwięcej fonemów, czyli jak nawięcej sylab wymawianych przez szczególne głosy o szczególnej intonacji. Więc potrzebujemy wielu rozmawiających ludzi, mówiących różnorodne kwestie, żebyśmy mogli "wytrenować" nasz system. Podsumowując 1-800-GOOG411 opiera się na pozyskaniu wielu różnorodnych sampli zawierających mowę, po to by rozpoznając głos w wideo, zrobić to z jak największą dokładnością.

Marissa Mayer, Vice President of Search Product and User Experience, Google

Marissa Mayer ma 32 lata. Do Google dołączyła w 1999 r. i była jednym z pierwszych pracowników firmy, która dzisiaj na całym świecie zatrudnia kilkanaście tysięcy osób.

Została pierwszą kobietą na stanowisku inżynierskim w Google. Ukończyła informatykę na Uniwersytecie Stanforda.

A co z niemą treścią wideo, np. akcją?

To będzie szczególnie trudne, większość dzisiejszych rozwiązań Google bazuje na tekście. Potrzebujemy tekstu i dlatego pracujemy nad jak najlepszym modelem rozpoznawania mowy i przekształcania jej w tekst. Zgadzam się, że jest bardzo wiele sytuacji humorystycznych, takich, w których dużą rolę gra kontekst i wiele scen, które nie zawierają żadnych dialogów. I w tego typu wypadkach musimy zdać się na społeczność, która będzie na przykład "tagowała" filmy.

Badania nad rozpoznawaniem twarzy i obiektów w wideo są na bardzo wczesnym etapie. Można stwierdzić: tak, w tej klatce pokazywana jest piłka, ale to dużo za mało i za wcześnie aby to miało jakiekolwiek komercyjne zastosowanie.

Niektórzy krytykują Google za to, że analizuje zapytania ze względu na pojedyncze słowa kluczowe, a nie język naturalny, jak całe zdania.

Na dzień dzisiejszy Google naprawdę dobrze sobie radzi ze słowami kluczowymi, myślimy, że to ograniczenie powinno znikać wraz z upływem czasu. Ludzie powinni mieć możliwość zadawania pytań, a my powinniśmy mieć możliwość rozumienia tych pytań. Albo powinni mieć możliwość komunikowania się z wyszukiwarką na różnych poziomach ogólności. Otrzymujemy wiele zapytań ogólnych - nie o konkretne słowa, ale bardziej w stylu "o co w tym chodzi?". Wielu ludzi uważa, że rozwiązaniem tego typu problemów jest sieć semantyczna. My jednak patrzymy na sprawę inaczej - przy dużej ilości danych, zaczynasz dostrzegać rzeczy, które w działaniu sprawiają wrażenie inteligentnych, chociaż w istocie dotarcie do nich odbywało się na najniższym poziomie.

Na przykład kiedy wpiszesz do Google "GM", to wiemy, że chodzi o "General Motors". Z kolei jeśli wpiszesz "GM foods", odpowiadamy "genetically-modified foods" [ang. żywność modyfikowana genetycznie]. Ponieważ przetwarzamy ogromne pokłady informacji, mamy wiele danych o kontekście, np. wokół akronimów. I dochodzi do tego, że silnik wyszukiwarki wygląda na sprytny, tak jakby znał semantykę, tymczasem naprawdę tak nie jest. Opiera się to po prostu na rozwiązaniach typu "brute force". Moim zdaniem, najlepszym algorytmem dla wyszukiwania powinny być metody obliczeniowe typu brute-force, wynikające ze zwykłej złożoności analizy dużej ilości danych oraz metoda jakościowa opierająca się na ludziach.