Google w poszukiwaniu nowych źródeł danych

Google interesuje się oprogramowaniem do rozpoznawania znaków i zatrudnia właśnie specjalistów w tej dziedzinie. "$Obecnie czytamy prawie każdą stronę internetową na świecie. Pomóż nam przeczytać również wszystkie materiały drukowane!$" - wzywa Google w ogłoszeniu dotyczącym pracy dla inżynierów specjalizujących się w programach OCR. Niejako przy okazji Google przypomina, że kilka miesięcy temu udostępnił ruchowi wolnego oprogramowania kod źródłowy systemu OCR pod nazwą Tesseract, opracowanego przez HP w latach 1985-1995.

W połowie lat 90. XX wieku HP zdecydował się zawiesić rozwój programu i wycofać się z działki OCR. Dwa lata temu kilku specjalistów z HP zdecydowało się jednak zrobić użytek z pokrywającego się kurzem programu i zaproponowało Uniwersytetowi w Las Vegas wspólne wypuszczenie go na rynek open source. Uniwersytet poprosił z kolei o pomoc specjalistów z Google, którzy po dokonaniu kilku poprawek uznali, że system nadaje się do publicznego udostępnienia.

Tesseract nie jest więc tak naprawdę efektem pracy Google. Można podejrzewać, że nagłośnienie tego w tej chwili jest po pierwsze zabiegiem public relations, umożliwiającym zwiększenie kapitału sympatii dla Google po stronie ruchu open source. Po drugie jest elementem polowania na OCR-owe talenty, które mogą ujawnić się w trakcie prac nad udostępnionym do publicznej obróbki oprogramowaniem. Po trzecie zaś jest objawem nadziei na wypracowanie w ramach ruchu open source nowego, bardziej efektywnego niż dotychczasowe podejścia do rozpoznawania znaków.

Można uznać, że potwierdza to początek ogłoszenia, w którym Google pyta dramatycznie "Czy nie sądzisz, że OCR jest tak naprawdę złym podejściem do rozwiązania tego problemu? W końcu, znaki nas tak naprawdę nie obchodzą, chodzi raczej o słowa i idee, które zostały nimi wyrażone". Jeśli wśród czytelników są wspomniani specjaliści, którzy do tego chcieliby przeprowadzić się do Mountain View polecam stronę znajdującą się pod adresem www.google.com/support/jobs/bin/answer.py?answer=23733.

W gruncie rzeczy może chodzić o to, aby stworzyć - w ramach ruchu open source, czy poza nim - powszechnie dostępne oprogramowanie OCR dla indywidualnego użytkownika, dzięki któremu ów mógłby przenieść do Internetu posiadane zasoby słowa pisanego - coś w rodzaju zgooglowanej wersji Projektu Gutenberga - i w ten sposób przyczynić się do zwiększenia ilości danych dostępnych w Internecie. Danych, które Google będzie mógł później wykorzystać w strategii reklamowej.

Nie mówiąc o tym, że Google prawdopodobnie doszedł do wniosku, że PDF-owe wersje książek udostępnianych w serwisie Google Book Search nie umożliwiają pełnego wykorzystania ich reklamowego potencjału i należy pochylić się z troską nad zwykłym .txt.