Google umożliwia przeszukiwanie papierowych skanów w PDF oraz...

Google wprowadziło w swojej wyszukiwarce możliwość przeszukiwania dokumentów PDF pod kątem zawartych w nich skanów dokumentów papierowych. Co więcej, dzięki nowemu narzędziu, sprytny użytkownik może bez większego wysiłku kopiować całą zawartość tekstową takiego materiału z PDF do bardziej przyjaznej formy.

Google wprowadziło do swojej wyszukiwarki nowe narzędzie oparte na technologii OCRopus. Dzięki niemu wyszukiwarka potrafi przeszukiwać PDF również pod kątem zawartych w nich skanów papierowych. To jednak nie wszystko. Jednocześnie bowiem pojawiła się możliwość "wyciągania" tekstu z owych obrazków do uniwersalnej formy.

Pod tym adresem znajdziecie zeskanowany dokument PDF oraz ten sam w formacie HTML - przekonwertowany przez Google.

Serwis labnol.org opisał sposób, w jaki sposób można wykorzystać narzędzie aby szybko skopiować tekst z dużej liczby skanów zapisanych w formacie PDF. Wystarczy na swojej stronie stworzyć folder (podany przykład to abc.com/pdf) i załadować na nim wszystkie obrazki PDF. Potem pozostaje przygotować prostą stronę, która linkuje do całej zawartości folderu. Gotowe! Teraz należy już tylko poczekać na boty Googla i obejrzeć całość w HTML (zapytanie site:abc.com/pdf filetype:pdf).