Spousta z nás se jistě dostala do situace, kdy měla nějaký text například v obrazovém formátu. Takovýto text nelze editovat a tak ho někteří raději celý přepíší. To je však zbytečně zdlouhavé a nepříjemné řešení, které není ani zdaleka ideální volbou. Dnes si ukážeme jak dostat text z obrázků a PDF souborů za pomoci několika online OCR služeb, které se mnohdy stanou neocenitelnými pomocníky při práci s dokumenty.

OCR - optické rozpoznávání znaků

OCR (Optical Character Recognition) je zkratkou pro optické rozpoznávání znaků, při kterém z tištěného textu po naskenování a rozpoznání dochází k jeho digitalizaci a převodu do editovatelné podoby. OCR není vždy přesné na 100% a může dojít k chybnému rozpoznání znaků, proto je lepší si výsledný soubor raději zkontrolovat, zda se v něm nenacházejí nějaké chyby.

<p> </p>

Jelikož se výsledek odvíjí od kvality souboru, ze kterého rozpoznáváme text, je zapotřebí, aby byla co nejlepší. S horší kvalitou souboru se pak zvyšuje počet chyb. U některých "nekvalitních" souborů se tak může vyplatit i přepis.

ABBYY FineReader Online - beta

Desktopový ABBYY FineReader patří mezi OCR programy k naprosté špičce a není tomu jinak ani u jeho online bratříčka. Aplikaci ABBYY FineReader Online naleznete na adrese finereader.abbyyonline.com  a  je nutná krátká registrace, po které se můžete vrhnout na převod dokumentů.

Přivítá vás velmi příjemné rozhraní s několika možnostmi nastavení. Pro převod dokumentu už stačí jen nahrát ten, který chcete převést, zadat jazyk dokumentu a rozmyslet si do jakého formátu výsledný soubor chcete uložit. Poté kliknout na "Recognize !".

<p> </p>

Služba není lokalizována do češtiny, ale díky jednoduchosti by neměl nastat žádný problém.

Po dokončení převodu vám na mail přijde odkaz pro stažení souboru a stejně tak se ke svým převedeným dokumentům dostanete na svém ABBYY profilu.

<p> </p>

Na svém profilu uživatel vidí stav dokumentů a může stáhnout již převedené.

Vstupní soubory mohou být ve formátu : BMP, PCX, DCX, JPEG/JPEG 2000, PNG, TIFF/TIF, GIF a  DjVu. Výstupní pak v oblíbených : DOC, XLS, PDF, RTF, TXT. Výsledky jsou velmi dobré a oprava několika chyb byla v mém případě mnohem příjemnější, než přepisování celého dokumentu. Jednu vadu na kráse přeci jen tato služba má.  Denní limit je 10 stránek, což je zapříčiněno tím, že se vše nachází ve fázi vývoje.

Free OCR

Další velmi zajímavou službou je Free OCR, která se nachází na adrese free-ocr.com . Jak již název napovídá služba je free - zdarma a bez nějakých větších omezení a nutnosti registrace.  Jediným limitem je vám tedy 10 obrázků za hodinu a velikost vstupního souboru 2MB. Oproti  FineReaderu je zde však jeden zásadní rozdíl. Při výstupu souboru převedený (rozpoznaný) text není nabídnut ke stažení jako soubor, ale zobrazí se v textovém poli, odkud je ho možné zkopírovat.

<p> </p>

Vstupní soubory je možné nahrávat ve formátu JPG, GIF, TIFF BMP, nebo PDF (u PDF však jen první stranu). Jazyků je na výběr přes 25 včetně češtiny. Pro převod stačí jen nahrát soubor, zvolit jeho jazyk, opsat obrázek (captcha) a poté už jen kliknout na "Send file".

<p> </p>

 Rozpoznání textu je zde otázkou několika kliknutí.

Vše trvá jen několik vteřin a jak můžete vidět na obrázku dole, ne vždy je výsledek nejlepší. V tomto případě to bylo působeno tím, že se v textu nacházel obrázek, který se zobrazil jako nesmyslné znaky a ihned pod ním popis psaný malým písmem nedopadl také nejlépe. U běžného textu je však rozpoznání téměř stoprocentní.

 <p> </p>

Zde můžete vidět, že nic není dokonalé a i běžný obrázek v textu dokáže natropit neplechu.

Závěr

OCR aplikace jsou velmi užitečné a určitě spoustě z nás jendou za čas ušetří čas s zdlouhavým opisováním. Dnes jsme si ukázali jen některé z nich, ale za zmínku stojí například newocr.com a onlineocr.net. V nejbližších dnech se můžete těšit na další článek, ve kterém se zaměříme na desktopové OCR aplikace se spoustou užitečných funkcí navíc. Pokud máte s OCR aplikacemi nějaké zkušenosti, nebo tipy na další podobné služby můžete se o ně podělit v diskusi.