Zkratka OCR (z anglického Optical Character Recognition), neboli optické rozpoznávání znaků je metoda, která pomocí scanneru a příslušného software umožňuje digitalizaci tištěných předloh a jejich další zpracování. Lze s nimi pracovat jako s počítačovým textem. Počítačový program převádí obraz buď automaticky, nebo se musí naučit rozpoznávat znaky. K převedení tištěného dokumentu do elektronické formy je zapotřebí speciální OCR software. Obyčejný skener z dokumentu vytvoří pouze rastrový obrázek. OCR software rozpozná ze skenovaného obrázku písmena, které poskládá do slov a následně do vět. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem.

Nejvyšším identifikátorem kvality OCR je přesnost převedeného textu. Výrobci OCR programů se snaží přesnost vylepšit například zvyšováním počtu slovníků pro co nejpřesnější převedení slova. Převedený text je podroben korektuře, neboť žádný OCR software nezaručí stoprocentní přepis. U špatně čitelných textů se OCR nedoporučuje z důvodu nepřesnosti a časové náročnosti. OCR je použitelné pro všechny tištěné výstupy z laserových, inkoustových, jehličkových tiskáren a knihtisk.[1]

Programy

ABBYY FineReader OCR

Jedná se o nejznámější a nejpoužívanější komerční OCR program s operačními systémy Microsoft Windows Vista, Windows XP. Mechanismus OCR pracuje na třech základních principech. Jedná se o integritu, účelnost a adaptabilitu. Soustředí se na napodobení přírodního a lidského rozpoznávání.[2]

Adobe Acrobat

OCR program s operačním systémem Windows a Mac OS X Microsoft Office Document Imaging

PDF-XChange Viewer

Primárně je program určen pro prohlížení a editaci pdf dokumentů, ale zároveň umožňuje právě OCR funkcionalitu. Poměrně dobře si poradí i s českými znaky a hlavně umožňuje velmi kvalitní práci s pdf soubory.

Aplikace FreeOCR

Umožnuje plnohodnotné možnosti převodu při zachování struktury textu a jednoduše lze doinstalovat jazykové sady, což je jeho největší výhodou.

OCR online

Programů pro převod je celá řada, a proto jsou častěji využívány online OCR převaděče, které jsou dostupné bez dlouhých instalací a aktualizací. Většinou je nutná pouze registrace.[3]

Online OCR (www.onlineocr.net)

Je považován za nejlepší online převodník. Bez registrace je uživatel omezen počtem převedených dokumentů, velikosti obrázků a souborů. Podporuje 32 jazyků.

New OCR (www.newocr.com)

Není natolik kvalitní. Převedený text je přímo v aplikaci, nikoli již uložený ve formátu DOC nebo RTF. Není potřeba registrace. Podporuje 29 jazyků.

Free OCR (www.free-ocr.com)

Není potřeba se registrovat, nicméně je omezený v převodu počtu obrázků a jednostránkových PDF za hodinu. Podporuje 29 jazyků. Má vyšší kvalitu přesnosti, než New OCR, ovšem text je exportován bez formátování.[4]


Odkazy

Reference

  1. OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR
  2. ABBYY. Co je OCR. Abbyy.cz [online]. Dostupné z: http://www.abbyy.cz/products/personal/finereader/about_ocr/whatis_ocr/
  3. http://www.cnews.cz/jak-na-rozpaznavani-textu-zdarma-free-ocr
  4. MAREK, Tomáš. Jak na rozpáznávání textu zdarma (Free OCR). Cnews.cz [online]. 2012-03-12 [cit. 2016-02-03]. Dostupné z: http://www.cnews.cz/jak-na-rozpaznavani-textu-zdarma-free-ocr

Použitá literatura

Klíčová slova

OCR, digitalizace, software, program, dokument