OCR: Porovnání verzí
(Není zobrazeno 14 mezilehlých verzí od 4 dalších uživatelů.) | |||
Řádek 1: | Řádek 1: | ||
− | Zkratka '''OCR''' (z anglického Optical Character Recognition) neboli optické rozpoznávání znaků je | + | Zkratka '''OCR''' (z anglického Optical Character Recognition), neboli optické rozpoznávání znaků je mechanická nebo elektronická přeměna ručně psaného nebo tištěného textu do strojově kódovaného textu, ať už ze skenovaného dokumentu, vyfoceného dokumentu nebo fotografie s textem.<ref>Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition |
− | Lze s nimi pracovat jako s počítačovým textem. Počítačový program převádí obraz buď automaticky, nebo se musí naučit rozpoznávat znaky. K převedení tištěného dokumentu do elektronické formy je zapotřebí speciální OCR software. Obyčejný skener z dokumentu vytvoří pouze [[rastrová grafika|rastrový]] obrázek. OCR software rozpozná ze skenovaného obrázku písmena, které poskládá do slov a následně do vět. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. | + | </ref> |
+ | Metoda pomocí scanneru a příslušného software umožňuje [[Digitalizace|digitalizaci]] tištěných předloh a jejich další zpracování. | ||
+ | Lze s nimi pracovat jako s počítačovým textem. Počítačový program převádí obraz buď automaticky, nebo se musí naučit rozpoznávat znaky. K převedení tištěného dokumentu do elektronické formy je zapotřebí speciální OCR software. Obyčejný skener z dokumentu vytvoří pouze [[rastrová grafika|rastrový]] obrázek. OCR software rozpozná ze skenovaného obrázku písmena, které poskládá do slov a následně do vět. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. Některé systémy jsou schopny reprodukovat formát, který se blíží originální stránce, včetně obrázků, sloupců a jiných netextových komponentů. | ||
+ | |||
+ | Nejvyšším identifikátorem kvality OCR je přesnost převedeného textu. Výrobci OCR programů se snaží přesnost vylepšit například zvyšováním počtu slovníků pro co nejpřesnější převedení slova. Převedený text je podroben korektuře, neboť žádný OCR [[software]] nezaručí stoprocentní přepis. U špatně čitelných textů se OCR nedoporučuje z důvodu nepřesnosti a časové náročnosti. OCR je použitelné pro všechny tištěné výstupy z laserových, inkoustových, jehličkových tiskáren a [[knihtisk]].<ref>OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR</ref> | ||
+ | |||
+ | ==Historie== | ||
+ | Prvotní optické rozpoznávání znaků lze sledovat na technologiích zahrnujících telegrafii a vytváření čtecích zařízení pro nevidomé. V roce 1914 vynalezl Emanuel Goldberg stroj, který četl znaky a přeměnil je na standardní kód telegrafu. Edmund Fournier d'Albe vyvinul současně Optophone, ruční skener, který při přesunutí potištěné stránky vytvořil tóny, které odpovídaly konkrétnímu písmenu nebo znaku. Mezi dvacátými a třicátými lety Emanuel Goldberg vymyslel stroj, který nazýval "statistický stroj". Sloužil pro vyhledávání mikrofilmu v archivu pomocí systému optického rozpoznávání kódu.<ref>Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition | ||
+ | </ref> V padesátých letech kryptoanalytik David H. Shepard a Harvey Cook Jr. vymysleli "Gismo", stroj schopný číst nahlas písmeno po písmenu a interpretovat Morseovu abecedu. V roce 1984 Společnost Caere Corporation vyvinula první pasový scanner pro ministerstvo zahraničí USA. O tři roky později první americké obchody začaly používat OCR pro čtení cenovek. Od roku 2000 jsou OCR systémy dostupné online.<ref> Timeline of optical character recognition. Wikipedia, the free encyklopedia [online]. 2018-18-02 [cit. 2019-02-15]. Dostupné z:https://en.wikipedia.org/wiki/Timeline_of_optical_character_recognition</ref> | ||
+ | |||
+ | ==Typy OCR== | ||
+ | *Optické rozpoznávání znaků (OCR)-zaměřuje se na znaky textového písma. | ||
+ | *Optické rozpoznávání slov (OCR)-zaměřuje se na slova textového písma. | ||
+ | *Inteligentní rozpoznávání znaků (ICR)-zaměřuje se na znaky psané psacím písmem nebo kurzívou. | ||
+ | *Inteligentní rozpoznávání slov (IWR)-zaměřuje se na slova psané psacím písmem nebo kurzívou. | ||
+ | |||
+ | ==Techniky== | ||
+ | '''Před zpracováním''' | ||
+ | |||
+ | Systémy často používají techniky před samotným procesem pro zlepšené rozpoznání. | ||
+ | *De-skew- Pokud dokument nebyl řádně zarovnán při skenování, může být nakloněn o několik stupňů ve směru hodinových ručiček nebo proti směru hodinových ručiček, aby byly řádky textu dokonale vodorovné nebo svislé. | ||
+ | *Despeckle- Odstranění skvrn a vyhlazení okrajů. | ||
+ | *Binarisation- Převede obraz na černobílý. Provádí se jako jednoduchý způsob oddělení textu od pozadí. Navíc účinnost tohoto kroku významně ovlivňuje kvalitu fáze rozpoznávání znaků. | ||
+ | *Line removal- Odstranění neznakových částí. | ||
+ | *Layout analysis- Identifikuje sloupce, odstavce, popisky jako samostatné části. | ||
+ | *Line and word detection- Stanoví výchozí hodnotu pro tvary slov a znaků, v případě potřeby odděluje slova. | ||
+ | *Script recognition-Ve vícejazyčných dokumentech se může písmo, a proto je nutné identifikovat skript před tím. | ||
+ | *Character isolation- Izoluje spojené znaky. | ||
+ | *Normalise aspect ratio and scale- Srovnání poměru stran a měřítka.<ref>Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition | ||
+ | </ref> | ||
+ | |||
+ | |||
+ | '''Po zpracování''' | ||
+ | |||
+ | Přesnost OCR může být zvýšena, pokud je výstupní zařízení omezeno seznamem slov, která se mohou v dokumentu vyskytnout. Mohou to být například všechna slova v anglickém jazyce nebo více technická slova pro konkrétní pole. Tato technika může být problematická, pokud dokument obsahuje slova, která nejsou v seznamu. Znalost gramatiky jazyka, který se skenuje, může také pomoci zjistit, zda je pravděpodobné, že slovo bude sloveso nebo podstatné jméno, umožňuje větší přesnost.<ref>Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition | ||
+ | </ref> | ||
+ | |||
− | |||
==Programy== | ==Programy== | ||
Řádek 47: | Řádek 82: | ||
*ABBYY. Co je OCR. Abbyy.cz [online]. Dostupné z: http://www.abbyy.cz/products/personal/finereader/about_ocr/whatis_ocr/ | *ABBYY. Co je OCR. Abbyy.cz [online]. Dostupné z: http://www.abbyy.cz/products/personal/finereader/about_ocr/whatis_ocr/ | ||
*OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR | *OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR | ||
+ | *Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition | ||
+ | *Timeline of optical character recognition. Wikipedia, the free encyklopedia [online]. 2018-18-02 [cit. 2019-02-15]. Dostupné z:https://en.wikipedia.org/wiki/Timeline_of_optical_character_recognition | ||
+ | |||
+ | ==Související články== | ||
+ | *[[Digitalizace]] | ||
+ | *[[Software]] | ||
+ | *[[Dokument]] | ||
=== Klíčová slova === | === Klíčová slova === | ||
Řádek 55: | Řádek 97: | ||
[[Kategorie:Informační studia a knihovnictví]] | [[Kategorie:Informační studia a knihovnictví]] | ||
[[Kategorie:Informační technologie, knihovnické technologie]] | [[Kategorie:Informační technologie, knihovnické technologie]] | ||
− | [[Kategorie:Hesla | + | [[Kategorie:Hesla ke zpracování UISK]] |
Aktuální verze z 15. 2. 2019, 14:15
Zkratka OCR (z anglického Optical Character Recognition), neboli optické rozpoznávání znaků je mechanická nebo elektronická přeměna ručně psaného nebo tištěného textu do strojově kódovaného textu, ať už ze skenovaného dokumentu, vyfoceného dokumentu nebo fotografie s textem.[1] Metoda pomocí scanneru a příslušného software umožňuje digitalizaci tištěných předloh a jejich další zpracování. Lze s nimi pracovat jako s počítačovým textem. Počítačový program převádí obraz buď automaticky, nebo se musí naučit rozpoznávat znaky. K převedení tištěného dokumentu do elektronické formy je zapotřebí speciální OCR software. Obyčejný skener z dokumentu vytvoří pouze rastrový obrázek. OCR software rozpozná ze skenovaného obrázku písmena, které poskládá do slov a následně do vět. OCR – zpracování textu z tištěné do elektronické podoby je použitelné pro všechny tištěné výstupy z laserových, inkoustových, termosublimačních a jehličkových tiskáren a samozřejmě pro předlohy vytištěné knihtiskem. Některé systémy jsou schopny reprodukovat formát, který se blíží originální stránce, včetně obrázků, sloupců a jiných netextových komponentů.
Nejvyšším identifikátorem kvality OCR je přesnost převedeného textu. Výrobci OCR programů se snaží přesnost vylepšit například zvyšováním počtu slovníků pro co nejpřesnější převedení slova. Převedený text je podroben korektuře, neboť žádný OCR software nezaručí stoprocentní přepis. U špatně čitelných textů se OCR nedoporučuje z důvodu nepřesnosti a časové náročnosti. OCR je použitelné pro všechny tištěné výstupy z laserových, inkoustových, jehličkových tiskáren a knihtisk.[2]
Historie
Prvotní optické rozpoznávání znaků lze sledovat na technologiích zahrnujících telegrafii a vytváření čtecích zařízení pro nevidomé. V roce 1914 vynalezl Emanuel Goldberg stroj, který četl znaky a přeměnil je na standardní kód telegrafu. Edmund Fournier d'Albe vyvinul současně Optophone, ruční skener, který při přesunutí potištěné stránky vytvořil tóny, které odpovídaly konkrétnímu písmenu nebo znaku. Mezi dvacátými a třicátými lety Emanuel Goldberg vymyslel stroj, který nazýval "statistický stroj". Sloužil pro vyhledávání mikrofilmu v archivu pomocí systému optického rozpoznávání kódu.[3] V padesátých letech kryptoanalytik David H. Shepard a Harvey Cook Jr. vymysleli "Gismo", stroj schopný číst nahlas písmeno po písmenu a interpretovat Morseovu abecedu. V roce 1984 Společnost Caere Corporation vyvinula první pasový scanner pro ministerstvo zahraničí USA. O tři roky později první americké obchody začaly používat OCR pro čtení cenovek. Od roku 2000 jsou OCR systémy dostupné online.[4]
Typy OCR
- Optické rozpoznávání znaků (OCR)-zaměřuje se na znaky textového písma.
- Optické rozpoznávání slov (OCR)-zaměřuje se na slova textového písma.
- Inteligentní rozpoznávání znaků (ICR)-zaměřuje se na znaky psané psacím písmem nebo kurzívou.
- Inteligentní rozpoznávání slov (IWR)-zaměřuje se na slova psané psacím písmem nebo kurzívou.
Techniky
Před zpracováním
Systémy často používají techniky před samotným procesem pro zlepšené rozpoznání.
- De-skew- Pokud dokument nebyl řádně zarovnán při skenování, může být nakloněn o několik stupňů ve směru hodinových ručiček nebo proti směru hodinových ručiček, aby byly řádky textu dokonale vodorovné nebo svislé.
- Despeckle- Odstranění skvrn a vyhlazení okrajů.
- Binarisation- Převede obraz na černobílý. Provádí se jako jednoduchý způsob oddělení textu od pozadí. Navíc účinnost tohoto kroku významně ovlivňuje kvalitu fáze rozpoznávání znaků.
- Line removal- Odstranění neznakových částí.
- Layout analysis- Identifikuje sloupce, odstavce, popisky jako samostatné části.
- Line and word detection- Stanoví výchozí hodnotu pro tvary slov a znaků, v případě potřeby odděluje slova.
- Script recognition-Ve vícejazyčných dokumentech se může písmo, a proto je nutné identifikovat skript před tím.
- Character isolation- Izoluje spojené znaky.
- Normalise aspect ratio and scale- Srovnání poměru stran a měřítka.[5]
Po zpracování
Přesnost OCR může být zvýšena, pokud je výstupní zařízení omezeno seznamem slov, která se mohou v dokumentu vyskytnout. Mohou to být například všechna slova v anglickém jazyce nebo více technická slova pro konkrétní pole. Tato technika může být problematická, pokud dokument obsahuje slova, která nejsou v seznamu. Znalost gramatiky jazyka, který se skenuje, může také pomoci zjistit, zda je pravděpodobné, že slovo bude sloveso nebo podstatné jméno, umožňuje větší přesnost.[6]
Programy
ABBYY FineReader OCR
Jedná se o nejznámější a nejpoužívanější komerční OCR program s operačními systémy Microsoft Windows Vista, Windows XP. Mechanismus OCR pracuje na třech základních principech. Jedná se o integritu, účelnost a adaptabilitu. Soustředí se na napodobení přírodního a lidského rozpoznávání.[7]
Adobe Acrobat
OCR program s operačním systémem Windows a Mac OS X Microsoft Office Document Imaging
PDF-XChange Viewer
Primárně je program určen pro prohlížení a editaci pdf dokumentů, ale zároveň umožňuje právě OCR funkcionalitu. Poměrně dobře si poradí i s českými znaky a hlavně umožňuje velmi kvalitní práci s pdf soubory.
Aplikace FreeOCR
Umožnuje plnohodnotné možnosti převodu při zachování struktury textu a jednoduše lze doinstalovat jazykové sady, což je jeho největší výhodou.
OCR online
Programů pro převod je celá řada, a proto jsou častěji využívány online OCR převaděče, které jsou dostupné bez dlouhých instalací a aktualizací. Většinou je nutná pouze registrace.[8]
Online OCR (www.onlineocr.net)
Je považován za nejlepší online převodník. Bez registrace je uživatel omezen počtem převedených dokumentů, velikosti obrázků a souborů. Podporuje 32 jazyků.
New OCR (www.newocr.com)
Není natolik kvalitní. Převedený text je přímo v aplikaci, nikoli již uložený ve formátu DOC nebo RTF. Není potřeba registrace. Podporuje 29 jazyků.
Free OCR (www.free-ocr.com)
Není potřeba se registrovat, nicméně je omezený v převodu počtu obrázků a jednostránkových PDF za hodinu. Podporuje 29 jazyků. Má vyšší kvalitu přesnosti, než New OCR, ovšem text je exportován bez formátování.[9]
Odkazy
Reference
- ↑ Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition
- ↑ OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR
- ↑ Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition
- ↑ Timeline of optical character recognition. Wikipedia, the free encyklopedia [online]. 2018-18-02 [cit. 2019-02-15]. Dostupné z:https://en.wikipedia.org/wiki/Timeline_of_optical_character_recognition
- ↑ Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition
- ↑ Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition
- ↑ ABBYY. Co je OCR. Abbyy.cz [online]. Dostupné z: http://www.abbyy.cz/products/personal/finereader/about_ocr/whatis_ocr/
- ↑ http://www.cnews.cz/jak-na-rozpaznavani-textu-zdarma-free-ocr
- ↑ MAREK, Tomáš. Jak na rozpáznávání textu zdarma (Free OCR). Cnews.cz [online]. 2012-03-12 [cit. 2016-02-03]. Dostupné z: http://www.cnews.cz/jak-na-rozpaznavani-textu-zdarma-free-ocr
Použitá literatura
- MAREK, Tomáš. Jak na rozpáznávání textu zdarma (Free OCR). Cnews.cz [online]. 2012-03-12 [cit. 2016-02-03]. Dostupné z: http://www.cnews.cz/jak-na-rozpaznavani-textu-zdarma-free-ocr
- ABBYY. Co je OCR. Abbyy.cz [online]. Dostupné z: http://www.abbyy.cz/products/personal/finereader/about_ocr/whatis_ocr/
- OCR. Wikipedia, the free encyklopedia [online]. 2015-11-01 [cit. 2016-02-03]. Dostupné z: https://cs.wikipedia.org/wiki/OCR
- Optical character recognition. Wikipedia, the free encyklopedia [online]. 2019-11-01 [cit. 2019-02-15]. Dostupné z: https://en.wikipedia.org/wiki/Optical_character_recognition
- Timeline of optical character recognition. Wikipedia, the free encyklopedia [online]. 2018-18-02 [cit. 2019-02-15]. Dostupné z:https://en.wikipedia.org/wiki/Timeline_of_optical_character_recognition
Související články
Klíčová slova
OCR, digitalizace, software, program, dokument