Zadejte hledaný výraz...

OCR converter

Lennny
verified
rating uzivatele
13. 3. 2012 13:52:34
Zdravím,
poradí mi někdo název, popřípadě kde stáhnout kvalitní OCR converter. Primárně mi jde o převod pdf a jpg naskenovaných formátů do textu, který bych poté mohl použít pro svou čtečku knih. Počítám s investicí do tohoto programu, pokud..... :)
Děkuji za rady.
13. 3. 2012 13:52:34
https://webtrh.cz/diskuse/ocr-converter#reply742794
Aveso
verified
rating uzivatele
13. 3. 2012 14:00:40
Celkem dobrý mi příjde ABBYY FineReader.
13. 3. 2012 14:00:40
https://webtrh.cz/diskuse/ocr-converter#reply742793
Lennny
verified
rating uzivatele
13. 3. 2012 14:07:44
Četl jsem na něj dobré recenze, takže pokud s ním máš praktické zkušenosti....tzn. vynechávání slov a písmen minimálně, bez problémů s diakritikou,atd.... asi ho vyzkouším a postřeh potom můžu také napsat zde.
13. 3. 2012 14:07:44
https://webtrh.cz/diskuse/ocr-converter#reply742792
sweetree
verified
rating uzivatele
27. 5. 2012 15:01:42
Na téma OCR proběhlo několik threadů, Abbyy do vyhledávátka napoví. Dobré recenze jsi mohl číst proto, že na OCR lepší program prostě není. To ale neznamená, že splní tvé očekávání. Moje tedy určitě ani ve verzi 11 Profi nesplnil. Opravili pár bugů, trochu zlepšili rychlost, ale v zásadě poslouží opravdu nejlépe tehdy, když máš téměř nulové ambice, pokud jde o knihu jako produkt. Tedy: stačí-li ti plain text a máš li skutečně knihy, které nemají jinou hodnotu než jen jako vycpávka pro chvíle, kdy doslova zabíjíš nudu (tj: nepotřebuješ se učit, dělat výpisky, nevadí ti ztráta formátování fyzického číslování s ohledem na reformát stránek čtečkou, takže nesedí odkazy, rejstříky, obsah..., nevadí ti semtam podčárník vpašovaný doprostřed věty, kde se dříve lámala strana, ztráta některých obrázků, nečitelnost barev v grafech pro nebarevné e-čtečky atp., tak je Abbyyy oukej ;) ). Ve své praxi jsem při požadavku na alespoň 98% chybovost (mohu dodat několik definic jejího výpočtu ;) ) narazil většinou na nutnost korektury stránky po stránce, u českých textů staršího data na neexistenci slovníkové podpory (na to jsou speciální korpusy, např. projekt IMPACT, kde je ČR zastoupena několika firmami, a ruská Abbyy rovněž) a tedy na nekonečný opruz, pokud bych měl takto postupovat osobně a nikoli skrze najatou a placenou sílu (pak ale zapomeň, že se dostaneš na nákupní cenu knihy, jsme o 1-2 řády výše. Ovšem s garancí top kvality.)
Nicméně tedy na rychlé vyrobení obsahu a následné zhltnutí pár set stránkového příběhu bez požadavku na úplnou integritu příběhu je prostě "abina" nejlepší.
S Kindlem obsluhovaným odpovídajícím SW se dá ovšem docela obstojně číst už i pdf (autoořez okrajů ap.) Ač na pdf hodně lidí nadává jako na nejhorší čtečkový formát, snad všichni prodejci jej zatím nabízejí jako variantu... proč asi ;)
Abych naznačil, v čem je skutečná síla Abbyy enginu: v serverovém provedení vytáhne do podoby txt (různé varianty s ohledem na další využití v národních digitalizačních projektech, formát ALTO-XML a pak derivát TXT) velmi rychle obsah z digitalizovaných předloh, které pak slouží ve frontendech jako podpora vyhledávání. Díky ALTO formátu nalezne pozici x,y hledaného slova ve k tomu účelu spárovaném tiffu/jp2000. Čteš pak ale v originálním obraze.
Verze AFR11 obsahuje export pro epub, ale pokud to člověk se sazbou pro čtečky myslí vážně, tak na tahle udělátka zapomene, protože prostě musí přizpůsobit obsah formě (formátům pro zcela konkrétní čtečkové klony, HW, SW,...) a celé dílko krapet překopat. To ale není o potřebě za dvě hodiny přeskenovat do ečtečky 300 stránkovou scifármu nebo detektivku..., k tomu ti diskutovaný soft postačí (se vším varováním, viz výše). A také jakákoli A4 skenovací platforma (pokud neděláš na novinovém formátu). Velmi se ovšem přimlouvám za primární výstup Tiff, jpg je pro bitonál absolutně nevhodný a z hlediska nároků na rozeznávání artefaktů po konverzi je i kontraproduktivní. Pro zachování zdrojáku stačí uložit jako multitiff do jednoho obřího souboru, použití jpg komprese v tiff kontejneru má jako důsledek stejné poškození obrazu jako samotné uložení do jpg... Zase: platí to obecně, v konkrétním případě může být jpg mezi 80-100% dostatečné.
good luck
27. 5. 2012 15:01:42
https://webtrh.cz/diskuse/ocr-converter#reply742791
Pro odpověď se přihlašte.
Přihlásit