Zadejte hledaný výraz...

Doporučte dobrý OCR program

Kovboj
verified
rating uzivatele
(13 hodnocení)
28. 4. 2011 09:34:14
Sice to není zcela typografická otázka, ale asi je to nejbližší téma které zde je...
Můžete mi doporučit nějaký dobrý OCR program na české texty? Půjde o převážně souvislý text plus několik obrázků. Jestli OCR program dokáže obrázek vyhodnotit a vložit ho do vygenerovaného textu nebo uložit jako samostatný obrázek je mi celkem jedno, může se to pak doplnit ručně. S tím že převod nebude zcela bez chyby počítám, na druhou stranu bych nerad aby OCR program udělal chybu na každém písmeně s diakritikou :-)
Vhodné by ale bylo aby ten OCR program dokázal zpracovat třeba celý adresář obrázků se skeny a složil to do jednoho souvislého textu.
28. 4. 2011 09:34:14
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632044
Kovboj
Používám tento http://finereader.abbyy.com/ a umí spoustu věcí (včetně exportu do Wordu nebo Excelu a podobně). Je k mání za poměrně slušnou cenu v českých eshopech.
28. 4. 2011 10:08:45
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632043
R. Němec
verified
rating uzivatele
(20 hodnocení)
28. 4. 2011 11:24:28
Tohle by mě taky zajímlo, mám jednu knihu v PDF ale jako obrázek, nikoli text. Takže bych potřeboval něco, co dovede naskenovat PDF a v něm rozlišit písmena s diakritikou. Umí to ten ABBYY?
28. 4. 2011 11:24:28
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632042
NeRo
Ano, umí z PDF (i vícestránkových).
Doplnění: ostatně můžeš si ho vyzkoušet, TRIAL verze je plně funkční, viz třeba http://www.slunecnice.cz/sw/finereaderpro/
28. 4. 2011 11:27:00
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632041
R. Němec
verified
rating uzivatele
(20 hodnocení)
29. 4. 2011 11:47:47
Díky, vyzkouším
29. 4. 2011 11:47:47
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632040
sweetree
verified
rating uzivatele
27. 5. 2011 16:37:29
Zdravím,
převedl jsem z digitální podoby nějakou desítku knížek a s klidným věnováním své ruky ohni prohlásím, že žádný profesionální program použitelný pro občasnou, nikoli produkční práci, neexistuje (linux, Win, jak Mac netuším). U Abby Fine Reader jsem nakonec skončil z nouze ctnost jako u nejlépe použitelného. V průběhu sbírání zkušeností jsem nalezl cca 13 významných chyb, které znemožnují jeho produkční nasazení "vysněným způsobem". Nastíním některé z nich, protože co je důležité pro mne nemusí být důležité pro jiného.
Autenticita vzhledu: pokud je kniha barevná, má obrázky, jsou v ní použity znaky cizích abeced (velmi časté!), a vy chcete zachovat FORMU (obsah je celkem samozřejmý požadavek), nevyhnete se kompromisu. Jako příklad: ekonomický slovník (podbarvená angličtina, čeština černobílá, občas písmo podtržené nějakým samoukem, občas chyba tisku a velmi často chyba sazby(vypadlé písmenko v textu slov)). Dva sloupce na stránce, podčárníky.
Je tedy třeba se rozhodnout, zda chyba patří k originálu nebo je třeba ji opravit. (Abby verze 9,10 umí vložit písmenko, ale NEUMÍ jej přidat ani jako referenci do svého pomocného binárního souboru, který používá jako referenci ke skenované předloze s výpočtem umístění znaků; lidově řečeno nedokáže vměstnat na původní pozici obsazenou jiným znakem znak dodatečný, třeba pro slovo "doporučeně", pokud je v knize "dopručeně", ani po editorově zásahu. U řádku nacpaného písmenky nadoraz navíc přidáním dalšího znaku (nedejbože jednopísmenné předložky) nekontrolovatelně rozháže alignement, nelze použít tvrdé mezery pro spojení atp.). Neopravit chybu pak po předání dílka někomu dalšímu bude vypadat, že jste odvedli nedokonalou práci, což nepotěší. Já tudíž připisuji (má-li to pro mne význam) errata na závěr.
Obrázky, které přesahují do písma: onehdá jsem takto převáděl jednu dětskou těžko dostupnou knížečku se spoustou not rozházených mezi textem, zhusta opatřených i textem písní. (Představte si třeba známé knížečky typu Já muzika.) OCR se samozřejmě v automatickém režimu pokoušelo překládat i tyto podnotové texty,což není dobrý nápad. Pokud ilustrace zasahuje do textu, zůstane blok obrázku s textem ve formě obrázku, zbytek slova se zocrkuje, ovšem slovo se označí jako nesmysl, protože (pokud používáte) korektor, pak v něm toto slovo nemůže existovat. Přidat jej je nesmysl, příště by vám prošel opravdový nesmysl, takže ignorovat...
Slovo po OCR je zapsáno jedním z předem zvolené množiny řezů písma a setu z národních jazyků, které program nabídne. I kdyby jich byl nekonečný počet, stejně se do originálního vzhledu sázených knih nemáte šanci strefit. Buďto tedy stvoříte vlastní řez :),a pokusíte se jej předhodit programu, nebo se spokojíte se vzhledem jen víceméně podobným. Pak ovšem přechod slova v obrázku do písmenkové podoby nebude hezký. Okamžitě praští do oka.
PDF (krom toho, že čtečky používají spíše jiné formáty): jsou k dispozici nejméně TŘI režimy pro sestavení. Krátce:
a) ze skenů vyzobe pouze text a obrázky nechá obrázkama, výsledek bude celkem úhledný, velikost souboru malá, bude funkční vyhledávání v textové části
b) jako a, ale navíc zůstane součástí pdf souboru i původní obrázek, zvolíte, že viditelnou vrstvou je text, obrázek bude pod ním...
c) jako b, ale text bude neviditelný pod obrázkem. Používá se proto, aby zůstal co nejvěrnější vzhled stránky, ale bylo možno vyhledávat text
Nechci z toho dělat tutorial a zdržovat, takže jen: kdo to myslí s OCR vážně a je zvyklý odvádět precizní práci, musí si záměr předem správně rozmyslet a definovat, aby pak nebyl výsledkem zklamán.
Funguje výborně na knihy, které byly již sázeny elektronicky a nemají obrázky. Pak ovšem lze očekávat, že půjde o porušení autorských práv, jinak byste disponovali samotným originálem.
Projekty OCR jako základ podkladů pro elektronické překlady děl na vysokých školách využívají mnohem primitivnějších postupů, formou se vůbec nezabývají.
Naopak digitalizace pragensií nemůže logicky podobný postup vůbec použít, protože co znak a písmo, to historický originál, často ruční. Pak je jediný možný postup skutečně stvořit digitální řezy, a to je tvůrčí a graficky náročná práce s průměrováním skenů stejných znaků (protože ručně nelze zaručit 100% shodu). Zájemcům mohu přihrát link na diplomové práce v tomto oboru, jsou vzrušující ;)
Takže: FineReader může být, ale pro dobrou práci nepostačí dobrý sken (ale třeba je super, že stačí skenovat obě stránky současně na libovolném shit-kombi CIFS based strojku a on si "rozřeže" a pozotáčí obrázek podle potřeby...). Při bližším zájmu dotazy do PM.
27. 5. 2011 16:37:29
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632039
ghostik
verified
rating uzivatele
(21 hodnocení)
27. 5. 2011 19:35:05
FineRerader je z toho, co existuje, asi nej reseni
neni dokonaly, to ostatne ani byt nemuze, ale ma vybornou podporu ruznych jakyku (napr i latina, rectina atd)
jen pro zajimavost:
FineReader se pouziva na Masarykove univerzite mj. na "skenovani" nejen starych diplomek, ktere jsou po rozrezani naskenovany, rozpoznany a vlozeny do systemu Theses (system pro odhalovani plagiatu mezi zaverecnymi pracemi)
ze timto projdou na pozadi i vsechny podporovane soubory, co jsou do IS MUNI vlozeny, je samozrejme
27. 5. 2011 19:35:05
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632038
sweetree
verified
rating uzivatele
28. 5. 2011 01:47:50
ano, zmínil jsem znaky cizích abeced (hodně se hodí němčina, ale i francouzština, norština.. kvůli občasným "séaš", akcentům, kroužkům nad "A" - viz Ikeácké produkty atp...) Co je v profi verzi přínosné pro ghostikem zmíněné skenování je podpora skriptové automatizace. Nicméně já psal o případu, kdy má dojít k vytvoření co nejvěrnější kopie co do obsahu A FORMY. Například právě strojopisné práce s ručními vpisky a korekturami jsou pro AFR a obecně OCRka neskousnutelné (kdo je mladý a zná psací stroj jen z muzea: dva řádky s rozpalem 2 podle normy na klepání diplomky kdysi a do toho perličkou vmezeřený další text tak, že se protínají spodky prvého a hlavičky druhého řádku s tělem vmezeřeného textu ;) Oči a mozek s tím prakticky žádný problém nemívají, ale stroje...)
Pro jistotu: když jsem zmiňoval VŠ, psal jsem o projektech překladů do cizích jazyků, kde se získává elektronický holý text jako zdroj pro tvorbu korpusu.. učení překladových programů ap. Tam se o formu skutečně nedbá, není potřeba.
Samostatnou kapitolou je sken obalu knihy, který je z logiky věci větší než ty papíry v něm pak. Výsledná velikost pro elektronický formát se pak musí ladit ručně, pokud nechcete zmenšovat obalovou fotku nebo ořezávat..., takže žádné A4, A5...
Pro fajnšmekry doporučuji podívat se na nejlepší skenovací mašinu, co se mi podařilo objevit: http://www.youtube.com/watch?v=y16rNqnxj0U&feature=related, myslím, že máme v republice 2 kousky a jak je tady zvykem, nejedou ve třísměnném provozu, což celkem za ty šílené peníze nechápu...
28. 5. 2011 01:47:50
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632037
ghostik
verified
rating uzivatele
(21 hodnocení)
28. 5. 2011 10:09:48
pekna hracka
pro profi vyuziti urcite vhodne
cekal bych, ze podobnych (treba ne zrovna nejvyssich modelu) bude v rep vice (nejvetsi knihovny, moravske zemsky archiv, ...)
28. 5. 2011 10:09:48
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632036
sweetree
verified
rating uzivatele
28. 5. 2011 11:13:59
no, zkoušel jsem si psát s řediteli či technickými vedoucími provozů včetně pokusu pošťouchnout některé k tomu, aby skenovací pracoviště zapojili do programu Muzejní noci (Státní knihovna, ČAV,MLP,...) a vím jen o dvou (ofiko cena se pohybovala kdesi nad milionem eurášů bez softu a u této kategorie produktů jde vždy o těžko dostupné dílčí informace, nejsou to rohlíky na krámu), přičemž další pracoviště (včetně pražských) založila skenovací pracoviště na nižších modelech, protože nepotřebovala takovou produktivitu, respektive výběrový proces s testováním zařízení takového rozsahu vyždaduje prostor, čas a lidi navíc... a nejsou na ně peníze. Takže technici testli nějaké 3 typy systémů a byli rádi, že vybrali z nich... Existují dokumenty o výběrových řízeních na netu, zbytek informací rozkrývajících postupy, ceny... je prakticky nedosažitelný i přes formálně existující výstupy. U nás existují šikovné komerční firmy jako třeba Scanservis, ale tam to je o trochu jiném spektru služeb a těžišti výdělku (vytěžování smluv pojišťoven, plnění databází s cílem likvidovat papírové formy, leckdy i za cenu porušení zákona o archivní službě a zákonů účetních, protože roste cena za skladové prostory a u těchto firem se archivy počítají na kilometrové sloupce... celkem žádná sranda, ale mají zkrátka velmi snadnější život, protože udělají masku formuláře, vychytají logické chyby skenů omezením znaků (třeba na reg. značky, pouze určitý datový typ...) a to se pak stejně překrývá sken přes masku ve dvou vrstvách, protože operátor např. callcentra očima snadněji rozezná detaily. Ale ocrkovaný text (ne každý ovšem ocrkuje!) dovolí efektivněji dohledat cílená data... Taky bych rád viděl takové strojky v projektu Gutenberg, Googlích a dalších ebooks libraries, ale autorskozákonní sračky nestíhající ani zdaleka skutečný vývoj technologií a na ně nabalené právnické lobby jsou brzdou sdílení kvalitního vědomostního a uměleckého dědictví lidstva a i úvah o investicích do projektů právně nestabilních. Ale to by bylo na jiné téma.
28. 5. 2011 11:13:59
https://webtrh.cz/diskuse/doporucte-dobry-ocr-program/#reply632035
Pro odpověď se přihlašte.
Přihlásit