Hledáte fotografa?
Zobrazují se odpovědi 1 až 10 z 10

Doporučte dobrý OCR program

  1. Kovboj Hodnocení: 13 (100%) Kovboj is a jewel in the rough Kovboj is a jewel in the rough Kovboj is a jewel in the rough
    1
    Sice to není zcela typografická otázka, ale asi je to nejbližší téma které zde je...

    Můžete mi doporučit nějaký dobrý OCR program na české texty? Půjde o převážně souvislý text plus několik obrázků. Jestli OCR program dokáže obrázek vyhodnotit a vložit ho do vygenerovaného textu nebo uložit jako samostatný obrázek je mi celkem jedno, může se to pak doplnit ručně. S tím že převod nebude zcela bez chyby počítám, na druhou stranu bych nerad aby OCR program udělal chybu na každém písmeně s diakritikou :-)

    Vhodné by ale bylo aby ten OCR program dokázal zpracovat třeba celý adresář obrázků se skeny a složil to do jednoho souvislého textu.

  2. Co se právě děje na Webtrhu?
    Vanis2001 poptává: Návrh grafiky - spěchá
    Waczko poptává: Flat design pro rozsáhlý sociální projekt
    Tomáš Šafář poptává: Svatební tiskoviny
  3. Kovboj

    Používám tento http://finereader.abbyy.com/ a umí spoustu věcí (včetně exportu do Wordu nebo Excelu a podobně). Je k mání za poměrně slušnou cenu v českých eshopech.

  4. NeRo Hodnocení: 13 (100%) NeRo je na dobré cestě
    3
    Tohle by mě taky zajímlo, mám jednu knihu v PDF ale jako obrázek, nikoli text. Takže bych potřeboval něco, co dovede naskenovat PDF a v něm rozlišit písmena s diakritikou. Umí to ten ABBYY?

  5. NeRo

    Ano, umí z PDF (i vícestránkových).

    Doplnění: ostatně můžeš si ho vyzkoušet, TRIAL verze je plně funkční, viz třeba http://www.slunecnice.cz/sw/finereaderpro/

  6. NeRo Hodnocení: 13 (100%) NeRo je na dobré cestě
    5
    Díky, vyzkouším

  7. Zdravím,
    převedl jsem z digitální podoby nějakou desítku knížek a s klidným věnováním své ruky ohni prohlásím, že žádný profesionální program použitelný pro občasnou, nikoli produkční práci, neexistuje (linux, Win, jak Mac netuším). U Abby Fine Reader jsem nakonec skončil z nouze ctnost jako u nejlépe použitelného. V průběhu sbírání zkušeností jsem nalezl cca 13 významných chyb, které znemožnují jeho produkční nasazení "vysněným způsobem". Nastíním některé z nich, protože co je důležité pro mne nemusí být důležité pro jiného.

    Autenticita vzhledu: pokud je kniha barevná, má obrázky, jsou v ní použity znaky cizích abeced (velmi časté!), a vy chcete zachovat FORMU (obsah je celkem samozřejmý požadavek), nevyhnete se kompromisu. Jako příklad: ekonomický slovník (podbarvená angličtina, čeština černobílá, občas písmo podtržené nějakým samoukem, občas chyba tisku a velmi často chyba sazby(vypadlé písmenko v textu slov)). Dva sloupce na stránce, podčárníky.

    Je tedy třeba se rozhodnout, zda chyba patří k originálu nebo je třeba ji opravit. (Abby verze 9,10 umí vložit písmenko, ale NEUMÍ jej přidat ani jako referenci do svého pomocného binárního souboru, který používá jako referenci ke skenované předloze s výpočtem umístění znaků; lidově řečeno nedokáže vměstnat na původní pozici obsazenou jiným znakem znak dodatečný, třeba pro slovo "doporučeně", pokud je v knize "dopručeně", ani po editorově zásahu. U řádku nacpaného písmenky nadoraz navíc přidáním dalšího znaku (nedejbože jednopísmenné předložky) nekontrolovatelně rozháže alignement, nelze použít tvrdé mezery pro spojení atp.). Neopravit chybu pak po předání dílka někomu dalšímu bude vypadat, že jste odvedli nedokonalou práci, což nepotěší. Já tudíž připisuji (má-li to pro mne význam) errata na závěr.

    Obrázky, které přesahují do písma: onehdá jsem takto převáděl jednu dětskou těžko dostupnou knížečku se spoustou not rozházených mezi textem, zhusta opatřených i textem písní. (Představte si třeba známé knížečky typu Já muzika.) OCR se samozřejmě v automatickém režimu pokoušelo překládat i tyto podnotové texty,což není dobrý nápad. Pokud ilustrace zasahuje do textu, zůstane blok obrázku s textem ve formě obrázku, zbytek slova se zocrkuje, ovšem slovo se označí jako nesmysl, protože (pokud používáte) korektor, pak v něm toto slovo nemůže existovat. Přidat jej je nesmysl, příště by vám prošel opravdový nesmysl, takže ignorovat...

    Slovo po OCR je zapsáno jedním z předem zvolené množiny řezů písma a setu z národních jazyků, které program nabídne. I kdyby jich byl nekonečný počet, stejně se do originálního vzhledu sázených knih nemáte šanci strefit. Buďto tedy stvoříte vlastní řez :),a pokusíte se jej předhodit programu, nebo se spokojíte se vzhledem jen víceméně podobným. Pak ovšem přechod slova v obrázku do písmenkové podoby nebude hezký. Okamžitě praští do oka.

    PDF (krom toho, že čtečky používají spíše jiné formáty): jsou k dispozici nejméně TŘI režimy pro sestavení. Krátce:
    a) ze skenů vyzobe pouze text a obrázky nechá obrázkama, výsledek bude celkem úhledný, velikost souboru malá, bude funkční vyhledávání v textové části
    b) jako a, ale navíc zůstane součástí pdf souboru i původní obrázek, zvolíte, že viditelnou vrstvou je text, obrázek bude pod ním...
    c) jako b, ale text bude neviditelný pod obrázkem. Používá se proto, aby zůstal co nejvěrnější vzhled stránky, ale bylo možno vyhledávat text

    Nechci z toho dělat tutorial a zdržovat, takže jen: kdo to myslí s OCR vážně a je zvyklý odvádět precizní práci, musí si záměr předem správně rozmyslet a definovat, aby pak nebyl výsledkem zklamán.

    Funguje výborně na knihy, které byly již sázeny elektronicky a nemají obrázky. Pak ovšem lze očekávat, že půjde o porušení autorských práv, jinak byste disponovali samotným originálem.

    Projekty OCR jako základ podkladů pro elektronické překlady děl na vysokých školách využívají mnohem primitivnějších postupů, formou se vůbec nezabývají.
    Naopak digitalizace pragensií nemůže logicky podobný postup vůbec použít, protože co znak a písmo, to historický originál, často ruční. Pak je jediný možný postup skutečně stvořit digitální řezy, a to je tvůrčí a graficky náročná práce s průměrováním skenů stejných znaků (protože ručně nelze zaručit 100% shodu). Zájemcům mohu přihrát link na diplomové práce v tomto oboru, jsou vzrušující ;)

    Takže: FineReader může být, ale pro dobrou práci nepostačí dobrý sken (ale třeba je super, že stačí skenovat obě stránky současně na libovolném shit-kombi CIFS based strojku a on si "rozřeže" a pozotáčí obrázek podle potřeby...). Při bližším zájmu dotazy do PM.

  8. ghostik Hodnocení: 19 (100%) ghostik bude brzy slavný/á
    7
    FineRerader je z toho, co existuje, asi nej reseni
    neni dokonaly, to ostatne ani byt nemuze, ale ma vybornou podporu ruznych jakyku (napr i latina, rectina atd)

    jen pro zajimavost:
    FineReader se pouziva na Masarykove univerzite mj. na "skenovani" nejen starych diplomek, ktere jsou po rozrezani naskenovany, rozpoznany a vlozeny do systemu Theses (system pro odhalovani plagiatu mezi zaverecnymi pracemi)
    ze timto projdou na pozadi i vsechny podporovane soubory, co jsou do IS MUNI vlozeny, je samozrejme

  9. ano, zmínil jsem znaky cizích abeced (hodně se hodí němčina, ale i francouzština, norština.. kvůli občasným "séaš", akcentům, kroužkům nad "A" - viz Ikeácké produkty atp...) Co je v profi verzi přínosné pro ghostikem zmíněné skenování je podpora skriptové automatizace. Nicméně já psal o případu, kdy má dojít k vytvoření co nejvěrnější kopie co do obsahu A FORMY. Například právě strojopisné práce s ručními vpisky a korekturami jsou pro AFR a obecně OCRka neskousnutelné (kdo je mladý a zná psací stroj jen z muzea: dva řádky s rozpalem 2 podle normy na klepání diplomky kdysi a do toho perličkou vmezeřený další text tak, že se protínají spodky prvého a hlavičky druhého řádku s tělem vmezeřeného textu ;) Oči a mozek s tím prakticky žádný problém nemívají, ale stroje...)

    Pro jistotu: když jsem zmiňoval VŠ, psal jsem o projektech překladů do cizích jazyků, kde se získává elektronický holý text jako zdroj pro tvorbu korpusu.. učení překladových programů ap. Tam se o formu skutečně nedbá, není potřeba.

    Samostatnou kapitolou je sken obalu knihy, který je z logiky věci větší než ty papíry v něm pak. Výsledná velikost pro elektronický formát se pak musí ladit ručně, pokud nechcete zmenšovat obalovou fotku nebo ořezávat..., takže žádné A4, A5...

    Pro fajnšmekry doporučuji podívat se na nejlepší skenovací mašinu, co se mi podařilo objevit: http://www.youtube.com/watch?v=y16rN...eature=related, myslím, že máme v republice 2 kousky a jak je tady zvykem, nejedou ve třísměnném provozu, což celkem za ty šílené peníze nechápu...

  10. ghostik Hodnocení: 19 (100%) ghostik bude brzy slavný/á
    9
    pekna hracka
    pro profi vyuziti urcite vhodne
    cekal bych, ze podobnych (treba ne zrovna nejvyssich modelu) bude v rep vice (nejvetsi knihovny, moravske zemsky archiv, ...)

  11. no, zkoušel jsem si psát s řediteli či technickými vedoucími provozů včetně pokusu pošťouchnout některé k tomu, aby skenovací pracoviště zapojili do programu Muzejní noci (Státní knihovna, ČAV,MLP,...) a vím jen o dvou (ofiko cena se pohybovala kdesi nad milionem eurášů bez softu a u této kategorie produktů jde vždy o těžko dostupné dílčí informace, nejsou to rohlíky na krámu), přičemž další pracoviště (včetně pražských) založila skenovací pracoviště na nižších modelech, protože nepotřebovala takovou produktivitu, respektive výběrový proces s testováním zařízení takového rozsahu vyždaduje prostor, čas a lidi navíc... a nejsou na ně peníze. Takže technici testli nějaké 3 typy systémů a byli rádi, že vybrali z nich... Existují dokumenty o výběrových řízeních na netu, zbytek informací rozkrývajících postupy, ceny... je prakticky nedosažitelný i přes formálně existující výstupy. U nás existují šikovné komerční firmy jako třeba Scanservis, ale tam to je o trochu jiném spektru služeb a těžišti výdělku (vytěžování smluv pojišťoven, plnění databází s cílem likvidovat papírové formy, leckdy i za cenu porušení zákona o archivní službě a zákonů účetních, protože roste cena za skladové prostory a u těchto firem se archivy počítají na kilometrové sloupce... celkem žádná sranda, ale mají zkrátka velmi snadnější život, protože udělají masku formuláře, vychytají logické chyby skenů omezením znaků (třeba na reg. značky, pouze určitý datový typ...) a to se pak stejně překrývá sken přes masku ve dvou vrstvách, protože operátor např. callcentra očima snadněji rozezná detaily. Ale ocrkovaný text (ne každý ovšem ocrkuje!) dovolí efektivněji dohledat cílená data... Taky bych rád viděl takové strojky v projektu Gutenberg, Googlích a dalších ebooks libraries, ale autorskozákonní sračky nestíhající ani zdaleka skutečný vývoj technologií a na ně nabalené právnické lobby jsou brzdou sdílení kvalitního vědomostního a uměleckého dědictví lidstva a i úvah o investicích do projektů právně nestabilních. Ale to by bylo na jiné téma.

Hostujeme u Server powered by TELE3