Koronavirus.eu - 242 000 návštěv za 18 dní
Zobrazují se odpovědi 1 až 6 z 6

OCR a odfiltrování čar přes text

  1. Zdravím,

    poradí někdo, jak řešit OCR, když je přes text čára? Tzn. je přeškrtnut. Pohledově je text čitelný.
    Vzor v příloze.

    Zkoušel jsem běžné nástroje jako Adobe DC,... ale bez úspěchu.

    Kdo doporučí funkční řešení, které zvládne vytěžit text v celku, má u mě odměnu.
    Třeba tak :-) https://www.alkohol.cz/produkty/dest...,price_to:1200
    Přiložené miniatury Přiložené miniatury Klikněte na obrázek pro plnou velikost Název:  Snímek obrazovky 2019-11-07 v 12.15.08.png Zobrazení: 73 Velikost:  12,7 KB  

  2. Co se právě děje na Webtrhu?
    Martinjelinek poptává: Zkracovac utm blokovani fb
    Fildin poptává: Odvirování stránek na Joomla a VM
    Tomáš Plaček poptává: Předělání stránek 1:1 do wordpressu
  3. Ahoj,

    https://github.com/tesseract-ocr/ by si s tim měl poradit.

  4. Citace Původně odeslal Pavel Janků Zobrazit příspěvek
    Ahoj,

    https://github.com/tesseract-ocr/ by si s tim měl poradit.
    Díky za tip. Ten jsem už testoval a nevycházel z toho nejlíp. Viz příloha.
    Přiložené miniatury Přiložené miniatury Klikněte na obrázek pro plnou velikost Název:  Screen.png Zobrazení: 106 Velikost:  26,0 KB  

  5. Zatím nejlépe vychází tohle:
    Best Free OCR API, Online OCR, Searchable PDF - Fresh 2019 OCR Software

    ---------- Příspěvek doplněn 07.11.2019 v 13:56 ----------

    Druhý kandidát na vítěze je https://cloud.google.com/vision/docs/drag-and-drop

    PS: Pokud máte něco lepšího, nabídka odměny stále platí ;-)

  6. Jestli je to pro Vás důležité, tak se na to určitě dá napsat nějaké custom řešení, které Vám ty čáry ze všech obrázků odstraní a pak je mžete prohnat přes OCR. Ale cena bude určitě v tisících.

  7. Doplním, jak bylo vyřešeno:

    1. Prohnalo se to přes OCR Google Cloud, který zvládl vyčíst většinu písmen. Mnohdy zkomoleně, ale byl to základ.
    2. Poté se vzal výstup z OCR a srovnával se proti zdrojové databázi, kterou jsme měli k dispozici.
    3. Kde nebyla přesná shoda, tam jsme vzali jméno + první 3 písmena z ulice, upravili do prostého tvaru "JANNOVAKULI" a opět prohnali přes zdrojovou databázi.
    4. Na cca 15%, kde nebyla nalezena ani částečná shoda (bod 3), jsme použili hledání podobnosti pomocí Levenštejnovi vzdálenosti.

    Z 50 000 adres nám tak zbylo jen pár desítek, které se doplnily ručně.

    Tak třeba někdy v budoucnosti to někomu pomůže :-).

Spolupracujeme: Jooble.org Hostujeme u Server powered by TELE3