logo
07.11.2019 12:21
1
Zdravím,

poradí někdo, jak řešit OCR, když je přes text čára? Tzn. je přeškrtnut. Pohledově je text čitelný.
Vzor v příloze.

Zkoušel jsem běžné nástroje jako Adobe DC,... ale bez úspěchu.

Kdo doporučí funkční řešení, které zvládne vytěžit text v celku, má u mě odměnu.
Třeba tak :-) https://www.alkohol.cz/produkty/dest...,price_to:1200

Přiložené miniatury
07.11.2019 12:50
2
Ahoj,

https://github.com/tesseract-ocr/ by si s tim měl poradit.
07.11.2019 13:09
3
Původně odeslal Pavel Janků
Ahoj,

https://github.com/tesseract-ocr/ by si s tim měl poradit.
Díky za tip. Ten jsem už testoval a nevycházel z toho nejlíp. Viz příloha.

Přiložené miniatury
07.11.2019 13:11
4
Zatím nejlépe vychází tohle:
Best Free OCR API, Online OCR, Searchable PDF - Fresh 2019 OCR Software

---------- Příspěvek doplněn 07.11.2019 v 13:56 ----------

Druhý kandidát na vítěze je https://cloud.google.com/vision/docs/drag-and-drop

PS: Pokud máte něco lepšího, nabídka odměny stále platí ;-)
05.02.2020 23:39
5
Jestli je to pro Vás důležité, tak se na to určitě dá napsat nějaké custom řešení, které Vám ty čáry ze všech obrázků odstraní a pak je mžete prohnat přes OCR. Ale cena bude určitě v tisících.
06.02.2020 20:04
6
Doplním, jak bylo vyřešeno:

1. Prohnalo se to přes OCR Google Cloud, který zvládl vyčíst většinu písmen. Mnohdy zkomoleně, ale byl to základ.
2. Poté se vzal výstup z OCR a srovnával se proti zdrojové databázi, kterou jsme měli k dispozici.
3. Kde nebyla přesná shoda, tam jsme vzali jméno + první 3 písmena z ulice, upravili do prostého tvaru "JANNOVAKULI" a opět prohnali přes zdrojovou databázi.
4. Na cca 15%, kde nebyla nalezena ani částečná shoda (bod 3), jsme použili hledání podobnosti pomocí Levenštejnovi vzdálenosti.

Z 50 000 adres nám tak zbylo jen pár desítek, které se doplnily ručně.

Tak třeba někdy v budoucnosti to někomu pomůže :-).