Zadejte hledaný výraz...

OCR a odfiltrování čar přes text

Polci1
verified
rating uzivatele
(2 hodnocení)
7. 11. 2019 12:21:05
Zdravím,
poradí někdo, jak řešit OCR, když je přes text čára? Tzn. je přeškrtnut. Pohledově je text čitelný.
Vzor v příloze.
Zkoušel jsem běžné nástroje jako Adobe DC,... ale bez úspěchu.
Kdo doporučí funkční řešení, které zvládne vytěžit text v celku, má u mě odměnu.
Třeba tak :-) https://www.alkohol.cz/produkty/destilaty/kategorie/?product-grid-filter=price_from:800,price_to:1200
7. 11. 2019 12:21:05
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422788
Pavel Janků
verified
rating uzivatele
(93 hodnocení)
7. 11. 2019 12:50:45
Ahoj,
https://github.com/tesseract-ocr/ by si s tim měl poradit.
7. 11. 2019 12:50:45
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422787
Polci1
verified
rating uzivatele
(2 hodnocení)
7. 11. 2019 13:09:33
Napsal Pavel Janků;1552552
Ahoj,
https://github.com/tesseract-ocr/ by si s tim měl poradit.
Díky za tip. Ten jsem už testoval a nevycházel z toho nejlíp. Viz příloha.
7. 11. 2019 13:09:33
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422786
Polci1
verified
rating uzivatele
(2 hodnocení)
7. 11. 2019 13:11:10
Zatím nejlépe vychází tohle:
Best Free OCR API, Online OCR, Searchable PDF - Fresh 2019 OCR Software
---------- Příspěvek doplněn 07.11.2019 v 13:56 ----------
Druhý kandidát na vítěze je https://cloud.google.com/vision/docs/drag-and-drop
PS: Pokud máte něco lepšího, nabídka odměny stále platí ;-)
7. 11. 2019 13:11:10
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422785
exander
verified
rating uzivatele
(2 hodnocení)
5. 2. 2020 23:39:40
Jestli je to pro Vás důležité, tak se na to určitě dá napsat nějaké custom řešení, které Vám ty čáry ze všech obrázků odstraní a pak je mžete prohnat přes OCR. Ale cena bude určitě v tisících.
5. 2. 2020 23:39:40
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422784
Polci1
verified
rating uzivatele
(2 hodnocení)
6. 2. 2020 20:04:43
Doplním, jak bylo vyřešeno:
1. Prohnalo se to přes OCR Google Cloud, který zvládl vyčíst většinu písmen. Mnohdy zkomoleně, ale byl to základ.
2. Poté se vzal výstup z OCR a srovnával se proti zdrojové databázi, kterou jsme měli k dispozici.
3. Kde nebyla přesná shoda, tam jsme vzali jméno + první 3 písmena z ulice, upravili do prostého tvaru "JANNOVAKULI" a opět prohnali přes zdrojovou databázi.
4. Na cca 15%, kde nebyla nalezena ani částečná shoda (bod 3), jsme použili hledání podobnosti pomocí Levenštejnovi vzdálenosti.
Z 50 000 adres nám tak zbylo jen pár desítek, které se doplnily ručně.
Tak třeba někdy v budoucnosti to někomu pomůže :-).
6. 2. 2020 20:04:43
https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text#reply1422783
Pro odpověď se přihlašte.
Přihlásit