OCR a odfiltrování čar přes text

verified

7. 11. 2019 12:21:05

Zdravím,

poradí někdo, jak řešit OCR, když je přes text čára? Tzn. je přeškrtnut. Pohledově je text čitelný.

Vzor v příloze.

Zkoušel jsem běžné nástroje jako Adobe DC,... ale bez úspěchu.

Kdo doporučí funkční řešení, které zvládne vytěžit text v celku, má u mě odměnu.

Třeba tak :-) https://www.alkohol.cz/produkty/destilaty/kategorie/?product-grid-filter=price_from:800,price_to:1200

7. 11. 2019 12:21:05

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422788

verified

(94 hodnocení)

7. 11. 2019 12:50:45

Ahoj,

https://github.com/tesseract-ocr/ by si s tim měl poradit.

7. 11. 2019 12:50:45

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422787

verified

7. 11. 2019 13:09:33

Napsal Pavel Janků;1552552
Ahoj,

https://github.com/tesseract-ocr/ by si s tim měl poradit.

Díky za tip. Ten jsem už testoval a nevycházel z toho nejlíp. Viz příloha.

7. 11. 2019 13:09:33

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422786

verified

7. 11. 2019 13:11:10

Zatím nejlépe vychází tohle:

Best Free OCR API, Online OCR, Searchable PDF - Fresh 2019 OCR Software

---------- Příspěvek doplněn 07.11.2019 v 13:56 ----------

Druhý kandidát na vítěze je https://cloud.google.com/vision/docs/drag-and-drop

PS: Pokud máte něco lepšího, nabídka odměny stále platí ;-)

7. 11. 2019 13:11:10

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422785

verified

5. 2. 2020 23:39:40

Jestli je to pro Vás důležité, tak se na to určitě dá napsat nějaké custom řešení, které Vám ty čáry ze všech obrázků odstraní a pak je mžete prohnat přes OCR. Ale cena bude určitě v tisících.

5. 2. 2020 23:39:40

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422784

verified

6. 2. 2020 20:04:43

Doplním, jak bylo vyřešeno:

1. Prohnalo se to přes OCR Google Cloud, který zvládl vyčíst většinu písmen. Mnohdy zkomoleně, ale byl to základ.

2. Poté se vzal výstup z OCR a srovnával se proti zdrojové databázi, kterou jsme měli k dispozici.

3. Kde nebyla přesná shoda, tam jsme vzali jméno + první 3 písmena z ulice, upravili do prostého tvaru "JANNOVAKULI" a opět prohnali přes zdrojovou databázi.

4. Na cca 15%, kde nebyla nalezena ani částečná shoda (bod 3), jsme použili hledání podobnosti pomocí Levenštejnovi vzdálenosti.

Z 50 000 adres nám tak zbylo jen pár desítek, které se doplnily ručně.

Tak třeba někdy v budoucnosti to někomu pomůže :-).

6. 2. 2020 20:04:43

https://webtrh.cz/diskuse/ocr-a-odfiltrovani-car-pres-text/#reply1422783

Pro odpověď se přihlašte.

Prodej Více

Letago.cz na prodej, skvělý inzertní web

3 500 Kč

0 příhozů

Obsahový web indeti24.cz

5 000 Kč

0 příhozů

Prodej hotového funnelu na digitální produkt

7 000 Kč

0 příhozů

Web o umelé inteligenci – s ohromným ziskovým potencionálem

10 000 Kč

0 příhozů

Prodej webové stránky barevnazahrada.cz

20 000 Kč

0 příhozů

Poptávky Více

Hledám k sobě parťáka/ investora

Hledám ke koupi hostingovou společnost nebo projekt

Umazaní zvuku u krátkého videa

Správa Sklik, Google Ads a srovnávače

Poptávka na spolupráci – WooCommerce doprava a platby (Zásilkovna, Česká pošta, online platby)

Pracovní nabídky Více

Hledáme vývojářský tým 3-6 FTE na vývoj v Rust

Linux Administrator

React Native vývojář

Práce z domu, Praha

Ruby on Rails vývojář

Práce z domu, Praha

Frontend developer

50 000 - 70 000 Kč

Nabídky Více

🚀 15 let praxe v e-commerce (Luxor.cz, Expert.cz) 👉 Pomohu s 🎯 PPC, 🔍 SEO, ✉️ emailingem, 🤖 personalizací, 🎨 brandingem, 💳 věrnostními programy, 📺 médii, 🛒 zbožovými srovnávači, 🧭 strategií i řízením agentury. Malé i větší projekty.

Dlouhodobá spolupráce v rámci tvorby webových stránek [WordPress, Elementor PRO, Webflow]

Zabezpečení, zrychlení a analýza webových stránek

Profesionální copywriting a redakce

Fakturuješ přes IČO nebo máš S.R.O.? ZMĚŇ TO A FAKTURUJ PŘES LLC