Zakjan: potrebuji vlastni slovnik, jde vlastne o kontrolu jmena, pri vkladani noveho cloveka do databaze. Takze to nejsou ani normalni slova, ale jmena + prijmeni. To stejne pro nazev firmy.

30. 9. 2008 14:10:39

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134175

Wosonj

(7 hodnocení)

1. 10. 2008 08:15:24

jak psal jirka, muzes na to pouzit soundex hashe. Pomale to tak moc neni a pokud mas hodne dat, lze si ty hashe samozrejme v tabulce u kazdeho slova ulozit jako zvlastni field, nastavit index a porovnavat primo ten.

Pozor, z me zkusenosti soundex v cestine neni zdaleka tak spolehliva metoda jako v anglictine

Jinak Google to dela afaik statisticky.

1. 10. 2008 08:15:24

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134174

Nishkam

(3 hodnocení)

1. 10. 2008 18:29:03

ty data bohuzel nejsou jen v anglictine. Mohou byt v jakemkoliv jazyce. Proto soundex nemuzu pouzit. Asi nejlepsi bude pocitani toho levenshtein jak je psane v clanku, ale ten nemuzu dopredu spocitat a vytvorit index. Jedine co snad v tomto pripade pomuze - vytvorit index alespon na delku retezcu a pak pocitat levenstein pouze pro retezce s podobnou delkou. :throwpc:

1. 10. 2008 18:29:03

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134173

Wosonj

(7 hodnocení)

2. 10. 2008 09:18:55

Jestli uz pak neni jednodussi (a rychlejsi) testovat shodu prniho, pripadne prvnich dvou pismen (na to muze byt index a stejne na zacatku slova preklep neudelas) - tim si mnozstvi porovnavanych retezcu snizis priblizne na cca tricetinu, respektive pri dvou znacich na odhadem nejmene 1/200 (ve slovech neni uniformni rozlozeni). To je urcite vetsi pomoc nez porovnavat delku retezce +-1.

Soundex pouzivame jinak na vsechny jazyky zde, i kdyz se to tam pouziva jen na geograficke nazvy. V negermanskych jazycich to podle mne funguje bidne, ale porad je to celkem dobre pouzitelne.

Mimochodem se tam pouziva prosty soundex() primo v dotazu a vykonove problemy s tim nejsou (pocet zaznamu cca 20k) - mozna ale proto, ze soundex se pouziva az jako posledni moznost az kdyz se nic nenajde jako presna shoda, LIKE a LIKE xxx%. Vzhledem k tomu, ze v ramci redesignu vyvijime ajaxove suggestion, tak to asi ani nebude potreba optimalizovat...

2. 10. 2008 09:18:55

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134172

Nishkam

(3 hodnocení)

2. 10. 2008 10:09:27

jo, porovnavat 1. pismeno vypada jako dobry napad, Mozna nakonec ty indexy zkombinuji a pak uz ten vzorec nemusi byt velky. Tady chlapik popisuje jak upravuje nemecka slova, aby se dala pouzit pro soundex. Nechtel bych to delat pro vsechny jazyky, navic kdyz ani nevim ktery jazyk to bude. :-/

Dekuji za rady!

2. 10. 2008 10:09:27

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134171

Martin Schlemmer

(36 hodnocení)

2. 10. 2008 14:30:51

Nishkame, zkus se podívat ještě na toto:

Approximate/fuzzy string search in PHP

Kdysi jsem si s tím hrál, ale nemám zkušenosti z reálného provozu.

Každopádně tam filtruje řetězce před samotným porovnáváním zajímavým způsobem. Rozláme je na kusy a zahodí všechny, které nemají aspoň dva kusy shodné s hledaným slovem.

2. 10. 2008 14:30:51

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134170

Nishkam

(3 hodnocení)

3. 10. 2008 09:52:16

Diky Retale, prozkoumam to. Vypada to zajimave. Pro mne je akorat blby to GPL, kvuli kteremu nemuzu kod primo pouzit v komercnim produktu. (Vcera jsem mel debatu s vasnivym zastancem software zadarmo :) ) Ale je to kratky, tak se alespon poucim.

3. 10. 2008 09:52:16

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134169

Ondřej Hudeček

(2 hodnocení)

3. 10. 2008 13:47:03

No já bych s tím trochu vydrbal :) Co takhle při každém searchi přes CURL stáhnout stránku s výsledkem vyhledávání toho slova přímo z googlu a podívat se, co on doporučuje (pokud něco)? To slovo si vytáhnout (třeba přes regex), uložit někam do databáze a příště už se z google nemusí nic tahat (defakto každé slovo jenom jednou)...

3. 10. 2008 13:47:03

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134168

Jakub Stacho

(20 hodnocení)

3. 10. 2008 14:40:06

Především Google to neurčuje nějakou matematickou podobností ale vlastním učením. Sleduje, co lidi kdy hledali a pokud se vzápětí opravili, opravu si zapamatuje. Samozřejmě k tomu je nutná obrovská hromada dat.

(zdroj: český blog Googlu)

Napsal Houdas;122967
No já bych s tím trochu vydrbal

Já to přesně tak dělám. Občas ale Google navrhne ještě větší hovadinu...

3. 10. 2008 14:40:06

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134167

Nishkam

(3 hodnocení)

3. 10. 2008 15:18:06

v mem pripade tahani z Googlu nema smysl, protoze data nejsou standardni slovnikove. Jde o toto: zadavam noveho cloveka do CRM-ka a potrebuji zkontrolovat zda ho uz nemam ulozeneho. Jmeno muze byt jakekoliv, dokonce i v ruznych abecedach.

3. 10. 2008 15:18:06

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134166

Martin

(36 hodnocení)

3. 10. 2008 15:56:51

A co takhle přidat k poli pro jméno našeptávač? Sice to asi úplně nevyřeší tvůj problém, ale minimálně by ho to mohlo hodně omezit.

3. 10. 2008 15:56:51

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134165

Nishkam

(3 hodnocení)

3. 10. 2008 16:16:05

Napsal Martin;123022
A co takhle přidat k poli pro jméno našeptávač? Sice to asi úplně nevyřeší tvůj problém, ale minimálně by ho to mohlo hodně omezit.

no ono je to trochu slozitejsi. To jmeno neni 1 ale 3 - jmeno, prijmeni + jeste dalsi jmeno. Taky delam porovnani emailu. Postup je takovy, ze vyberu vsechny podobne jiz zalozene zaznamy. Naseptavac by stejne musel pocitat s preklepy, tzn. ukol zustava stejny. V tomto pripade se ale naseptavac nehodi - tech poli je nekolik.

A ne vzdy se jedna o vyplneni formulare. Algoritmus "fuzzy" vyhledavani potrebuji i pro jine pripady - importy z jinych zdroju apod.

3. 10. 2008 16:16:05

https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134164