Zadejte hledaný výraz...

Vyhledani podobnych retezcu

Nishkam
verified
rating uzivatele
(3 hodnocení)
30. 9. 2008 12:21:27
Mozna nekdo bude vedet nebo budete mit napad.
Kdyz dam v Googlu vyhledat napr. "webtrh", zepta se me
Did you mean: weather ?
Nasel ke slovu "webtrh" podobne slovo "weather"
Nevite jak to dela, nebo jak by to slo udelat v PHP/MySQL?
30. 9. 2008 12:21:27
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134178
myslím, že by to šlo porovnáváním soundex hashů. Přečti si tento článek - http://php.vrana.cz/preklepy-ve-vyhledavani.php
jirka
30. 9. 2008 13:18:10
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134177
Honza
verified
rating uzivatele
(17 hodnocení)
30. 9. 2008 13:18:26
Potřebuješ vlastní slovník, nebo stačí ten googlí?
30. 9. 2008 13:18:26
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134176
Nishkam
verified
rating uzivatele
(3 hodnocení)
30. 9. 2008 14:10:39
Dekuji Jirko, to muze byt zajimave i kdyz pri velkem objemu dat asi hodne pomale. Kazdopadne nakopnuti spravnym smerem :)
Zakjan: potrebuji vlastni slovnik, jde vlastne o kontrolu jmena, pri vkladani noveho cloveka do databaze. Takze to nejsou ani normalni slova, ale jmena + prijmeni. To stejne pro nazev firmy.
30. 9. 2008 14:10:39
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134175
Wosonj
verified
rating uzivatele
(7 hodnocení)
1. 10. 2008 08:15:24
jak psal jirka, muzes na to pouzit soundex hashe. Pomale to tak moc neni a pokud mas hodne dat, lze si ty hashe samozrejme v tabulce u kazdeho slova ulozit jako zvlastni field, nastavit index a porovnavat primo ten.
Pozor, z me zkusenosti soundex v cestine neni zdaleka tak spolehliva metoda jako v anglictine
Jinak Google to dela afaik statisticky.
1. 10. 2008 08:15:24
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134174
Nishkam
verified
rating uzivatele
(3 hodnocení)
1. 10. 2008 18:29:03
ty data bohuzel nejsou jen v anglictine. Mohou byt v jakemkoliv jazyce. Proto soundex nemuzu pouzit. Asi nejlepsi bude pocitani toho levenshtein jak je psane v clanku, ale ten nemuzu dopredu spocitat a vytvorit index. Jedine co snad v tomto pripade pomuze - vytvorit index alespon na delku retezcu a pak pocitat levenstein pouze pro retezce s podobnou delkou. :throwpc:
1. 10. 2008 18:29:03
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134173
Wosonj
verified
rating uzivatele
(7 hodnocení)
2. 10. 2008 09:18:55
Jestli uz pak neni jednodussi (a rychlejsi) testovat shodu prniho, pripadne prvnich dvou pismen (na to muze byt index a stejne na zacatku slova preklep neudelas) - tim si mnozstvi porovnavanych retezcu snizis priblizne na cca tricetinu, respektive pri dvou znacich na odhadem nejmene 1/200 (ve slovech neni uniformni rozlozeni). To je urcite vetsi pomoc nez porovnavat delku retezce +-1.
Soundex pouzivame jinak na vsechny jazyky zde, i kdyz se to tam pouziva jen na geograficke nazvy. V negermanskych jazycich to podle mne funguje bidne, ale porad je to celkem dobre pouzitelne.
Mimochodem se tam pouziva prosty soundex() primo v dotazu a vykonove problemy s tim nejsou (pocet zaznamu cca 20k) - mozna ale proto, ze soundex se pouziva az jako posledni moznost az kdyz se nic nenajde jako presna shoda, LIKE a LIKE xxx%. Vzhledem k tomu, ze v ramci redesignu vyvijime ajaxove suggestion, tak to asi ani nebude potreba optimalizovat...
2. 10. 2008 09:18:55
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134172
Nishkam
verified
rating uzivatele
(3 hodnocení)
2. 10. 2008 10:09:27
jo, porovnavat 1. pismeno vypada jako dobry napad, Mozna nakonec ty indexy zkombinuji a pak uz ten vzorec nemusi byt velky. Tady chlapik popisuje jak upravuje nemecka slova, aby se dala pouzit pro soundex. Nechtel bych to delat pro vsechny jazyky, navic kdyz ani nevim ktery jazyk to bude. :-/
Dekuji za rady!
2. 10. 2008 10:09:27
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134171
Nishkame, zkus se podívat ještě na toto:
Approximate/fuzzy string search in PHP
Kdysi jsem si s tím hrál, ale nemám zkušenosti z reálného provozu.
Každopádně tam filtruje řetězce před samotným porovnáváním zajímavým způsobem. Rozláme je na kusy a zahodí všechny, které nemají aspoň dva kusy shodné s hledaným slovem.
2. 10. 2008 14:30:51
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134170
Nishkam
verified
rating uzivatele
(3 hodnocení)
3. 10. 2008 09:52:16
Diky Retale, prozkoumam to. Vypada to zajimave. Pro mne je akorat blby to GPL, kvuli kteremu nemuzu kod primo pouzit v komercnim produktu. (Vcera jsem mel debatu s vasnivym zastancem software zadarmo :) ) Ale je to kratky, tak se alespon poucim.
3. 10. 2008 09:52:16
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134169
No já bych s tím trochu vydrbal :) Co takhle při každém searchi přes CURL stáhnout stránku s výsledkem vyhledávání toho slova přímo z googlu a podívat se, co on doporučuje (pokud něco)? To slovo si vytáhnout (třeba přes regex), uložit někam do databáze a příště už se z google nemusí nic tahat (defakto každé slovo jenom jednou)...
3. 10. 2008 13:47:03
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134168
Jakub Stacho
verified
rating uzivatele
(20 hodnocení)
3. 10. 2008 14:40:06
Především Google to neurčuje nějakou matematickou podobností ale vlastním učením. Sleduje, co lidi kdy hledali a pokud se vzápětí opravili, opravu si zapamatuje. Samozřejmě k tomu je nutná obrovská hromada dat.
(zdroj: český blog Googlu)
Napsal Houdas;122967
No já bych s tím trochu vydrbal
Já to přesně tak dělám. Občas ale Google navrhne ještě větší hovadinu...
3. 10. 2008 14:40:06
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134167
Nishkam
verified
rating uzivatele
(3 hodnocení)
3. 10. 2008 15:18:06
v mem pripade tahani z Googlu nema smysl, protoze data nejsou standardni slovnikove. Jde o toto: zadavam noveho cloveka do CRM-ka a potrebuji zkontrolovat zda ho uz nemam ulozeneho. Jmeno muze byt jakekoliv, dokonce i v ruznych abecedach.
3. 10. 2008 15:18:06
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134166
Martin
verified
rating uzivatele
(36 hodnocení)
3. 10. 2008 15:56:51
A co takhle přidat k poli pro jméno našeptávač? Sice to asi úplně nevyřeší tvůj problém, ale minimálně by ho to mohlo hodně omezit.
3. 10. 2008 15:56:51
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134165
Nishkam
verified
rating uzivatele
(3 hodnocení)
3. 10. 2008 16:16:05
Napsal Martin;123022
A co takhle přidat k poli pro jméno našeptávač? Sice to asi úplně nevyřeší tvůj problém, ale minimálně by ho to mohlo hodně omezit.
no ono je to trochu slozitejsi. To jmeno neni 1 ale 3 - jmeno, prijmeni + jeste dalsi jmeno. Taky delam porovnani emailu. Postup je takovy, ze vyberu vsechny podobne jiz zalozene zaznamy. Naseptavac by stejne musel pocitat s preklepy, tzn. ukol zustava stejny. V tomto pripade se ale naseptavac nehodi - tech poli je nekolik.
A ne vzdy se jedna o vyplneni formulare. Algoritmus "fuzzy" vyhledavani potrebuji i pro jine pripady - importy z jinych zdroju apod.
3. 10. 2008 16:16:05
https://webtrh.cz/diskuse/vyhledani-podobnych-retezcu/#reply134164
Pro odpověď se přihlašte.
Přihlásit