logo
17.07.2015 20:14
1
Zajímalo by mě zda-li pro své fulltextové vyhledávače, nějaké korpusy? Nebo jen vytváříte fulltext na základě obsahu databáze?

Když využijete korpus, máte i slova lemmatizované?

Také by mě zajímalo zda-li při využití korpusu se vám vyhledávání zrychluje nebo zpomaluje?

Já pro jeden web do vyhledávače implementoval svůj korpus i s lemmatizovanými slovy a zaznamenal jsem přesnější výsledky a o 20% rychlejší vyhledávání.

Budu rád když se podělíte o své zkušenosti :)

Co se právě děje na Webtrhu?

17.07.2015 22:12
2
Korpus mi prijde jako kanon na vrabce. Pro hledani pouzivam jen index bez diakritiky osekany o rucne vybrane stopwordy.

S wildcard hledanim to hleda velmi slusne, i kdyz google custom search je stale lepsi (ale nemas nad nim kontrolu)...
17.07.2015 22:47
3
To opět záleží na jakým webu jej implementuješ, a hlavně jak korpus je velký... Navíc je lepší analýzou projet web a korpus skládat jen ze slov které se na webu vyskytují, o tom žádná. Dokážu si představit že Alza, CZC, a některé další společnosti určitě používají vlastní korpusy a ještě k tomu lemmatizované, které jsou ještě vylepšené o našeptávání.

Je jasné že korpus na blog nevložím, ale u eshopu kde je milion produktu již může mít korpus svůj význam, jelikož nemusím projíždět fulltextový index.

Google Custom Search, je dobrý, ale zdá se mi to že to funguje na stejném principu jako bys v normálním google vyhledávání specifikoval dotaz hledané slovo site:example.cz