Zadejte hledaný výraz...

Fulltext seznamu zabere 100 GB

Petr Nevrlý
verified
rating uzivatele
18. 3. 2010 13:33:43
Napsal MichalekII;479491
Rád bych se zeptal odkud máte ty průměrné hodnoty velikosti stránek, průběžně sleduji velikost asi 35.000 stránek vychází mi průměrná velikost zdrojového kódu asi 23,5 kB. (viz http://alfa.elchron.cz/stats/)
Z přednášky o fulltextu Seznamu.
V přednášce z 2007 viz http://download.seznam.cz/vyvojari/vs/fulltext_stepan-skrob.pdf je uváděno 10kB
V přednášce z 2009 bylo uváděno cca 11kB, ale tu teď nějak nemůžu dohledat.
18. 3. 2010 13:33:43
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/strana/2#reply473052
isgroup
verified
rating uzivatele
(2 hodnocení)
19. 3. 2010 09:08:19
Cau
co myslis tou cache ?? jako cachovani vysledku ?? jestli jo tak je to kravina.. to je tam max 0.6%
Napsal petrox;479363
Průměrná stránka má ~11kB zdrojového kódu a ~6kB textu.
Při 350M dokumentů je to tedy cca 2TB jen textu (nekomprimovaného).
Není zas taková výzva data jen uložit. Veselejší je vymyslet způsob uložení a prohledávání. Pokud ve špičce přijde třeba 500 req/sec a do cache se dostane jen 40%, tam začíná teprve správná legrace;) Vezměte si, jak dlouho by mohl trvat nad takovým objemem jen grep a sort.
19. 3. 2010 09:08:19
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/strana/2#reply473051
Petr Nevrlý
verified
rating uzivatele
19. 3. 2010 10:34:08
Napsal isgroup;479984
Cau
co myslis tou cache ?? jako cachovani vysledku ?? jestli jo tak je to kravina.. to je tam max 0.6%
Ano, myslel jsem cachování výsledků hledání. Ve špičce se přibližuje i 60% (opět je zdrojem přednáška o FT hledání Seznamu - rok 2009) tzn., že v rozmezí n hodin přijde až 60% dotazů víc než 1x.
Vezměte si třeba dotaz "freefoto" a statistiku hledanosti http://search.seznam.cz/stats?collocation=freefoto - jaký význam by mělo ten samý dotaz hledat 9x za minutu, když se jeho výsledek může v cache nějakou tu minutu/hodinu udržet.
19. 3. 2010 10:34:08
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/strana/2#reply473050
Pro odpověď se přihlašte.
Přihlásit