Zadejte hledaný výraz...

Fulltext seznamu zabere 100 GB

David Kácha
verified
rating uzivatele
(39 hodnocení)
12. 3. 2010 13:18:44
Dneska mě zarazila informace, která je trochu staršího data, ale přesto mě šokovala a to že kompletní databáze seznamu zabírá pouze 30G. Čekal jsem to v jednotkách tera a tohle mě fakt šokovalo.
Připadá vám to taky něják málo?
Již delší dobu si pohrávám s myšlenkou vlastního fulltextu, ale vždy mi připadal největší problém právě množství dat.
12. 3. 2010 13:18:44
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473067
HTML dokumenty jsou vesměs poměrně malé. Když pominu miniaturní screenshoty, které jsou také v řádu pár kB, tak tam není nic jiného, co by velikost navyšovalo. Proto mi těch 30GB přijde jako rozumné množství. Otázkou je kolik stránek to ve skutečnosti zhruba je.
12. 3. 2010 13:29:05
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473066
hm
verified
rating uzivatele
(20 hodnocení)
12. 3. 2010 13:29:27
by me zajimalo kde jsi tuhle zarucenou informaci dostal?
12. 3. 2010 13:29:27
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473065
David Kácha
verified
rating uzivatele
(39 hodnocení)
12. 3. 2010 13:31:47
Napsal AlesiBoss;475599
by me zajimalo kde jsi tuhle zarucenou informaci dostal?
Přednáška "Seznam: fulltextový vyhledávač - Štěpán Škrob"
12. 3. 2010 13:31:47
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473064
hm
verified
rating uzivatele
(20 hodnocení)
12. 3. 2010 13:37:06
no... tak dejme tomu ze seznam uchovava cele html kazde stranky co zaindexuje v osekanem tvaru (bez html - jen text v nake sve strukture pripadne) takze tak prumerne dejem tomu 5kB na stranku vcetne nejakych specialnich informaci do indexu... stranek jsou miliony? miliardy? ja neivm kolik unikatnich adres indexuje... kazdopadne mi 30GB vychazi na 6 milionu adres... to neni moc... ale ani malo
12. 3. 2010 13:37:06
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473063
David Kácha
verified
rating uzivatele
(39 hodnocení)
12. 3. 2010 13:37:59
Tak jsem asi trochu zpřeházel čísla. Jedná se to 100G a 30M dokumentů, ale tak mi to nepřipadá moc.
12. 3. 2010 13:37:59
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473062
Martin Klíma
verified
rating uzivatele
(13 hodnocení)
12. 3. 2010 13:39:28
Napsal maxik;475606
Tak jsem asi trochu zpřeházel čísla. Jedná se to 100G a 30M dokumentů, ale tak mi to nepřipadá moc.
Nevím co všechno seznam ukládá, ale připadá mi to odpovídající...proč se ti to zdá málo?
12. 3. 2010 13:39:28
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473061
David Kácha
verified
rating uzivatele
(39 hodnocení)
12. 3. 2010 13:41:08
Napsal Pooky;475607
Nevím co všechno seznam ukládá, ale připadá mi to odpovídající...proč se ti to zdá málo?
Tak má to v sobě texty skoro celého českého internetu ;)
12. 3. 2010 13:41:08
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473060
hm
verified
rating uzivatele
(20 hodnocení)
12. 3. 2010 13:51:54
Napsal maxik;475608
Tak má to v sobě texty skoro celého českého internetu ;)
oni ty texty tlik nezabiraj kdyz jsou bez html :)
12. 3. 2010 13:51:54
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473059
Petyk
verified
rating uzivatele
(3 hodnocení)
12. 3. 2010 13:57:06
Pro představu, kolik dat to asi může být:
100GB = 107374182400B
1 A4 potisklá 12px Times New Roman Lorem ipsum textu obsahuje 4735 B textu
22676701 listů A4
500 listů = 1 arch papíru (cca 5cm) = 226767cm .= 2,27km papíru, a to se mi nezdá moc :)
EDIT: oboustraně je to něco přes kilometr, když si člověk uvědomí jak velké máme knihovny, tak ten českej net trochu podceňujeme :)
12. 3. 2010 13:57:06
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473058
soudruh
verified
rating uzivatele
(57 hodnocení)
12. 3. 2010 16:11:45
Napsal maxik;475606
Jedná se to 100G a 30M dokumentů, ale tak mi to nepřipadá moc.
zkus si napst 10 MEGA plaintextu
az skoncis pochopis, ze 100G je mazec :rolleyes:
12. 3. 2010 16:11:45
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473057
koffee
verified
rating uzivatele
(1 hodnocení)
12. 3. 2010 18:20:04
Když jsem zpracovával bakalářku, tak jsem našel, že je to 200GB+ ;)
str. 26 http://vyvojari.seznam.cz/cz/seznam-a-vysoke-skoly/prednasky/2007/fulltextove-hledani-1
12. 3. 2010 18:20:04
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473056
isgroup
verified
rating uzivatele
(2 hodnocení)
17. 3. 2010 23:20:27
nas hlavni index na fulltextu zabira 4TB v soucasne dobe .
je taky otazka co presne ukladaji, nalpriklad google nezaklada lokalne a do cache objekty vetsi jako 126kb
17. 3. 2010 23:20:27
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473055
Petr Nevrlý
verified
rating uzivatele
18. 3. 2010 08:26:55
Průměrná stránka má ~11kB zdrojového kódu a ~6kB textu.
Při 350M dokumentů je to tedy cca 2TB jen textu (nekomprimovaného).
Není zas taková výzva data jen uložit. Veselejší je vymyslet způsob uložení a prohledávání. Pokud ve špičce přijde třeba 500 req/sec a do cache se dostane jen 40%, tam začíná teprve správná legrace;) Vezměte si, jak dlouho by mohl trvat nad takovým objemem jen grep a sort.
18. 3. 2010 08:26:55
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473054
MichalekII
verified
rating uzivatele
(2 hodnocení)
18. 3. 2010 13:16:54
Rád bych se zeptal odkud máte ty průměrné hodnoty velikosti stránek, průběžně sleduji velikost asi 35.000 stránek vychází mi průměrná velikost zdrojového kódu asi 23,5 kB. (viz http://alfa.elchron.cz/stats/)
Napsal petrox;479363
Průměrná stránka má ~11kB zdrojového kódu a ~6kB textu.
Při 350M dokumentů je to tedy cca 2TB jen textu (nekomprimovaného).
Není zas taková výzva data jen uložit. Veselejší je vymyslet způsob uložení a prohledávání. Pokud ve špičce přijde třeba 500 req/sec a do cache se dostane jen 40%, tam začíná teprve správná legrace;) Vezměte si, jak dlouho by mohl trvat nad takovým objemem jen grep a sort.
18. 3. 2010 13:16:54
https://webtrh.cz/diskuse/fulltext-seznamu-zabere-100-gb/#reply473053
Pro odpověď se přihlašte.
Přihlásit