Zadejte hledaný výraz...

teorie web crawleru

Martin
verified
rating uzivatele
(7 hodnocení)
6. 6. 2010 10:20:19
jak byste postupovali kdyz byste delali web crawler? nejde mi o hotovy
reseni ale jen o teorii. postup bude takovej ze uzivatel zada adresu webu, bot
ho celej projde a vypise jen stranky kde sou umisteny bannery nebo odkazy ktery
ma uzivatel v administraci. ja sem premyslel o nasledujicim postupu:
1. uzivatel zada adresu webu, ta se ulozi do db
2. nacte se web a do db se ulozi vsechny odkazy (samozrejme se zkontroluje
jestli odkazy lezi na stejnym webu nebo vedou ven)
3. potom bude probihat cyklus kterej vzdycky vezme prvni odkaz z db, zase nacte
stranku a odkazy co jeste nejsou v db ulozi, pak vezme druhej odkaz a znova atd
az projde vsechny
a prohledavani jestli uzivatel ma na strance odkaz nebo banner bych dal bud
predtim nez se ulozi do db a nebo nakonec az budou ulozeny vsechny, uspornejsi
by ale asi bylo jeste predtim nez se ulozi
potom nastava jeste jeden problem, co kdyz sou na odkazech relativni cesty? mohl bych sice predpokladat ze kdyz nenajde celou url ale jen cestu k souboru tak bude patrit urcite k webu jenze ten soubor muze taky provadet redirekt a potom bych se dostal na cizi web a zbytecne crawloval i tam. resenim by mozna bylo odkaz nejdriv nacist a pak zkontrolovat url ale to nevim jak, $_SERVER v tomto pripade nepomuze :-/
schvalite mi tento postup nebo ma nekdo efektivnejsi reseni? :-)
pripadne za kolik byste takovyto skript udelali? jedna se o cast vetsiho systemu
a s timhle jedinym si zatim nejsem jistej jak budu postupovat tak zatim nemuzu
rict odhad konecne ceny :-)
diky za napady
6. 6. 2010 10:20:19
https://webtrh.cz/diskuse/teorie-web-crawleru#reply513319
nic neprogramuj a pouzij:
lynx {http_address} -crawl -traversal
nebo tak nejak - uz si to presne nepamatuju a nemam po ruce zrovna zadny *ix
----
no a potom provedes dodatecnej post-process a vyfiltrujes si jenom to, co te zajima
6. 6. 2010 23:36:52
https://webtrh.cz/diskuse/teorie-web-crawleru#reply513318
Martin
verified
rating uzivatele
(7 hodnocení)
6. 6. 2010 23:54:17
super, narychlo sem zagooglil nejaky info a vypada to dobre takze hned jak budu moct tak vyzkousim. diky za tip
6. 6. 2010 23:54:17
https://webtrh.cz/diskuse/teorie-web-crawleru#reply513317
pro vyjaderni diku tady mame reputaci ;)
7. 6. 2010 00:07:09
https://webtrh.cz/diskuse/teorie-web-crawleru#reply513316
Pro odpověď se přihlašte.
Přihlásit