teorie web crawleru

verified

6. 6. 2010 10:20:19

jak byste postupovali kdyz byste delali web crawler? nejde mi o hotovy

reseni ale jen o teorii. postup bude takovej ze uzivatel zada adresu webu, bot

ho celej projde a vypise jen stranky kde sou umisteny bannery nebo odkazy ktery

ma uzivatel v administraci. ja sem premyslel o nasledujicim postupu:

1. uzivatel zada adresu webu, ta se ulozi do db

2. nacte se web a do db se ulozi vsechny odkazy (samozrejme se zkontroluje

jestli odkazy lezi na stejnym webu nebo vedou ven)

3. potom bude probihat cyklus kterej vzdycky vezme prvni odkaz z db, zase nacte

stranku a odkazy co jeste nejsou v db ulozi, pak vezme druhej odkaz a znova atd

az projde vsechny

a prohledavani jestli uzivatel ma na strance odkaz nebo banner bych dal bud

predtim nez se ulozi do db a nebo nakonec az budou ulozeny vsechny, uspornejsi

by ale asi bylo jeste predtim nez se ulozi

potom nastava jeste jeden problem, co kdyz sou na odkazech relativni cesty? mohl bych sice predpokladat ze kdyz nenajde celou url ale jen cestu k souboru tak bude patrit urcite k webu jenze ten soubor muze taky provadet redirekt a potom bych se dostal na cizi web a zbytecne crawloval i tam. resenim by mozna bylo odkaz nejdriv nacist a pak zkontrolovat url ale to nevim jak, $_SERVER v tomto pripade nepomuze :-/

schvalite mi tento postup nebo ma nekdo efektivnejsi reseni? :-)

pripadne za kolik byste takovyto skript udelali? jedna se o cast vetsiho systemu

a s timhle jedinym si zatim nejsem jistej jak budu postupovat tak zatim nemuzu

rict odhad konecne ceny :-)

diky za napady

6. 6. 2010 10:20:19

https://webtrh.cz/diskuse/teorie-web-crawleru#reply513319

verified

6. 6. 2010 23:36:52

nic neprogramuj a pouzij:

lynx {http_address} -crawl -traversal

nebo tak nejak - uz si to presne nepamatuju a nemam po ruce zrovna zadny *ix

----

no a potom provedes dodatecnej post-process a vyfiltrujes si jenom to, co te zajima

6. 6. 2010 23:36:52

https://webtrh.cz/diskuse/teorie-web-crawleru#reply513318

verified

6. 6. 2010 23:54:17

super, narychlo sem zagooglil nejaky info a vypada to dobre takze hned jak budu moct tak vyzkousim. diky za tip

6. 6. 2010 23:54:17

https://webtrh.cz/diskuse/teorie-web-crawleru#reply513317

verified

7. 6. 2010 00:07:09

pro vyjaderni diku tady mame reputaci ;)

7. 6. 2010 00:07:09

https://webtrh.cz/diskuse/teorie-web-crawleru#reply513316

Pro odpověď se přihlašte.

Prodej Více

Prodám Budweis.org

5 000 Kč

0 příhozů

Prémiová doména k prodeji 24k.cz

100 000 Kč

0 příhozů

Platební prsteny CZ/SK – DNEŠNÍ EXKLUZIVNÍ SLEVA 50 000 Kč NA PRODEJ 4 DOMÉN

150 000 Kč

0 příhozů

Domynasplatky.cz – prodej domeny pro vaší firmu

2 450 Kč

0 příhozů

DobreTesty.cz + Dobre-Testy.cz – dvě domény na prodej pro vaše služby nebo eshop

3 450 Kč

0 příhozů

Poptávky Více

Hledám prostor k investici (projekty, půjčka … )

Recenze pro Google firmu

Poptávám: vytvoření webových stránek s nabídkou služeb

Hledám freelancera pro reklamu a organický marketing na FB a Ads.

Eshop – finalizace, reklama

Pracovní nabídky Více

ADMINISTRÁTOR/KA OBSAHU (AI)

DevOps Specialist (HashiCorp Vault)

Social Media & Content specialist ve Světě plodů s.r.o.

30 000 - 50 000 Kč

FULLSTACK developer

Administrátor a obchodník pro síť eshopů v Praze

40 000 - 50 000 Kč

Nabídky Více

DTP práce, príprava katalógov, marketingových materíalov

Profesionální překlad videí z CZ/SK do angličtiny – rychle, přesně a s využitím nejmodernější AI

| www.ilusfera.cz | ▶ Logo & vizuální identita / Ilustrace / Obalový design / Print & online

Bakalářské, diplomové, seminární i jiné odborné práce

Korektura knihy