Vytvorenie crawlera (bota), na sťahovanie dát z iných webov

22. 2. 2012 23:24:56

Má niekto skúsenosti s vytváraním crawlera, ktorý by po zadaní URL adresy bol schopný stiahnúť údaje z daného webu, vyfiltrovať výsledky a vypísať ich do XML (resp. CSV) súboru? Je možné, že by zároveň stiahol aj obrázok, uložil ho do zložky a do xml doplnil cestu k nemu?

Chcel by som to použiť na pridávanie nových produktov do eshopu. Ručne to ide pomaly a dodávateľ (aj napriek ochote), nie je schopný dodať potrebný výstup tovaru z jeho systému. Bot by sťahoval údaje ako názov produktu, katalógové číslo, krátky a dlhý popis, technické parametre, výrobcu, kategóriu, prípadne skladovú dostupnosť a obrázok (prípadne iné), pričom by dokázal rozoznať a umiestňovať jednotlivé údaje do správnych tagov. Výsledkom by mal byť tabuľkový výstup (XML, prípadne CSV). V prípade, že by som nechcel od dodávateľa stiahnúť tovar určitej značky, prípadne z určitej kategórie, bolo by to možné odfiltrovať.

Ďalšia vec čo ma zaujíma- je možné to vytvoriť univerzálne, aby to bolo možné použiť na rôznych weboch, bez toho aby bolo potrebné script upravovať?

ďakujem za akékoľvek informácie

22. 2. 2012 23:24:56

https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov#reply734293

Michal Pešat

(2 hodnocení)

22. 2. 2012 23:56:23

Zdravím,

na různé weby to použít nelze, každý e-shop je jiný.

Ano, lze to udělat, já sám jsem podobné zakázky dělal. Pokud máte zájem o zpracování nabídky z mé strany, kontaktujte mě :)

Hezký den

Michal Pešat

www.obchodniuspech.cz

22. 2. 2012 23:56:23

https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov#reply734292

Fautzi

(1 hodnocení)

23. 2. 2012 13:51:26

http://doc.scrapy.org/en/latest/intro/tutorial.html

23. 2. 2012 13:51:26

https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov#reply734291

Michal Kubíček

(84 hodnocení)

23. 2. 2012 18:28:52

mozne to je. jen pri kazde zmene sablony cekej nutnost zmeny robota

23. 2. 2012 18:28:52

https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov#reply734290

zaruba

25. 2. 2012 10:01:48

Kdyby to šlo univerzálně a ty jsi to vytvořil, tak ti bude Google lízat boty, protože ani oni nic podobného nemají. Aby jsi dokázal na jakémkoliv eshopu nalézt název produktu, cenu atd. a zcela automaticky je bohužel dnes zatím trochu utopie. Protože HTML má poměrně bez významové značky a tak pod

můžeš mít klidně cenu nebo popis produktu a nebo třeba název a klidně tam může být i text patičky, která s produktem nesouvisí.

Proto se v dnešní době používají XML soubory, kde si můžeš vytvořit vlastní strukturu dokumentu a robot může vše jednoduše přečíst. V některých odvětví se tyto XMLka používají standardně jinde je to občas problém. Třeba slevové portály/agregátory takto komunikují naprosto běžně. Stejně tak komunikují eshopy a různé porovnávače cen jako heureka nebo zboží.cz.

Pokud se ti jedná o jeden eShop, můžeš ten parser připravit. V každém jazyce lze z HTML stránky udělat strom a potom pomocí jazyka xPath si najdeš co potřebuješ, třeba H1, 3. odstavec apod. Musíš ale vědět, že na třetím odstavci je cena a na 4. je popis zboží. A když to někdo změní, tak jsi v háji. Obecně to s těmi čísly odstavců trochu přeháním, díky css se dnes u spousty značek používají class a id, které mnohdy vyjadřují obsah a zároveň slouží ke stylování. Takže más třeba

a pomocí Xpathu se k tomu dostaneš velmi jednoduše.

25. 2. 2012 10:01:48

https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov#reply734289

Pro odpověď se přihlašte.

Přihlásit