Zadejte hledaný výraz...

Vytvorenie crawlera (bota), na sťahovanie dát z iných webov

Jakub Krupa
verified
rating uzivatele
(29 hodnocení)
22. 2. 2012 23:24:56
Má niekto skúsenosti s vytváraním crawlera, ktorý by po zadaní URL adresy bol schopný stiahnúť údaje z daného webu, vyfiltrovať výsledky a vypísať ich do XML (resp. CSV) súboru? Je možné, že by zároveň stiahol aj obrázok, uložil ho do zložky a do xml doplnil cestu k nemu?
Chcel by som to použiť na pridávanie nových produktov do eshopu. Ručne to ide pomaly a dodávateľ (aj napriek ochote), nie je schopný dodať potrebný výstup tovaru z jeho systému. Bot by sťahoval údaje ako názov produktu, katalógové číslo, krátky a dlhý popis, technické parametre, výrobcu, kategóriu, prípadne skladovú dostupnosť a obrázok (prípadne iné), pričom by dokázal rozoznať a umiestňovať jednotlivé údaje do správnych tagov. Výsledkom by mal byť tabuľkový výstup (XML, prípadne CSV). V prípade, že by som nechcel od dodávateľa stiahnúť tovar určitej značky, prípadne z určitej kategórie, bolo by to možné odfiltrovať.
Ďalšia vec čo ma zaujíma- je možné to vytvoriť univerzálne, aby to bolo možné použiť na rôznych weboch, bez toho aby bolo potrebné script upravovať?
ďakujem za akékoľvek informácie
22. 2. 2012 23:24:56
https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov/#reply734293
Michal Pešat
verified
rating uzivatele
(2 hodnocení)
22. 2. 2012 23:56:23
Zdravím,
na různé weby to použít nelze, každý e-shop je jiný.
Ano, lze to udělat, já sám jsem podobné zakázky dělal. Pokud máte zájem o zpracování nabídky z mé strany, kontaktujte mě :)
Hezký den
Michal Pešat
www.obchodniuspech.cz
22. 2. 2012 23:56:23
https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov/#reply734292
Fautzi
verified
rating uzivatele
(1 hodnocení)
23. 2. 2012 13:51:26
http://doc.scrapy.org/en/latest/intro/tutorial.html
23. 2. 2012 13:51:26
https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov/#reply734291
mozne to je. jen pri kazde zmene sablony cekej nutnost zmeny robota
23. 2. 2012 18:28:52
https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov/#reply734290
zaruba
verified
rating uzivatele
25. 2. 2012 10:01:48
Kdyby to šlo univerzálně a ty jsi to vytvořil, tak ti bude Google lízat boty, protože ani oni nic podobného nemají. Aby jsi dokázal na jakémkoliv eshopu nalézt název produktu, cenu atd. a zcela automaticky je bohužel dnes zatím trochu utopie. Protože HTML má poměrně bez významové značky a tak pod

můžeš mít klidně cenu nebo popis produktu a nebo třeba název a klidně tam může být i text patičky, která s produktem nesouvisí.

Proto se v dnešní době používají XML soubory, kde si můžeš vytvořit vlastní strukturu dokumentu a robot může vše jednoduše přečíst. V některých odvětví se tyto XMLka používají standardně jinde je to občas problém. Třeba slevové portály/agregátory takto komunikují naprosto běžně. Stejně tak komunikují eshopy a různé porovnávače cen jako heureka nebo zboží.cz.
Pokud se ti jedná o jeden eShop, můžeš ten parser připravit. V každém jazyce lze z HTML stránky udělat strom a potom pomocí jazyka xPath si najdeš co potřebuješ, třeba H1, 3. odstavec apod. Musíš ale vědět, že na třetím odstavci je cena a na 4. je popis zboží. A když to někdo změní, tak jsi v háji. Obecně to s těmi čísly odstavců trochu přeháním, díky css se dnes u spousty značek používají class a id, které mnohdy vyjadřují obsah a zároveň slouží ke stylování. Takže más třeba

a pomocí Xpathu se k tomu dostaneš velmi jednoduše.

25. 2. 2012 10:01:48
https://webtrh.cz/diskuse/vytvorenie-crawlera-bota-na-stahovanie-dat-z-inych-webov/#reply734289
Pro odpověď se přihlašte.
Přihlásit