Zadejte hledaný výraz...

Crawling vlastních inzerátů z Sbazar.cz

Dobrý den, má někdo zkušenost s crawlováním inzerátů z Sbazaru? Jde mi jen o to, abych mohl své inzeráty z Sbazaru automaticky synchronizovat s produkty na mém eshopu. Řádově se jedná o 1300 inzerátů. 
Po technické stránce mám jasno, použiji PHP a příslušná rozšíření. Také jsem objevil tento repozitář (https://github.com/ondrejd/sbazar-crawler), který může být dobrým začátkem. Asi hlavní, co mě zajímá je, zda a kolik toho můžu načítat a zda mě Seznam za to nezablokuje, protože detekce těchto umělých požadavků je relativně snadná. Samozřejmě chápu, že nemůžu Seznam zahltit tisícem požadavků najednou, ale bylo by fajn, kdybych alespoň jednou během dne mohl každý z inzerátů sesynchronizovat. 
Má někdo s tímto praktickou zkušenost? Díky. :) 
4. 7. 2024 15:59:37
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529566
Alexej Sidorenko
verified
rating uzivatele
4. 7. 2024 23:00:51
Nebude jednodussi zvolit opacnou cestu? Tedy vystavovat produkty na vlastnim eshopu a prostrednictvim XML feedu je vystavovat na Sbazar.
https://napoveda.zbozi.cz/dalsi-moznosti-reklamy/inzerce_rozbaleneho_a_pouziteho_zbozi/
4. 7. 2024 23:00:51
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529573
Nebude jednodussi zvolit opacnou cestu? Tedy vystavovat produkty na vlastnim eshopu a prostrednictvim XML feedu je vystavovat na Sbazar.
https://napoveda.zbozi.cz/dalsi-moznosti-reklamy/inzerce_rozbaleneho_a_pouziteho_zbozi/
tuto možnost jsem nikde nedohledal. Vypadá to zajímavě, ale pravděpodobně nebudu moct využít, protože dle popisů se na zboží musí vztahovat záruka a inzeráty jsou zveřejněny i na dalších placených službách Seznamu (nechci). Navíc to neřeší můj problém úplně, protože bych stále musel ty položky dostat nejdřív do e-shopu. Ještě kouknu detailněji, ale zatím se touto cestou asi nevydám. 
5. 7. 2024 01:08:35
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529574
Pavel Mareš
verified
rating uzivatele
(19 hodnocení)
5. 7. 2024 10:14:59
Mě by asi zajímalo, jak to funguje. Neznám admin sbazar, takže tam sázíš produkty a co pak? Vidím že to jde docela snadno scrapovat skrze PHP. Jak to chceš syncovat se svým shopem? co máš za řešení? Co vše chceš syncovat?
Jinak co děláme shopy na WooCommerce, tak si dovedu představit mít tohle za den hotový. Nicméně nějak musíš obejít cookie sračku. Protože v anonymním režimu to blokuje, tak budeš muset nastavit cookies dle svého logged in účtu.
Beru, že per stránku máš cca 30 inzerátů (36 ale něco budou reklamy).  Aka 44 stránek. Poslat request každou vteřinu + sleep() znamená běh scriptu do 120 vteřin. Tzn. máš odkazy na všechny linky.
To samé pro všechny inzeráty. Těch je teda 1300. Uděláš si cron kterej dejme tomu každou minutu schrupe 20, ať nežerem.
Za něco málo přes hodinu máš synced. 1 request za 3 vteřiny je tak málo, že seznam nic neudělá a bude jim to jedno. 
Ta cookie blbost je jediná sračka, se kterou by sis musel poradit. Ale jak se vyzkoumá co seznam potřebuje aby tě nechal být, tak máš klid.
5. 7. 2024 10:14:59
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529577
V tuto chvíli mám na SBazaru několik účtů a klasicky přes jejich formulář sázím inzeráty. Doteď mi vše vyhovovalo, ale chtěl bych i jednoduchý e-shop. Sychronizovat bych chtěl v podstatě všechny inzeráty na mých účtech, tedy detekovat nové a smazané inzeráty. Inzeráty zpravidla neupravuji (většinou měním jen cenu, kterou můžu načíst rovnou ze stránky obsahující těch 36 záznamů bez nutnosti načíst detail).
Řešení zatím žádné nemám, ale chci se vydat cestou PHP Laravel. Nebude se jednat o klasický eshop -- chci mít jen jednoduché řešení, nepotřebuji objednávky, košík, uživatele... Stačí mi v něm evidovat položky a kategorie, nepotřebuji administraci. Objednávky budou řešeny poptávkovým formulářem. Wordpress ani jiná krabicová řešení v tomto případě moc nedávají smysl, protože chci, aby stránka běžela sama.
Cookies sračka je problém, už jsem na to narazil. Je zajímavé, že CURL mi stránku v pořádku vrátí (asi ignoruje redirect). Tímhle se ještě budu zabývat, ale ideálně bych chtěl řešení bez cookies, které by nebylo nutné po nějaké době obnovovat.
Další problém jsou trochu obrázky, které obsahují vodoznak. Zjistil jsem, že URL obrázků vypadají takto: https://d46-a.sdn.cz/d_46/c_img_QQ_3/rrvFdf.jpeg?fl=exf|crr,1.33333,2|res,1024,768,1|wrm,/watermark/sbazar.png,10,10|jpg,80,,1
což trochu budí naději, že se toho půjde nějak zbavit. Bohužel po odstranění "podezřelých" částí dostávám Bad Request. S tím se také budu muset nějak poprat nebo v nejhorším případě to tam prostě nechat.
Pokud se tím Seznam nezabývá, tak super. Klidně bych i tu synchronizaci rozdělil do celého dne (zpoždění pár hodin nehraje roli). 
Přesto mám trochu obavy ohledně toho, jak dlouho toto řešení bude fungovat. Seznam lépe ošetří tu cookie lištu nebo změní strukturu Sbazaru a celé se to rozbije. 
O co by to bylo jednodušší, kdyby seznam nabízel nějaké API. :)
5. 7. 2024 11:43:52
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529579
Pavel Mareš
verified
rating uzivatele
(19 hodnocení)
5. 7. 2024 13:41:47
seznam API nemá na nic snad ... řešil jsem to samé s https://emailprofi.cz/, kde máme Puppeteer, kterej dokáže řešit prakticky vše a napsali jsme si API nad tím.
jinak curl máš pravdu :D fakt to jede, sem čekal serverové řešení :D jinak ty cookies => zase, dá se napsat doplněk do chromu kterej to pošle na server a ten si to aktualizuje ... ty cesty jsou
co se týká toho mini e-shopu, pak asi cajk, výsledek může být v jakýkoliv formátu a rozdělit to do celého dne => jasný, taky může být
--------------------
ta struktura, tam si přehlédl jednu zásadní věc :D máš tam dole JSON v proměnný https://upldr.co/aZupdyXF ... takže rozparsuješ ten jak nic, uložíš si někde strukturu a hlídáček když se něco změní, tak robot tě notifikuje a uloží si STOP STAV
pak jen stačí kouknout, co je jinak, opravit a jedeš dál :D nepotřebuješ hrotit HTML
5. 7. 2024 13:41:47
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529582
O něčem podobném jsem taky uvažoval, ale zase by tam byla ta jedna služba navíc a já bych to chtěl mít co nejjednodušší. 
Vidíš, toho jsem si opravdu nevšiml. :D Moc děkuju! Nečekal bych, že nám to Seznam takhle zjednoduší. Chybí tam sice úplné odkazy na obrázky, ale to se asi dá zkombinovat s tím co už znám. S tímhle by se ale už mělo dát trochu normálně pracovat. 
Jen doufám, že tyhle věci nemění moc často. :D 
5. 7. 2024 15:21:49
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529585
enzo
verified
rating uzivatele
(61 hodnocení)
5. 7. 2024 22:15:21
Na sbazaru mazou inzeraty s profi fotkou prodavane veci, kazda vec musi byt i dle pravidel nafocena "obycejne" napr na stole, na zemi, na nejakem pozadi ale spise amatersky...ne produktova fotografie. Vám inzeraty nemazou?
Editováno 5. 7. 2024 22:17:15 uživatelem enzo
5. 7. 2024 22:15:21
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529592
Na sbazaru mazou inzeraty s profi fotkou prodavane veci, kazda vec musi byt i dle pravidel nafocena \"obycejne\" napr na stole, na zemi, na nejakem pozadi ale spise amatersky...ne produktova fotografie. Vám inzeraty nemazou?
Jedná se o použité autodíly, s tímto tedy problém není. :) 
6. 7. 2024 01:10:27
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1529594
nyccoss
verified
rating uzivatele
(5 hodnocení)
11. 10. 2024 09:32:31
Podarilo se vyresit?
Ja osobne bych sel taky opacnou cestou. V DB webu si drzet aktualni nabidku. A tu synchronizovat smerem ven + si drzet treba ID inzeratu na jednotlivych platformach.
Vlozim produkt vcetne fotek, k sobe na web, skrz podobny form jako ma treba sbazar. Tim se mi vypise na webu s poptavkovym formularem po danem dilu. Zaroven se exportuje na sbazar, pripadne aukro, bazos, kamkoli. Jakmile dil prodas, prepnes mu stav ve svem webu a syncne se vsude (smaze se).
Vysledek, 
- na webu budes mit fotky bez watermarku sbazaru.
- automaticky budes z Sbazaru stahovat neplatne inzeraty, bez prace s prostredim sbazaru
- muzes jednoduse rozsirit prodejni kanaly, bez zvysene administrativy (chtelo by to jeste agregovat poptavky z jednotlivych platforem)
11. 10. 2024 09:32:31
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1531798
Jaroslav Fikar
verified
rating uzivatele
(2 hodnocení)
11. 10. 2024 14:03:24
Ano, vyřešili jsme. Opačná cesta nebyla vhodná, protože bychom stejně museli ručně nebo crawlingem ty inzeráty dostat do DB (jedná se o tisíce inzerátů). Navíc jsme chtěli eshop co nejjednodušší a samosprávný. Majitel inzerátů nechtěl měnit svoje procesy a chtěl mít doprovodný eshop bez práce navíc. 
Navíc ukládat a spravovat inzeráty na Sbazaru je mnohem komplikovanější (captcha, přihlášení..) než jenom stahovat a je to mnohem víc náchylné na změny ze strany seznamu.
Rozšiřovat kanály pravděpodobně nebude potřeba, protože stačí ten Sbazar. 
Celkově si dovedu představit nějaký systém, který bude dělat co popisuješ, ale bylo by to mnohem složitější a pravděpodobně by se to muselo průběžně opravovat. Pro někoho kdo má inzerátu roztroušené na více pratformách by takové řešení bylo určitě lepší, ale v tomto případě můj přístup slouží parádně. :)
11. 10. 2024 14:03:24
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1531804
Alexej Sidorenko
verified
rating uzivatele
11. 10. 2024 19:06:29
Aha, rozumim, takze nebyl pochopen navrh reseni :-)
Seznamu se mel posilat XML feed, ne psat automat na “manualni” vytvareni inzeratu na nem. To je naopak jasne zdokumentovane, bez necekanych zmen a s oficialni podporou - technicky naprosto ciste reseni.
Ale pokud si zakaznik preje neco jineho a ma k tomu sve duvody, tak proc ne. Snad si to spocital a posoudil pro a proti a sam nejlepe vi, jake ma plany do budoucna ;-)
Editováno 11. 10. 2024 19:07:04 uživatelem Alexej Sidorenko
11. 10. 2024 19:06:29
https://webtrh.cz/diskuse/crawling-vlastnich-inzeratu-z-sbazar-cz/#reply1531814
Pro odpověď se přihlašte.
Přihlásit