Zadejte hledaný výraz...

Python – Web Scraper

Jan Pan
verified
rating uzivatele
24. 9. 2025 17:05:42
Ahojte, 
riesim jeden zaujimavy jav na mojom Python web scraperovi ktory zvykol pracovat 5 hodin a bolo hotovo tak zrazu tu istu pracu robi 60 hodin.
Stretol sa uz s tym niekto ? Pripadne je tu niekto skuseny v Pythone a web scraperoch ?
Diky
24. 9. 2025 17:05:42
https://webtrh.cz/diskuse/python-web-scraper#reply1539245
aheadnology
verified
rating uzivatele
24. 9. 2025 20:01:03
My ale netušíme, jak jste jej naprogramoval. 
Ani si jej nemůžeme debugovat a měřit si, kde jsou ty prodlevy.
24. 9. 2025 20:01:03
https://webtrh.cz/diskuse/python-web-scraper#reply1539248
Jakub Vítek
verified
rating uzivatele
(3 hodnocení)
26. 9. 2025 12:15:51
Ahoj, 
důvodů může být samozřejmě více, jak psal kolega výše, bez znalosti kódu se těžce odhaduje, v čem je konkrétní problém. Zde máš pro začátek pár bodů, kterých bych se chytil: 
1) Zpomalení serveru nebo změna serverové odezvy 
2) Paměťové problémy a úniky - neefektivní správa paměti - častější garbage collector, nebo dokonce přetečení paměti
3) Náročné parsování - web změnil strukturu, parsing je složitější, zvláště pokud používáte synchronní, sekvenční kód
4) Sekvenční zpracování a čekání na I/O operace - bez paralelizace nebo asynchronního přístupu
5) Anti-bot opatření a omezení - rate limiting, CAPTCHAs nebo IP blokace
Pokud bys měl zájem, klidně napiš mrknu na kód :)
Editováno 26. 9. 2025 14:29:30 uživatelem Jakub Vítek
26. 9. 2025 12:15:51
https://webtrh.cz/diskuse/python-web-scraper#reply1539273
Necromind.com
verified
rating uzivatele
(6 hodnocení)
26. 9. 2025 12:16:55
„Auto mi jede pomaleji než dřív, čím to může být?"
26. 9. 2025 12:16:55
https://webtrh.cz/diskuse/python-web-scraper#reply1539274
Jamira40
verified
rating uzivatele
(4 hodnocení)
26. 9. 2025 14:15:06
Ahoj, 
důvodů může být samozřejmě více, jak psal kolega výše, bez znalosti kódu se těžce odhaduje, v čem je konkrétní problém. Zde máš pro začátek pár bodů, kterých bych se chytil: 
1) Zpomalení serveru nebo změna serverové odezvy 
2) Paměťové problémy a úniky - neefektivní správa paměti - častější garbege collector, nebo dokonce přetečení paměti
3) Náročné parsování - web změnil strukturu, parsing je složitější, zvláště pokud používáte synchronní, sekvenční kód
4) Sekvenční zpracování a čekání na I/O operace - bez paralelizace nebo asynchronního přístupu
5) Anti-bot opatření a omezení - rate limiting, CAPTCHAs nebo IP blokace
Pokud bys měl zájem, klidně napiš mrknu na kód :)
:D :D :D to písala AI čo... sa dnes bez nej už ani nevyserete
26. 9. 2025 14:15:06
https://webtrh.cz/diskuse/python-web-scraper#reply1539276
Jakub Vítek
verified
rating uzivatele
(3 hodnocení)
26. 9. 2025 14:29:15
Ahoj, 
důvodů může být samozřejmě více, jak psal kolega výše, bez znalosti kódu se těžce odhaduje, v čem je konkrétní problém. Zde máš pro začátek pár bodů, kterých bych se chytil: 
1) Zpomalení serveru nebo změna serverové odezvy 
2) Paměťové problémy a úniky - neefektivní správa paměti - častější garbege collector, nebo dokonce přetečení paměti
3) Náročné parsování - web změnil strukturu, parsing je složitější, zvláště pokud používáte synchronní, sekvenční kód
4) Sekvenční zpracování a čekání na I/O operace - bez paralelizace nebo asynchronního přístupu
5) Anti-bot opatření a omezení - rate limiting, CAPTCHAs nebo IP blokace
Pokud bys měl zájem, klidně napiš mrknu na kód :)
:D :D :D to písala AI čo... sa dnes bez nej už ani nevyserete
i ty šmudlo, to že na všechno používáš AI, neznamená, že to tak dělají všichni...chápu, podle sebe soudím tebe..ale děkuji ti, nedalo mi to, si to po sobě znovu přečíst, co tě k tomuto komentáři evokovalo, alespoň jsem si všiml, že jsem blbě napsal "Garbage collector"  
26. 9. 2025 14:29:15
https://webtrh.cz/diskuse/python-web-scraper#reply1539277
Jamira40
verified
rating uzivatele
(4 hodnocení)
26. 9. 2025 14:37:38
Ne nechápeš ale nevadí :) 
Zaujalo ma to formátovanie textu to je všetko malo to taký AI "vibe"
Jo a vlastne potom také tie veci ako "IP Blokace" a podobne. Je to jednoduché pretože niekto čo sa tomu rozumie na rozdiel od AI komprehenzívne chápe že ak niečo je spomalené nemôže to byť zablokované v takom prípade by to nešlo vôbec. Keď už tak sa bavíme o throttlingu.
Druhá vec ten blábol o zmene štruktúr... blbosť keď niečo parsujem tak to najčastejšie znamená že nedostanem dáta nie že sa to bude spomalovať :D
A tak no pozri ja sem chodím len trollovať nič viac...
Editováno 26. 9. 2025 14:41:44 uživatelem Jamira40
26. 9. 2025 14:37:38
https://webtrh.cz/diskuse/python-web-scraper#reply1539278
Jakub Vítek
verified
rating uzivatele
(3 hodnocení)
26. 9. 2025 14:49:35
To víš, nějak si člověk musí vydělávat. Přes den si sice hraju na ajťáka, ale večer sedím na druhé straně AI spolu s partou Indů v open space a píšeme odpovědi na kulatých stolech. Máme tabulku, kde se hází kostkou, kdo připíše smajlíka a kdo dá pseudointeligentní přirovnání. Někdo to nazývá umělá inteligence, já tomu spíš říkám špatně placená brigáda s Wi-Fi připojením. :D
26. 9. 2025 14:49:35
https://webtrh.cz/diskuse/python-web-scraper#reply1539279
Jakub Vítek
verified
rating uzivatele
(3 hodnocení)
26. 9. 2025 15:01:37
Ne nechápeš ale nevadí :) 
Zaujalo ma to formátovanie textu to je všetko malo to taký AI \"vibe\"
Jo a vlastne potom také tie veci ako \"IP Blokace\" a podobne. Je to jednoduché pretože niekto čo sa tomu rozumie na rozdiel od AI komprehenzívne chápe že ak niečo je spomalené nemôže to byť zablokované v takom prípade by to nešlo vôbec. Keď už tak sa bavíme o throttlingu.
Druhá vec ten blábol o zmene štruktúr... blbosť keď niečo parsujem tak to najčastejšie znamená že nedostanem dáta nie že sa to bude spomalovať :D
A tak no pozri ja sem chodím len trollovať nič viac...
uznávám, IP blokace nebyl asi správně užitý termín, měla to být spíš limitace - jak píšeš throtlling. Zvláštní, že píšeš, že změna struktur je blábol, ale pak zároveň píšeš: "najčastejšie znamená", to znamená, že ne ve všech případech. A právě v těch může jít např. o vnoření dat hlouběji do stromu DOM, přidání více selektorů do cesty, přidaní dynamických částí načítaných později JS nebo lazy loading. K datům se tedy dostaneš pořád stejně - stejný CSS selektor nebo XPath, ale parsing či čekání na načtení dat trvá déle a tím se scrapování celkově zpomalí, aniž by bylo potřeba měnit kód scraperu.
26. 9. 2025 15:01:37
https://webtrh.cz/diskuse/python-web-scraper#reply1539280
Dominik Rouš
verified
rating uzivatele
(5 hodnocení)
29. 9. 2025 22:46:00
Pokud tu je nějaký pythonista co se věnuje web scrapingu, tak ať se mi klidně ozve. Měl bych pro něj práci 👀
Editováno 29. 9. 2025 22:46:33 uživatelem Dominik Rouš
29. 9. 2025 22:46:00
https://webtrh.cz/diskuse/python-web-scraper#reply1539344
Pro odpověď se přihlašte.
Přihlásit