Jak přečíst velký soubor sitemap.xml.gz?

12. 5. 2016 10:11:08

Rád bych si načetl mapu webu. Když ovšem spustím můj scriptík, tak to po chvilce spadne (Firefox i Chrome). Asi to paměť prohlížeče nedává...

Můj scriptík:

Script jinak funguje, ale spadne na své velikosti. Jak mám udělat, abych získal kompletní mapu webu?

12. 5. 2016 10:11:08

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195379

Jiří Šubr

(23 hodnocení)

12. 5. 2016 10:30:17

...

12. 5. 2016 10:30:17

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195378

Luděk Kvapil

12. 5. 2016 10:39:41

Napsal Jiří Šubr;1291399
Stáhnout jit, rozbalit a potom klasicky otevřít .xml soubor?

Moc práce :). Na takové věci jsou scripty.

---------- Příspěvek doplněn 12.05.2016 v 10:40 ----------

To už raději načtu každou tu sitemap zvlášť... To by prohlížeč mohl ustát. Takhle načítám nějakých 26 archívů..

12. 5. 2016 10:39:41

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195377

Jiří Šubr

(23 hodnocení)

12. 5. 2016 10:46:00

...

12. 5. 2016 10:46:00

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195376

TomasX

(4 hodnocení)

12. 5. 2016 11:15:32

otevírej to v prohlížeči jako textový soubor, zavolej si na začátku skriptu header("Content-Type: text/plain");, tím ti prohlížeč nebude parsovat výstup jako xml a nespadne ti to na paměti.

A co vůbec s tím chceš dělat? Proč to takhle nevhodně print_ruješ?

12. 5. 2016 11:15:32

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195375

Luděk Kvapil

12. 5. 2016 11:24:32

Napsal TomášX;1291421
otevírej to v prohlížeči jako textový soubor, zavolej si na začátku skriptu header("Content-Type: text/plain");, tím ti prohlížeč nebude parsovat výstup jako xml a nespadne ti to na paměti.
A co vůbec s tím chceš dělat? Proč to takhle nevhodně print_ruješ?

No chci prostě kompletní sitemap.xml. Už jsem to předělal, aby se to ukládalo do souboru místo toho print_r. Printuju, abych věděl, že mi z toho něco leze... Už to vím, tak zapisuju do souboru.

A $loc = $sitemap->loc; jsem přepsal na $loc = $sitemap->loc;. Takže těch map budu mít uložených v adresáři více. Pak to vše načtu do refine a srovnám s jmény produktů, které prodáváme a vyexportuju ty URL prodávaných produktů.. A na to pak pustím můj scraper, který sbírá ceny.

---------- Příspěvek doplněn 12.05.2016 v 11:28 ----------

PS: použít sitemap.xml mi přišlo jako nejlepší.. Používal jsem i vyhledávání a pak scrapoval výsledek a sbíral stránku detailu. Ovšem to vyhledávání není zcela spolehlivé. Kolikrát to tam šoupne podobný produkt, který se třeba liší v jednom písmenku, což pro vyhledávač třeba není velký problém, ale z mého pohledu je to úplně jiné zboží.

---------- Příspěvek doplněn 12.05.2016 v 11:33 ----------

PS: přepsat hlavičku na text pomohlo..

---------- Příspěvek doplněn 12.05.2016 v 11:59 ----------

Ještě jeden dotaz: napadá vás, jak ověřit platnost URL, aniž bych ji musel scrapovat? On se totiž ten můj scraper zasekne, když je tam E404.

12. 5. 2016 11:24:32

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195374

Martin Talavášek

(44 hodnocení)

12. 5. 2016 12:42:37

PHP: get_headers - Manual…

12. 5. 2016 12:42:37

https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz/#reply1195373