Zadejte hledaný výraz...

Jak přečíst velký soubor sitemap.xml.gz?

Luděk Kvapil
verified
rating uzivatele
12. 5. 2016 10:11:08
Rád bych si načetl mapu webu. Když ovšem spustím můj scriptík, tak to po chvilce spadne (Firefox i Chrome). Asi to paměť prohlížeče nedává...
Můj scriptík:
Script jinak funguje, ale spadne na své velikosti. Jak mám udělat, abych získal kompletní mapu webu?
12. 5. 2016 10:11:08
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195379
Jiří Šubr
verified
rating uzivatele
(23 hodnocení)
12. 5. 2016 10:30:17
...
12. 5. 2016 10:30:17
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195378
Luděk Kvapil
verified
rating uzivatele
12. 5. 2016 10:39:41
Napsal Jiří Šubr;1291399
Stáhnout jit, rozbalit a potom klasicky otevřít .xml soubor?
Moc práce :). Na takové věci jsou scripty.
---------- Příspěvek doplněn 12.05.2016 v 10:40 ----------
To už raději načtu každou tu sitemap zvlášť... To by prohlížeč mohl ustát. Takhle načítám nějakých 26 archívů..
12. 5. 2016 10:39:41
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195377
Jiří Šubr
verified
rating uzivatele
(23 hodnocení)
12. 5. 2016 10:46:00
...
12. 5. 2016 10:46:00
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195376
TomasX
verified
rating uzivatele
(4 hodnocení)
12. 5. 2016 11:15:32
otevírej to v prohlížeči jako textový soubor, zavolej si na začátku skriptu header("Content-Type: text/plain");, tím ti prohlížeč nebude parsovat výstup jako xml a nespadne ti to na paměti.
A co vůbec s tím chceš dělat? Proč to takhle nevhodně print_ruješ?
12. 5. 2016 11:15:32
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195375
Luděk Kvapil
verified
rating uzivatele
12. 5. 2016 11:24:32
Napsal TomášX;1291421
otevírej to v prohlížeči jako textový soubor, zavolej si na začátku skriptu header("Content-Type: text/plain");, tím ti prohlížeč nebude parsovat výstup jako xml a nespadne ti to na paměti.
A co vůbec s tím chceš dělat? Proč to takhle nevhodně print_ruješ?
No chci prostě kompletní sitemap.xml. Už jsem to předělal, aby se to ukládalo do souboru místo toho print_r. Printuju, abych věděl, že mi z toho něco leze... Už to vím, tak zapisuju do souboru.
A $loc = $sitemap->loc; jsem přepsal na $loc = $sitemap->loc;. Takže těch map budu mít uložených v adresáři více. Pak to vše načtu do refine a srovnám s jmény produktů, které prodáváme a vyexportuju ty URL prodávaných produktů.. A na to pak pustím můj scraper, který sbírá ceny.
---------- Příspěvek doplněn 12.05.2016 v 11:28 ----------
PS: použít sitemap.xml mi přišlo jako nejlepší.. Používal jsem i vyhledávání a pak scrapoval výsledek a sbíral stránku detailu. Ovšem to vyhledávání není zcela spolehlivé. Kolikrát to tam šoupne podobný produkt, který se třeba liší v jednom písmenku, což pro vyhledávač třeba není velký problém, ale z mého pohledu je to úplně jiné zboží.
---------- Příspěvek doplněn 12.05.2016 v 11:33 ----------
PS: přepsat hlavičku na text pomohlo..
---------- Příspěvek doplněn 12.05.2016 v 11:59 ----------
Ještě jeden dotaz: napadá vás, jak ověřit platnost URL, aniž bych ji musel scrapovat? On se totiž ten můj scraper zasekne, když je tam E404.
12. 5. 2016 11:24:32
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195374
PHP: get_headers - Manual…
12. 5. 2016 12:42:37
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195373
Luděk Kvapil
verified
rating uzivatele
12. 5. 2016 14:34:49
Napsal Martin Talavášek;1291445
PHP: get_headers - Manual…
skvělé.. funguje :)
12. 5. 2016 14:34:49
https://webtrh.cz/diskuse/jak-precist-velky-soubor-sitemap-xml-gz#reply1195372
Pro odpověď se přihlašte.
Přihlásit