Zadejte hledaný výraz...

HTML DOM parser vaše zkušenosti

Vít Michalek
verified
rating uzivatele
(14 hodnocení)
13. 5. 2013 09:57:24
Zdravím,
pro parsování HTML a následné práci využivám : http://sourceforge.net/projects/simplehtmldom/
Šikovný knihovna, ale při větších souborech (500kb) mi to sežere skoro 800mb RAM, jelikož si na vše vytvoři objekty.
Nemáte někdo zkušenost s jinou knihovnou?
Potřebuji vyhledávat učité elementy, a jejich atributy, prohledávat podle id, classu atd.
Díky za rady
13. 5. 2013 09:57:24
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900867
Já osobně jsem nikdy s HTML DOM neměl žádný problém a používám ho pokaždé při parserování a že sem toho už vyparseroval :) Nemáš to nějak prasácky napsaný ?
13. 5. 2013 10:02:40
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900866
Vít Michalek
verified
rating uzivatele
(14 hodnocení)
13. 5. 2013 10:09:06
Je to na 3 řádky kod.
Např toto h..p://www.volneclanky.cz/ a chci najít všechny "a hrefy".
13. 5. 2013 10:09:06
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900865
Zdeněk Hejl
verified
rating uzivatele
13. 5. 2013 14:50:45
Problém u DOM je, že se celá struktura dokumentu uloží/rozloží do paměti. Už velmi dlouho existuje k DOM zpracování alternativa nazvaná SAX, která neukládá celý strom do paměti, ale prochází dokument postupně. DOM je vhodnější pro manipulaci s XML stromem, SAX je vhodnější pro vyhledávání konkrétních nodů.
Nebo můžete v PHP využít regulárních výrazů pro získání všech odkazů ze stránky.
Nebo můžete zahodit PHP úplně a použít jQuery.
Pro HTML dokumenty budou vhodnější ty druhé dvě varianty, protože těm nezáleží na struktuře dokumentu.
13. 5. 2013 14:50:45
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900864
Vít Michalek
verified
rating uzivatele
(14 hodnocení)
13. 5. 2013 17:49:31
SAX jsem neznal, nastuduji děkuji.
No to byl jen příklad s těmi odkazy. Někdy potřebuji jiné elementy.
13. 5. 2013 17:49:31
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900863
Zdeněk Hejl
verified
rating uzivatele
13. 5. 2013 18:10:23
Pomocí regulárních výrazů můžete ze stránky vytáhnout úplně cokoliv, co odpovídá nějaké nastavené šabloně(regulárnímu výrazu) - ani to nemusí mít HTML/XML strukturu.
13. 5. 2013 18:10:23
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900862
Díky za tip, SAX zkusím :)
13. 5. 2013 18:33:18
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900861
Marek
verified
rating uzivatele
(2 hodnocení)
18. 5. 2013 19:12:21
Před chvilkou jsem četl, že XMLReader je o něco rychlejší než SAX. Viz článek na Zdrojáku o SAX plus komentáře od Jakuba Vrány. Podložené to nemám, je to jen další nástroj na zpracování xml / html. Vyzkoušej, a uvidíš :)
18. 5. 2013 19:12:21
https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti/#reply900860
Pro odpověď se přihlašte.
Přihlásit