HTML DOM parser vaše zkušenosti

Vít Michalek

(14 hodnocení)

13. 5. 2013 09:57:24

Zdravím,

pro parsování HTML a následné práci využivám : http://sourceforge.net/projects/simplehtmldom/

Šikovný knihovna, ale při větších souborech (500kb) mi to sežere skoro 800mb RAM, jelikož si na vše vytvoři objekty.

Nemáte někdo zkušenost s jinou knihovnou?

Potřebuji vyhledávat učité elementy, a jejich atributy, prohledávat podle id, classu atd.

Díky za rady

13. 5. 2013 09:57:24

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900867

Vladimír Pilný

(63 hodnocení)

13. 5. 2013 10:02:40

Já osobně jsem nikdy s HTML DOM neměl žádný problém a používám ho pokaždé při parserování a že sem toho už vyparseroval :) Nemáš to nějak prasácky napsaný ?

13. 5. 2013 10:02:40

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900866

Vít Michalek

(14 hodnocení)

13. 5. 2013 10:09:06

Je to na 3 řádky kod.

Např toto h..p://www.volneclanky.cz/ a chci najít všechny "a hrefy".

13. 5. 2013 10:09:06

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900865

Zdeněk Hejl

13. 5. 2013 14:50:45

Problém u DOM je, že se celá struktura dokumentu uloží/rozloží do paměti. Už velmi dlouho existuje k DOM zpracování alternativa nazvaná SAX, která neukládá celý strom do paměti, ale prochází dokument postupně. DOM je vhodnější pro manipulaci s XML stromem, SAX je vhodnější pro vyhledávání konkrétních nodů.

Nebo můžete v PHP využít regulárních výrazů pro získání všech odkazů ze stránky.

Nebo můžete zahodit PHP úplně a použít jQuery.

Pro HTML dokumenty budou vhodnější ty druhé dvě varianty, protože těm nezáleží na struktuře dokumentu.

13. 5. 2013 14:50:45

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900864

Vít Michalek

(14 hodnocení)

13. 5. 2013 17:49:31

SAX jsem neznal, nastuduji děkuji.

No to byl jen příklad s těmi odkazy. Někdy potřebuji jiné elementy.

13. 5. 2013 17:49:31

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900863

Zdeněk Hejl

13. 5. 2013 18:10:23

Pomocí regulárních výrazů můžete ze stránky vytáhnout úplně cokoliv, co odpovídá nějaké nastavené šabloně(regulárnímu výrazu) - ani to nemusí mít HTML/XML strukturu.

13. 5. 2013 18:10:23

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900862

Vladimír Pilný

(63 hodnocení)

13. 5. 2013 18:33:18

Díky za tip, SAX zkusím :)

13. 5. 2013 18:33:18

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900861

Marek

(2 hodnocení)

18. 5. 2013 19:12:21

Před chvilkou jsem četl, že XMLReader je o něco rychlejší než SAX. Viz článek na Zdrojáku o SAX plus komentáře od Jakuba Vrány. Podložené to nemám, je to jen další nástroj na zpracování xml / html. Vyzkoušej, a uvidíš :)

18. 5. 2013 19:12:21

https://webtrh.cz/diskuse/html-dom-parser-vase-zkusenosti#reply900860

Pro odpověď se přihlašte.

Přihlásit