Parseur HTML C++

**Trunks** · 04/05/2010, 15h23

Bonjour,

Que me conseillez-vous comme parseur HTML afin d'extraire des donn�es d'une page web?

Merci

**JulienDuSud** · 04/05/2010, 23h27

http://tinyurl.com/2e9p6yn

**epsilon68** · 09/05/2010, 10h43

QtWebKit?

**cs_ntd** · 09/05/2010, 15h46

Ou n'importe quelle parser XML, �a d�pend si tu veux aussi t'occuper du rendu...

**jblecanard** · 10/05/2010, 13h17

Salut

Ca d�pend aussi de la robustesse du HTML entr�. Un parseur XML va sortir en erreur au moindre pet de travers, alors qu'un parseur HTML bien con�u peut �tre tol�rant � certaines erreurs. Trunks n'est pas forc�ment l'auteur du HTML utilis� et n'a donc pas forc�ment la main sur la qualit� du HTML en question...

Il y a Tidy qui utilis� en lib, peut �tre utile. Ce n'est plus tr�s maintenu mais parce que pas mal stable il me semble.

**Trunks** · 10/05/2010, 16h39

Envoy� par cs_ntd

Ou n'importe quelle parser XML, �a d�pend si tu veux aussi t'occuper du rendu...

Seulement si le code HTML est bien form� (comme l'a pr�cis� jblecanard) et sur le net, il y a malheureusement �norm�ment de pages mal form�es.

En effet, il y a la librairie libtidy qui permet de r�parer le code mal form� (jusqu'� une certaine limite) qui pourrait permettre d'utiliser un parser xml quelconque (xerces-c++, arabica, libxml-c++, tinyxml, rapidxml, ..).

J'ai vu que libxml (version c) avait un module HTMLParse qui permettait de parser une page HTML mal form�e, mais que ce module n'�tait pas test�.

Perso, j'ai test� Boost.PropertyTree, mais j'ai des probl�me de compilation et d'utilisation.

Je pense que le mieux reste d'utiliser Tidy Html en esp�rant que �a r�pare bien les pages et qu'ensuite j'utilise le parser xml de mon choix.

**epsilon68** · 10/05/2010, 17h31

pourquoi ne pas utiliser HtmlBrowser (.NET) ou QtWebKit (Qt/C++)?
c'est le meilleur parseur que vous pourrez jamais obtenir...

Parseur HTML C++

C++

Vue hybride

Discussions similaires

Partager

Partager