Bonjour,
Que me conseillez-vous comme parseur HTML afin d'extraire des donn�es d'une page web?
Merci
Bonjour,
Que me conseillez-vous comme parseur HTML afin d'extraire des donn�es d'une page web?
Merci
Ou n'importe quelle parser XML, �a d�pend si tu veux aussi t'occuper du rendu...
Salut
Ca d�pend aussi de la robustesse du HTML entr�. Un parseur XML va sortir en erreur au moindre pet de travers, alors qu'un parseur HTML bien con�u peut �tre tol�rant � certaines erreurs. Trunks n'est pas forc�ment l'auteur du HTML utilis� et n'a donc pas forc�ment la main sur la qualit� du HTML en question...
Il y a Tidy qui utilis� en lib, peut �tre utile. Ce n'est plus tr�s maintenu mais parce que pas mal stable il me semble.
Seulement si le code HTML est bien form� (comme l'a pr�cis� jblecanard) et sur le net, il y a malheureusement �norm�ment de pages mal form�es.
En effet, il y a la librairie libtidy qui permet de r�parer le code mal form� (jusqu'� une certaine limite) qui pourrait permettre d'utiliser un parser xml quelconque (xerces-c++, arabica, libxml-c++, tinyxml, rapidxml, ..).
J'ai vu que libxml (version c) avait un module HTMLParse qui permettait de parser une page HTML mal form�e, mais que ce module n'�tait pas test�.
Perso, j'ai test� Boost.PropertyTree, mais j'ai des probl�me de compilation et d'utilisation.
Je pense que le mieux reste d'utiliser Tidy Html en esp�rant que �a r�pare bien les pages et qu'ensuite j'utilise le parser xml de mon choix.
pourquoi ne pas utiliser HtmlBrowser (.NET) ou QtWebKit (Qt/C++)?
c'est le meilleur parseur que vous pourrez jamais obtenir...
Partager