IdentifiantMot de passe
Loading...
Mot de passe oubli� ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les r�ponses en temps r�el, voter pour les messages, poser vos propres questions et recevoir la newsletter

C++ Discussion :

Parseur HTML C++


Sujet :

C++

Vue hybride

Message pr�c�dent Message pr�c�dent   Message suivant Message suivant
  1. #1
    Membre �clair� Avatar de Trunks
    Homme Profil pro
    D�veloppeur informatique
    Inscrit en
    Mai 2004
    Messages
    534
    D�tails du profil
    Informations personnelles :
    Sexe : Homme
    �ge : 42
    Localisation : France, Val de Marne (�le de France)

    Informations professionnelles :
    Activit� : D�veloppeur informatique

    Informations forums :
    Inscription : Mai 2004
    Messages : 534
    Par d�faut Parseur HTML C++
    Bonjour,

    Que me conseillez-vous comme parseur HTML afin d'extraire des donn�es d'une page web?

    Merci

  2. #2
    Membre chevronn�
    Inscrit en
    Ao�t 2004
    Messages
    556
    D�tails du profil
    Informations forums :
    Inscription : Ao�t 2004
    Messages : 556

  3. #3
    Membre �m�rite
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    1 354
    D�tails du profil
    Informations personnelles :
    �ge : 50
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 1 354
    Par d�faut
    QtWebKit?

  4. #4
    Membre �clair� Avatar de cs_ntd
    Homme Profil pro
    D�veloppeur .NET
    Inscrit en
    D�cembre 2006
    Messages
    598
    D�tails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Etats-Unis

    Informations professionnelles :
    Activit� : D�veloppeur .NET
    Secteur : High Tech - �diteur de logiciels

    Informations forums :
    Inscription : D�cembre 2006
    Messages : 598
    Par d�faut
    Ou n'importe quelle parser XML, �a d�pend si tu veux aussi t'occuper du rendu...

  5. #5
    Membre Expert
    Profil pro
    Inscrit en
    Mars 2007
    Messages
    1 415
    D�tails du profil
    Informations personnelles :
    Localisation : France, Paris (�le de France)

    Informations forums :
    Inscription : Mars 2007
    Messages : 1 415
    Par d�faut
    Salut

    Ca d�pend aussi de la robustesse du HTML entr�. Un parseur XML va sortir en erreur au moindre pet de travers, alors qu'un parseur HTML bien con�u peut �tre tol�rant � certaines erreurs. Trunks n'est pas forc�ment l'auteur du HTML utilis� et n'a donc pas forc�ment la main sur la qualit� du HTML en question...

    Il y a Tidy qui utilis� en lib, peut �tre utile. Ce n'est plus tr�s maintenu mais parce que pas mal stable il me semble.

  6. #6
    Membre �clair� Avatar de Trunks
    Homme Profil pro
    D�veloppeur informatique
    Inscrit en
    Mai 2004
    Messages
    534
    D�tails du profil
    Informations personnelles :
    Sexe : Homme
    �ge : 42
    Localisation : France, Val de Marne (�le de France)

    Informations professionnelles :
    Activit� : D�veloppeur informatique

    Informations forums :
    Inscription : Mai 2004
    Messages : 534
    Par d�faut
    Citation Envoy� par cs_ntd Voir le message
    Ou n'importe quelle parser XML, �a d�pend si tu veux aussi t'occuper du rendu...
    Seulement si le code HTML est bien form� (comme l'a pr�cis� jblecanard) et sur le net, il y a malheureusement �norm�ment de pages mal form�es.

    En effet, il y a la librairie libtidy qui permet de r�parer le code mal form� (jusqu'� une certaine limite) qui pourrait permettre d'utiliser un parser xml quelconque (xerces-c++, arabica, libxml-c++, tinyxml, rapidxml, ..).

    J'ai vu que libxml (version c) avait un module HTMLParse qui permettait de parser une page HTML mal form�e, mais que ce module n'�tait pas test�.

    Perso, j'ai test� Boost.PropertyTree, mais j'ai des probl�me de compilation et d'utilisation.

    Je pense que le mieux reste d'utiliser Tidy Html en esp�rant que �a r�pare bien les pages et qu'ensuite j'utilise le parser xml de mon choix.

  7. #7
    Membre �m�rite
    Profil pro
    Inscrit en
    Juin 2006
    Messages
    1 354
    D�tails du profil
    Informations personnelles :
    �ge : 50
    Localisation : France

    Informations forums :
    Inscription : Juin 2006
    Messages : 1 354
    Par d�faut
    pourquoi ne pas utiliser HtmlBrowser (.NET) ou QtWebKit (Qt/C++)?
    c'est le meilleur parseur que vous pourrez jamais obtenir...

Discussions similaires

  1. developpement application (parseur html, download)
    Par Neilime05 dans le forum Langage
    R�ponses: 10
    Dernier message: 11/06/2009, 09h13
  2. Parseur HTML en java
    Par HBrayan dans le forum G�n�ral Java
    R�ponses: 4
    Dernier message: 21/07/2008, 13h29
  3. problem Parseur html
    Par taouja dans le forum Services Web
    R�ponses: 1
    Dernier message: 24/04/2007, 16h04
  4. Faire un parseur html
    Par titoff dans le forum G�n�ral JavaScript
    R�ponses: 1
    Dernier message: 20/12/2005, 13h03
  5. Existe t-il un parseur HTML pou extraire des informations?
    Par danje dans le forum API standards et tierces
    R�ponses: 1
    Dernier message: 31/10/2005, 11h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo