Bonjour,

Mon but �tant de cr�er un programme qui parcourt un site et r�cup�re toutes les adresses des pages. (Pour �ventuellement faire un sitemap ou autre)

J'ai commenc� par utilis� cURL.
J'arrive � r�cup�rer le code de la page dans une variable "String^", mais ensuite je ne sais pas trop quoi faire. (pour ceux que �a int�resse, je mets le code plus bas)

J'ai regard� du c�t� de libxml (pas trouv� de version pour visual) et msxml (pas trouv� d'exemple convainquant) rien ne me convient.

Ensuite j'ai pens� aux expressions r�guli�res (extraire que la partie "href"), mais je d�sesp�re apr�s avoir pass� tout ce temps

Quelqu'un peut-il me conseiller sur le chemin � prendre et comment faire ?
Merci.

Code : S�lectionner tout - Visualiser dans une fen�tre � part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
On est dans une classe "crawlWebSite"
 
static int writer(char *data, size_t size, size_t nmemb,
               string *writerData)
{
	if (writerData == NULL)
	 return 0;
 
	writerData->append(data, size*nmemb);
 
	return size * nmemb;
}
 
String^ crawlWebSite::exec()
{
	session = curl_easy_init(); 
	curl_easy_setopt(session, CURLOPT_URL, "http://cpp.developpez.com/");	
        string buffer;
	curl_easy_setopt(session, CURLOPT_WRITEDATA, &buffer);
	curl_easy_setopt(session, CURLOPT_WRITEFUNCTION, writer);
	curl_easy_perform(session);
	curl_easy_cleanup(session);
	return gcnew String(buffer.c_str());
}