C++, multiple processors on multiple machines

**dhoorens** · 09/11/2009, 09h08

Bonjour

Tout est presque dans le titre, cependant je vais un peu etayer ma demande.
J'aimerais lancer un projet au boulot qui consisterais en le calcul de certaines choses � travers pas mal de simulations.
J'aurais qqch du style

Code :

S�lectionner tout - Visualiser dans une fen�tre � part

1
2
3
for (uint i = 1; i< simulationMAX; i++){
//... très long code fct (i) avec indépendance entre fct(i) et fct (j) pour tout //i<>j
}

A priori simulationMAX vaut minimum 1.000 et pourrait aller jusque 10.000
Pour le moment si je fais tourner ce genre de boucle sur un CPU j'en ai pour 15000 minutes ( ce qui est quand meme un peu long :-)

J'ai � ma disposition ma propre machine (2 CPU) et les machines de mes coll�gues sur lesquels j'ai droit d'admin => je pourrais avoir en terme de droit d'administration acc�s � 7 machines (=>14 CPU), mais je pourrais tenter d'avoir acc�s � 25 machines suppl�mentaires (=> 50 CPU) mais sur lesquels je n'ai pas de droit d'admin.
Ce que j'entends par droit d'admin est d�fini par la s�curit� de la boite et me donne acc�s � tous les r�pertoires et je peux installer ce que je veux.
Si je n'ai pas de droit d'admin, j'ai acc�s � certain s folders mais pas aux reperoires syst�me par exemple. Cependant si le projet fonctionne il serait envisageable d'ouvrir un peu plus les PC..

J'ai vu comment utiliser OpenMP. Ca fonctionne (heuruesement :-) ) sur ma machine, mais je ne sais pas s'il est possible d'utiliser cela au dela de ma machine mais sur d'autres machines aussi.
Si oui, comment? Faut il installer qqch sur els autres machines? Faut il modifier le code? Comment acc�de-t-on aux autres CPU?

Quels sont les probl�mes au niveau de la s�curit� reseau (Si la s�curit� ouvre l'acc�s entre ma machine et les 25 mahcines..)?
D'autres exp�riences?

Merci
D

**3DArchi** · 09/11/2009, 09h51

Salut,
A priori, OpenMP c'est sur la m�me machine. Pour massivement parall�liser tes simulations tu as plusieurs options :
-> CUDA ou tout autre environnement de GPGPU, mais �a reste sur la m�me machine.
-> Sur diff�rentes machines, il faudrait peut �tre regard� ce qui est grille et des framework pour construire des applis distribu�es.

**dhoorens** · 09/11/2009, 10h12

A propos (pour moi et peut -�tre pour d'autres), voici un lien sympa sur openMP
http://msdn.microsoft.com/en-us/magazine/cc163717.aspx

**3DArchi** · 09/11/2009, 10h13

Il y aussi des tutoriels OpenMP propos�s sur DVP.

**epsilon68** · 09/11/2009, 10h39

il faut faire du client server...

donc les machines de tes collegues sont les clients,
et tu es le server...
bon coucou les sockets etc

mais ce que je pense c'est qu'il serait peut-etre bien d'explorer la voie "database" comme centralisateur

toi tu mets les taches dans une DB (les 1000 simulations)
les clients verifient la db si il y a des taches puis les executent.

les clients devront appeler une stored procedure pour leur attribuer le numero d'une simulation non encore faite, attention a l'acces concurentiel...

ca sera peut-etre moins rapide que les sockets, mais tu pourras verifier les calculs apres coup. mais par contre ce qui est pas top, c'est la pompe a message....

remarque maintenant que j'y pense, il y a aussi l'option DCOM avec windows... en .NET pour eviter les longues parties de code pour rien...
avec DCOM, tu peux instancier un objet sur une certaine machine, et il fera le marshalling des argument pour toi... c'est pas mal.

donc pour resumer:

1. client server classique avec sockets
2. DCOM mais que sur Windows avec .NET
3. database + client pompe a message...

vos avis?

EDIT
c'est interessant comme probleme ... ca me donne envie de coder :-D

**Mac LAK** · 09/11/2009, 13h07

Le probl�me de la parall�lisation au niveau machine (= utiliser tous les CPU/coeurs disponibles) et celui de la distribution (= utiliser plusieurs machines) sont relativement diff�rents.

Pour le premier, tu as le choix entre des frameworks tout pr�ts type OpenMP, ou du parall�lisme "manuel". Dans les deux cas, cela n'a pas beaucoup d'importance car ce n'est pas excessivement complexe dans ton cas : en effet, tu as besoin de threads de travail autonomes, et non pas d'interactions complexes entre threads tournant continuellement. Tu es dans le cas le plus simple.

Dans le cas de la distribution, il faut voir des param�tres cruciaux :

Taille des donn�es source,
Taille des r�sultats,
Temps de calcul UNITAIRE sur ces donn�es.

Typiquement, et pour volontairement exag�rer, plus la taille totale des donn�es (source + r�sultat) est "volumineuse" et le temps de calcul "petit", moins la distribution est int�ressante / rentable. Inversement, de tr�s petites donn�es pour un temps CPU important est tr�s int�ressant pour la distribution.

Si c'est bien le cas, alors la distribution est rentable. Sinon, elle ne l'est pas, et seule l'utilisation de plusieurs CPU (ayant d�j� un acc�s direct aux donn�es) sera rentable pour acc�l�rer ton traitement.

Une erreur courante en parall�lisme est de penser que parall�liser un traitement fait gagner du temps machine. C'est faux : cela fait gagner du temps physique (=celui de ta montre), mais cela augmente toujours la charge CPU (=le temps CPU pass� � r�aliser l'action, inclus chaque coeur et la charge de transfert r�seau des donn�es).

Donc, si le temps suppl�mentaire n�cessaire au lancement d'une deuxi�me unit� d'ex�cution est sup�rieur au temps de calcul, la parall�lisation n'est pas rentable.

Pour les solutions envisageable afin de distribuer ton calcul, la premi�re chose � conna�tre sont les trois param�tres pr�cit�s : taille des donn�es source, des donn�es r�sultat et temps de traitement pour cette unit� "atomique" de calcul.
Mais il est tout � fait possible de rendre le processus compl�tement transparent pour le processus ma�tre, qui se contentera de lancer 10.000 threads qui feront soit le calcul en local, soit en le distribuant en fonction de la charge de la machine, c'est m�me relativement simple d'ailleurs.

**dhoorens** · 09/11/2009, 13h18

Envoy� par Mac LAK

Dans le cas de la distribution, il faut voir des param�tres cruciaux :

Taille des donn�es source,
Taille des r�sultats,
Temps de calcul UNITAIRE sur ces donn�es.

*En ce qui concerne les donn�es source: je donne la taille en octets. Il s'agit d'un ensemble de tables qui peuvent �tre communes � toutes les simulations ou alors de param�tres sp�cifiques par simulation. Dans le premier cas, ca tourne aux aloentours de ~15 Mb, par contre les tables relatives aux simulations sont de l'ordre de 120 Mb => 120k par simulation

En ce qui concerne la taille des r�sultats, j'ai envie de dire que ca d�pend...
Ca d�pend pcq l'utilisateur peut avoir envie d'afficher beaucoup de r�sultats ou peu de r�sultats. Comme il s'agit d'un mod�le avec pas mal de variables interm�diaires, il est possible de vouloir avoir en output par simulation je dirais de 50 � 1000 variables => ca depend...
G�n�ralement on va plutot utiliser 50 variables . Je dois juste rajouter pour corser le tout qu'il s'agit d'un mod�le dynamique => fct du temps => quand je dis 50 variables par simulation, ca d�signe l'output de 50 variables par simulation ET par pas de temps =>50 var * 1000 * 500 pas de temps (h�h�) => 25 Moutputs (vive les nouvelles unit�s :-)

En ce qui concerne le temps de calcul unitaire, que veux tu exactement dire?

Tks
D

**3DArchi** · 09/11/2009, 13h51

Envoy� par dhoorens

En ce qui concerne le temps de calcul unitaire, que veux tu exactement dire?

Quel est le temps de la simulation ? L'id�e est de savoir ce qui prend le plus de temps : attendre et d�rouler les simus sur la m�me machine ou distribuer ces calculs sur diff�rentes machines en prenant en compte :
1/ le temps d'�change de donn�es
2/ les n�cessit�s de synchronisation des donn�es, des r�sultats et des simus (barri�res)
3/ le m�canisme de lancement d'une simulation sur une autre machine.
Si les traitements sont nombreux mais tr�s courts, en g�n�ral, tu perds plus de temps � mettre un m�canisme de distribution du calcul que le b�n�fice de l'ex�cuter en // sur diff�rentes unit�s.

**dhoorens** · 09/11/2009, 15h10

Ben le temps d'une simulation est de l'ordre du quart d'heure

**dhoorens** · 09/11/2009, 15h14

En fait pour �tre un peu plus pr�cis, nous disposons a l'heure actuelle d'un logiciel permettant de faire ce genre de simulations (calcul de plusieurs simulations sur plusieurs CPU et plusieurs machines), mais il est cher et pas pratique et surtout peu flexible pour ce qu'on doit faire avec=> les donn�es que je donne sont celles qui correspondent � ce logiciel.
J'aimerais refaire un logiciel plus flexible et plus pratique => mais je ne connais pas encore (�videmment) le temps de run, mais j'imagine que ca devrait tourner dans le meme genre d'ordre de grandeur..

**Mac LAK** · 09/11/2009, 15h42

Diffuser 120 ko pour 15 minutes de temps de calcul, c'est rentable en soi. Par contre, diffuser 15 Mo "communs" N fois pour le m�me temps, il serait �tonnant que �a le soit, � moins d'utiliser un protocole de transfert en diffusion (ce qui est en soi quasiment un projet � part enti�re).

Dans ton message originel, tu �cris :

Code :

S�lectionner tout - Visualiser dans une fen�tre � part

1
2
3
for (uint i = 1; i< simulationMAX; i++){
//... très long code fct (i) avec indépendance entre fct(i) et fct (j) pour tout //i<>j
}

Ce que je veux savoir, c'est le temps pris par le "//... tr�s long code ind�pendant", et surtout, la taille des donn�es i appliqu�es � fct, ainsi que la taille des donn�es retourn�es par fct(i).
De plus, le calcul entre l'�tape i et i+1 est peut-�tre ind�pendant, mais qu'en est-il des donn�es sources ? Est-ce que ce sont les m�mes, ou sont-elles ind�pendantes elles-aussi ? M�me question pour les r�sultats.

En fonction de ces param�tres, on pourra t'aider � savoir si la distribution est rentable ou non.

Si tu veux des exemples concrets :

Distribuer un calcul simple (disons un seuillage) sur une image haute r�solution (>=1600x1200x32 bits) ne sera JAMAIS rentable : le temps d'�mission / r�ception de l'image est largement sup�rieur au temps de calcul !!
Inversement, chercher tous les motifs fr�quentiels d'un �chantillon de signal est presque toujours int�ressant � distribuer : la taille de l'�chantillon est ridicule par rapport au temps de calcul des diverses transform�es de Fourier requises pour l'analyse fr�quentielle...

**dhoorens** · 09/11/2009, 16h59

Les inputs sont de deux ordres:
*Des tables g�n�rales (les 15 Mo) (les donn�es sont dispers�es dans disons une vingtaine de tables)
*une table de simulations (contenant une vingtaine de variables (*500 pas de temps) par simulation. Mais toutes les donn�es sont dans une seule table => il s'agit d'une grosse table d'environ ~120 Mb (120Ko par simulation *1000 simulations)

Pour le calcul, je sais pas exactement comment le soft actuel se d�brouille. Je ne sais pas s'il fait des copies de ce dont il a besoin sur chacun des pcs ou s'il fait de l'aller retour avec le PC master?

En ce qui concerne les r�sultats, je ne sais pas ce qu'il fait en interne, mais ce que je sais c'est qu'� la fin du process avec le soft actuel, je recois sur mon pc (PC master) un ensemble de tables dont le total, point de vue m�moire, doit faire de l'ordre de 25Moutputs. Mais �crit il sur chaque PC slave et puis collecte-t-il sur mon pc, ou bien il fait les calculs sur les slaves et rassemble l'�criture sur mon pc?? Je ne sais pas.
Ma solution � moi n'�tant pas encore d�finie, je ne sais pas non plus ce qu'il devrait faire...

A la relecture de ceci, ca fait un beau probl�me avec beaucoup d'inconnnues :-/

**Mac LAK** · 09/11/2009, 17h07

Envoy� par dhoorens

Les inputs sont de deux ordres:
*Des tables g�n�rales (les 15 Mo) (les donn�es sont dispers�es dans disons une vingtaine de tables)
*une table de simulations (contenant une vingtaine de variables (*500 pas de temps) par simulation. Mais toutes les donn�es sont dans une seule table => il s'agit d'une grosse table d'environ ~120 Mb (120Ko par simulation *1000 simulations)

D�j�, c'est un peu mal barr� au vu de la taille des donn�es, je dirais... Cela fait un peu gros � balancer sur le r�seau local, tu ne trouves pas ?

Envoy� par dhoorens

Pour le calcul, je sais pas exactement comment le soft actuel se d�brouille. Je ne sais pas s'il fait des copies de ce dont il a besoin sur chacun des pcs ou s'il fait de l'aller retour avec le PC master?

Gni ?? Ton soft actuel n'est PAS distribu� il me semble, non ?
Donc que sont ces "chacun des PC" et ce "PC master" ??

Envoy� par dhoorens

En ce qui concerne les r�sultats, je ne sais pas ce qu'il fait en interne, mais ce que je sais c'est qu'� la fin du process avec le soft actuel, je recois sur mon pc (PC master) un ensemble de tables dont le total, point de vue m�moire, doit faire de l'ordre de 25Moutputs.

Tu les re�ois comment ? Fichier sur le disque ? Base de donn�es ? Dump sur la sortie standard ? Et pareil pour les donn�es d'entr�e, d'ailleurs...

Envoy� par dhoorens

A la relecture de ceci, ca fait un beau probl�me avec beaucoup d'inconnnues :-/

Oui, beaucoup trop d'ailleurs... Dans ce genre de choses, tu ne peux pas te permettre un "je ne sais pas ce qu'il fait", car tu seras forc�ment amen� � savoir quoi d�porter, donc quels sont les traitements exacts et pr�cis qui sont faits, et sur quoi ils sont faits...

**Lavock** · 09/11/2009, 17h17

D'apr�s ce que j'ai compris, tu dois donner au client 1*15Mo puis 120 ko par simulation de 15 min ? Pour moi, �a reste raisonnable sur du r�seau local au vu du nombre de simulation n�cessaire.

[EDIT] Si c'est le cas, les donn�es dont parler Mac Lak sont les 120 ko

**dhoorens** · 09/11/2009, 17h36

A probl�me peu clair, explication plus claire... :-)
Actuellement je dispose d'un PC (2CPU) que j'appelle PC master et de disons 4 PC (8 CPU) que j'appellerai PC Slave.
Sur tous ces PC est install�e une application payante fournie par un consultant et gnagnagna.. => bref, peu flexible, payante mais qui fonctionne.
Elle permet de traiter le probl�me du style for (i = 1-> simuMax) {...}
*OU sur un CPU => �a prendrait 15000 minutes
*OU le faire tourner sur plusieurs CPU et plusieurs machines de la fa�on suivante:
Sur le PC master je lance le soft, je sp�cifie quels sont les PC slaves et d�s ce moment il calcule et me retourne les r�sultats => total de l'op�ration dans ce cas ci: 15000 minutes / (8+2 CPU) = 1500 minutes (la relation est quasi lin�aire). Les r�sultats sont consign�s dans des fichiers d'extension .STO (stochastic file format) (� mon avis purement li� au soft en lui-m�me) que je ne sais lire qu'avec le soft lui m�me ou avec des DLL sp�cifiques fournies avec le soft.

En ce qui concerne le calcul, le soft actuel proc�de de la fa�on suivante:
il va calculer pour chaque simulation et pour chaque pas de temps un ensemble de choses avec
*pour input des tables de deux ordres (voir r�ponse plus haut)
*des outputs sp�cifi�s par l'user (mais disons pour faire simple de l'ordre de 25Moutputs au total)

Ces inputs sont tous sur le PC master
Les outputs seront finalement tous consign�s sur le PC Master.

Ce qu'il fait entre les op�rations Input et Output, je n'en sais rien, puisque le logiciel n'est pas open source. Tout ce que je sais, c'est qu'il le fait et normalement il le fait bien( encore une chance, vu le prix qu'on paye :-) )

Revenons en � mon probl�me:
J'estime que ce logiciel, outre les probl�mes sp�cifi�s intialement, n'est pas suffisement flexible => j'aimerais en refaire un � ma sauce, qui devrait prendre le m�me genre d'input, qui devrait sortir le m�me genre d'output, mais les op�rations entre "input" et "output" serait diff�rement organis�es de mani�re � ce que ce soit plus flexible...
Cependant, �tant donn� que je repartirais "from scratch" tout est permis et donc je peux r�organiser les inputs et outputs de la fa�on la plus ad�quate possible=> s'il est n�cessaire d'envoyer des ficheirs Input d'abord sur tous les PC slaves et puis de calculer, ou d'avoir un seul fichier input sur le PC master, d'avoir plusieurs fichiers d'outputs sur chaque PC slave, ou un seul gros fichier d'output sur le PC master, ou que sais-je encore ... tout est envisageable.

Donc a priori je ne sais pas ce que couterait un temps d'execution pour une simu, mais mon benchmark (le soft actuel) me dit que ca devrait tourner autour du quart d'heure par simulation.

=> ce que je veux c'est faire tourner ce bidule sur mes 10 CPU (voire plus)

**Cheps** · 09/11/2009, 21h54

Pour travailler sur un cluster (tes 5 PC) tu pourrais utiliser MPI, une biblioth�que facile d'utilisation et � mon avis adapt�e � ton probl�me. Tu pourrais ais�ment cr�er une application master/slave, ou le master serait charg� de distribu� le travail aux slaves (et �ventuellement faire une partie du travail lui-m�me). Tu aurais dans ton cas 1 master et 9 slaves.

**dhoorens** · 10/11/2009, 09h39

Envoy� par Cheps

Pour travailler sur un cluster (tes 5 PC) tu pourrais utiliser MPI, une biblioth�que facile d'utilisation et � mon avis adapt�e � ton probl�me. Tu pourrais ais�ment cr�er une application master/slave, ou le master serait charg� de distribu� le travail aux slaves (et �ventuellement faire une partie du travail lui-m�me). Tu aurais dans ton cas 1 master et 9 slaves.

Pas de probl�me(s) si je travaille sous windows? (VS2005 ou VS2008)

**Cheps** · 10/11/2009, 10h20

M�me si ma seule exp�rience est sur un cluster Unix, je vois pas de raison que �a te pose probl�me.

**dhoorens** · 10/11/2009, 11h31

et je saurais facilement sp�cifier la liste de mes PCs slave et que ca tourne "two fingers in the nose"?
Si oui, tu n'aurais pas un petit exemple..?
Cependant, ya pas de raison que les autres bossent pas pdt ce temps.. Vous pouvez toujours proposer d'autres solutions. J'ai l'esprit ouvert :-)
Tks
D

**koala01** · 10/11/2009, 17h27

Salut,

Je rebondis un peu sur

Envoy� par dhoorens

Les inputs sont de deux ordres:
*Des tables g�n�rales (les 15 Mo) (les donn�es sont dispers�es dans disons une vingtaine de tables)
*une table de simulations (contenant une vingtaine de variables (*500 pas de temps) par simulation. Mais toutes les donn�es sont dans une seule table => il s'agit d'une grosse table d'environ ~120 Mb (120Ko par simulation *1000 simulations)
<snip>

Tu as peut �tre un bon millier de simulation, mais, l'id�e est de n'utiliser les donn�es �manant que d'une seule simulation, ou, justement, de travailler avec les donn�es de plusieurs simulation en m�me temps

Et, s'il s'agit de travailler sur les donn�es �manant de plusieurs simulations, s'agit-il de travailler sur toutes les simulations, ou seulement sur une s�lection de certaines d'entre elles

On pourrait aussi se poser la question de savoir si certaines simulations sont actives (comprend: qu'il faille en r�cup�rer les donn�es) pendant qu'un programme analyse les donn�es d'une (ou des ) autres par ailleurs...

Quoi qu'il en soit, il me semblerait opportun d'avoir au minimum une machine ayant une fonction de "serveur" et disposant d'un bon sgbdr pour assurer la persistance

Et je vois assez mal cette machine s'occuper personnellement de l'analyse des donn�es si, � cot� de cela, elle est sollicit�e quasi en permanence pour stocker de nouvelles donn�es ou d'en s�lectionner en vue de les transmettre.

Au final, je dirais que, soit, c'est une machine qui fait tout le boulot, quitte � passer cinq heures � g�rer les donn�es, soit il y a une machine qui centralise toutes les donn�es, et "un certain nombre" d'autres machine qui les traitent.

Mais avoir une machine qui centralise les donn�es et qui en traite une partie et qui, en plus doit en transmettre � d'autres machines pour traitement, cela me semble un peu difficile, non

C++, multiple processors on multiple machines

Threads & Processus C++

Discussions similaires

Partager

Partager