Protocolo Gestion de Colasv2
Protocolo Gestion de Colasv2
Protocolo Gestion de Colasv2
En cluster Imarpe-HPC
Generalidades
SGE (Sun Grid Engine), es el acronomo utilizado para en referencia a la aplicacion
de Gestion de Ejecucion de aplicaciones en Cluster, en forma particular en el
cluster HPC-Imarpe. Esta aplicacion es parte de la instalacion que realiza ROCLS
CLUSTER v 6.2 , como parte del paquete de Rools de herramientas que pone a
disposicion de los usuarios del mismo. Si bien el acronimo incluye la letra S al
inicio, esta se debe a que inicialmente fue creada por Sun Systems, mas hoy en
dia es considerada como software libre y el nombre formal es Open Grid
Scheduler Grid Engine, este en uso para el clutser la version 2011.11p1
Administracin de Usuarios
Consiste en la asignar privilegios a los usuarios ya existentes del Cluster HPC-
Imarpe, para el uso del gestor SGE. Existen tres tipos de Usuarios:
Administradores (Managers), Operadores (Operators). Propietarios (Owners) y
Usuarios en general (Users)
lanza_wrf.sh
#!/bin/bash
#$ -S /bin/bash
1
En ROMS es: Ruta de Instalacin/Roms_Tools/Run/ROMS_FILES
En WRF es: Ruta de Instalacin/Test/em_real
#$ -q all.q
# The batch system should use the current directory as working directory.
#$ -cwd
# Name your job. Unless you use the -o and -e options, output will
# go to a unique file name.ojob_id for each job.
#$ -N wrfDaniel
# Redirect output stream to this file.
#$ -o output.dat
# Join the error stream to the output stream.
#$ -j yes
# Send status information to this email address.
#$ -M [email protected]
# Send me an e-mail when the job has finished.
#$ -m eb
# Specify the amount of virtual memory given to each MPI process
# in the job.
#$ -l h_vmem=30G
# Start 18 MPI processes across an arbitrary number of
# hosts. For each process, SGE will reserve one CPU-core.
#$ -pe mpich 220
## ALTERNATIVE
/share/apps/intel/impi/2017.2.174/intel64/bin/mpirun -np 200 ./wrf.exe
Comando Descripcin
$ qhold Job-ID Suspender Job
$ qrls Job-ID Reanudar Job
$ qalter Job-ID Cambiar privilegios de ejecucin de un
Job que aun esta espera
$ qdel Job-ID Borrar un Job de SGE
Lanzar JOB
Activar
CheckBox
Seleccionar
archivo Job
Script
mpich 200
wrf
4. Seleccionar archivo Job Script
5. Monitoreo
Lnea de Comandos
Comando Descripcin
$ qstat Una vista del Job
$ qstat -f Una vista del Job y su distribucin en
los nodos
$ qhost Carga de job en los nodos
MEDIANTE INTERFASE GRAFICA
Desde Qmon Activar Job Control
La interfase grafica nos presenta tres tipos de Jobs: Pendientes de Ejecucion
(pending Jobs), En ejecucin (Running Jobs) y Terminados (Finished Jobs)
En la misma ventana, estando seleccionado el Job de nuestro inters, es posible
Suspender (Suspend), Reanudar (Resume), Borrar (Delete). De la misma forma
que se ha mostrado en las opciones accesibles a travs de la lnea de comandos.
Procedimiento de gestin de Colas (Queues)
Las colas son paquetes de recursos prestos a ser usados por parte de Jobs SGE
bajo la tutela de los Owners (propietarios), definidos en SGE. Para el lanzamiento
de un Job, no es obligatorio en crear una Cola especifica para el mismo, ya que
existe la Cola para Todos, que es una cola por defecto que puede ser usada por
todo Job, que se desee lanzar sin que este asignado a una como tal.
Los criterios de creacin de colas son variados, desde usuarios de una misma
aplicacin hasta grupos de trabajo de un rea determinada de la institucin. En
nuestro caso, se han creado colas para los siguientes tipos de usuarios:
Comando Descripcion
$ qconf -aq nombre_cola Crea cola con editor vi, bajo plantilla
existente
$ qconf -sql Muestra todas las colas existentes
$ qconf -sq Queue_nombre Muestra propiedades de una cola en
particular
$ qconf -scl Lista de recursos disponibles via el
objeto complexes
$ qconf -sc complex_nombre Recursos aisgnados a un objeto
complexe
Ejemplos de Salida de datos (Creacion de cola con aparicion de plantilla en Editor
VI)
[wrf@frontend-hpc ~]$ qconf -aq ColaEjemplo
qname ColaEjemplo
hostlist NONE
seq_no 0
load_thresholds np_load_avg=1.75
suspend_thresholds NONE
nsuspend 1
suspend_interval 00:05:00
priority 0
min_cpu_interval 00:05:00
processors UNDEFINED
qtype BATCH INTERACTIVE
ckpt_list NONE
pe_list make
rerun FALSE
slots 1
tmpdir /tmp
shell /bin/csh
prolog NONE
epilog NONE
shell_start_mode posix_compliant
starter_method NONE
suspend_method NONE
resume_method NONE
terminate_method NONE
notify 00:00:60
owner_list NONE
user_lists NONE
xuser_lists NONE
subordinate_list NONE
complex_values NONE
projects NONE
xprojects NONE
calendar NONE
initial_state default
s_rt INFINITY
h_rt INFINITY
s_cpu INFINITY
h_cpu INFINITY
s_fsize INFINITY
h_fsize INFINITY
s_data INFINITY
h_data INFINITY
s_stack INFINITY
h_stack INFINITY
s_core INFINITY
h_core INFINITY
[wrf@frontend-hpc ~]$ qconf -sql
ColaEjemplo
all.qs_rss INFINITY
h_rss INFINITY
s_vmem INFINITY
h_vmem INFINITY
qname ColaEjemplo
hostlist NONE
seq_no 0
load_thresholds np_load_avg=1.75
suspend_thresholds NONE
nsuspend 1
suspend_interval 00:05:00
priority 0
min_cpu_interval 00:05:00
processors UNDEFINED
qtype BATCH INTERACTIVE
ckpt_list NONE
pe_list make
rerun FALSE
slots 1
tmpdir /tmp
shell /bin/csh
prolog NONE
[wrf@frontend-hpc ~]$ qconf -sql
ColaEjemplo
all.qepilog NONE
shell_start_mode posix_compliant
starter_method NONE
suspend_method NONE
resume_method NONE
terminate_method NONE
notify 00:00:60
owner_list NONE
user_lists NONE
xuser_lists NONE
subordinate_list NONE
complex_values NONE
projects NONE
xprojects NONE
calendar NONE
initial_state default
s_rt INFINITY
h_rt INFINITY
s_cpu INFINITY
h_cpu INFINITY
s_fsize INFINITY
h_fsize INFINITY
s_data INFINITY
h_data INFINITY
s_stack INFINITY
h_stack INFINITY
s_core INFINITY
h_core INFINITY
s_rss INFINITY
h_rss INFINITY
s_vmem INFINITY
h_vmem INFINITY