User Tools

Site Tools


cluster:determinar_estado_trabajo

Determinar el estado y los problemas de los trabajos enviados al clúster

Control de versiones

Fecha Actividad Autor
03/11/2010 Publicación inicial Jorge Iván Meza Martínez.

Introducción

En este capítulo se revisarán las opciones que dispone Condor para la revisión del estado de los trabajos que se ejecutan o se intentan ejecutar en el cluster, así como definir sugerencias que posiblemente ayuden a solucionar los problemas encontrados.

Tiempo estimado

30 minutos

Precondición

  • El cluster se encuentra completo y en operación.

Supuestos

  • Ninguno.

Conocer la cola de trabajo del clúster

El comando condor_q se encarga de mostrar los trabajos que se encuentran en la cola del clúster y su estado correspondiente.

$ condor_q
 
 
    -- Submitter: d-head.micluster.com : <192.168.1.230:9061> : d-head.micluster.com
     ID      OWNER            SUBMITTED     RUN_TIME ST PRI SIZE CMD               
      13.0   jimezam        11/3  22:43   0+00:01:07 R  0   0.0  trabajo1     
      14.0   jimezam        11/3  22:43   0+00:00:00 I  0   0.0  trabajo2          
 
    2 jobs; 1 idle, 1 running, 0 held

Los campos mostrados en la presentación por defecto corresponden a los siguientes.

Nombre Descripción
ID Identificador del proceso en el clúster asociado al trabajo
OWNER Usuario propietario del trabajo
SUBMITTED Fecha y hora de envío del trabajo
RUN_TIME Tiempo de ejecución del trabajo
ST Estado actual del tabajo
PRI Prioridad del trabajo [-20, 20]
SIZE Tamaño de la imagen virtual del ejecutable en MB
CMD Nombre del ejecutable

Los posibles estados (ST) en que puede estar un trabajo son los siguientes.

Nombre Descripción
U No se ha ejecutado aún
H Retenido
R Ejecutándose
I En espera de ser ejecutado
C Completado
X Removido

Conocer el estado de un trabajo específico

Para conocer el estado de un proceso específico se utiliza la opción analyze del comando condor_q. Esta opción es muy útil para determinar si un trabajo tiene problemas y depurar cuales son.

$ condor_q -analyze -long
 
    -- Submitter: c-head.micluster.com : <192.168.1.230:9061> : c-head.micluster.com
    c-wn2.micluster.com Failed request constraint
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    ---
    014.000:  Run analysis summary.  Of 2 machines,
          1 are rejected by your job's requirements
          0 reject your job because of their own requirements
          0 match but are serving users with a better priority in the pool
          0 match but reject the job for unknown reasons
          0 match but will not currently preempt their existing job
          0 match but are currently offline
          0 are available to run your job
	    No successful match recorded.
	    Last failed match: Wed Nov  3 23:13:58 2010
	    Reason for last match failure: no match found
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
    WARNING:  Be advised:
       No resources matched request's constraints
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
       Check the Requirements expression below:
 
    Requirements = (OpSys == "SOLARIS28" && Arch == "SUN4u") && (Disk >= DiskUsage) && (((Memory * 1024) >= ImageSize) && 
                   ((RequestMemory * 1024) >= ImageSize)) && (TARGET.FileSystemDomain == MY.FileSystemDomain)

En este caso específico se puede apreciar que hay un trabajo en la cola del clúster que no ha podido ser ejecutado debido a que ningún nodo trabajador disponible puede satisfacer sus requerimientos de hardware (No resources matched request's constraints).

Los nodos utilizan Linux como sistema operativo y el trabajo requiere de un nodo con Solaris 2.8 (OpSys == "SOLARIS28" && Arch == "SUN4u") para ser ejecutado.

Obtener mayor precisión acerca del estado de un trabajo específico

La opción better-analyze muestra mayor información acerca de los problemas que tiene un trabajo del cluster. Este análisis toma mas tiempo y se recomienda utilizar sobre trabajos específicos en lugar de analizar todo el pool del clúster.

$ condor_q -better-analyze -long
 
    -- Submitter: c-head.micluster.com : <192.168.1.230:9061> : c-head.micluster.com
    c-wn2.micluster.com Failed request constraint
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    ---
    014.000:  Run analysis summary.  Of 2 machines,
      2 are rejected by your job's requirements
      0 reject your job because of their own requirements
      0 match but are serving users with a better priority in the pool
      0 match but reject the job for unknown reasons
      0 match but will not currently preempt their existing job
      0 match but are currently offline
      0 are available to run your job
	No successful match recorded.
	Last failed match: Wed Nov  3 23:29:46 2010
	Reason for last match failure: no match found
 
    WARNING:  Be advised:
       No resources matched request's constraints
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
    The Requirements expression for your job is:
 
    ( target.OpSys == "SOLARIS28" && target.Arch == "SUN4u" ) &&
    ( target.Disk >= DiskUsage ) && ( ( ( target.Memory * 1024 ) >= ImageSize ) &&
    ( ( RequestMemory * 1024 ) >= ImageSize ) ) &&
    ( TARGET.FileSystemDomain == MY.FileSystemDomain )
 
        Condition                         Machines Matched    Suggestion
        ---------                         ----------------    ----------
    1   target.OpSys == "SOLARIS28"       0                   MODIFY TO "LINUX"
                                                              ^^^^^^^^^^^^^^^^^
    2   target.Arch == "SUN4u"            0                   REMOVE
    3   ( ( ( 1024 * target.Memory ) >= 17 ) && ( ( 1024 * ceiling(ifThenElse(JobVMMemory isnt undefined,JobVMMemory,1.660156250000000E-02)) ) >= 17 ) )
                                          0                   REMOVE
    4   ( target.Disk >= 17 )             2                    
    5   ( TARGET.FileSystemDomain == "micluster.com" )

Nótese como el comando condor_q con la opción better-analyze no sólo diagnostica el problema sino que realiza sugerencias acerca de que cambios en las propiedades del trabajo pueden hacerse para solucionar el problema.

En este caso sugiere modificar por LINUX el requerimiento de SOLARIS28 que no es posible cumplir y para esto indica que secciones de los requerimientos se deben modificar (MODIFY) o eliminar (REMOVE).

Enlaces

cluster/determinar_estado_trabajo.txt · Last modified: 2012/02/26 22:35 (external edit)