User Tools

Site Tools


cluster:agregar_nodos_submitter_ubuntu_deb

Agregar nodos de envío de trabajos al cluster utilizando Ubuntu Linux y el paquete .deb

Control de versiones

Fecha Actividad Autor
03/12/2010 Publicación inicial Jorge Iván Meza Martínez.

Introducción

En esta sección se describe la instalación y configuración de un nodo facultado para enviar trabajos (submitter) al cluster utilizando GNU/Linux Ubuntu a partir de la distribución original de Condor en formato .deb que puede descargarse desde su sitio web.

Precondición

  • El cluster se encuentra instalado y funcionando.
  • El cluster cuenta con al menos el nodo principal (c-head) y al menos un nodo trabajador (c-wn1).

Supuestos

  • El nodo submitter a instalarse se encuentra autorizado para enviar trabajos al cluster. Para esto verificar la variable HOSTALLOW_WRITE (machines permitted to submit jobs to this pool) en la configuración del cluster.

Instalar los paquetes necesarios

Instalar la herramienta para el envío y consulta de correos desde línea de comando mail y demás librerías adicionales.

$ sudo aptitude install mailutils libice6 libsm6

Crear el usuario Condor

El usuario condor será el encargado de ejecutar los demonios de Condor en la máquina local. Para evitar problemas de permisos en el sistema de archivos su UID y GID deberán corresponder con los del usuario condor del cluster, en este caso, con los existentes en c-head.

$ sudo groupadd -g 501 condor
 
$ sudo useradd -c "Usuario Condor" -d /home/condor -m condor -s /bin/bash -u 501 -g 501
 
$ sudo passwd condor

Obtener la distribución Condor

En este capítulo se utiliza la distribución .deb de Condor que se obtiene desde su sitio web. Para GNU/Linux Ubuntu se recomienda que obtenga la distribución Debian Intel x86 o Debian Intel x86/64 según sea la arquitectura objetivo.

Instalar Condor

Si utiliza la versión 10.10 de Ubuntu consulte primero la sección de Solución de Problemas para solucionar un problema con esta versión.

Para instalar el archivo .deb ejecute el siguiente comando.

$ sudo dpkg -i condor_*_amd64.deb

Configurar el nodo

Agregar la siguiente información al archivo de configuración local (condor_config.local) de Condor y verifique los valores de las variables comentadas.

La ubicación del nodo principal del cluster, c-head en este caso, debe ser resuelto por algún método como DNS o el /etc/hosts local.

$ sudo vi /etc/condor/condor_config.local
 
    CONDOR_HOST = c-head.micluster.com
 
    SEC_DAEMON_AUTHENTICATION = required
    SEC_DAEMON_AUTHENTICATION_METHODS = password
    SEC_CLIENT_AUTHENTICATION_METHODS = password,fs,gsi,kerberos
    SEC_PASSWORD_FILE = /home/condor/condor_credential
 
    ALLOW_WRITE = *
 
    UID_DOMAIN = micluster.com
    FILESYSTEM_DOMAIN = micluster.com
 
    DAEMON_LIST = MASTER, SCHEDD
    CONDOR_ADMIN = root@micluster.com
    CONDOR_IDS = 501.501

Crear el archivo de credenciales

En el archivo de credenciales se almacena la contraseña de acceso al cluster. Es importante verificar que esta sea la misma que se utilizó durante la configuración del cluster.

$ sudo /usr/sbin/condor_store_cred -f /home/condor/condor_credential

Iniciar Condor manualmente en la máquina local

$ sudo service condor start
 
$ ps -fea | grep condor
 
    condor    2890     1  0 17:57 ?        00:00:00 /usr/sbin/condor_master -pidfile /var/run/condor/condor.pid
    condor    2891  2890  0 17:57 ?        00:00:02 condor_schedd -f
    root      2892  2891  0 17:57 ?        00:00:00 condor_procd -A /var/run/condor/procd_pipe.SCHEDD -S 60 -C 501

Verificar los mensajes de registro de Condor en /var/lib/condor/log.

Enviar un trabajo al cluster

Crear el archivo de envío de trabajo.

$ vi hostname.submit
 
    executable = /bin/hostname
    universe   = vanilla
    log        = _hostname.log
    output     = _hostname.out
    error      = _hostname.err
 
    should_transfer_files = YES
    when_to_transfer_output = ON_EXIT
 
    queue

Nótese como en este caso, el nodo submitter y el cluster no comparten un sistema de archivos distribuído, motivo por el cual es necesario agregar los parámetros transfer para garantizar la transferencia de los archivos del trabajo.

Enviar el trabajo al cluster.

$ condor_submit hostname.submit

Solución de problemas

Instalación falla con Ubuntu 10.10

La versión 10.10 de Ubuntu trae consigo un problema para ubicar ciertas librerías que impide la instalación de Condor desde archivos .deb. Para solucionar esto, ejecute los siguientes comandos antes de instalar el paquete con dpkg.

$ sudo apt-get install libclassad0
 
$ cd /usr/lib
 
$ sudo ln -s libclassad_ns.so.1.0.0 libclassad_ns.so.0
 
$ sudo ln -s libclassad.so.1.0.0 libclassad.so.0

Tomado de fails to install on maverick due to missing libclassad.so.0.

Enlaces

Ninguno.

cluster/agregar_nodos_submitter_ubuntu_deb.txt · Last modified: 2012/02/26 22:35 (external edit)