MC-SD01-I
Introdução ao ambiente SDUMONT /SLURM

Professor: Roberto Souto, André Carneiro e Bruno Fagundes (LNCC)

Horarios: Segunda 22/01 de 08:00h às 12:00h

Resumo: Visão geral do ambiente computacional do supercomputador Santos Dumont, mostrando os principais aspectos com relação aos recursos de hardware e de software disponíveis aos usuários.
Visão geral das ferramentas de avaliação de desempenho disponível aos usuários do supercomputador Santos Dumont, mostrando aspectos que visam obter um melhor entendimento da execução da aplicação, obtendo-se perfil de desempenho, que podem orientar no sentido de otimização do código.

Objetivo: Este curso contemplará a programação paralela heterogênea em arquiteturas de computadores de memória distribuída, com enfoque na área de computação científica. Serão abordados tópicos como conceitos fundamentais de paralelismo, arquiteturas do sistema Santos Dumont, técnicas de otimização e estudo de casos. É também objetivo do curso a aplicação prática em laboratório dos conhecimentos de programação paralela adquiridos pelos alunos.

Ementa: Configuração dos nós computacionais; arquiteturas paralelas disponíveis (CPU e GPU) sistema operacional Linux RedHat; sistema de gerenciamento de recursos SLURM: principais comandos, submissão e monitoramento de jobs, políticas de submissão no SDUMONT; compiladores, ambientes paralelos de programação distribuída (OpenMPI, Intel MPI), carregando bibliotecas computacionais.
Bibliografia:
  1. Evaluating scalability and efficiency of the Resource and Job Management System on large HPC Clusters, Yiannis Georgiou (BULL S.A.S, France); Matthieu Hautreux (CEA-DAM, France) (16th Workshop on Job Scheduling Strategies for Parallel Processing, May 2012)
  2. Contributions for Resource and Job Management in High Performance Computing, Yiannis Georgiou, Universite Joseph Fourier (Thesis, December 2010
  3. Parallel Programming by Thonas Rauber and Gudula Runger. Springer 2010.
  4. Using MPI Portable parallel Programming with the Message-Passing Interface by Willian Gropp, Ewing Lusk and Anthony Skjllum. 2014
  5. https://www.dkrz.de/pdfs/docs/docu-mistral/bullx_scs_4_r4_de_2014-01.pdf?lang=de
  6. http://hpc-support.lboro.ac.uk/bullxprof.html
  7. Parallel Programming by Thonas Rauber and Gudula Runger. Springer 2010.
  8. https://slurm.schedmd.com/