MC-CD03
Algoritmos e Modelos de Programação para Big Data

Professor: Fábio Porto (LNCC)

Horarios: Segunda 01/02 a quinta 04/02 de 13:30h às 15:00h

Objetivo: Apresentar os principais modelos de programação para Big Data e discutir os principais algoritmos utilizados no desenvolvimento de dataflows Big Data.

Ementa:
  1. Modelos de Programação: Map-Reduce, BSP,...
  2. Apache Spark e HDFS
  3. Estruturas de Dados para grandes volumes de dados: Kd-tree, Ph-tree, DHTs,Quadtrees,...
  4. Particionamento de dados
  5. Clusterização: K-Means, DBSCAN,NG-DBSCAN, ...
  6. Algoritmos para redução de dimensionalidade
  7. Algoritmos de busca por vizinhos
  8. Parte prática: Experiência com o framework Apache Spark

Bibliografia:
  1. Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques, Third Edition (3o ed.). Morgan Kaufmann.
  2. Larose, D. T. (2006). Data Mining Methods and Models (1o ed.). Wiley-IEEE Press.
  3. Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (3o ed.). Morgan Kaufmann.