Professor: Fábio Porto (LNCC)
Horarios: Segunda 01/02 a quinta 04/02 de 13:30h às 15:00h
Objetivo: Apresentar os principais modelos de programação para Big Data e discutir os principais algoritmos utilizados no desenvolvimento de dataflows Big Data.
Ementa:
- Modelos de Programação: Map-Reduce, BSP,...
- Apache Spark e HDFS
- Estruturas de Dados para grandes volumes de dados: Kd-tree, Ph-tree, DHTs,Quadtrees,...
- Particionamento de dados
- Clusterização: K-Means, DBSCAN,NG-DBSCAN, ...
- Algoritmos para redução de dimensionalidade
- Algoritmos de busca por vizinhos
- Parte prática: Experiência com o framework Apache Spark
Bibliografia:
- Han, J., Kamber, M., & Pei, J. (2011). Data Mining: Concepts and Techniques, Third Edition (3o ed.). Morgan Kaufmann.
- Larose, D. T. (2006). Data Mining Methods and Models (1o ed.). Wiley-IEEE Press.
- Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (3o ed.). Morgan Kaufmann.