Kod: EAS-017
Czas trwania: 24 godzin
Czas trwania: 24 godzin
Opis szkolenia
Niniejszy kurs zawiera kluczowe koncepcje i metody opracowywania aplikacji do przetwarzania danych przy użyciu Apache Spark. Przyjrzymy się platformie opartej na RDD do automatycznego generowania kodów rozproszonych oraz projektom towarzyszącym w różnych paradygmatach: Spark SQL, Spark Streaming, MLLib, Spark ML, GraphX.Plan szkolenia
- Podstawowe pojęcia i architektura Apache Spark
- Programowanie na RDD: transformacje i akcje
- Używanie par klucz/wartość
- Ładowanie i przechowywanie danych
- Akumulatory i zmienne transmisji
- Spark SQL, DataFrames, Datasets
- Spark Streaming
- Uczenie maszynowe z wykorzystaniem MLLib i Spark ML
- Analiza wykresów za pomocą GraphX
Cele
- Rozumienie podstawowych pojęć i architektury Spark
- Umiejętność tworzenia zapytań o przetwarzanie danych na RDD; proste i na parach
- Umiejętność tworzenia programów przetwarzania danych za pomocą DataFrames
- Umiejętność tworzenia programów do przetwarzania strumieniowego za pomocą DStreams
- Wykorzystanie wstępnie spakowanych algorytmów uczenia maszynowego i algorytmów analizy wykresów
- Przenoszenie danych pomiędzy Spark i systemami zewnętrznymi (Kafka, Cassandra)
Grupa docelowa
- Programiści
- Architekci