Kod: EAS-015
Czas trwania: 24 godzin
Czas trwania: 24 godzin
Opis szkolenia
Apache Hadoop to platforma typu open source służąca do wydajnego przechowywania i przetwarzania dużych zbiorów danych. Umożliwia łączenie wielu komputerów w klastry w celu umożliwienia szybszej równoległej analizy ogromnych zestawów danych. Przyjrzymy się HDFS - de facto standardowi do długoterminowego przechowywania danych na dużą skalę, strukturze MapReduce do automatycznego wykonywania rozproszonego kodu oraz projektom towarzyszącym z ekosystemu Hadoop.Plan szkolenia
- Podstawowe koncepcje Hadoop
- Instalacja i konfiguracja Hadoop lokalnie i w chmurze
- Architektura HDFS, replikacja, odczyt i zapis
- Polecenia HDFS
- Struktura programu MapReduce (MRv1)
- Formaty danych dla MapReduce
- Architektura przędzy
- Wykonywanie zadań w MRv1 i YARN
- Rozproszona pamięć podręczna i liczniki
- Przesyłanie strumieniowe Hadoop
- Ekosystem Hadoop i dostawcy
- Wprowadzenie do Pig
- Wprowadzenie do ula
- Wprowadzenie do Sqoop
- Wprowadzenie do Flume
- Wprowadzenie do Spark
- Wprowadzenie do Mahouta
Cele
- Poznanie podstawowych koncepcji i architektury Hadoop
- Modele danych projektowych dla Hadoop
- Pisanie zapytań CQL przy użyciu podstawowych typów i kolekcji
- Dostęp do Hadoop z programów Java
- Bycie świadomym bibliotek/frameworków podobnych do ORM dla Hadoop
Grupa docelowa
- Deweloperzy oprogramowania
- Architekci oprogramowania
- Projektanci baz danych
- Administratorzy baz danych
Wymagania
- Podstawowe umiejętności programowania w języku Java
- Znajomość Unix/Linux shell
- Doświadczenie z bazami danych jest opcjonalne