Kod: EAS-027
Czas trwania: 30 godzin
Czas trwania: 30 godzin
Opis szkolenia
Nasze szkolenie zawiera przegląd uczenia się przez wzmacnianie. Zaczynamy od potrzebnej matematyki, poprzez podstawowe algorytmy RL, po głębokie uczenie się przez wzmacnianie i najnowsze metody stosowane obecnie. Szczegółowo omawiamy niektóre aplikacje, a także opisujemy dotychczasowe znaczące osiągnięcia w tej dziedzinie.Kurs koncentruje się na niektórych głównych problemach, które pojawiają się podczas radzenia sobie z RL w świecie rzeczywistym i omawia niektóre z głównych algorytmów, które są podstawą nowszych systemów RL.
Uzyskuje się znaczną wiedzę teoretyczną, nie tylko dotyczącą RL, ale ogólnie ML, z praktycznymi zastosowaniami w całym tekście. Od podstaw algebry liniowej, rachunku różniczkowego i prawdopodobieństwa, przechodzimy przez programowanie dynamiczne i procesy Markowa, aby ostatecznie dotrzeć do wszechobecnego Q-learningu i jego głębokich wariantów, a także niektórych metod gradientu polityki.
Staramy się przedstawić kompleksowy przegląd, przynajmniej w odniesieniu do różnych podstawowych technik stosowanych w literaturze. Druga połowa kursu dotyczy tylko RL z sieciami neuronowymi, z szczegółowo omówionymi artykułami badawczymi i wyjaśnionymi różnymi zastosowaniami.
Praktyczne narzędzia są również omawiane i wykorzystywane w ćwiczeniach (od Pytorcha po Ray).
Plan szkolenia
Algebra liniowa- Przegląd pojęć
Rachunek różniczkowy
- Integracja
- Pochodzenie
- Przykłady
Prawdopodobieństwa
- Zmienne losowe
- Funkcje gęstości
- Oczekiwanie
- Prawdopodobieństwa warunkowe, łączne i krańcowe
- Przykłady
- Praktyka
Wprowadzenie do RL
- Procesy decyzyjne Markowa
- Programowanie dynamiczne z przykładem
- Równanie Bellmana
- Ocena polityki
- Iteracja zasad
- Iteracja wartości
- Przykłady
- Praktyka
Oparte na modelach vs bez modeli
- Nauka i planowanie
- Deterministyczne
- Stochastyczny
- Przybliżenie liniowej funkcji wartości
- Porównanie i praktyka
Algorytmy
- Q-learning
- Sarsa
- Aktor-krytyk
- Gradient polityki
- Metody drzewa Monte-Carlo
- Eksploracja a eksploatacja
- Przykłady
- Praktyka
Uczenie się o głębokim wzmocnieniu
- Aproksymacja funkcji nieliniowej
- Przełom w DeepMind
- Alpha-Star wyjaśnione
Najnowsze technologie w DRL
- Pamięć, uwaga, nawrót
- Odwrotny RL
- Obsługa wielu agentów
- Hierarchiczne
- Rozwinięte nagrody - AutoRL
- Optymalizacja polityki
Aplikacje i użytkowanie
- Handlowy
- Rozumienie mowy i odpowiadanie na pytania (opcjonalnie)
- Równoważenie obciążenia (opcjonalnie)
- Inne zastosowania (opcjonalnie)
Pytorch / Tensorflow
- Podstawy tensorów
- Implementacja algorytmu RL od podstaw
- Testowanie i wizualizacja
- Praktyka
Ray + RLlib
- Główne pojęcia: aktorzy, przyszłość, współdzielenie pamięci itp.
- Przykład praktyczny
- Różne algorytmy
- Wyszukiwanie i wizualizacja siatki
- Praktyka
Wizualizacja i wytłumaczalność
- SMDP, AMDP, SAMDP
- Projekcja do przestrzeni 3D z TSNE
- Przykłady
Cele
- Zrozumieć główne trudności związane z modelowaniem przy opracowywaniu algorytmów RL
- Dowiedz się, jak korzystać z istniejących algorytmów i rozumieć problemy, które pojawiają się w reprezentacji stanu lub kształtowaniu nagrody
- Wizualizuj i dostosuj algorytm lub mechanizm nagrody, tak aby agent nauczył się jednej rzeczy
- Umiejętność stosowania lub rozwijania algorytmów RL dla rzeczywistych problemów
Grupa docelowa
- Deweloperzy oprogramowania, którzy mają wiedzę o Pythonie / uczeniu maszynowym, ale nie mają doświadczenia w uczeniu się przez wzmocnienie
- Inżynierowie ds. Uczenia maszynowego
- Data Scientists
Wymagania
- Absolwent poziomu rachunku różniczkowego, teorii prawdopodobieństwa, matematyki dyskretnej
- Podstawowa znajomość uczenia maszynowego
- Umiejętność rozumienia kodu Pythona