Rámec Apache Spark pre vývojárov: pokročilá úroveň - kurz 41 500 rub. z IBS Training Center, školenie 24 hodín, Dátum 26.11.2023.
Rôzne / / December 05, 2023
Školenie poskytuje podrobné pochopenie vnútornej štruktúry a fungovania rámca Apache Spark – Spark Core (RDD), Spark SQL, Spark Streaming a Spark Structured Streaming. Zvažujú sa mechanizmy spúšťania komponentov klastra Spark pod kontrolou rôznych manažérov klastrov, riadenie alokácie zdrojov (predovšetkým pamäte) a mechanizmy práce plánovačov. Podrobne sú preskúmané výhody formátu internej reprezentácie Tungsten a fungovanie optimalizátora Catalyst.
Preberané témy:
Vnútorná architektúra Spark, prostredie Spark Runtime
Nastavenie kontextu Spark, SparkConf
Vnútorné časti RDD, logické rozloženie
Najlepšie postupy pre programovanie s RDD
Fyzický plán: práca, etapy, úlohy
Plánovači a realizácia fyzického plánu
Ladenie pamäte, serializácia, ukladanie do vyrovnávacej pamäte, zber odpadu
Datasource API, interná reprezentácia údajov Tungsten, formáty súborov
Optimalizátor katalyzátora
Microbatch Spark Streaming: príjem a výstup dát
Structured Streaming: príjem a distribúcia dát