Kurz "Dátový inžinier" - kurz 95 000 rub. z Yandex Workshop, školenie 6,5 mesiaca, Dátum: 11. december 2023.
Rôzne / / November 30, 2023
Pre cvičných vývojárov
Naučte sa budovať infraštruktúru pre prácu s údajmi a systematizujte svoje znalosti, aby ste ich mohli využiť vo svojej súčasnej úlohe alebo zmeniť smer na dátového inžiniera.
Pre začínajúcich dátových inžinierov
Štruktúrovanie vedomostí: okrem jasnej teórie bude veľa praxe. Získate skúsenosti s prácou na projektoch – to vám pomôže vybudovať si portfólio, odlíšiť sa od ostatných kandidátov a nestratiť sa v reálnej práci.
Špecialisti a analytici dátovej vedy
Osvojte si zručnosti, ktoré vám pomôžu zvládnuť úlohy efektívnejšie: budovať dátové kanály, navrhovať výklady, budovať ETL a zbierať nespracované údaje vo veľkých objemoch.
Aktualizácia dátového modelu
1 modul 2 týždne
Spoločnosť vás naďalej ponorí do svojich procesov. Údaje, s ktorými ste pracovali, boli aktualizované, takže musíte zmeniť dátový model.
V tomto kurze si:
- pochopiť, ako spoločnosť buduje databázu;
- aktualizovať štruktúru súčasnej databázy v súlade s novými obchodnými požiadavkami;
- pripraviť nové vitríny a metriky pre analytikov a manažérov.
Technológie a nástroje:
- PostgreSQL
+1 projekt v portfóliu
Vytvorte dátový trh s postupným načítaním pre analýzu publika v internetovom obchode.
DWH: revízia dátového modelu
Modul 2 3 týždne
Spoločnosť rastie, dátová architektúra je čoraz komplexnejšia. Dostali ste úlohu – optimalizovať procesy s dátami.
V tomto kurze si:
- premyslieť proces prechodu zo starej databázovej schémy na novú pri minimalizácii obchodných strát (nasadenie s nulovým prestojom);
- pripraviť migráciu dát;
- vziať do úvahy možné problémy a navrhnúť možnosť vrátenia zmien;
- implementovať novú štruktúru databázy a prispôsobiť ju existujúcim procesom okolo údajov.
Technológie a nástroje:
- PosgreSQL
- Python
+1 projekt v portfóliu
Dátový model dáte do poriadku a migrujete dáta v rámci aktuálneho úložiska internetového obchodu.
ETL: automatizácia prípravy dát
Modul 3 3 týždne
Teraz už viete takmer všetko o firemnom dátovom sklade. Je čas prehodnotiť ETL procesy.
V tomto kurze si:
- automatizovať dátový kanál;
- konfigurovať automatické sťahovanie údajov zo zdrojov;
- naučiť sa pravidelne a postupne načítavať dáta do databázy.
Technológie a nástroje:
- Python
- Prúd vzduchu
- PostgreSQL
+1 projekt v portfóliu
Vytvorte kanál pre automatizovaný príjem, spracovanie a načítanie údajov zo zdrojov do výkladu pre projekt elektronického obchodu.
Kontrola kvality dát
Modul 4 1 týždeň
Chcete si byť istí, že vaše prvé potrubia fungujú správne. Kvalita údajov sa musí kontrolovať a poruchy sa musia včas sledovať.
V tomto kurze si:
- pochopiť, ako používať metainformácie a dokumentáciu;
- zhodnotiť kvalitu údajov.
DWH pre viacero zdrojov
Modul 5 2 týždne
Pokračujete vo výskume DWH, pretože rozvoj spoločnosti, a teda nárast objemu dát, nemožno zastaviť.
V tomto kurze si:
- vybudovať DWH od nuly na relačnej DBMS;
- zoznámte sa s MongoDB ako zdrojom údajov.
Technológie a nástroje:
- PostgreSQL
- MongoDB
+1 projekt v portfóliu
Navrhnete a implementujete DWH pre in-house startup.
Analytické databázy
Modul 6 2 týždne
Špecifických neštruktúrovaných údajov, ktoré je tiež potrebné uchovávať a spracovávať, je čoraz viac. Preto vám predstavíme ako príklad koncept analytických databáz s využitím Vertica DBMS.
V tomto kurze si:
- organizácia skladovania štúdií vo Vertica;
- naučiť sa robiť základné operácie s dátami vo Vertica;
- vybudovať jednoduchý dátový sklad vo Vertica.
Technológie a nástroje:
- Vertica
- PostgreSQL
- Prúd vzduchu
- S3
+1 projekt v portfóliu
Zostavte DWH pre vysoko zaťažený nízkoštruktúrovaný messenger dátový systém pomocou Vertica.
Organizácia Data Lake
Modul 7 4 týždne
Klasické riešenia nepomáhajú zvládať objem dát. Aby ste sa vyrovnali s novými obchodnými výzvami, postavíte a naplníte Data Lake.
V tomto kurze si:
- zvážte architektúru Data Lake (prekl. "dátové jazero");
- naučiť sa spracovávať dáta v systéme MPP;
- naplniť Data Lake údajmi zo zdrojov;
- precvičiť si spracovanie dát pomocou PySpark a Airflow.
Technológie a nástroje:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt v portfóliu
Zostavte Data Lake a zautomatizujte v ňom načítanie a spracovanie údajov.
Spracovanie toku
Modul 8 3 týždne
Prekonali ste ťažkosti s veľkým množstvom údajov, ale objavila sa nová úloha – potrebujete pomôcť podniku rýchlejšie sa rozhodovať. Tu budete potrebovať znalosti o spracovaní streamových dát. streaming).
V tomto kurze si:
- zvážiť vlastnosti spracovania tokových údajov;
- vytvorte si vlastný streamovací systém;
- vybudovať výklad s použitím údajov v reálnom čase.
Technológie a nástroje:
- Kafka
- Spark Streaming
+1 projekt v portfóliu
Vyviniete systém spracovania údajov v reálnom čase.
Cloudové technológie
Modul 9 3 týždne
Teraz môžete pracovať s veľkými objemami údajov a streamov. Zostáva len automatizovať škálovanie systémov pomocou cloudových služieb.
V tomto kurze sa naučíte implementovať už naštudované riešenia, ale v cloude (ako príklad použijete Yandex Cloud).
Technológie a nástroje:
- Yandex. Cloud
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt v portfóliu
Vyviniete infraštruktúru na ukladanie a spracovanie dát v cloude.
Absolventský projekt
Modul 10 3 týždne
Potvrďte, že ste sa naučili nové zručnosti.
Tu budete musieť nezávisle vybrať a implementovať riešenia obchodného problému. Pomôže vám to opäť posilniť používanie nástrojov, ktoré ste sa naučili, ako aj vašu nezávislosť.