Kurz „Dátový analytik“ - kurz 96 000 rub. z Yandex Workshop, školenie 7 mesiacov, dátum 7. decembra 2023.
Rôzne / / December 02, 2023
Dátový analytik získava význam z čísel a hodnôt: vidí trendy, predpovedá udalosti a pomáha spoločnosti porozumieť zákazníkom, optimalizovať procesy a rásť.
Trh potrebuje špecialistov, ktorí dokážu dáta užitočne využívať. Štúdia personálnej spoločnosti Ancor zo septembra 2022 ukázala, že 45 % ruských spoločností hľadá do svojho tímu analytikov.
Zručnosti, ktoré sa naučíte na kurze
Názov práce
Analytik, analytik údajov, analytik údajov
Možnosti rozvoja: Produktový analytik, marketingový analytik, BI analytik, špecialista na dátovú vedu
Tu sú technológie a nástroje, ktoré budete používať:
Python
Zápisník Jupyter
SQL
PostgreSQL
Tableau
A/B testy
Začnite zarábať peniaze analýzou
Začnete z juniorskej pozície a potom už len napredujete. Budete stúpať po kariérnom rebríčku a zvyšovať svoju hodnotu. A jedného dňa to pre vás nebude mať žiadnu cenu.
Kompletný program kurzu analýzy údajov
Pravidelne ho aktualizujeme, aby sme zaistili, že spĺňa potreby priemyslu a zamestnávateľov.
Inými slovami, naučíte sa len to, čo sa vám pri práci určite bude hodiť.
Voľná časť - 1 týždeň
Voľný úvod: Základy Pythonu a analýza údajov
Naučte sa základné pojmy analýzy údajov a pochopte, čo robia analytici údajov a vedci údajov.
• Moskovský Catnamycs. Zobrazenie údajov na obrazovke. súbory CSV. Práca s tabuľkami. Tepelné mapy. Násobenie stĺpca celým číslom.
• Chyby v kóde. Syntaktické chyby. Chyby v pomenovaní. Chyby pri delení nulou. Chyby pri importovaní modulu.
• Premenné a dátové typy. Premenné. Typy údajov. Aritmetické operácie s číslami a reťazcami.
• Ako vytvárať hypotézy. Hypotézy. HADI cykly. Analytické myslenie. Čítanie grafov.
• Čo robia dátoví vedci. Úlohy analytika. Objasnenie úloh. Rozklad. Etapy projektu.
• Kontrola konverzií. Konverzia. Prieskum údajov. Tvorba záverov.
• Návratnosť reklamných kampaní. Stĺpcový graf. Rozdiel prvkov. Indexovanie v stĺpcoch.
• Strojové učenie a veda o údajoch. Školenie v oblasti strojového učenia. Nájdenie jedinečných hodnôt v stĺpcoch. Logické indexovanie. Zoskupenie hodnôt v tabuľke. Chyby predpovedí.
• Konečný pojekt. Segmentácia používateľov.
PythonPandasErrorsSeabornHypothesesConversionVariablesData TypesHeatmaps
1 šprint 3 týždne
Základný Python
Ponorte sa hlbšie do programovacieho jazyka Python a knižnice Pandas.
• Premenné a dátové typy. jazyk Python. Premenné. Zobrazenie údajov na obrazovke. Zobrazovanie objektov na obrazovke. Spracovanie chýb, skúste...okrem operátora. Typy údajov. Konverzie dátových typov.
• Čiary. Indexy v riadkoch. Riadkové rezy. Operácie na strunách. Reťazcové metódy. Formátovanie reťazcov, metóda format(), f-reťazce.
• Zoznamy. Indexy v zoznamoch. Vypísať plátky. Pridávanie položiek do zoznamu. Odstraňujú sa položky zoznamu. Sčítanie a násobenie zoznamov. • Triedenie zoznamov. Vyhľadajte položky v zozname. Rozdelenie reťazca na zoznam reťazcov, zreťazenie zoznamu reťazcov do reťazca.
• Pre slučku. Cykly. Vyčíslenie prvkov. Iterácia cez indexy prvkov. Spracovanie prvkov zoznamu pomocou slučiek: hľadanie súčtu a súčinu prvkov.
• Vnorené zoznamy. Prechádzanie cez vnorené zoznamy s počítajúcimi hodnotami. Pridávanie prvkov do vnorených zoznamov. Triedenie vnorených zoznamov.
• Podmienený operátor. Kým slučka. Booleovský dátový typ. Booleovské hodnoty. Logické výrazy. Zložené logické výrazy. Podmienečné vyhlásenie, ak...elif...inak. Vetvenie. Filtrovanie zoznamov pomocou podmieneného operátora. Kým slučka.
• Funkcie. Prideľovanie funkcií. Parametre a argumenty. Parametre s predvolenými hodnotami. Pozičné a pomenované argumenty. Vrátenie výsledku z funkcie.
• Slovníky. Kľúče a hodnoty. Hľadanie hodnoty podľa kľúča. Pridávanie položiek do slovníka. Zoznam slovníkov. Krásny výstup zo slovníkov.
• Knižnica Pandy. Čítanie csv súborov. Dataframe. Konštruktor dátového rámca. Tlač prvého a posledného riadku dátového rámca. Indexovanie v dátových rámcoch. Indexovanie v stĺpcoch série.
• Predspracovanie údajov. Princíp GIGO. Premenovanie stĺpcov dátového rámca. Spracovanie chýbajúcich hodnôt. Spracovanie explicitných a implicitných duplikátov.
• Analýza údajov a prezentácia výsledkov. Zoskupovanie údajov. Triedenie údajov. Základy deskriptívnej štatistiky.
• Jupyter Notebook – zápisník v cele. Rozhranie notebooku Jupyter. Skratky pre notebook Jupyter.
LoopsPythonPandasStringsListsFunctionsDictionariesDataFrameVariablesDataTypesPodmienené vyhlásenie
Projekt
Porovnajte používateľské údaje služby Yandex Music podľa mesta a dňa v týždni.
2 šprint 2 týždne
Predspracovanie údajov
Naučte sa čistiť údaje od odľahlých hodnôt, vynechaných údajov a duplikátov, ako aj konvertovať rôzne formáty údajov.
• Práca s preukazmi. Konverzia. Cookies. Kategorické a kvantitatívne premenné. Riešenie medzier v kategorických premenných. Riešenie medzier v kvantitatívnych premenných. Riešenie medzier v kvantitatívnych premenných podľa kategórií.
• Zmena typov údajov. Čítanie súborov programu Excel. Previesť sériu na číselný typ. Modul čísel, metóda abs(). Práca s dátumom a časom. Spracovanie chýb, skúste...okrem operátora. Zlučovanie dátových rámcov, metóda merge(). Kontingenčné tabuľky.
• Hľadajte duplikáty. Hľadajte duplikáty, pričom sa rozlišujú malé a veľké písmená.
• Kategorizácia údajov. Rozklad tabuliek. Kategorizácia podľa číselných rozsahov. Kategorizujte na základe viacerých hodnôt na riadok.
• Systematické a kritické myslenie v práci analytika. Systémové myslenie. Príčiny chýb v údajoch. Kritické myslenie.
PythonPandasGap handlingSpracovanie údajovDuplicitné spracovanieKategorizácia údajov
Projekt
Analyzujte údaje o klientoch bánk a určte podiel bonitných.
3 šprint 2 týždne
Prieskumná analýza údajov
Naučte sa základy pravdepodobnosti a štatistiky. Použite ich na preskúmanie základných vlastností údajov, hľadanie vzorov, distribúcií a anomálií. Spoznajte knižnicu Matplotlib. Nakreslite diagramy a precvičte si analýzu grafov.
• Prvé grafy a závery. Používanie kontingenčných tabuliek. Stĺpcový graf. Distribúcie. Diagram rozsahu.
• Štúdium dátových segmentov. Metóda query(). Práca s dátumom a časom. Vykresľovanie grafov pomocou metódy plot(). Occamova žiletka.
• Práca s viacerými zdrojmi údajov. Dátový segment založený na externých objektoch. Pridanie nových stĺpcov do dátového rámca. Pridávanie údajov z iných dátových rámcov. Premenovanie stĺpcov. Kombinovanie tabuliek pomocou metód merge() a join().
• Dátové vzťahy. Bodový diagram. Korelácia premenných. Matica bodového grafu.
• Validácia výsledkov. Konsolidácia skupín. Rozdelenie údajov do skupín.
PythonPandasMatplotlibHistogramsData SlicesData AnalysisScatterplotScatterplotVizualizácia údajovPopisná štatistika
Projekt
Preskúmajte archív inzerátov na predaj nehnuteľností v Petrohrade a Leningradskej oblasti.
4 šprint 3 týždne
Štatistická analýza údajov
Naučte sa analyzovať vzťahy v dátach pomocou štatistických metód. Zistite, čo je štatistická významnosť a hypotézy.
• Kombinatorika. Kombinácie. Pravidlo násobenia. Preskupenia. Počet permutácií. Umiestnenia. Počet umiestnení. Kombinácie. Počet kombinácií.
• Teória pravdepodobnosti. Experimentujte. Priestor pravdepodobnosti. Diania. Pravdepodobnosť. Prelínajúce sa a vzájomne sa vylučujúce udalosti. Euler-Vennov diagram. Zákon veľkých čísel.
• Deskriptívna štatistika. Kategorické a kvantitatívne premenné. Režim a medián. Priemerná hodnota. Disperzia. Smerodajná odchýlka. Kvartily a percentily. Diagram rozsahu. Stĺpcový graf. Hustota frekvencie. Stĺpcový graf.
• Náhodné premenné. Diskrétna náhodná premenná. Rozdelenie pravdepodobnosti pre diskrétnu náhodnú premennú. Kumulatívna funkcia (distribučná funkcia) diskrétnej náhodnej premennej. Matematické očakávanie diskrétnej náhodnej premennej. Disperzia diskrétnej náhodnej premennej.
• Distribúcie. Bernoulliho experiment. Binomický experiment. Binomické rozdelenie. Nepretržité rovnomerné rozloženie. Normálne rozdelenie. Štandardné normálne rozdelenie. CDF a PPF pre normálnu distribúciu. Poissonovo rozdelenie. Aproximácia jednej distribúcie druhou.
• Testovanie hypotéz. Všeobecná populácia. Ukážka. Distribúcia vzoriek. Centrálna limitná veta. Jednostranné a obojstranné hypotézy. P-hodnota. Testovanie jednostranných a obojstranných hypotéz pre jednu vzorku. Testovanie hypotézy o rovnosti priemerov dvoch všeobecných populácií. Testovanie hypotézy rovnosti priemerov pre závislé vzorky.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionstestovanie hypotéz Teória pravdepodobnosti
Projekt
Otestujte si hypotézy o požičovniach skútrov, ktoré vám pomôžu rozšíriť vaše podnikanie.
Extra šprint
Teória pravdepodobnosti
Zapamätajte si alebo rozpoznajte základné pojmy v teórii pravdepodobnosti: nezávislé, opačné, nezlučiteľné udalosti atď. Pomocou jednoduchých príkladov a zábavných úloh si precvičíte prácu s číslami a budovanie logiky riešení.
Toto je voliteľný šprint. To znamená, že každý študent si sám vyberie jednu z možností:
• Zvládnite ďalší šprint 10 krátkych lekcií, oprášte teóriu a riešte problémy.
• Otvorte len blok s úlohami na pohovor, vybavte si prax bez teórie.
• Kurz úplne vynechajte alebo sa k nemu vráťte, keď je čas a potreba.
PythonEventsPravdepodobnosťBayesova teóriaNáhodné premenné Teória pravdepodobnostiStatistická analýza údajov
5 šprint 1 týždeň
Záverečný projekt prvého modulu
Naučte sa, ako vykonávať predbežný prieskum údajov a formulovať a testovať hypotézy.
ScipyNumpyPythonPandasMatplotlib Analýza údajov Testovanie hypotéz Spracovanie údajov
Projekt
Nájdite vzory v údajoch o predaji hier.
6 šprint 2 týždne
Základné SQL
Naučte sa základy štruktúrovaného dotazovacieho jazyka SQL a relačnej algebry pre prácu s databázami. Zoznámte sa s funkciami práce v PostgreSQL, populárnom systéme správy databáz (DBMS). Naučte sa písať dotazy rôznej úrovne zložitosti a prekladať obchodné problémy do SQL. Budete pracovať s databázou internetového obchodu, ktorý sa špecializuje na filmy a hudbu.
• Úvod do databáz. Systémy správy databáz (DBMS). jazyk SQL. SQL dotazy. Formátovanie SQL dotazov.
• Dátové segmenty v SQL. Dátové typy v PostgreSQL. Konverzia typu údajov. klauzula WHERE. Logické operátory. Dátové segmenty. Operátori V, LIKE, MEDZI. Práca s dátumom a časom. Spracovanie chýbajúcich hodnôt. Konštrukt podmieneného CASE.
• Agregačné funkcie. Zoskupovanie a triedenie údajov. Matematické operácie. Agregačné funkcie. Zoskupovanie údajov. Triedenie údajov. Filtrovanie podľa agregovaných údajov, operátor HAVING.
• Vzťahy medzi tabuľkami. Typy spojení tabuliek. ER diagramy. Premenovanie polí a tabuliek. Aliasy. Zlučovanie tabuliek. Typy spojení: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Alternatívne typy odborov UNION a UNION ALL.
• Poddotazy a bežné tabuľkové výrazy. Poddotazy. Poddotazy v FROM. Poddotazy v WHERE. Kombinácia spojení a poddotazov. Bežné tabuľkové výrazy (CTE). Variabilita požiadaviek.
SQLDBMSPostgreSQLPoddotazyDatabázové dotazySQLFiltrovanie údajovTriedenie údajovZoskupovanie údajovSpájanie tabuliekSpoločné výrazy tabuliek
Projekt
Do databázy, ktorá uchováva údaje o rizikových investoroch, startupoch a investíciách do nich, napíšete sériu dopytov rôznej zložitosti.
7 šprint 3 týždne
Analýza obchodných ukazovateľov
Zistite, aké metriky sú v podnikaní. Naučte sa používať nástroje na analýzu údajov v podnikaní: kohortová analýza, predajný lievik a ekonomika jednotiek.
• Metriky a zúženia. Konverzia. Lieviky. Marketingový lievik. dojmy. Kliknutia. MP. Lievik produktu.
• Kohortová analýza. Užívateľský profil. miera zadržania. Miera odchodu. Analytický horizont. Vizualizácia kohortovej analýzy. Retenčná analýza náhodných kohort. Konverzia v kohortovej analýze. Výpočet metrík v Pythone.
• Ekonomika jednotky. Metriky LTV, CAC, ROI. ARPU, ARPPU. Výpočet metrík v Pythone. Pokročilá vizualizácia metrík. Parameter Sharey. Pohyblivý priemer.
• Vlastné metriky. Hodnotenie aktivity používateľa. Používateľská relácia. Vyšetrovanie anomálií.
MetricsFunnelsConversionEkonomika jednotkyKohortová analýzaProduktové metrikyMarketingové metriky
Projekt
Na základe údajov porozumieť správaniu používateľov, ako aj analyzovať ziskovosť zákazníkov a návratnosť investícií do reklamy, aby ste mohli poskytnúť odporúčania pre marketingové oddelenie.
8 šprint 2 týždne
Pokročilý SQL
Absolvujete doplnkový kurz práce s databázami a stanete sa ešte bližšie k biznisu. Pomocou jazyka SQL budete analyzovať výpočet hlavných obchodných metrík, s ktorými ste sa oboznámili v šprinte „Analýza obchodných ukazovateľov“. Zvážte prácu s komplexným nástrojom, ako sú funkcie okien. Naučte sa meniť obsah databáz lokálne, bez simulátora, pomocou špeciálnych klientskych programov a knižníc pre Python.
• Výpočet obchodných ukazovateľov. Dátová schéma. Konverzia. LTV. ARPU. ARPPU. ROI. Výpočet pomocou SQL.
• Agregácia funkcií okna. OVER výraz. PARTITION BY window parameter.
• Funkcie klasifikácie okien. Funkcie hodnotenia. Okno ORDER BY operátor. ROW_NUMBER(). RANK(). DENSE_RANK(). NTILE(). Operátory okien spolu s funkciami hodnotenia.
• Funkcie posunu okien. Kumulatívne hodnoty. Offsetové funkcie. VIESŤ(). MAS(). Funkcie okien a aliasy.
• Kohortová analýza. Miera udržania, Miera odchodu. LTV.
• Inštalácia a konfigurácia databázy a databázového klienta. Databázový klient. Inštalácia PostgreSQL. Inštalácia DBeaver. Rozhranie DBeaver. Vytvorenie databázy. Nasadenie výpisu databázy. Nahrávajú sa výsledky dopytu. Prezentácia výsledkov dotazu.
SQLDBMSMetricsPostgreSQLDatabázeSQL dotazovFunkcie oknaKohortová analýza
Projekt
Pomocou Pythonu a SQL sa pripojte k databáze, vypočítajte a vizualizujte kľúčové metriky v programovacom systéme služieb Q&A.
9 šprint 2 týždne
Rozhodovanie v podnikaní
Dozviete sa, čo je A/B testovanie a pochopíte, v akých prípadoch sa používa. Naučte sa navrhovať A/B testovanie a vyhodnocovať jeho výsledky.
• Základy testovania hypotéz v podnikaní. Vedúce metriky. Základy experimentov. Generovanie hypotéz. Stanovenie priorít metrík. Výber metódy na vykonanie experimentu. Kvalitatívne metódy testovania hypotéz. Kvantitatívne metódy na testovanie hypotéz. Výhody a nevýhody A/B testov.
• Stanovenie priorít hypotéz. Rámec RICE. Parameter dosahu. Parameter dopadu. Parameter spoľahlivosti. Parameter úsilia.
• Príprava na vykonanie A/B testu. A/A test. Chyby typu I a II. Sila štatistického testu. Význam štatistického testu. Viacnásobné porovnania, metódy na zníženie pravdepodobnosti chyby. Výpočet veľkosti vzorky a trvania A/B testu. Grafická analýza metrík.
• Analýza výsledkov A/B testov. Testovanie hypotézy rovnosti podielov. Shapiro-Wilkov test na testovanie normality údajov. Neparametrické štatistické testy. Mann-Whitney test. Stabilita kumulatívnych metrík. Analýza odľahlých hodnôt a trhlín.
• Behaviorálne algoritmy. Fakty, emócie, hodnotenia. Vysvetlite svoj uhol pohľadu.
A/B testovanie Prioritizácia hypotéz Príprava na A/B testovanie Analýza výsledkov A/B testovania Analýza výsledkov A/B testovania
Projekt
Analyzujte výsledky A/B testovania vo veľkom internetovom obchode.
10 šprint 1 týždeň
Záverečný projekt druhého modulu
Naučte sa testovať štatistické hypotézy pomocou A/B testovania a pripravte závery a odporúčania vo formáte analytickej správy.
Predajný lievikA/B testovanie Spracovanie údajovVýskumná analýza údajov
Projekt
Preskúmajte predajný lievik a analyzujte výsledky A/B testovania v mobilnej aplikácii.
11 šprint 2 týždne
Ako rozprávať príbeh s údajmi
Dozviete sa, ako správne prezentovať výsledky svojho výskumu pomocou grafov, najdôležitejších čísel a ich správnej interpretácie. Spoznajte knižnice Seaborn a Plotly.
• Komu, ako, čo a prečo povedať. Prezentácia výsledku výskumu. Cieľové publikum rozprávača. Čo a prečo povedať dátovému analytikovi.
• Seaborn Library. Knižnica Seaborn ako rozšírenie knižnice Matplotlib. metóda jointplot(). Farebné rozsahy. Štýly grafov. Vizualizácia rozvodov.
• Knižnica zápletiek. Interaktívne grafy. Čiarový graf. Stĺpcový graf. Koláčový graf. Graf lievika.
• Vizualizácia dát v geoanalytike. Geoanalytika. Folium knižnice. Zobrazenie mapy. Nastavenie značiek s určenými súradnicami. Vytváranie bodových zhlukov. Vlastné ikony pre značky. Horoplet.
• Príprava prezentácie. Závery na základe štúdie. Sezónnosť a vonkajšie faktory. Absolútne a relatívne hodnoty. Simpsonov paradox. Zásady tvorby prezentácií. Správy v Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalyticsData vizualizácia
Projekt
Pripravte štúdiu trhu na základe otvorených údajov o zariadeniach verejného stravovania v Moskve, vizualizujte získané údaje.
12 šprint 2 týždne
Vytváranie informačných panelov v Tableau
V tomto sprinte budete pracovať so systémom Tableau BI. Naučte sa spájať dáta a upravovať ich, vytvárať rôzne typy grafov, zostavovať dashboardy a prezentácie.
• Základy práce s Tableau. BI systémy. Tableau. Vytvorenie dokumentu. Uloženie dokumentu. Zverejnenie dokumentu.
• Práca so zdrojmi údajov. Zdroje dát. Zlučovanie údajov. Vzťahová metóda. Metóda spojenia. Metóda miešania. Union metóda. Zmena formátu tabuľky.
• Typy údajov. Základné dátové typy. Merania. Opatrenia. Práca s dátumom a časom. Súpravy. skupiny. Možnosti. Zmena formátu premenných. Premenné Measure Names, Measure Values, Count.
• Tabuľky a výpočty. Rozhranie na úpravu hárkov. Kontingenčné tabuľky. Vypočítané polia. LOD výrazy.
• Filtre a triedenie. Triediace opatrenia. Rozmery triedenia. Vnorené druhy. Triedenie pomocou parametra. Filtre.
• Vizualizácie. Ovládacie prvky vizualizácie. Tepelné mapy. Koláčové grafy. Stĺpcové grafy. Histogramy. Diagramy rozsahu. Rozptylový diagram. Čiarové grafy. Kombinované grafy. Plošné grafy.
• Špeciálne vizualizácie a popisky. karty. Mapa znakov. Bublinový graf. Stromová mapa. Diagramy kruhových zobrazení. Odrážkové diagramy. Ganttove diagramy. Merajte názvy a merajte hodnoty vo vizualizáciách. Reverzné inžinierstvo. Popisy. Popisy s vizualizáciami. Prahové hodnoty v grafoch. Analytické nástroje v Custom.
• Prezentácie. Extra možnosti. Štúdium typických parametrov. Vytvorenie prezentácie.
• Prístrojové dosky. Načítanie a príprava dát. Príprava vizualizácií. Zostava palubnej dosky. Akcie. Ukážka palubnej dosky. Publikovanie informačného panela.
TableauDashboardsBI-nástrojeBI-nástroje Vizualizácia údajov
Projekt
Preskúmajte históriu TED konferencií a na základe získaných údajov vytvorte dashboard v Tableau.
Extra šprint
Základy strojového učenia
Zoznámte sa so základmi strojového učenia a dozviete sa o hlavných úlohách strojového učenia v podnikaní.
PythonPandasSklearnStrojové učenieÚlohy strojového učeniaAlgoritmy strojového učenia
Extra šprint
Precvičte si Python
Absolvujete niekoľko laboratórnych hodín s doplnkovými úlohami v programovacom jazyku Python. Dozviete sa tiež, ako extrahovať údaje z webových zdrojov.
Budeš:
• v štruktúre HTML stránok a prevádzke požiadaviek GET,
• naučiť sa písať jednoduché regulárne výrazy,
• spoznajte API a JSON,
• podať niekoľko žiadostí na stránky a zbierať údaje.
JSONPythonREST APIWeb zoškrabovanie
13 šprint 3 týždne
Absolventský projekt
V poslednom projekte potvrďte, že ste zvládli nové povolanie. Objasnite úlohu zákazníka a prejdite všetkými fázami analýzy údajov. Teraz neexistujú žiadne lekcie ani domáce úlohy - všetko je ako v skutočnej práci.
Posledný sprint zahŕňa prácu na projekte, A/B testovanie a SQL úlohy a ďalšiu úlohu. Projekt obsahuje vyjadrenie problému, očakávaný výsledok, súbor údajov a ich popis.
Úloha sa týka jednej z piatich oblastí podnikania:
• banky,
• maloobchod,
• hry,
• mobilné aplikácie,
• elektronický obchod.
V projekte nebude zvyčajný popis krokov. Prepracujete sa k nim sami.
SQ LPython PandasTableau Dashboards Postgre SQL Decomposition A/B testovanie