Lineárna regresia - kurz 4900 rub. od Otvorené vzdelávanie, školenie 5 týždňov, cca 2 hodiny týždenne, Dátum 29. novembra 2023.
Rôzne / / November 29, 2023
Ak korelačná analýza umožňuje kvantifikovať silu a smer vzťahu medzi dvoma veličinami, potom konštrukcia regresných modelov poskytuje väčšie možnosti. Pomocou regresnej analýzy je možné kvantitatívne popísať správanie sa skúmaných veličín v závislosti od prediktorových premenných a získať predpovede na nových údajoch. Naučíte sa zostavovať jednoduché a viacnásobné lineárne modely pomocou jazyka R. Každá metóda má svoje obmedzenia, preto vám pomôžeme pochopiť, v akých situáciách lineárna regresia môže a nemôže byť použitá a my vás naučíme metódy diagnostiky vybraných modelov. Osobitné miesto v kurze je venované hĺbkovej anatómii regresnej analýzy: zvládnete operácie s maticami, ktoré sú základom lineárnej regresie, aby bolo možné porozumieť zložitejším varietám lineárnych modelov.
Ak stojíte pred potrebou hľadať a opísať vzťahy medzi určitými javmi, ktoré možno kvantitatívne merať, potom je tento kurz dobrou príležitosťou pochopiť, ako funguje jednoduchá a viacnásobná lineárna regresia, dozvedieť sa o ich možnostiach a obmedzeniach metódy.
Kurz je určený pre tých, ktorí už poznajú základné techniky analýzy dát pomocou jazyka R a s tvorbou jednoduchých .html dokumentov pomocou rmarkdown a knitr.
Vedecké záujmy: štruktúra a dynamika spoločenstiev morského bentosu, priestorové škály, sukcesia, medzidruhové a vnútrodruhové biotické interakcie, rast a rozmnožovanie morských bezstavovcov, demografická štruktúra populácií, mikroevolúcia, bioštatistika.
Kurz pozostáva z 5 modulov:
1. Korelačná analýza. Jednoduchá lineárna regresia
Náš rozhovor začneme o metódach numerického popisu vzťahov medzi kvantitatívnymi veličinami s kovariančnými a korelačnými koeficientmi, ktoré nám umožňujú odhadnúť silu a smer vzťahu. Potom sa dozviete, aké ďalšie informácie o vzťahoch možno získať zostrojením lineárneho modelu vzťahu medzi veličinami. Naučíte sa interpretovať regresné koeficienty a dozviete sa, kedy a ako možno použiť lineárne modely na predpovedanie nových údajov. Na konci tohto modulu sa naučíte, ako prispôsobiť rovnicu lineárneho modelu a vykresliť ju s oblasťou spoľahlivosti.
2. Testovanie významnosti a platnosti lineárnych modelov
Zostavenie lineárneho modelu a zapísanie jeho rovnice je len úplný začiatok analýzy. V tomto module sa naučíte, ako opísať výsledky regresnej analýzy: ako testovať štatistickú významnosť celkového modelu alebo jeho koeficientov a posúdiť kvalitu prispôsobenia. Lineárne modely (alebo skôr štatistické testy, ktoré sa na ne používajú), ako každá metóda, majú svoje obmedzenia. Dozviete sa, aké sú tieto obmedzenia a odkiaľ pochádzajú. Grafické diagnostické metódy, ktoré použijeme, sú univerzálne pre rôzne lineárne modely – viac praxe vám pomôže rozhodovať sa sebavedomejšie. Keď toto všetko pochopíte, môžete napísať kompletný skript v jazyku R, aby ste mohli prispôsobiť, diagnostikovať a prezentovať výsledky jednoduchej lineárnej regresie.
3. Stručný úvod do sveta lineárnej algebry
V tomto module sa ponoríme do srdca lineárnych modelov. Aby ste to dosiahli, budete sa musieť naučiť alebo si zapamätať základy lineárnej algebry. Preberieme si rôzne typy matíc, ako ich vytvoriť v R a základné operácie s nimi. Toto všetko budeme potrebovať, aby sme pochopili, ako lineárna regresia funguje zvnútra. Dozviete sa, čo je matica modelu, naučíte sa napísať lineárnu regresnú rovnicu vo forme matíc a nájsť jej koeficienty. Na vlastné oči uvidíte klobúkovú maticu, ktorá vám umožní získať predpovedané hodnoty, a dokonca si ju budete môcť vypočítať aj ručne. Nakoniec sa naučíte vypočítať reziduálny rozptyl, maticu rozptylu-kovariancie a toto všetko využiť na vybudovanie regresnej zóny spoľahlivosti. Potom vám tieto znalosti pomôžu pochopiť štruktúru zložitejších modelov: s diskrétnymi prediktormi, s rôznym rozdelením rezíduí, s inou štruktúrou variačno-kovariančnej matice.
4. Viacnásobná lineárna regresia
Vzťahy medzi veličinami sú najčastejšie zložitejšie, ako je možné opísať pomocou jednoduchej lineárnej regresie. Viacnásobná lineárna regresia sa používa na opis toho, ako premenná odozvy závisí od viacerých prediktorov. S výskytom viacerých prediktorov v modeli má lineárna regresia novú podmienku použiteľnosti - požiadavku absencie multikolinearity. V tomto module sa naučíte identifikovať multikolinearitu a ako sa jej vyhnúť. Napokon, vo viacerých modeloch je často viac premenných, ako je možné znázorniť na rovine, Preto vás naučíme jednoduché techniky, ktoré vám pomôžu pri tvorbe informatívnej grafiky aj v tomto prípad.
5. Porovnanie lineárnych modelov
Viaceré lineárne modely sú ako stavebnica: zložitejšie modely možno rozobrať a zjednodušiť. Dozviete sa, ako sa porovnávanie vnorených modelov pomocou parciálneho F testu používa na testovanie významnosti jednotlivých prediktorov alebo skupín prediktorov. Zložitejšie modely lepšie vystihujú pôvodné dáta, ale nadmerná komplikácia je nebezpečná, pretože takéto modely začínajú robiť zlé predpovede nových údajov. Pomocou parciálnych F testov môžete zjednodušiť modely postupným odstraňovaním nevýznamných prediktorov. Zjednodušené modely sa ľahšie používajú na interpretáciu a prezentáciu výsledkov. Všetko, čo ste sa doteraz naučili o lineárnej regresii, môžete použiť dokončením projektu analýzy údajov tam, kde to potrebujete správne zostaviť optimálny viacnásobný lineárny model a prezentovať jeho výsledky v správe napísanej pomocou rmarkdown a pletiar.