Jste zde

F7DTARVD - Analýza a rozpoznávání vícerozměrných dat

Kód	Zakončení	Kredity (ECTS)	Rozsah	Jazyk výuky
F7DTARVD	ZK	5	14P+7C	česky

Garant předmětu:

Olga Štěpánková

Přednášející:

Olga Štěpánková

Cvičící:

Václav Křemen, Olga Štěpánková, Lenka Vysloužilová

Předmět zajišťuje:

katedra přírodovědných oborů

Anotace:

Předmět nabízí přehled nástrojů pro dobývání znalostí z dat a demonstruje jejich využití na praktických úlohách s využitím open source nástroje projektu R. Zvláštní pozornost věnuje názorné prezentaci postupně získávaných výsledků, která výrazně usnadní komunikaci s vlastníkem dat (např. lékařem), který pak může lépe spolupracovat při volbě dalších směrů hledání. Shlukování. Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost. Redukce dimenze dat a selekce příznaků (třeba PCA, ICA, faktorová analýza). Detekce anomálií.

Požadavky:

Forma ověření studijních výsledků: ústní zkouška.

Standardně probíhá výuka kontaktní formou a předmět má přednášky a počítačová cvičení. V případě, že počet studentů je menší než 5, může výuka probíhat v podobě řízeného samostudia s pravidelnými konzultacemi. V tom případě je kromě zkoušky navíc požadováno vypracování písemné studie studentem na zadané téma.

Osnova přednášek:

1.Základní pojmy pro popis dat, strojové učení a rozpoznávání: pozorování, příznak, příznakový prostor, klasifikace.

2.Dobývání znalostí - popis a metodika procesu CRISP. Průzkumová analýza a vizualizace vícerozměrných dat.

3.Shlukování pro modelování neklasifikovaných dat základní algoritmy. Hodnocení vzniklého modelu a jeho použití.

4.Základní postupy modelování klasifikovaných dat metoda nejbližšího souseda, tvorba rozhodovacího stromu a jejich vlastnosti. Příklady aplikací.

5.Míry pro srovnávání výkonností různých klasifikačních modelů (přesnost, specificita, , ROC křivka). Metody pro odhad výkonnosti modelu: křížová validace, bootstrapping,

křivka učení.

6.SVM změna reprezentace dat. Příklad ilustrující využití odvozeného atributu pro náhradu několika jiných.

7.Konstrukce asociačních pravidel pro neklasifikovaná data a jejich využití.

8.Různé metody zvyšování kvality zpracovávaných dat - identifikace odlehlých a nesprávných hodnot. Porozumě-ní datům a jejich příprava: postupy pro diskretizaci, normalizaci

a doplnění chybějících hodnot, agregace dat.

9.Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost.

10.Redukce dimenze dat a selekce příznaků (analýza hlavních komponent - PCA, PCA pro klasifikační úlohy, faktorová analýza, regrese, částečné nejmenší čtverce).

11.Několik strategií testovaní vzniklých modelů (vícenásobné testování a různé korekce).

12.Příklady dalších nástrojů pro modelování dat: tvorba regresních stromů, využití neuronových sítí.

13.Rozpoznávání anomálií v mnoharozměrných datech.

14.Perspektivní témata v DM, např. práce se strukturovanými daty.

Osnova cvičení:

Cvičení budou řešena formou praktických projektů, v nichž si studenti ověří znalosti získané v přednáškách.

Cíle studia:

Studijní materiály:

Berka P.: Dobývání znalostí z databází, Academia 2003, ISBN 80-200-1062-9.

Meloun M., Militký J.: Kompendium statistického zpracování dat, Karolinum 2013, ISBN 80-200-1396-2

Daróczi G.: Mastering Data Analysis with R. Packt Publishing, 2015, ISBN 978-1783982028

R software volně stažitelný na https://www.r-project.org/

Poznámka:

Předmět je součástí následujících studijních plánů:

Materiály ke stažení:

Vyhledávání

Studijní obory - CS

Jste zde

F7DTARVD - Analýza a rozpoznávání vícerozměrných dat

Materiály ke stažení: