SQL Server — Modelowanie i eksploracja danych

Opis

Zbiory największej biblioteki na Ziemi, Biblioteki Kongresu Stanów Zjednoczonych, liczą około 30 milionów książek. Gdyby wszystkie te książki wprowadzić do komputera, to przy założeniu, że średni rozmiar pliku wyniósłby 1 megabajt, zajęłyby one 30 terabajtów. Tymczasem baza danych jednej tylko firmy kurierskiej przechowuje ponad 20 terabajtów danych dotyczących dostarczonych przez tę firmę przesyłek, a dostępna pod adresem http://brainmaps.org/ baza danych map mózgów ssaków liczy sobie ponad 50 terabajtów. Oznacza to, że pojedyncze firmy i organizacje dysponują dziś ilością danych porównywalną z księgozbiorem zgromadzonym w Bibliotece Kongresu Stanów Zjednoczonych w ciągu kilkuset lat. Wydobycie z tak dużej ilości danych interesujących informacji biznesowych wymaga zastosowania specjalistycznych systemów informatycznych. Podstawą tego typu systemów eksploracji danych może być używany w Państwa firmie Microsoft SQL Server Standard lub Enterprise w wersji 2005 lub nowszej, uzupełniony o arkusz Excel 2007 lub nowszy co oznacza, że zbudowanie inteligentnego systemu wspomagania decyzji nie musi wiązać się zakupem nowych licencji czy przeszkoleniem użytkowników w zakresie obsługi nowego programu. Celem szkolenia jest przygotowanie analityków, informatyków i użytkowników biznesowych do tworzenia modeli eksploracji danych w oparciu o metodykę CRISP-DM (CRoss Industry Standard Process for Data Mining). To jedyne szkolenie, które nie ogranicza się wyłącznie do przedstawienia poszczególnych algorytmów eksploracji danych, ale pozwala zdobyć wiedzę i umiejętności niezbędne do zastosowania tych algorytmów do skutecznego rozwiązywania rzeczywistych problemów biznesowych.

Opcje

  • Poziom szkolenia: 300
  • Data rozpoczęcia: Do uzgodnienia
  • Czas trwania: 4 dni

Cena: 4100 zł

  • Szkolenie otwarte
  • U Klienta
  • Na sprzęcie Klienta

Dla kogo

Szkolenie adresowane jest do analityków, zaawansowanych użytkowników biznesowych oraz programistów i administratorów baz danych. Jego uczestnicy poznają kompletą metodykę projektów eksploracji danych (od sformułowania problemu, poprzez przygotowanie danych, stworzenie modeli ich eksploracji po ocenę i wdrożenie tych modeli do użycia), oraz technologie firmy Microsoft pozwalające tworzyć i oceniać modele eksploracji danych, a także używać tych modeli w analizie biznesowej.

Plan

Podstawę szkolenia tworzy 14. modułów. Ponieważ szkolenie to, tak samo jak pozostałe organizowane przez nas kursy, prowadzone jest na podstawie opracowanych przez naszych trenerów materiałów autorskich, plan jego realizacji może być dostosowany do indywidulanych potrzeb uczestników. Zachęcamy Państwa nie tylko do wyboru modułów, ale również do przesyłania dodatkowych sugestii i zadawania konkretnych pytań, na które odpowiedzi będą Państwo chcieli otrzymać podczas szkolenia. Wyjątkową cechą naszych szkoleń, w tym prezentowanego szkolenia, jest ograniczenie czasu nawykonywanie po każdym module laboratoriów na rzecz wykonywanych wspólnie z trenerem ćwiczeń i demonstracji. W ten sposób możemy w krótszym czasie przekazać Państwu znacznie więcej praktycznych informacji i wskazówek, co więcej możemy skoncentrować się na omawianiu rzeczywiście interesujących Państwa zagadnień. Żeby nie pozbawiać jednak Państwa możliwości samodzielnego przećwiczenia omawianego materiału, każdy dzień szkolenia zakończy się mniej więcej godzinnym laboratorium, w trakcie którego będą Państwo mogli wykonać wybrane przez siebie ćwiczenia.

Plan kursu

Czas trwania: Poziom:
Moduł 1

Rola eksploracji danych w analizie biznesowej
  • Proces eksploracji danych
  • Modelowanie zjawisk
  • Stawianie hipotez
  • Poprawne formułowanie problemów
  • Cele modelowania i eksploracji danych
  • Zakres projektu eksploracji danych
  • Sprecyzowanie spodziewanych wyników
  • Ocena ryzyka niepowodzenia projektu

120 minut 300
Moduł 2

Ocena i przygotowanie danych źródłowych
  • Błędy pomiaru
  • Profilowanie danych za pomocą usługi SQL Server Integration Services
  • Atrybuty i ich wartości
  • Integralność danych
  • Próbkowanie i reprezentatywność danych
  • Modelowanie brakujących danych
  • Zależności pomiędzy atrybutami
  • Przestrzeń stanów
  • Przygotowanie atrybutów dyskretnych
  • Przygotowanie atrybutów ciągłych
  • Przygotowanie serii danych
  • Uzupełnienie i wzbogacenie danych
  • Przygotowanie danych dla modeli deskrypcyjnych
  • Przygotowanie danych dla modeli klasyfikacyjnych
  • Wydzielenie danych testowych

180 minut 400
Moduł 3

Techniki eksploracji danych
  • Scenariusze biznesowe
  • Dodatek Data Mining dla pakietu Office
  • Klasyczne techniki eksploracji danych (klasyfikacja, szacowanie, asocjacja, grupowanie, analiza sekwencyjna, analiza wariantowa, prognozowanie)

60 minut 200
Moduł 4

Serwer SQL jako platforma eksploracji danych
  • Excel jako klient SQL Server Analysis Services (narzędzia eksploracji zewnętrznych danych, praca z modelami eksploracji danych, formuły Excela)
  • Projekty eksploracji danych (Business Intelligence Development Studio, źródła danych, widoki danych źródłowych, struktury eksploracji danych, modele eksploracji danych, zapytania predykcyjne)
  • Zagnieżdżanie przypadków
  • Zarządzanie serwerem SSAS i modelami eksploracji danych poprzez SQL Server Management Studio
  • Usługi eksploracji danych serwera SQL (architektura, bezpieczeństwo, integracja z pozostałymi usługami Business Intelligence)

180 minut 400
Moduł 5

Język DMX
  • Terminologia
  • Składnia
  • Tworzenie struktur eksploracji danych
  • Tworzenie modeli
  • Odczytywanie metainformacji na temat struktur i modeli eksploracji danych
  • Trening modeli
  • Zapytania predykcyjne
  • Funkcje predykcyjne

90 minut 400
Moduł 6

Naiwny klasyfikator Bayesa firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania naiwnego klasyfikatora Bayesa (badanie zależności pomiędzy atrybutami, klasyfikacja dokumentów)

90 minut 300
Moduł 7

Drzewa decyzyjne firmy Microsoft i algorytm regresji liniowej firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania drzew decyzyjnych (klasyfikacja klientów, szacowanie potencjalnych zysków, asocjacja klientów i kupowanych przez nich towarów)

90 minut 300
Moduł 8

Algorytm szeregów czasowych firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania algorytmu szeregów czasowych (prognozowanie sprzedaży, prognozowanie sprzedaży na podstawie przeplatanych serii danych, prognozowanie sprzedaży na podstawie danych odczytanych z kostki wielowymiarowej, prognozowanie sprzedaży na podstawie krótkich serii danych, analiza wariantowa)

90 minut 300
Moduł 9

Algorytm klastrowania firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania algorytmu klastrowania (analiza skupień komórek, klasyfikacja przypadków, przygotowanie danych do dalszej eksploracji, wykrywanie anomalii)

90 minut 300
Moduł 10

Algorytm klastrowania sekwencyjnego firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania algorytmu klastrowania sekwencyjnego (analiza sekwencji odwiedzanych stron WWW, klasyfikacja klientów na podstawie kolejności kupowanych przez nich towarów, wykrywanie nietypowych sekwencji zdarzeń)

90 minut 300
Moduł 11

Algorytm odkrywania reguł asocjacyjnych firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania reguł asocjacyjnych (badanie zależności pomiędzy wartościami atrybutów, analiza koszykowa, analiza typu cross-selling)

90 minut 300
Moduł 12

Sieci neuronowe firmy Microsoft i algorytm regresji logistycznej firmy Microsoft
  • Zasady działania, ograniczenia i parametry algorytmu
  • Zastosowania sieci neuronowych i regresji logistycznej (szacowanie potencjalnych zysków, klasyfikacja dokumentów)

90 minut 300
Moduł 13

Ocena i poprawa modeli eksploracji danych
  • Powrót do średniej
  • Kryteria porównawcze (łatwość interpretacji, dokładność predykcji, wiarygodność predykcji, wydajność i skalowalność, przydatność)
  • Metody oceniania modeli eksploracji danych (wykresy podniesienia i zysku, macierz klasyfikacji, ocena dokładności modeli algorytmu szeregów czasowych firmy Microsoft, walidacja krzyżowa, odchylenie wewnątrz- i między-klastrowe)
  • Typowe problemy (niewłaściwe postawione zadania, niewłaściwe dane źródłowe, nieprzygotowane dane źródłowe, niewłaściwe lub źle sparametryzowane algorytmy eksploracji danych)

120 minut 300
Moduł 14

Programowanie predykcyjne
  • Narzędzia programistyczne
  • Wizualizery
  • Raporty usługi SSRS
  • Inteligentne aplikacje (kontrola poprawności danych, uzupełnianie brakujących danych, adaptacyjny interfejs)

60 minut 400

Formularz

Zadaj pytanie do szkolenia

Zarejestruj się