DP-203 Data Engineering on Microsoft Azure

Kód kurzu: DP203P

V tomto kurzu se student seznámí s datovým inženýrstvím, které se týká práce s dávkovými a analytickými řešeními v reálném čase pomocí technologií datové platformy Azure. Studenti začnou pochopením základních výpočetních a úložných technologií, které se používají k vytvoření analytického řešení. Studenti se naučí, jak interaktivně zkoumat data uložená v souborech v datovém jezeře. Naučí se různé techniky příjmu, které lze použít k načtení dat pomocí funkce Apache Spark, kterou najdete v Azure Synapse Analytics nebo Azure Databricks, nebo jak ingestovat pomocí Azure Data Factory nebo kanálů Azure Synapse. Studenti se také naučí různé způsoby, jak mohou transformovat data pomocí stejných technologií, které se používají pro ingest dat. Pochopí důležitost implementace zabezpečení pro zajištění ochrany dat v klidu nebo při přenosu. Student poté ukáže, jak vytvořit analytický systém v reálném čase pro vytváření analytických řešení v reálném čase.

26 400 Kč

31 944 Kč s DPH

Nejbližší termín od 30.09.2024

Výběr termínů

Odborní
certifikovaní lektoři

Mezinárodně
uznávané certifikace

Široká nabídka technických
a soft skills kurzů

Skvělý zákaznický
servis

Přizpůsobení kurzů
přesně na míru

Termíny kurzu

Počáteční datum: 30.09.2024

Forma: Virtuální

Délka kurzu: 4 dny

Jazyk: en

Cena bez DPH: 26 400 Kč

Registrovat

Počáteční datum: 30.09.2024

Místo konání: Praha

Forma: Prezenční

Délka kurzu: 4 dny

Jazyk: cz/sk

Cena bez DPH: 29 520 Kč

Registrovat

Počáteční datum: 21.10.2024

Forma: Virtuální

Délka kurzu: 4 dny

Jazyk: en

Cena bez DPH: 26 400 Kč

Registrovat

Počáteční datum: Na vyžádání

Forma: Prezenční/Virtuální

Délka kurzu: 4 dny

Jazyk: en/cz

Cena bez DPH: 29 520 Kč

Registrovat

Počáteční
datum
Místo
konání
Forma Délka
kurzu
Jazyk Cena bez DPH
30.09.2024 Virtuální 4 dny en 26 400 Kč Registrovat
30.09.2024 Praha Prezenční 4 dny cz/sk 29 520 Kč Registrovat
21.10.2024 Virtuální 4 dny en 26 400 Kč Registrovat
Na vyžádání Prezenční/Virtuální 4 dny en/cz 29 520 Kč Registrovat
G Garantovaný kurz

Nenašli jste vhodný termín?

Napište nám o vypsání alternativního termínu na míru.

Kontakt

Cílová skupina

Primárním publikem tohoto kurzu jsou datoví profesionálové, datoví architekti a business intelligence, kteří se chtějí dozvědět o datovém inženýrství a vytváření analytických řešení pomocí technologií datové platformy, které existují v Microsoft Azure. Sekundární publikum pro tento kurz datové analytiky a datové vědce, kteří pracují s analytickými řešeními postavenými na Microsoft Azure.

Struktura kurzu

Modul 1: Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství

Tento modul poskytuje přehled možností výpočetní a úložné technologie Azure, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul učí způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkovou zátěž. Student se naučí, jak organizovat datové jezero do úrovní zpřesnění dat při transformaci souborů pomocí dávkového a proudového zpracování. Poté se naučí, jak vytvářet indexy na svých datových sadách, jako jsou soubory CSV, JSON a Parquet, a používat je pro potenciální zrychlení dotazů a zátěže.

Lekce

  • Úvod do Azure Synapse Analytics
  • Azure Databricks
  • Úvod do úložiště Azure Data Lake
  • Delta Lake architektura
  • Práce s datovými streamy pomocí Azure Stream Analytics

Lab : Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství

  • Kombinujte streamování a dávkové zpracování s jediným potrubím
  • Uspořádejte datové jezero do úrovní transformace souborů
  • Index úložiště datového jezera pro zrychlení dotazů a zátěže

Po absolvování tohoto modulu budete schopni:

  • Popsat Azure Synapse Analytics
  • Popsat Azure Databricks
  • Popsat Azure Data Lake storage
  • Popsat Delta Lake architecture
  • Popsat Azure Stream Analytics

Modul 2: Spouštějte interaktivní dotazy pomocí Azure Synapse Analytics bezserverových fondů SQL

V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externími zdroji souborů prostřednictvím příkazů T-SQL spouštěných bezserverovým fondem SQL v Azure Synapse Analytics. Studenti budou dotazovat soubory Parquet uložené v datovém jezeře i soubory CSV uložené v externím datovém úložišti. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím řízení přístupu založeného na rolích (RBAC) a seznamů řízení přístupu (ACL).

Lekce

  • Možnosti bezserverových fondů SQL Azure Synapse
  • Data Lake pomocí Azure Synapse bezserverových fondů SQL
  • Vytvářejte objekty metadat v bezserverových fondech SQL Azure Synapse
  • Zabezpečení dat a správa uživatele v bezserverových fondech SQL Azure Synapse

Lab : Spouštějte interaktivní dotazy pomocí bezserverových fondů SQL

  • Data Parquet pomocí bezserverových fondů SQL
  • Vytvořte externí tabulky pro Parquet a soubory CSV
  • Vytvářejte pohledy pomocí bezserverových fondů SQL
  • Zabezpečte přístup k datům v Data Lake při používání bezserverových fondů SQL
  • Nakonfigurujte zabezpečení Data Lake pomocí Role-Based Access Control (RBAC) a Access Control List

Po absolvování tohoto modulu budete schopni:

  • Pochopit možnosti bezserverových fondů SQL Azure Synapse
  • Dotázat se na Data lake pomocí Azure Synapse bezserverových fondů SQL
  • Vytvářet objekty metadat v bezserverových fondech SQL Azure Synapse
  • Zabezpečit data a spravovat uživatele v bezserverových fondech SQL Azure Synapse

Modul 3: Průzkum a transformace dat v Azure Databricks

Tento modul učí, jak používat různé metody Apache Spark DataFrame k prozkoumávání a transformaci dat v Azure Databricks. Student se naučí, jak provádět standardní metody DataFrame pro zkoumání a transformaci dat. Naučí se také provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.

Lekce

  • Azure Databricks
  • Čtení a zápis dat v Azure Databricks
  • Práce s DataFrames v Azure Databricks
  • Práce s pokročilými metodami DataFrames v Azure Databricks

Lab : Průzkum a transformace dat v Azure Databricks

  • Použijte DataFrames v Azure Databricks k prozkoumání a filtrování dat
  • Uložte DataFrame do mezipaměti pro rychlejší následné dotazy
  • Odstraňte duplicitní data
  • Manipulujte s hodnotami data/času
  • Odeberte a přejmenujte sloupce DataFrame
  • Agregovat data uložená v DataFrame

Po absolvování tohoto modulu budete schopni:

  • Popsat Azure Databricks
  • Číst a zapisovat v Azure Databricks
  • Pracovat s DataFrames v Azure Databricks
  • Pracovat s pokročilými metodami DataFrames v Azure Databricks

Modul 4: Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark

Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst data do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickou strukturou. Poté student použije Apache Spark k načtení dat do datového skladu a spojení dat Parquet v datovém jezeře s daty ve vyhrazeném fondu SQL.

Lekce

  • Inženýrství velkých dat s Apache Spark v Azure Synapse Analytics
  • Zpracování dat pomocí notebooků Apache Spark v Azure Synapse Analytics
  • Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
  • Integrace fondů SQL a Apache Spark do Azure Synapse Analytics

Lab : Prozkoumejte, transformujte a načtěte data do datového skladu pomocí Apache Spark

  • Proveďte Data Exploration v Synapse Studio
  • Zpracování dat pomocí poznámkových bloků Spark v Azure Synapse Analytics
  • Transformujte data pomocí DataFrame ve fondech Spark v Azure Synapse Analytics
  • Integrujte fondy SQL a Spark v Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

  • Popsat inženýrství velkých dat pomocí Apache Spark v Azure Synapse Analytics
  • Zpracovat data pomocí notebooků Apache Spark v Azure Synapse Analytics
  • Transformovat data pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
  • Integrovat fondy SQL a Apache Spark do Azure Synapse Analytics

Modul 5: Ingestujte a načtěte data do datového skladu

Tento modul učí studenty, jak ingestovat data do datového skladu prostřednictvím skriptů T-SQL a integračních kanálů Synapse Analytics. Student se naučí načítat data do Synapse vyhrazených SQL poolů s PolyBase a COPY pomocí T-SQL. Student se také naučí, jak používat správu zátěže spolu s aktivitou Copy v kanálu Azure Synapse pro příjem dat v petabajtovém měřítku.

Lekce

  • Osvědčené postupy načítání dat v Azure Synapse Analytics
  • Příjem v petabajtovém měřítku pomocí Azure Data Factory

Lab : Zpracujte a načtěte data do datového skladu

  • Provádějte příjem v měřítku petabajtů pomocí Azure Synapse Pipelines
  • Importujte data pomocí PolyBase a COPY pomocí T-SQL
  • Použijte osvědčené postupy načítání dat v Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

  • Použít osvědčené postupy načítání dat v Azure Synapse Analytics
  • Přijímat v petabajtovém měřítku pomocí Azure Data Factory

Modul 6: Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines

Tento modul učí studenty, jak budovat kanály integrace dat pro ingest z více zdrojů dat, transformovat data pomocí mapování datových toků a provádět přesun dat do jednoho nebo více datových jímek.

Lekce

  • Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines
  • Transformace bez kódu ve velkém pomocí Azure Data Factory nebo Azure Synapse Pipelines

Lab : Transformujte data pomocí Azure Data Factory nebo Azure Synapse Pipelines

  • Provádějte transformace bez kódu ve velkém pomocí Azure Synapse Pipelines
  • Vytvořte datový kanál pro import špatně formátovaných souborů CSV
  • Vytvořte mapování datových toků

Po absolvování tohoto modulu budete schopni:

  • Provést integraci dat s Azure Data Factory
  • Provést transformaci bez kódu ve velkém pomocí Azure Data Factory

Modul 7: Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines

V tomto modulu se naučíte vytvářet propojené služby a organizovat přesun a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.

Lekce

  • Uspořádejte přesun a transformaci dat v Azure Data Factory

Lab : Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines

  • Integrujte data z notebooků s Azure Data Factory nebo Azure Synapse Pipelines

Po absolvování tohoto modulu budete schopni:

  • Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines

Modul 8: End-to-end zabezpečení s Azure Synapse Analytics

V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat SQL Active Directory Admin, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným informacím prostřednictvím služby a aktivit kanálu propojeného s trezorem klíčů. Student pochopí, jak implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat při použití vyhrazených fondů SQL.

Lekce

  • Zabezpečení datového skladu v Azure Synapse Analytics
  • Konfigurace a správa tajných klíčů v Azure Key Vault
  • Implementujte kontroly souladu pro citlivá data

Lab : End-to-end zabezpečení s Azure Synapse Analytics

  • Zabezpečená infrastruktura podpory Azure Synapse Analytics
  • Zabezpečte pracovní prostor Azure Synapse Analytics a spravované služby
  • Zabezpečte data pracovního prostoru Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

  • Zabezpečit datový sklad v Azure Synapse Analytics
  • Konfigurovat a spravovat tajných klíčů v Azure Key Vault
  • Implementovat kontroly souladu pro citlivá data

V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Student porozumí, jak povolit a nakonfigurovat propojení Synapse, a jak se dotazovat na analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL serverless.

Lekce

  • Hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
  • Konfigurace propojení Azure Synapse s Azure Cosmos DB
  • Azure Cosmos DB pomocí fondů Apache Spark
  • Azure Cosmos DB pomocí bezserverových fondů SQL
  • Nakonfigurujte propojení Azure Synapse s Azure Cosmos DB
  • Dotazujte Azure Cosmos DB pomocí Apache Spark pro Synapse Analytics
  • Dotazujte Azure Cosmos DB pomocí bezserverového fondu SQL pro Azure Synapse Analytics

Po absolvování tohoto modulu budete schopni:

  • Navrhnout hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
  • Nakonfigurovat propojení Azure Synapse s Azure Cosmos DB
  • Dotazovat Azure Cosmos DB pomocí Apache Spark pro Azure Synapse Analytics
  • Dotazovat Azure Cosmos DB pomocí SQL bez serveru pro Azure Synapse Analytics

Module 10: Zpracování streamu v reálném čase pomocí Stream Analytics

V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student zpracuje telemetrická data vozidla do Event Hubs a poté tato data zpracuje v reálném čase pomocí různých funkcí oken v Azure Stream Analytics. Vydají data do Azure Synapse Analytics. Nakonec se student naučí, jak škálovat úlohu Stream Analytics, aby se zvýšila propustnost.

Lekce

  • Spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
  • Práce s datovými streamy pomocí Azure Stream Analytics
  • Zpracování datových streamů pomocí Azure Stream Analytics

Lab : Zpracování datových streamů pomocí Azure Stream Analytics

  • Použijte Stream Analytics ke zpracování dat v reálném čase z Event Hubs
  • Použijte funkce oken Stream Analytics k vytváření agregátů a výstupů do Synapse Analytics
  • Škálujte úlohu Azure Stream Analytics, abyste zvýšili propustnost prostřednictvím dělení
  • Přerozdělte vstup datového proudu pro optimalizaci paralelizace

Po absolvování tohoto modulu budete schopni:

  • Povolit spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
  • Práce s datovými streamy pomocí Azure Stream Analytics
  • Zpracování datových streamů pomocí Azure Stream Analytics

Modul 11: Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks

V tomto modulu se studenti naučí, jak ingestovat a zpracovávat streamovaná data ve velkém pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Student se naučí klíčové vlastnosti a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes kusy dat a použije vodoznak k odstranění zastaralých dat. Nakonec se student připojí k Event Hubs, aby mohl číst a zapisovat streamy.

Lekce

  • Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks

Lab : Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks

  • Prozkoumejte klíčové funkce a použití strukturovaného streamování
  • Streamujte data ze souboru a zapisujte je do distribuovaného systému souborů
  • Použijte posuvná okna k agregaci více dat než všech dat
  • Chcete-li odstranit zastaralá data, použijte vodoznak
  • Připojte se k Event Hubs pro čtení a zápis streamů

Po absolvování tohoto modulu budete schopni:

  • Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks

Předpokládané znalosti

Úspěšní studenti začínají tento kurz se znalostí cloud computingu a základních datových konceptů a profesionálními zkušenostmi s datovými řešeními.

  • AZ-900 – Azure Fundamentals
  • DP-900 – Microsoft Azure Data Fundamentals

Potřebujete poradit nebo upravit kurz na míru?

onas

produktová podpora

Platební brána ComGate Logo MasterCard Logo Visa