Struktura kurzu
Modul 1: Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství
Tento modul poskytuje přehled možností výpočetní a úložné technologie Azure, které jsou k dispozici datovým inženýrům vytvářejícím analytické úlohy. Tento modul učí způsoby, jak strukturovat datové jezero a optimalizovat soubory pro průzkum, streamování a dávkovou zátěž. Student se naučí, jak organizovat datové jezero do úrovní zpřesnění dat při transformaci souborů pomocí dávkového a proudového zpracování. Poté se naučí, jak vytvářet indexy na svých datových sadách, jako jsou soubory CSV, JSON a Parquet, a používat je pro potenciální zrychlení dotazů a zátěže.
Lekce
- Úvod do Azure Synapse Analytics
- Azure Databricks
- Úvod do úložiště Azure Data Lake
- Delta Lake architektura
- Práce s datovými streamy pomocí Azure Stream Analytics
Lab : Prozkoumejte možnosti výpočtu a úložiště pro pracovní zátěže datového inženýrství
- Kombinujte streamování a dávkové zpracování s jediným potrubím
- Uspořádejte datové jezero do úrovní transformace souborů
- Index úložiště datového jezera pro zrychlení dotazů a zátěže
Po absolvování tohoto modulu budete schopni:
- Popsat Azure Synapse Analytics
- Popsat Azure Databricks
- Popsat Azure Data Lake storage
- Popsat Delta Lake architecture
- Popsat Azure Stream Analytics
Modul 2: Spouštějte interaktivní dotazy pomocí Azure Synapse Analytics bezserverových fondů SQL
V tomto modulu se studenti naučí, jak pracovat se soubory uloženými v datovém jezeře a externími zdroji souborů prostřednictvím příkazů T-SQL spouštěných bezserverovým fondem SQL v Azure Synapse Analytics. Studenti budou dotazovat soubory Parquet uložené v datovém jezeře i soubory CSV uložené v externím datovém úložišti. Dále vytvoří skupiny zabezpečení Azure Active Directory a vynutí přístup k souborům v datovém jezeře prostřednictvím řízení přístupu založeného na rolích (RBAC) a seznamů řízení přístupu (ACL).
Lekce
- Možnosti bezserverových fondů SQL Azure Synapse
- Data Lake pomocí Azure Synapse bezserverových fondů SQL
- Vytvářejte objekty metadat v bezserverových fondech SQL Azure Synapse
- Zabezpečení dat a správa uživatele v bezserverových fondech SQL Azure Synapse
Lab : Spouštějte interaktivní dotazy pomocí bezserverových fondů SQL
- Data Parquet pomocí bezserverových fondů SQL
- Vytvořte externí tabulky pro Parquet a soubory CSV
- Vytvářejte pohledy pomocí bezserverových fondů SQL
- Zabezpečte přístup k datům v Data Lake při používání bezserverových fondů SQL
- Nakonfigurujte zabezpečení Data Lake pomocí Role-Based Access Control (RBAC) a Access Control List
Po absolvování tohoto modulu budete schopni:
- Pochopit možnosti bezserverových fondů SQL Azure Synapse
- Dotázat se na Data lake pomocí Azure Synapse bezserverových fondů SQL
- Vytvářet objekty metadat v bezserverových fondech SQL Azure Synapse
- Zabezpečit data a spravovat uživatele v bezserverových fondech SQL Azure Synapse
Tento modul učí, jak používat různé metody Apache Spark DataFrame k prozkoumávání a transformaci dat v Azure Databricks. Student se naučí, jak provádět standardní metody DataFrame pro zkoumání a transformaci dat. Naučí se také provádět pokročilejší úkoly, jako je odstraňování duplicitních dat, manipulace s hodnotami data a času, přejmenování sloupců a agregace dat.
Lekce
- Azure Databricks
- Čtení a zápis dat v Azure Databricks
- Práce s DataFrames v Azure Databricks
- Práce s pokročilými metodami DataFrames v Azure Databricks
- Použijte DataFrames v Azure Databricks k prozkoumání a filtrování dat
- Uložte DataFrame do mezipaměti pro rychlejší následné dotazy
- Odstraňte duplicitní data
- Manipulujte s hodnotami data/času
- Odeberte a přejmenujte sloupce DataFrame
- Agregovat data uložená v DataFrame
Po absolvování tohoto modulu budete schopni:
- Popsat Azure Databricks
- Číst a zapisovat v Azure Databricks
- Pracovat s DataFrames v Azure Databricks
- Pracovat s pokročilými metodami DataFrames v Azure Databricks
Tento modul učí, jak prozkoumat data uložená v datovém jezeře, transformovat data a načíst data do úložiště relačních dat. Student prozkoumá soubory Parquet a JSON a použije techniky k dotazování a transformaci souborů JSON s hierarchickou strukturou. Poté student použije Apache Spark k načtení dat do datového skladu a spojení dat Parquet v datovém jezeře s daty ve vyhrazeném fondu SQL.
Lekce
- Inženýrství velkých dat s Apache Spark v Azure Synapse Analytics
- Zpracování dat pomocí notebooků Apache Spark v Azure Synapse Analytics
- Transformace dat pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
- Integrace fondů SQL a Apache Spark do Azure Synapse Analytics
- Proveďte Data Exploration v Synapse Studio
- Zpracování dat pomocí poznámkových bloků Spark v Azure Synapse Analytics
- Transformujte data pomocí DataFrame ve fondech Spark v Azure Synapse Analytics
- Integrujte fondy SQL a Spark v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
- Popsat inženýrství velkých dat pomocí Apache Spark v Azure Synapse Analytics
- Zpracovat data pomocí notebooků Apache Spark v Azure Synapse Analytics
- Transformovat data pomocí DataFrames v Apache Spark Pools v Azure Synapse Analytics
- Integrovat fondy SQL a Apache Spark do Azure Synapse Analytics
Modul 5: Ingestujte a načtěte data do datového skladu
Tento modul učí studenty, jak ingestovat data do datového skladu prostřednictvím skriptů T-SQL a integračních kanálů Synapse Analytics. Student se naučí načítat data do Synapse vyhrazených SQL poolů s PolyBase a COPY pomocí T-SQL. Student se také naučí, jak používat správu zátěže spolu s aktivitou Copy v kanálu Azure Synapse pro příjem dat v petabajtovém měřítku.
Lekce
- Osvědčené postupy načítání dat v Azure Synapse Analytics
- Příjem v petabajtovém měřítku pomocí Azure Data Factory
Lab : Zpracujte a načtěte data do datového skladu
- Provádějte příjem v měřítku petabajtů pomocí Azure Synapse Pipelines
- Importujte data pomocí PolyBase a COPY pomocí T-SQL
- Použijte osvědčené postupy načítání dat v Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
- Použít osvědčené postupy načítání dat v Azure Synapse Analytics
- Přijímat v petabajtovém měřítku pomocí Azure Data Factory
Tento modul učí studenty, jak budovat kanály integrace dat pro ingest z více zdrojů dat, transformovat data pomocí mapování datových toků a provádět přesun dat do jednoho nebo více datových jímek.
Lekce
- Integrace dat s Azure Data Factory nebo Azure Synapse Pipelines
- Transformace bez kódu ve velkém pomocí Azure Data Factory nebo Azure Synapse Pipelines
- Provádějte transformace bez kódu ve velkém pomocí Azure Synapse Pipelines
- Vytvořte datový kanál pro import špatně formátovaných souborů CSV
- Vytvořte mapování datových toků
Po absolvování tohoto modulu budete schopni:
- Provést integraci dat s Azure Data Factory
- Provést transformaci bez kódu ve velkém pomocí Azure Data Factory
V tomto modulu se naučíte vytvářet propojené služby a organizovat přesun a transformaci dat pomocí poznámkových bloků v Azure Synapse Pipelines.
Lekce
- Uspořádejte přesun a transformaci dat v Azure Data Factory
- Integrujte data z notebooků s Azure Data Factory nebo Azure Synapse Pipelines
Po absolvování tohoto modulu budete schopni:
- Uspořádejte pohyb a transformaci dat v Azure Synapse Pipelines
Modul 8: End-to-end zabezpečení s Azure Synapse Analytics
V tomto modulu se studenti naučí, jak zabezpečit pracovní prostor Synapse Analytics a jeho podpůrnou infrastrukturu. Student bude sledovat SQL Active Directory Admin, spravovat pravidla brány firewall IP, spravovat tajné klíče pomocí Azure Key Vault a přistupovat k těmto tajným informacím prostřednictvím služby a aktivit kanálu propojeného s trezorem klíčů. Student pochopí, jak implementovat zabezpečení na úrovni sloupců, zabezpečení na úrovni řádků a dynamické maskování dat při použití vyhrazených fondů SQL.
Lekce
- Zabezpečení datového skladu v Azure Synapse Analytics
- Konfigurace a správa tajných klíčů v Azure Key Vault
- Implementujte kontroly souladu pro citlivá data
Lab : End-to-end zabezpečení s Azure Synapse Analytics
- Zabezpečená infrastruktura podpory Azure Synapse Analytics
- Zabezpečte pracovní prostor Azure Synapse Analytics a spravované služby
- Zabezpečte data pracovního prostoru Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
- Zabezpečit datový sklad v Azure Synapse Analytics
- Konfigurovat a spravovat tajných klíčů v Azure Key Vault
- Implementovat kontroly souladu pro citlivá data
Modul 9: Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
V tomto modulu se studenti naučí, jak Azure Synapse Link umožňuje bezproblémové připojení účtu Azure Cosmos DB k pracovnímu prostoru Synapse. Student porozumí, jak povolit a nakonfigurovat propojení Synapse, a jak se dotazovat na analytické úložiště Azure Cosmos DB pomocí Apache Spark a SQL serverless.
Lekce
- Hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
- Konfigurace propojení Azure Synapse s Azure Cosmos DB
- Azure Cosmos DB pomocí fondů Apache Spark
- Azure Cosmos DB pomocí bezserverových fondů SQL
Lab : Podporujte hybridní transakční analytické zpracování (HTAP) pomocí Azure Synapse Link
- Nakonfigurujte propojení Azure Synapse s Azure Cosmos DB
- Dotazujte Azure Cosmos DB pomocí Apache Spark pro Synapse Analytics
- Dotazujte Azure Cosmos DB pomocí bezserverového fondu SQL pro Azure Synapse Analytics
Po absolvování tohoto modulu budete schopni:
- Navrhnout hybridní transakční a analytické zpracování pomocí Azure Synapse Analytics
- Nakonfigurovat propojení Azure Synapse s Azure Cosmos DB
- Dotazovat Azure Cosmos DB pomocí Apache Spark pro Azure Synapse Analytics
- Dotazovat Azure Cosmos DB pomocí SQL bez serveru pro Azure Synapse Analytics
Module 10: Zpracování streamu v reálném čase pomocí Stream Analytics
V tomto modulu se studenti naučí, jak zpracovávat streamovaná data pomocí Azure Stream Analytics. Student zpracuje telemetrická data vozidla do Event Hubs a poté tato data zpracuje v reálném čase pomocí různých funkcí oken v Azure Stream Analytics. Vydají data do Azure Synapse Analytics. Nakonec se student naučí, jak škálovat úlohu Stream Analytics, aby se zvýšila propustnost.
Lekce
- Spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
- Práce s datovými streamy pomocí Azure Stream Analytics
- Zpracování datových streamů pomocí Azure Stream Analytics
Lab : Zpracování datových streamů pomocí Azure Stream Analytics
- Použijte Stream Analytics ke zpracování dat v reálném čase z Event Hubs
- Použijte funkce oken Stream Analytics k vytváření agregátů a výstupů do Synapse Analytics
- Škálujte úlohu Azure Stream Analytics, abyste zvýšili propustnost prostřednictvím dělení
- Přerozdělte vstup datového proudu pro optimalizaci paralelizace
Po absolvování tohoto modulu budete schopni:
- Povolit spolehlivé zasílání zpráv pro aplikace Big Data pomocí Azure Event Hubs
- Práce s datovými streamy pomocí Azure Stream Analytics
- Zpracování datových streamů pomocí Azure Stream Analytics
Modul 11: Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks
V tomto modulu se studenti naučí, jak ingestovat a zpracovávat streamovaná data ve velkém pomocí Event Hubs a Spark Structured Streaming v Azure Databricks. Student se naučí klíčové vlastnosti a použití strukturovaného streamování. Student implementuje posuvná okna pro agregaci přes kusy dat a použije vodoznak k odstranění zastaralých dat. Nakonec se student připojí k Event Hubs, aby mohl číst a zapisovat streamy.
Lekce
- Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks
Lab : Vytvořte řešení pro zpracování streamů pomocí Event Hubs a Azure Databricks
- Prozkoumejte klíčové funkce a použití strukturovaného streamování
- Streamujte data ze souboru a zapisujte je do distribuovaného systému souborů
- Použijte posuvná okna k agregaci více dat než všech dat
- Chcete-li odstranit zastaralá data, použijte vodoznak
- Připojte se k Event Hubs pro čtení a zápis streamů
Po absolvování tohoto modulu budete schopni:
- Zpracovávejte data streamování pomocí strukturovaného streamování Azure Databricks