В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Введение, практический linux
Поговорим о профессиях в Data Science, узнаем чем на самом деле занимается Data Engineer. Научимся пользоваться одним из главных инструментов дата инженера - командной строкой linux, сразу отработаем навыки на практических заданиях.
Модуль 1. Современные хранилища данных
Разберемся какие бывают базы данных, посмотрим на их особенности и различия. Поговорим об архитектурах хранилищ данных, на примерах lambda architecture, kappa architecture и др. Сравним data warehouse vs data lake. Закрепим полученные знания на практических заданиях и упражнениях.
Модуль 2. Экосистема Hadoop
Перейдем к работе с Hadoop - узнаем, что это такое; поговорим про базис (hdfs, yarn, map reduce) и дистрибутивы Hadoop. Установим Cloudera QS, познакомимся с Cluster Manager, поработаем с hdfs. Дополнительно отработаем практический минимум - hive, zookeeper, hue
Модуль 3. Источники данных и работа с ними
Поговорим о структурировании данных: Oracle, MS SQL, Postgre. Рассмотрим различные файлы как источники данных: XML, JSON, текст. Научимся применять SQL для выгрузки данных из источников. На примере Apache Atlas изучим корпоративный каталог данных. И на примере Apache Ranger рассмотрим управление доступом
Модуль 4. Apache Spark и обработка данных
Научимся работать с Apache Spark, как с инструментом для обработки данных. Разберем core Spark, Spark SQL и Spark Stuctured Streaming. Закрепим материал на практических заданиях
Модуль 5. Hadoop как хранилище данных
Поговорим об особенностях и нюансах hdfs. Научимся загружать данные в Hive (файлы, sqoop, spark). Поработаем с разными форматами файлов (ORC, Parquet, Avro)
Модуль 6. Apache Airflow для оркестрации конвейеров
Научимся строить конвейеры обработки данных (data pipelines). Изучим основные сущности Apache Airflow. Поработаем с Airfow - Spark и Airflow - Livy
Модуль 7. Обзор облачных хранилищ
Разберемся с облачными хранилищами: Google, Amazon, Azure. Подведем итоги курса
Мы бесплатно подберем для Вас подходящие курсы.
Подборка курсов на e-mail