Онлайн-курс, вебинар BIG DATA ENGINEER

Даты начала обучения

Продолжительность:
1 год

Стоимость обучения:

105 000 р.
Записаться на курс
Добавить к сравнению

Многие специалисты в области Data Science стремятся дорасти до уровня Big Data Engineer. Но требования к специалистам такого уровня, особенно в крупных компаниях, очень высоки.
Большинство соискателей не могут пройти собеседование из-за отсутствия опыта и навыков владения необходимыми инструментами. Но именно такие специалисты являются самыми высокооплачиваемыми и востребованными в крупных компаниях: Google, Mail.Ru Group, Yandex, Netflix и др.
Существующие по этим темам курсы рассказываются сухим и академичным языком и не нацелены на практику, а на русском языке таких курсов еще меньше. Именно поэтому мы решили создать первый практический курс по Big Data Engineering для Data Science.

Программа курса

«Введение в Big Data»

1. Работа с данными для проектов классического ML

- Интро по профессии Big Data инженер
- Жизненный цикл ML-проекта
- Обработка данных в pandas
- Feature engineering
- Извлечение данных из web

Результат :Подготовите неочищенный датасет для проекта ML, соберете недостающие данные из открытых источников, проведете разведывательный анализ данных и сконструируете дополнительные признаки
Практика: Kaggle-соревнование по прогнозированию стоимости автомобиля на основе его характеристик

2. Основы архитектур хранилищ данных

- Data warehouse
- Data lake
- Data hubs
- Виды БД
- SQL
- NoSQL
- Озеро
- Обзор решений на рынке
- Работа с аномалиями

Результат: Спроектируете и настроите структуру для дальнейшей работы с данными
Практика: Симулятор: построите систему для анализа и предсказания цен на недвижимость. Проектирование и настройка структуры хранилища данных
2 1 месяц первый уровень


«Профессиональные инструменты Big Data»

3. Экосистема Hadoop

- Идея горизонтального масштабирования
- Компоненты Hadoop
- HDFS
- Yarn
- Hive
- Spark
- Практика на PySpark
- Стек API
- RDD
- dataframe
- SQL
- GraphX
- MLLib


Результат: Узнаете назначение и особенности основных компонент Hadoop, научитесь их настраивать и применять на практике

Практика: Симулятор: настройка параметров кластера, трансформация данных. Лабораторная работа по измерению влиянию настроек на эффективность


4. Пайплайны данных, ETL

- Инструменты получения и преобразования данных
- Пайплайны
- Загрузка батч/стриминг данных в Kafka
- опыт работы с Airflow
- NiFi
- обработка слабоструктурированных данных
- загрузка данных из веб.

Результат: Научитесь загружать данные из структурировнных и слабоструктурированных источников, работать в режиме батч, собирать данные с вебсайтов и автоматизировать процессы с помощью Airflow
Практика: Симулятор: настроим и автоматизируем стриминг данных из внешних сервисов аналитики недвижимости

5. Продуктовое внедрение сервисов с машинным обучением

- Архитектура сервисов с горизонтальным масштабированием - Подготовка моделей к production - сервисы на Flask - контейнеризация приложений (Docker, Docker Compose, Kubernetes) - оценка эффективности моделей.

Практика: Хакатон Дополнительные вопросы архитектур БД

6. Разработка и деплой собственного сервиса.

- NoSQL-альтернативы и их применимость
- Практика с MongoDB
-Технические вопросы работы с БД
- Схема Snowflake, Data Vault
- Колоночные БД, Parquet
- Графовые БД

Результат:Поймете проблематику партиционирования больших данных, основные форматы хранения больших данных, влияние на производительность

Практика: Симулятор: реализуем альтернативный способ хранения БД для проекта по схеме снежинки. Лабораторная работа: замерим сравнительную производительность между датасетами.


7. Облачная инфраструктура

- Работа с сервисами Amazon, Google, Microsoft, Yandex
- Практика с aws-cli, boto3, Google Composer
- Сравнение производительности

Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных
Практика: Симулятор: поднимете кластер с копией проекта на внешнем сервисе


«Культура инженерии данных»

9. Инженерные практики в Linux и Python

- Тестирование, отладка
- Версионирование в git
- Парадигмы ООП и ФП в практических задачах
- Алгоритмы
- Структуры данных
- Сложность алгоритмов
- Параллелизм
- threads,
- asyncio.
- CI/CD
- Test-driven development.

Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных

Практика:Симулятор: поднимете кластер с копией проекта на внешнем сервисе

10. Управление data science проектом

- Роли в команде data science
- методологии разработки
- коммуникация с заказчиком

Результат: Поймете распределение ролей, принципы итерационной разработки и их отличия от watefall, научитесь формировать бэклог и детализировать его элементы

Практика:Командный хакатон

11. Практические задачи из отраслей индустрии

- Внедрение рекомендательных систем и онлайн ML-моделей в телеком, интернет-компании, банки, страхование, ритейл, онлайн-сервисы

Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных
Практика: Лабораторная работа: предупреждение мошенничества в страховании и другие. Конференция

12. Финальный проект.

- Суммируя полученный опыт, вы подытожите и защитите свою реализацию сквозного проекта по высоконагруженной инфраструктуре данных

Преподаватели

Андрей Зимовнов
Ведущий преподаватель специализации, старший разработчик в Яндекс.Дзен
Антон Киселев
Head of R&D, компания EORA
Дмитрий Коробченко
Deep Learning R&D Engineer, NVIDIA
Эмиль Магеррамов
COO Data Lab, компания EORA

Даты и места проведения

Онлайн
По мере набора группы
105 000 р. Записаться

Похожие курсы

Посмотреть все похожие курсы

Мы бесплатно подберем для Вас подходящие курсы.

 Подборка курсов на e-mail
Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies  🍪