Многие специалисты в области Data Science стремятся дорасти до уровня Big Data Engineer. Но требования к специалистам такого уровня, особенно в крупных компаниях, очень высоки.
Большинство соискателей не могут пройти собеседование из-за отсутствия опыта и навыков владения необходимыми инструментами. Но именно такие специалисты являются самыми высокооплачиваемыми и востребованными в крупных компаниях: Google, Mail.Ru Group, Yandex, Netflix и др.
Существующие по этим темам курсы рассказываются сухим и академичным языком и не нацелены на практику, а на русском языке таких курсов еще меньше. Именно поэтому мы решили создать первый практический курс по Big Data Engineering для Data Science.
«Введение в Big Data»
1. Работа с данными для проектов классического ML
- Интро по профессии Big Data инженер
- Жизненный цикл ML-проекта
- Обработка данных в pandas
- Feature engineering
- Извлечение данных из web
Результат :Подготовите неочищенный датасет для проекта ML, соберете недостающие данные из открытых источников, проведете разведывательный анализ данных и сконструируете дополнительные признаки
Практика: Kaggle-соревнование по прогнозированию стоимости автомобиля на основе его характеристик
2. Основы архитектур хранилищ данных
- Data warehouse
- Data lake
- Data hubs
- Виды БД
- SQL
- NoSQL
- Озеро
- Обзор решений на рынке
- Работа с аномалиями
Результат: Спроектируете и настроите структуру для дальнейшей работы с данными
Практика: Симулятор: построите систему для анализа и предсказания цен на недвижимость. Проектирование и настройка структуры хранилища данных
2 1 месяц первый уровень
«Профессиональные инструменты Big Data»
3. Экосистема Hadoop
- Идея горизонтального масштабирования
- Компоненты Hadoop
- HDFS
- Yarn
- Hive
- Spark
- Практика на PySpark
- Стек API
- RDD
- dataframe
- SQL
- GraphX
- MLLib
Результат: Узнаете назначение и особенности основных компонент Hadoop, научитесь их настраивать и применять на практике
Практика: Симулятор: настройка параметров кластера, трансформация данных. Лабораторная работа по измерению влиянию настроек на эффективность
4. Пайплайны данных, ETL
- Инструменты получения и преобразования данных
- Пайплайны
- Загрузка батч/стриминг данных в Kafka
- опыт работы с Airflow
- NiFi
- обработка слабоструктурированных данных
- загрузка данных из веб.
Результат: Научитесь загружать данные из структурировнных и слабоструктурированных источников, работать в режиме батч, собирать данные с вебсайтов и автоматизировать процессы с помощью Airflow
Практика: Симулятор: настроим и автоматизируем стриминг данных из внешних сервисов аналитики недвижимости
5. Продуктовое внедрение сервисов с машинным обучением
- Архитектура сервисов с горизонтальным масштабированием - Подготовка моделей к production - сервисы на Flask - контейнеризация приложений (Docker, Docker Compose, Kubernetes) - оценка эффективности моделей.
Практика: Хакатон Дополнительные вопросы архитектур БД
6. Разработка и деплой собственного сервиса.
- NoSQL-альтернативы и их применимость
- Практика с MongoDB
-Технические вопросы работы с БД
- Схема Snowflake, Data Vault
- Колоночные БД, Parquet
- Графовые БД
Результат:Поймете проблематику партиционирования больших данных, основные форматы хранения больших данных, влияние на производительность
Практика: Симулятор: реализуем альтернативный способ хранения БД для проекта по схеме снежинки. Лабораторная работа: замерим сравнительную производительность между датасетами.
7. Облачная инфраструктура
- Работа с сервисами Amazon, Google, Microsoft, Yandex
- Практика с aws-cli, boto3, Google Composer
- Сравнение производительности
Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных
Практика: Симулятор: поднимете кластер с копией проекта на внешнем сервисе
«Культура инженерии данных»
9. Инженерные практики в Linux и Python
- Тестирование, отладка
- Версионирование в git
- Парадигмы ООП и ФП в практических задачах
- Алгоритмы
- Структуры данных
- Сложность алгоритмов
- Параллелизм
- threads,
- asyncio.
- CI/CD
- Test-driven development.
Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных
Практика:Симулятор: поднимете кластер с копией проекта на внешнем сервисе
10. Управление data science проектом
- Роли в команде data science
- методологии разработки
- коммуникация с заказчиком
Результат: Поймете распределение ролей, принципы итерационной разработки и их отличия от watefall, научитесь формировать бэклог и детализировать его элементы
Практика:Командный хакатон
11. Практические задачи из отраслей индустрии
- Внедрение рекомендательных систем и онлайн ML-моделей в телеком, интернет-компании, банки, страхование, ритейл, онлайн-сервисы
Результат: Узнаете, где искать "хадуп" в облаках, получите опыт работы с основными поставщиками услуг облачных озер данных
Практика: Лабораторная работа: предупреждение мошенничества в страховании и другие. Конференция
12. Финальный проект.
- Суммируя полученный опыт, вы подытожите и защитите свою реализацию сквозного проекта по высоконагруженной инфраструктуре данных
Мы бесплатно подберем для Вас подходящие курсы.
Подборка курсов на e-mail