Каждый, кто начинает свой путь в Data Science, стремится когда-нибудь дорасти до уровня Senior. Но требования к специалистам такого уровня, особенно в крупных компаниях, очень высоки. Большинство соискателей не могут пройти собеседование.
Чтобы уверенно решать не типовые задачи и создавать собственные архитектуры, мало владеть основными методами машинного обучения и нейронных сетей: важно понимать законы математики и статистики у них "под капотом".
Существующие курсы по этим темам рассказываются сухим и академичным языком и не нацелены на практику, а на русском языке таких курсов еще меньше. Именно поэтому мы решили создать первый специализированный курс по математике и статистике для Data Science.
Модуль 1. Линейная алгебра ч.1
- Какие задачи Data Science решаются методами линейной алгебры?
- Вектор: операции над векторами, линейная зависимость и линейная комбинация, скалярное произведение векторов и его свойства
- Виды матриц: прямоугольная, квадратная, единичная, нулевая, диагональная, треугольная, шаровая, симметричная
- Операции над матрицами: сложение, вычитание, умножение на число, транспонирование
- Умножение на специальные матрицы. Делители нуля
- Произведение и обращение матриц
- Базис матрицы и ранг матрицы
- Вырожденные и невырожденные матрицы. Определитель
- Матричные уравнения
Практика:
— решаем задачи с векторами и матрицами на кейсе агентства недвижимости
— продолжаем работать над кейсом в Python на базе библиотеки NumPy
Модуль 2. Линейная алгебра ч.2
- Знакомимся с алгоритмами анализа данных
- Неоднородные системы линейных уравнений (СЛАУ)
- Метод наименьших квадратов
- Классическая линейная регрессия
- Корреляционная матрица
- Линейный оператор и собственные числа
- Комплексные числа
- Матричное и сингулярное разложение
Практика:
— решаем задачи с системами линейных уравнений и образами вектора
— строим линейную регрессию для жилой недвижимости в Бостоне
Модуль 3. Основы матанализа
- Понятие функции: функция одной переменной, непрерывность, экстремумы функции
- Функция многих переменных. Вектор-функция. Дискретные функции
- Понятие выпуклой функции
- Производная. Вычисление производных
- Матрица вторых производных
- Оптимизация функции одной переменной
Практика:
— решаем задачи с функциями и производными
— предсказываем оптимальный объем продаж товара
Модуль 4. Методы оптимизации
- Задача оптимизации функции нескольких переменных
- Безусловная оптимизация
- Условная оптимизация (метод множителей Лагранжа)
- Численные методы оптимизации
- Локальная и глобальная оптимизация
- Детерминированные, стохастические и смешанные методы
- Градиентный спуск. Метод Ньютона. Линейная оптимизация
- Другие методы оптимизации: метод отжига
Практика:
— решаем задачи оптимизации различными методами
Модуль 5 Основы теории вероятности и статистики ч.1
- Задача классификации в Data Science
- Теория вероятности
- Теорема Байеса
- Основные распределения и их характеристики
- Корреляционные матрицы
- Метод главных компонент
- Наивный байесовский классификатор
Практика:
— решаем задачи на определение корреляции
— определяем валидность результатов диагностического теста
— решаем задачу оптимизации по методу главных компонент
Модуль 6 Основы теории вероятности и статистики ч.2
- Методы оценивания параметров распределения. Метод моментов
- Метод максимального правдоподобия
- Оценка апостериориного максимума (MAP)
- Логистическая регрессия
Практика:
— решаем задачи на оценивание параметров распределения
— определяем вероятность поступления в выбранный университет
Модуль 7 Анализ временных рядов
- Показатели качества линейной регрессии
- Нелинейные паттерны. График остатков
- Автокорреляция
- Частичная автокорреляция
- Лаги, скользящая средняя
- Модели авторегрессии
Практика:
— прогнозируем бюджет организации с помощью временных рядов
Модуль 8 Практический модуль
- Какие еще математические методы используются в data science?
- Предварительная обработка данных для задач классификации
- Работа с несбалансированными данными
- Наивный Байесовский классификатор
- Глубокий взгляд на OLS линейную регрессию: условия применимости, оценка качества, интер- и экстраполяция
Практика:
— сравниваем разные модели для решения задач классификации
— работаем со сложными видами линейной регрессии
Аяна Шелике
Преподаватель статистики и линейной алгебры МИЭФ ВШЭ, выпускница мехмата МГУ