О школе

Инженерная школа
Data Science.

SenatorovAI — международная школа Data Science, Python и математики. Здесь разбирают код, данные и модели так, чтобы человек не просто повторял пример, а понимал, что происходит. Учёба ближе к работе, потому что школа выросла из IT-организации и является её структурным подразделением.

12,462+
проходят курсы на Stepik
28
курсов в каталоге
GitHub + Kaggle
практика открыта

SenatorovAI

Школа как часть реальной IT-среды

SenatorovAI работает на базе IT-организации и является ее структурным подразделением, где обучение связано с реальной инженерной средой, проектами, кодом и профессиональной практикой.

Команда школа Data Science SenatorovAI

План обучения

ML-Спецназа Сенаторова

1 группа
Стандарты опенсорс Домашняя работа

Вы изучите следующие темы:

  1. Исходный код CPython и знакомство с GitHub
  2. Скачиваем релиз
  3. Установка ПО
  4. Приглашение в организацию
  5. Устанавливаем CPython из исходников
  6. Устанавливаем pip и прописываем переменные среды
  7. Учимся запускать файлы с помощью PyPy и CPython
  8. Устанавливаем Python с официального сайта
  9. Клонирование репозитория и начало работы
  10. Настраиваем конфигурационный файл линтеров
  11. Тестируем линтеры на ошибки
  12. Что такое ipynb?
  13. Современный стандартный файл конфигурации для Python-проектов
  14. Создаём виртуальное окружение и выгружаем зависимости
  15. Пакетный менеджер для Data Science
  16. Пакетный менеджер нового поколения
  17. Вносим файлы в .gitignore
  18. Коммитим и пушим в GitHub
  19. STASH, откаты, конфликты, командная работа в GitHub
  20. Фундаментальная база по CI/CD
  21. Ищем проект в GitHub и изучаем соглашение о коммитах
  22. Начинаем процедуру ревью кода
  23. Обзор функций GitHub
  24. Ведение документации
  25. Минимум по GitHub
  26. Environment
  27. Введение в анализ алгоритмов: time complexity / space complexity
  28. Смотрим глазами интерпретатора
  29. Обзор grep
  30. Методология Test Driven Development. Разработка через тестирование
  31. Рефакторинг | Улучшаем код, без написания нового функционала
  32. Методология Behavior Driven Development. Разработка через поведение
  33. SOLID, DRY, KISS
  34. Паттерны проектирования: Singleton
  35. Методология управления проектами: Agile, Scrum, Kanban
  1. STASH
  2. Виртуальное окружение
  3. Контрибьютинг в Open Source
  4. issues
  5. Cpython
  6. Commits
  7. git
  8. Quiz (базовые вопросы)
2 группа
Python с нуля Домашняя работа

Вы изучите следующие темы:

  1. как писать чистый код на python
  2. статической типизация на python
  3. Переменные в Питоне
  4. Типы данных
  5. Условия и циклы
  6. Дата и время
  7. Функции в Питоне
  8. Списки, кортежи и множества
  9. Словарь в Питоне
  10. ООП. Классы и объекты
  11. Итераторы и генераторы
  12. Декораторы

Устранение ошибок линтера:

  1. jupytext
  2. docformatter
  3. black
  4. pyupgrade
  5. isort
  6. codespell
  7. flake8
  8. mypy
  9. pylint
3 группа
solver: скалярная форма нормального уравнения (Простая регрессия) Домашняя работа

В этом курсе вы изучите следующие темы:

  1. Имплементация на Python
  2. Функция потерь
  3. Математический анализ
  4. Геометрический и физический смысл производной
  5. Дифференциал и нотация Лейбница
  6. Производная по определению через предел
  7. Частная производная
  8. Получаем формулу МНК с нуля
  9. Частные производные от функции потерь
  10. Теория рядов
  11. Выводим формулу МНК
  12. Линейная алгебра
  13. Метод Крамера и система линейных алгебраических уравнений (СЛАУ)
  14. Интерпретация формулы МНК
  15. Смысл формулы МНК
  16. Интерполяция и аппроксимация
  17. Линейная регрессия на Python с нуля
  18. Scikit-learn: linear regression
  19. Корреляционно-регрессионный анализ
  1. Статья ноутбуки Kaggle
  2. Пайплайн с нуля (Boston)
  3. Топик дискуссия
  4. Вывод формулы нормального уравнения

10 примеров сфер применения простой линейной регрессии:

  1. Прогнозирование цен: цена дома в зависимости от его площади (метры квадратные). Цена автомобиля в зависимости от его возраста.
  2. Анализ продаж: объём продаж товара в зависимости от суммы рекламного бюджета. Доход магазина в зависимости от количества посетителей.
  3. Экономика и финансы: прогноз инфляции в зависимости от процентной ставки. Оценка роста ВВП в зависимости от инвестиций.
  4. Медицина: прогноз массы тела пациента в зависимости от его роста. Уровень холестерина в крови в зависимости от возраста.
  5. Образование: оценка успеваемости (баллы за экзамен) в зависимости от количества часов подготовки.
  6. Спорт: предсказание времени пробега дистанции в зависимости от количества тренировочных часов в неделю.
  7. Производство: время изготовления детали в зависимости от её сложности (например, количества операций).
  8. Агрономия: урожайность поля в зависимости от количества внесённых удобрений.
  9. Экология: прогноз уровня загрязнения воздуха в зависимости от количества автотранспорта.
  10. Энергетика: потребление электроэнергии в зависимости от температуры воздуха.
solver: нормальное уравнение (множественная регрессия) Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Сравнение простой и множественной регрессии
  2. Реверс-инжиниринг кода (Python + sklearn)
  3. Параметры метода, фильтрация данных
  4. z-score: масштабирование признаков
  5. train_test_split: тестовая, обучающая выборка
  6. Математическое обоснование метода "insert"
  7. Формы записи уравнения линейной регресии
  8. Нормальное уравнение
  9. Обратная матрица
  10. Определитель
  11. Миноры
  12. Дополнения
  13. Правило Саррюса
  14. Правило треугольников
  15. Ранг матрицы
  16. Линейная независимость
  17. Вырожденная матрица
  18. Линейная комбинация
  19. Коллинеарность и мультиколлинеарность
  20. Матрица корреляции
  21. Регуляризация
  22. L1 vs L2 норма
  23. Матричное дифференцирование
  24. Система линейных алгебраических уравнений
  25. Метод Гаусса
  26. Геометрическая интерпретация метода наименьших квадратов
  27. Ортогональная проекция на столбцовое пространство матрицы
  28. Коэффициент детерминации R2 (SSR / SST)
  29. Корреляционно-регрессионный анализ
  1. Вывод нормального уравнения
  2. Тестирование Яндекс
  3. Тестирование от Deep
  4. Геометрическая интерпретация OLS
  5. Экзамен 4 блок-схемы
  6. Прочитать метод Сенаторова
  7. Дискуссия Kaggle

Строим пайплайн (intro):

  1. Описательная статистика
  2. Статистический вывод
  3. Взаимосвязь переменных
  4. Оптимизация: поиск идеальных весов
  5. Векторы и матрицы
  6. На каких данных обучать модель
  7. Предскажем цену на жилье Boston

10 примеров сфер применения множественной линейной регрессии:

  1. Прогнозирование цен: цена дома в зависимости от площади, количества комнат и удалённости от центра. Стоимость автомобиля в зависимости от возраста, пробега и марки.
  2. Анализ продаж: объём продаж товара в зависимости от рекламного бюджета, количества торговых точек и цен конкурентов. Доход магазина в зависимости от количества посетителей, средней покупки и дней скидок.
  3. Экономика и финансы: прогноз инфляции на основе процентной ставки, денежной массы и уровня безработицы. Рост ВВП в зависимости от инвестиций, экспорта и потребления домохозяйств.
  4. Медицина: масса тела пациента в зависимости от роста, возраста и уровня физической активности. Уровень холестерина в зависимости от диеты, возраста и индекса массы тела (ИМТ).
  5. Образование: балл за экзамен в зависимости от количества часов подготовки, посещаемости занятий и уровня тревожности. Средний балл по предмету в зависимости от предыдущих оценок, уровня участия и качества преподавания.
  6. Спорт: время пробега дистанции в зависимости от числа тренировок, сна и питания. Результаты соревнований в зависимости от возраста, тренировочного опыта и физиологических параметров.
  7. Производство: время изготовления детали в зависимости от сложности, количества операций и опыта оператора. Стоимость продукта в зависимости от сырья, времени производства и энергозатрат.
  8. Агрономия: урожайность в зависимости от количества удобрений, полива и типа почвы. Рост растений в зависимости от света, температуры и влажности.
  9. Экология: уровень загрязнения воздуха в зависимости от числа автомобилей, ветра и температуры. Качество воды в зависимости от отходов, глубины и pH.
  10. Энергетика: потребление электроэнергии в зависимости от температуры, времени суток и количества жителей. Загрузка электросети в зависимости от типа оборудования, числа подключений и времени года.
solver: SVD Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Сравнение метода INV и PINV. Псевдообратная матрица Мура-Пенроуза
  2. Изучаем библиотеку Linear algebra (numpy.linalg)
  3. Математическое обоснование применения PINV вместо INV
  4. Сингулярная и обратная матрица. Детерминант. Мультиколлинеарность
  5. Изучаем метод PINV (SVD): псевдообратная матрица Мура-Пенроуза
  6. Понятие вектора
  7. Понятие алгебраической структуры
  8. Полугруппа
  9. Моноид
  10. Группа. Группа подстановок. Симметрическая группа S3
  11. Абелева группа. Коммутативная группа
  12. Кольцо
  13. Поле
  14. Векторное пространство
  15. Евклидово пространство
  16. Линейный оператор. Линейная трансформация / преобразования
  17. Базис: ортонормированный, ортогональный, аффинный. Коллинеарность
  18. Гомотетия: частный случай преобразования подобия
  19. Виды преобразований
  20. Основные понятия
  21. Геометрическая интерпретация
  22. Формальное определение
  23. Собственный вектор и значение линейного преобразования
  24. Алгоритм нахождения собственных чисел и векторов
  25. Матрица 2x2: алгоритм нахождения eigenvalue & eigenvector
  26. Матрица 3x3: алгоритм нахождения eigenvalue & eigenvector
  27. Комплексные числа
  28. Основные понятия. Eigenvalue decomposition
  29. Матрица 2x2: алгоритм нахождения Eigenvalue decomposition
  30. Геометрический смысл Eigenvalue decomposition. Матрица 2x2
  31. Эрмитова матрица
  32. Сингулярное разложение матрицы
  33. Основные понятия. Singular Value Decomposition
  34. Алгоритм нахождения singular value decomposition
  35. Матрица 2x3. Прямоугольная - ШИРОКАЯ. Система уравнений. Метод Гаусса
  36. Матрица 4x3. Прямоугольная - ВЫСОКАЯ. Система уравнений. Метод Гаусса
  37. Матрица 3x3. Квадратная. Мультиколлинеарность. Находим SVD
  38. Резюмируем
  39. Усечённое (Truncated) SVD
  40. Сжатие изображения с помощью SVD
  41. Убираем шум с помощью SVD
  42. Рекомендательная система SVD
  43. Норма Фробениуса. След матрицы
  44. Теорема Эккарта Янга
  45. Геометрический смысл SVD
  46. Аналитический смысл SVD
  47. Сходство EVD и SVD
  48. Функция PINV. Псевдообратная матрица Мура-Пенроуза
  49. Выводим с нуля формулу для pinv - Moore-Penrose pseudoinverse
  50. Матрица 4x2. Прямоугольная - ВЫСОКАЯ
  51. Матрица 2x2. Квадратная. Мультиколлинеарность
  52. Прообраз и образ. Отображение
  53. Геометрический смысл pinv - Moore-Penrose pseudoinverse
  54. Метод наименьших квадратов: Мура-Пенроуза наилучшая аппроксимация
  55. Реверс инжиниринг scikit-learn, метод fit
  56. Функция PINV
  57. Резюмируем
  58. Пишем алгоритм PINV с нуля
  59. Плюсы, минусы, где применяется
  1. тестирование от яндекс
  2. тестирование от deep
  3. Дискуссия kaggle

Строим пайплайн (easy):

  1. Pandas
  2. EDA (основы статистики)
  3. Реализация модели с нуля
  4. Конструирование признаков
  5. Регуляризация
  6. Прогнозирование цены на автомобили

10 ПРИМЕРОВ СФЕР ПРИМЕНЕНИЯ SVD:

  1. Сжатие изображений. SVD позволяет оставить только самые важные сингулярные значения, уменьшая размер изображения без заметной потери качества.
  2. Рекомендательные системы. SVD используется в методах Latent Semantic Analysis (LSA) и Matrix Factorization — уменьшает размерность и выявляет скрытые связи между пользователями и товарами.
  3. Обработка текста (NLP). SVD применяется в семантическом анализе текста: выявляет главные смысловые компоненты слов (например, Word2Vec + PCA или LSA).
  4. Обработка звука и аудио. SVD помогает выделить основные частотные компоненты сигнала и подавить шум.
  5. Решение переопределённых систем уравнений. SVD используется для устойчивого решения систем вида Ax=b, даже если A — вырождённая или почти вырождённая.
  6. Principal Component Analysis (PCA). PCA реализуется через SVD — находит направления максимальной дисперсии данных (главные компоненты).
  7. Решение дифференциальных уравнений. EVD используется при решении систем линейных ОДУ: например, для анализа устойчивости, колебаний, диссипации.
  8. Квантовая механика и физика. EVD позволяет находить собственные значения гамильтонианов — фундаментально важно для определения уровней энергии.
  9. Обработка изображений (распознавание лиц). Метод Eigenfaces использует EVD или SVD для представления изображений лиц как линейной комбинации базисных образов.
  10. Машинное обучение и линейная регрессия. SVD используется в псевдообращении (Moore-Penrose), если матрица плохо обусловлена. EVD применяют в теоретическом анализе моделей, в Regularization (например, Ridge).
solver: QR Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Решение МНК с помощью QR-разложения
  2. Процесс ортогонализации Грама - Шмидта: Основные понятия
  3. Геометрический смысл скалярного произведения
  4. Норма вектора, L2, Евклидова норма
  5. Как найти скалярное произведение векторов?
  6. Угол между векторами: Острый, Тупой, Прямой. Коллинеарность.
  7. Скалярный квадрат вектора
  8. Алгебраический смысл скалярного произведения
  9. Свойства скалярного произведения
  10. Рекомендательная система. Косинусное сходство векторов
  11. Ортогональность векторов.
  12. Ортогональный и Ортонормированный базис, система векторов
  13. Как найти проекцию вектора на вектор?
  14. Косинус угла. Выводим с нуля формулу проекции.
  15. Основные понятия.
  16. Задача наименьших квадратов
  17. QR-разложение. Выводим формулу с нуля
  18. Алгоритм Грама-Шмидта
  19. Матрица 3х3. Квадратная. QR-разложение
  20. Матрица 3х2. Прямоугольная. Высокая и узкая. QR-разложение
  21. Матрица 2х2. Квадратная. QR-разложение
  22. Матрица 3х3. Квадратная. QR-разложение
  23. QR-разложение с поворотом (pivoting)
  24. Редуцированное QR
  25. Геометрический смысл Грама-Шмидта
  26. Линейная оболочка. Span.
  27. Явное обращение матрицы VS система линейных уравнений
  28. scipy.linalg.lstsq. Изучаем ядро библиотеки lapack: gelsy
  29. Шаг 0. Подключаем датасет и читаем CSV
  30. Шаг 1. Разведочный анализ (EDA). Стандартное отклонение. Дисперсия
  31. Шаг 2. Подготовка данных. Sklearn.preprocessing.MinMaxScaler
  32. Шаг 3. Построение модели ML. Scikit-learn: linear regression
  33. Шаг 4. Метрики: MAE, MSE, RMSE, R2
  34. Шаг 5. QR-разложение VS Ridge регуляризация
  35. Test №1 Performance QR vs normal equation
  36. Test №2 Performance QR vs normal equation
  37. Плюсы, минусы, где применяется
  1. тестирование от яндекс
  2. тестирование от deep
  3. Упражнения линейная алгебра DS
  4. Библиотека Numpy
  5. Библиотека Pandas
  6. Преобразование датафреймов
  7. Теория вероятностей на python
  8. Классификация данных и задачи EDA
  9. Интегральное исчисление с нуля
  10. Упражнения на нормальное распределение PDF/CDF
  11. EDA анализ с нуля
  12. Дискуссия kaggle

Строим пайплайн (middle):

  1. Корреляция
  2. Параметрические и непараметрические тесты
  3. Анализ остатков и прогнозных значений
  4. Построение модели

10 Сфер применения QR-разложения:

  1. Линейная регрессия. QR-разложение используется для численно устойчивого решения нормальных уравнений в линейной регрессии, особенно когда матрица плохо обусловлена.
  2. Анализ главных компонент (PCA). QR-разложение применяется как альтернатива сингулярному разложению для понижения размерности данных и выделения главных компонент.
  3. Регуляризация моделей. Используется в гребневой регрессии (Ridge) и других методах регуляризации для численной стабильности при решении переопределенных систем.
  4. Градиентный спуск и оптимизация. QR-разложение помогает в предобуславливании (preconditioning) матриц Гессе для ускорения сходимости оптимизационных алгоритмов.
  5. Рекомендательные системы. Применяется для матричной факторизации и разложения пользовательских рейтинговых матриц для построения персонализированных рекомендаций.
  6. Обработка временных рядов. Используется в авторегрессионных моделях, фильтрации сигналов и прогнозировании временных рядов для решения систем линейных уравнений.
  7. Обработка изображений. QR-разложение применяется для сжатия изображений, шумоподавления и извлечения признаков из матриц пикселей.
  8. Нейронные сети и глубокое обучение. Используется для инициализации весов, ортогонализации матриц параметров и улучшения обусловленности градиентов.
  9. Классификация и кластеризация. Применяется в методе ближайших соседей, линейных классификаторах и для трансформации признакового пространства.
  10. Анализ больших данных (Big Data). QR-разложение используется в распределенных алгоритмах для обработки больших матриц данных, MapReduce вычислениях и параллельных алгоритмах машинного обучения.
solver: Cholesky Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Основные понятия
  2. Алгоритм LU разложения
  3. Матрица 3х3. Система уравнение. СЛАУ. Метод Гаусса.
  4. Решаем систему AX = B. Прямой ход. Обратный ход
  5. LU-разложение с поворотом. Pivoting.
  6. Почему LU-разложение хуже чем Холецкий?
  7. Основные понятия
  8. Алгоритм разложения Холецкого
  9. Матрица 3х3. Система уравнение. СЛАУ.
  10. Решаем систему AX = B. Прямой ход. Обратный ход
  11. np.linalg.cholesky
  12. Сравнение: Normal equation, SVD, QR, Cholesky, Gradient descent
  13. Блок-схема выбора алгоритма
  14. Большой, малый датасет.
  15. Что такое МНК? Историческая справка.
  16. Критерий Кронекера и Квадратичной формы.
  17. Почему Adam и Momentum не нужен в машинном обучении?
  18. Условия и рекомендуемый метод поиска весов
  19. Регуляризация Тихонова, Гребневая, Ridge, применение Холецкого
  20. Скорость работы алгоритма
  21. Ресёрчим kaggle
  1. тестирование от яндекс
  2. тестирование от deep
  3. Упражнения линейная алгебра DS
  4. Дискуссия kaggle

анализ и обработка данных:

  1. Ошибки в данных
  2. Пропущенные значения
  3. Преобразование данных
  4. Выбросы в данных
  5. Кодирование категориальных переменных

Пайплайн с нуля:

  1. New York City Airbnb Open Data (цены на жилье)

10 Сфер применения разложения Холецкого:

  1. Линейная регрессия
  2. Ridge-регрессия (ℓ₂-регуляризация)
  3. Гауссовские процессы (GP)
  4. Генерация многомерного нормального шума
  5. Методы Ньютона и квазиньютоновские методы
  6. Линейный дискриминантный анализ (LDA)
  7. Калмановские фильтры и рекурсивные байесовские модели
  8. Латентные переменные и вариационные автоэнкодеры (VAE)
  9. Preconditioning для итеративных методов
  10. Active Learning / Bayesian Optimization
solver: GD Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Реверс-инжиниринг кода (Python+sklearn)
  2. Параметры метода, Фильтрация данных
  3. z-score: масштабирование признаков
  4. train_test_split: Тестовая, обучающая выборка
  5. Инициализация параметров: Метод shape, bias, weights, previous.
  6. Численный метод что это?
  7. Математический анализ
  8. Понятие функции
  9. Монотонность функции
  10. Производная и монотонность функции
  11. Понятие Оптимизации
  12. Основные теоремы дифференциального исчисления
  13. Теорема Ферма. Точка экстремума. Критическая точка.
  14. Выпуклость. Вогнутость функции.
  15. Точка перегиба. Хорда
  16. Этапы оптимизации функции
  17. Основы оптимизации функции
  18. Теорема Ролля
  19. Основы тригонометрии.
  20. Теорема Лагранжа
  21. Стационарная точка.
  22. Функция нескольких переменных.
  23. Парабалойд
  24. learning rate. Формула градиентного спуска
  25. GDLinearRegression: Повторный реверс-инжиниринг
  26. Градиент и Функция потерь
  27. Геометрический смысл: Градиент и Функция потерь
  28. Ортонормированный базис. Линейная зависимость. Линейная комбинация
  29. Частные производные и Градиент
  30. Выводим с нуля формулу
  31. Скалярный квадрат. SSE.
  32. Матричное диффенцирование: линейная форма, квадратичная форма
  33. Экзамен на python
  34. Мини-Батч градиентный спуск
  35. Стохастический градиентный спуск
  36. Переобучение. недообучение модели: Underfit, good, overfit
  37. Сравнительный анализ. BGD VS MINI-BATCH VS SGD
  38. Плюсы, Минусы, Где применяется
  39. Корреляционно-регрессионный анализ
  1. тестирование от яндекс
  2. тестирование от deep
  3. алгоритмы на python

Домашка на английском:

  1. оптимизация 1 порядка
  2. ШАД лабораторная работа 1,2
  3. кросс-вал и гиперпараметры
  4. Экзамен по книге (все темы)

10 примеров сфер применения градиентного спуска.

  1. Линейная и логистическая регрессия. Градиентный спуск используется для нахождения коэффициентов регрессии, минимизируя функцию потерь (например, MSE или логистическую ошибку).
  2. Нейронные сети и глубокое обучение. Алгоритмы, такие как SGD, Adam, RMSprop, являются модификациями градиентного спуска. Используются для обновления весов в backpropagation.
  3. Рекомендательные системы. В задачах матричной факторизации (например, ALS, SVD) градиентный спуск помогает находить скрытые факторы пользователя и товара.
  4. Обучение соотношений (Ranking). В поисковых системах или рекомендациях: градиентный спуск используется в RankNet, LambdaRank, XGBoost Rank, чтобы оптимизировать порядок выдачи.
  5. Обучение параметров в NLP (Natural Language Processing). Применяется в word2vec, transformer-based моделях (BERT, GPT), где требуется обучение на огромных текстовых датасетах.
  6. Снижение размерности (PCA, t-SNE, Autoencoders). В автоэнкодерах градиентный спуск минимизирует разницу между входом и восстановлением. В t-SNE используется модифицированный градиентный метод.
  7. Компьютерное зрение. Обучение CNN (сверточных нейронных сетей) для задач классификации, сегментации, детекции объектов.
  8. Обучение с подкреплением (Reinforcement Learning). Алгоритмы policy gradient, actor-critic используют градиентные методы для обновления политик агента.
  9. Финансовое моделирование. Прогнозирование временных рядов, оценка риска — с помощью моделей, обучаемых градиентным спуском.
  10. Оптимизация параметров в физике и биоинформатике. Градиентный спуск применяется для нахождения минимумов потенциальной энергии, оптимизации молекулярных структур и параметров моделей взаимодействия.
solver: CG Домашняя работа
  1. Введение в метод сопряжённых градиентов
  2. Реверс-инжиниринг scikit-learn
  3. Геометрический смысл метода сопряжённых градиентов
  4. Общий подход к построение проекционных методов
  5. Условия Петрова - Галёркина
  6. Косой и ортогональный проекционный метод
  7. Проекционный оператор
  8. Образ и ядро проектора
  9. Линейное многообразие. Аффинное пространство.
  10. Матричные базисы
  11. Одномерные проекционные процессы
  12. Пространство: Линейное, Метрическое, Нормированное, Евклидово
  13. Подпространство
  14. Матрица проектирования и базис
  15. Ортогональное дополнение
  16. Энергетическая норма (A-норма)
  17. подпространство Крылова: Геометрический смысл
  18. подпространство Крылова: Алгебраический смысл
  19. Полиномиальная аппроксимация. Теорема Камильтона - Кэли.
  20. Метод наискорейшего спуска (Steepest Descent)
  21. Сопряжённые градиенты. A-Ортогональность.
  22. Квадратичная форма
  23. Разбор алгоритма CG в python
  24. Предобуславливатель
  25. CG для нормальных систем уравнений
  26. sparse_cg: Сопряжённые градиенты в ридж регрессии
  27. Аналитическое доказательство CG.
  28. Геометрическое доказательство CG и Метод Грама - Шмидта
  29. Геометрический смысл CG на подпространстве Крылова
  30. Академическое формальное доказательство
  1. Тестирование от deep
  2. kaggle comptetition
  3. kaggle дискуссия

пайплайн все мл модели end-to-end

  1. Кривые обучения
  2. Early stopping
  3. Упражнения и вопросы по пайплайну

10 СФЕР ПРИМЕНЕНИЯ сопряженных градиентов (CG) и подпространств Крылова:

  1. Логистическая регрессия и линейная регрессия
  2. Классик ML и Deep Learning
  3. Распределенные реализации
  4. Квантовые варианты
  5. AutoML интеграция
  6. Вычисление главных компонент (PCA) через степенной метод и Lanczos
  7. Спектральная кластеризация больших графов
  8. Оптимизация нейронных сетей
  9. ALS (Alternating Least Squares) для матричной факторизации
  10. Анализ временных рядов
solver: LSQR Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Введение в алгоритм LSQR
  2. Реверс-инжиниринг scikit-learn. Бидигоанализация Голуба - Кахана
  3. Где применяется LSQR?
  4. Метод Ланцоша. Историческая справка.
  5. Обусловленность (cond)
  6. СЛАУ И МНК. Проблема нормальных уравнений
  7. Процедура бидиагонализации Голуба - Кахана
  8. QR разложение с вращением Гивенса
  9. Дополнительное тестирование
  10. Оценка норм в критериях остановы. atol. btol. conlim.
  11. Анализ сходимости LSQR VS CG
  12. LSQR в современную эпоху
  13. Геометрический смысл LSQR
  14. Ключевые выводы по LSQR
  1. Доверительный интервал
  2. Статистические гипотезы
  3. Проверка статистических гипотез
  4. Линейный коэффициент корреляции
  5. Уравнение линейной регрессии
  6. Проверка значимости линейной модели
  7. Модель однофакторной регрессии
  8. Уравнение множественной линейной регрессии
  9. kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ LSQR и подпространств Крылова:

  1. Линейная регрессия и Ridge-регрессия
  2. Ridge классификация
  3. LinearDiscriminantAnalysis (Аналог PCA)
  4. Томография и медицинская визуализация
  5. ML c большими разреженными матрицами
  6. Обработка сигналов
  7. isotonic regression
  8. Оптимизация и методы Крылова
  9. Aстрофизика
  10. Cейсмика
solver: SAG Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Введение в алгоритм SAG + Реверс-инжиниринг scikit-learn.
  2. Минимизация эмперического риска. Градиентный спуск, Стохастический
  3. Тестирование
  4. Анализ схождения стохастических и детерминированных методов
  5. Анализ схождения SAG vs LBFGS vs Координатные методы
  6. Сильная выпуклость и просто выпуклость
  7. Условия сходимости SAG
  8. Концепция алгоритма SAG
  9. Аналитический разбор алгоритма SAG
  10. Считаем вручную SAG
  11. L-Липшицев градиент. Собственные числа. Матрица Гессе.
  12. Структура SAG методов
  13. Смещённая оценка градиента
  14. SVRG
  15. SAGA
  1. Оценка коэффициентов
  2. Определение точности оценки коэффициентов
  3. Определение точности оценки модели
  4. Оценка регрессионных коэффициентов
  5. Прочие факторы регрессионного моделирования
  6. Качественные предикторы
  7. Лабораторная работа (Boston)
  8. kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ SAG/SAGA:

  1. Линейная и Ridge-регрессия на больших данных
  2. Логистическая регрессия для классификации
  3. Высокомерные разреженные данные (sparse ML)
  4. Обучение моделей с L1-регуляризацией
  5. Online / streaming-обучение (квази-online)
  6. Large-scale convex optimization
  7. Рекомендательные системы (линейные модели)
  8. Компьютерное зрение (линейные классификаторы)
  9. Скоринговые карты, стресс-тесты
  10. Научные вычисления
solver: LBFGS Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Введение в алгоритм L-BFGS-B
  2. Реверс-инжиниринг исходников scikit-learn
  3. Введение в Newton. Quasi-Newton. BFGS. LBFGS. LBFGSB
  4. Анализ графиков схождения алгоритмов. Ньютон VS Градиентный спуск
  5. Что видит Ньютон?
  6. Условная и безусловная оптимизация
  7. Тестирование оптимизация УБ
  8. Процедура градиентного спуска
  9. Уравнение касательной
  10. Линейная аппроксимация
  11. Разложение в ряд Тейлора первого порядка
  12. Первый и второй порядок. Гессиан
  13. Квадратичная аппроксимация. Ряд Тейлора второго порядка
  14. Общая формула Тейлора и Маклорена
  15. Остаточный член. Радиус сходимости
  16. Геометрический смысл: аппроксимация полиномом vs рядом Тейлора
  17. Аналитический смысл: аппроксимация полиномом vs рядом Тейлора
  18. Как шагают методы первого и второго порядка?
  19. Сравнение градиентного спуска и метода Ньютона
  20. Зачем вообще аппроксимировать?
  21. Выпуклая и невыпуклая оптимизация. Гессиан
  22. Алгоритм Ньютона
  23. Пример на линейной регрессии
  24. Теорема Клеро. Смешанная производная. LOSS второго порядка
  25. Аффинная инвариантность: преимущества и Проклятие Размерности
  26. Метод касательной (Ньютона)
  27. Broyden-Fletcher-Goldfarb-Shanno algorithm. BFGS
  28. Метод секущих
  29. BFGS: Уравнение секущей. Bs = y
  30. BFGS: Разбор условий для уравнения секущей. Bs = y
  31. Аналитический разбор: Уравнение секущей
  32. Формула Шермана-Моррисона-Вудбери (Обновление обратной матрицы)
  33. Линейный поиск (Line Search) и Условия Вольфе (Армихо и Кривизны)
  34. Анализ графиков Newton vs BFGS
  35. Идея алгоритма LBFGS
  36. Реверс-инжиниринг: Скользящее окно памяти. Двухцикловая рекурсия
  37. Сравнительная таблица. Анализ сложности
  38. Идея алгоритма L-BFGS-B (Limited-memory BFGS with Bound)
  39. Точка Коши. Мин. в подпространстве. Active set vs Free set
  40. Сравнительная таблица. Анализ сложности
  1. Описательная статистика
  2. Среднее, медиана, выбросы, стандартное отклонение, процентили, гистограммы
  3. Выборка и смещение
  4. Случайная выборка, смещенная выборка, систематическая ошибка, размер выборки
  5. Неопределенность оценки
  6. Выборочное распределение, стандартная ошибка, центральная предельная теорема
  7. Бутстрап и доверительные интервалы
  8. Как оценивать надежность результата без строгих предположений о распределении
  9. Основные распределения
  10. Нормальное, t-распределение, биномиальное, хи-квадрат, F-распределение, Пуассон
  11. Проверка гипотез
  12. Нулевая и альтернативная гипотезы, p-value, alpha, статистическая значимость
  13. Ошибки выводов
  14. Ошибки 1-го и 2-го рода, практическая значимость, множественное тестирование
  15. Статистические тесты
  16. t-тест, ANOVA, хи-квадрат тест, точный тест Фишера, перестановочный тест
  17. A/B-тесты
  18. Односторонние и двусторонние проверки, мощность теста, размер выборки
  19. Связи между переменными
  20. Корреляция, диаграммы рассеяния, сравнение числовых и категориальных данных
  21. kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ LBFGS/L-BFGS-B:

  1. Логистическая регрессия и Ridge-регрессия
  2. Нейронные сети
  3. Ограниченная оптимизация (Box Constraints)
  4. Компьютерное зрение
  5. Обработка естественного языка (NLP)
  6. Гиперпараметрическая оптимизация
  7. image registration
  8. camera calibration
  9. калибровки моделей
  10. matrix factorization
overfitting Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Бизнес кейсы с полиномиальной регрессией
  2. Понятие монома (одночлен)
  3. Понятие полинома (многочлен)
  4. Моделирование полиномов в DESMOS
  5. Понятие ряд Тейлора
  6. Выводим формулу полиномиальной регрессии с нуля.
  7. Полиномиальные признаки: sklearn.preprocessing.PolynomialFeatures
  8. Реверс-инжиниринг Python кода
  9. Улучшаем код для выбора гиперпараметра модели
  10. Метрика MAPE
  11. Анализ метрик и выбор степени полинома. UNDERFITTING OVERFITTING
  12. Анализ графика полиномиальной регрессии
  13. Анализ коэффициентов регрессии
  14. Анализ графика остатков
  15. Понятие Bias-Variance Decomposition и Tradeoff
  16. Понятие Bias (смещение)
  17. Bias (смещение): математическое обоснование
  18. Понятие variance (разброс)
  19. Геометрический смысл bias и variance
  20. Кросс-валидация (краткий обзор)
  21. Variance (разброс): математическое обоснование
  22. Понятие noise (шум)
  23. Геометрический смысл noise
  24. Noise (шум): математическое обоснование
  25. Анализ графика: шум как неустранимая ошибка.
  26. PDF. График плотности нормального распределения Гаусса
  27. Выводим формулу с нуля. Bias varians decomposition
  28. Анализ графика model complexity
  29. Бритва Оккама или как выбрать гиперпараметр?
  30. Валидационная выборка
  31. Анализ кривых обучения (learning curves)
  32. Борьба с недообучением и переобучением
  33. BVD: Decision Tree, Random Forest, KNN, Логистическая, Нейросети
  34. Введение в сплайновую регрессию (с реализацией в Python)
  1. Тестирование от deep
  2. Яндекс статья BVD
  3. kaggle дискуссия
  4. Методы повторной выборки
  5. Перекрестная проверка
  6. Метод проверочной выборки
  7. Перекрестная проверка по отдельным наблюдениям
  8. k-кратная перекрестная проверка
  9. Компромисс между смещением и дисперсией в k-кратной перекрестной проверке
  10. Бутстреп
  11. Лабораторная работа: перекрестная проверка и бутстреп
  12. Практика: метод проверочной выборки
  13. Практика: перекрестная проверка
  14. Практика: бутстреп
  15. Регрессионные сплайны
  16. Кусочно-полиномиальная регрессия
  17. Ограничения и сплайны
  18. Представление сплайнов с помощью базисных функций
  19. Выбор количества и расположения узлов
  20. Сравнение сплайнов с полиномиальной регрессией
  21. Сглаживающие сплайны
  22. Введение в сглаживающие сплайны
  23. Выбор сглаживающего параметра λ
  24. Локальная регрессия
  25. Обобщенные аддитивные модели
  26. GAM для регрессионных задач
  27. Проверка статистических гипотез
  28. Анализ расхождения между средним выборки и средним совокупности
  29. Выуживание данных
  30. Сложные выводы из-за ресэмплинга
  31. Бутстрэппинг с восполнением
  32. Тестирование гипотез при неизвестной дисперсии совокупности
  33. Пермутационный тест
  34. Сравнение средних выборок при неизвестных параметрах совокупности

10 Сфер применения полиномиальной регрессии:

  1. Прогнозирование временных рядов
  2. Экономика: цена на акции, процентных ставок, инфляции
  3. Прогнозирование спроса на товары
  4. Движение тел, рост кристаллов, термические процессы
  5. Рост населения бактерий, реакции на дозу лекарства
  6. Взаимосвязи между рекламными затратами и продажами
  7. Обработка сигналов
  8. Анализ качества и предсказания дефектов
  9. Геоинформационные системы (GIS)
  10. Потребления энергии в зависимости от времени суток
Ridge (L2-регуляризация) Домашняя работа

В этом курсе Вы изучите следующие темы:

  1. Анализ графика регуляризации
  2. Регуляризация Тихонова. L2. Ridge
  3. Метод наименьших квадратов
  4. Сравнение Python кода линейной и гребневой регрессии
  5. Сравнение графиков линейной и гребневой регрессии
  6. Обзор формулы L2-регуляризации
  7. Что такое L2-норма?
  8. L2-норма вектора на плоскости
  9. L2-норма вектора в пространстве
  10. Ограничение через норму и квадрат нормы
  11. Что такое линии уровня?
  12. Геометрическая интерпретация регуляризации Тихонова
  13. Геометрическая интерпретация параметра регуляризации
  14. Уравнение окружности
  15. 4D Геометрическая интерпретация регуляризации
  16. Почему линии уровня это эллипсы?
  17. Выводим формулу L2-регуляризации с нуля
  18. Решатель: Нормальное уравнение.
  19. Python: Имплементация нормального уравнения в L2-регуляризации
  20. Решатель: Разложение Холецкого.
  21. Решатель: SVD. Сингулярное разложение матрицы
  22. Решатель: Градиентный спуск
  23. Python: Имплементация градиентного спуска в L2-регуляризации
  24. Геометрическая интерпретация коэффициентов регрессии
  25. Доказательство: почему L2 не зануляет веса?
  26. Теорема Гаусса-Маркова
  27. Bias: Cмещённая оценка гребневой регрессии.
  28. Ковариационная матрица. Ковариация против корреляции.
  29. Variance: Cмещённая оценка гребневой регрессии.
  30. Почему MSE гребневой регрессии меньше OLS?
  31. Фактор инфляции дисперсии (VIF) — мера мультиколлинеарности
  32. Обусловленность (cond)
  33. Геометрический смысл СЛАУ
  34. Логарифмическая шкала и параметр регуляризации
  35. Почему называется Гребневая регрессия?
  36. Резюмируем
  37. Регуляризация в других моделях ML
  1. Яндекс статья регуляризация
  2. Тестирование от яндекс
  3. Яндекс ПАНДАН

Курс:

  1. Box Plot & квартили, квантили, перцентили
  2. CDF, PDF, PPF, SF, ISF
  3. Нормальность распределения
  4. CLT и нормальное распределение
  5. Колмогорова-Смирнова
  6. Шапиро-Уилка
  7. QQ plot
  8. t-тест
  9. A/B tests

Лабораторная работа:

  1. Методы сжатия
  2. Гребневая регрессия
  3. Лассо
  4. Выбор гиперпараметра
  5. Методы снижения размерности
  6. Метод главных компонент
  7. Метод частных наименьших квадратов
  8. Размышляя о большой размерности
  9. Данные большой размерности
  10. Что не так с данными большой размерности?
  11. Регрессия в условиях большой размерности
  12. Интерпретация результатов в задачах большой размерности
  13. Методы отбора
  14. Регрессия PCR и PLS
  15. kaggle дискуссия

10 Сфер применения Ridge регрессии:

  1. Прогнозирование временных рядов
  2. Экономика: цена на акции, процентных ставок, инфляции
  3. Прогнозирование спроса на товары
  4. Движение тел, рост кристаллов, термические процессы
  5. Рост населения бактерий, реакции на дозу лекарства
  6. Взаимосвязи между рекламными затратами и продажами
  7. Обработка сигналов
  8. Анализ качества и предсказания дефектов
  9. Геоинформационные системы (GIS)
  10. Потребления энергии в зависимости от времени суток

О школе

SenatorovAI — это не просто школа Data Science. Это структурное подразделение IT-организации, где обучение связано не только с теорией, но и с реальной инженерной средой, проектами, кодом, командной работой и практикой.

Программа обучения включает:

  • Изучение Git, GitHub и стандартов Open Source;
  • Изучение прикладной математики для  Data Science – без лишней теории, теорем и доказательств
  • Практическое применение полученных знаний –  здесь важно не просто пройти уроки, а встроиться в рабочий процесс: научиться писать код, понимать математику, работать с задачами, сдавать работы и получать оценку.ю

Чем мы отличаемся от других школ

  • школа встроена в IT-среду, а не существует отдельно от практики;
  • обучение идет через код, проекты, обсуждения и реальные задачи;
  • есть командная работа, ревью, pull request-практика и разборы решений;
  • студент видит не только теорию, но и то, как выглядит рабочий процесс в реальной команде.

Как проходит обучение

Внутри SenatorovAI можно учиться самостоятельно по материалам школы или идти под присмотром преподавателя. Есть несколько программ обучения, домашние задания, кураторы групп, регулярные созвоны, отчетность, персональные занятия и сопровождение по ходу роста.

Что получает студент

  • доступ ко всем материалам школы;
  • домашние задания и их проверку;
  • кураторов групп и регулярную обратную связь;
  • созвоны и обсуждения внутри школы;
  • доступ к тестам, видео и внутренним обсуждениям команды;
  • ревью и pull request-практику;
  • консультации по трудоустройству и составлению портфолио;
  • командные проекты по Data Science.

Практика и реальные задачи

Школа развивает студентов не только через учебные треки, но и через рабочую логику: проекты, командные задачи, инженерную дисциплину и практику, которая ближе к реальному IT-процессу. За счет этого обучение не отрывается от того, как затем выглядит настоящая работа в индустрии.

Для кого эта школа

SenatorovAI подходит  как для тех, кто начинает с нуля, так и для тех, кто уже учится или работает и хочет вырасти в  аналитике, машинном обучении и Data Science. Нами  выстроена длинная траектория обучения: от базового входа до продвинутого уровня и перехода к middle Data Scientist.

 

Контакты