О школе

Инженерная школа
Data Science.

SenatorovAI — международная школа Data Science, Python и математики. Здесь разбирают код, данные и модели так, чтобы человек не просто повторял пример, а понимал, что происходит. Учёба ближе к работе, потому что школа выросла из IT-организации и является её структурным подразделением.

12,462+

проходят курсы на Stepik

курсов в каталоге

GitHub + Kaggle

практика открыта

SenatorovAI

Школа как часть реальной IT-среды

SenatorovAI работает на базе IT-организации и является ее структурным подразделением, где обучение связано с реальной инженерной средой, проектами, кодом и профессиональной практикой.

План обучения

ML-Спецназа Сенаторова

1 группа

Стандарты опенсорс Домашняя работа

Стандарты опенсорс	Домашняя работа
Вы изучите следующие темы: Исходный код CPython и знакомство с GitHub Скачиваем релиз Установка ПО Приглашение в организацию Устанавливаем CPython из исходников Устанавливаем pip и прописываем переменные среды Учимся запускать файлы с помощью PyPy и CPython Устанавливаем Python с официального сайта Клонирование репозитория и начало работы Настраиваем конфигурационный файл линтеров Тестируем линтеры на ошибки Что такое ipynb? Современный стандартный файл конфигурации для Python-проектов Создаём виртуальное окружение и выгружаем зависимости Пакетный менеджер для Data Science Пакетный менеджер нового поколения Вносим файлы в `.gitignore` Коммитим и пушим в GitHub STASH, откаты, конфликты, командная работа в GitHub Фундаментальная база по CI/CD Ищем проект в GitHub и изучаем соглашение о коммитах Начинаем процедуру ревью кода Обзор функций GitHub Ведение документации Минимум по GitHub Environment Введение в анализ алгоритмов: time complexity / space complexity Смотрим глазами интерпретатора Обзор grep Методология Test Driven Development. Разработка через тестирование Рефакторинг \| Улучшаем код, без написания нового функционала Методология Behavior Driven Development. Разработка через поведение SOLID, DRY, KISS Паттерны проектирования: Singleton Методология управления проектами: Agile, Scrum, Kanban	STASH Виртуальное окружение Контрибьютинг в Open Source issues Cpython Commits git Quiz (базовые вопросы)

Вы изучите следующие темы:

Исходный код CPython и знакомство с GitHub
Скачиваем релиз
Установка ПО
Приглашение в организацию
Устанавливаем CPython из исходников
Устанавливаем pip и прописываем переменные среды
Учимся запускать файлы с помощью PyPy и CPython
Устанавливаем Python с официального сайта
Клонирование репозитория и начало работы
Настраиваем конфигурационный файл линтеров
Тестируем линтеры на ошибки
Что такое ipynb?
Современный стандартный файл конфигурации для Python-проектов
Создаём виртуальное окружение и выгружаем зависимости
Пакетный менеджер для Data Science
Пакетный менеджер нового поколения
Вносим файлы в .gitignore
Коммитим и пушим в GitHub
STASH, откаты, конфликты, командная работа в GitHub
Фундаментальная база по CI/CD
Ищем проект в GitHub и изучаем соглашение о коммитах
Начинаем процедуру ревью кода
Обзор функций GitHub
Ведение документации
Минимум по GitHub
Environment
Введение в анализ алгоритмов: time complexity / space complexity
Смотрим глазами интерпретатора
Обзор grep
Методология Test Driven Development. Разработка через тестирование
Рефакторинг | Улучшаем код, без написания нового функционала
Методология Behavior Driven Development. Разработка через поведение
SOLID, DRY, KISS
Паттерны проектирования: Singleton
Методология управления проектами: Agile, Scrum, Kanban

STASH
Виртуальное окружение
Контрибьютинг в Open Source
issues
Cpython
Commits
git
Quiz (базовые вопросы)

2 группа

Python с нуля	Домашняя работа
Вы изучите следующие темы: как писать чистый код на python статической типизация на python Переменные в Питоне Типы данных Условия и циклы Дата и время Функции в Питоне Списки, кортежи и множества Словарь в Питоне ООП. Классы и объекты Итераторы и генераторы Декораторы	Устранение ошибок линтера: jupytext docformatter black pyupgrade isort codespell flake8 mypy pylint

Python с нуля

Домашняя работа

Вы изучите следующие темы:

как писать чистый код на python
статической типизация на python
Переменные в Питоне
Типы данных
Условия и циклы
Дата и время
Функции в Питоне
Списки, кортежи и множества
Словарь в Питоне
ООП. Классы и объекты
Итераторы и генераторы
Декораторы

Устранение ошибок линтера:

jupytext
docformatter
black
pyupgrade
isort
codespell
flake8
mypy
pylint

3 группа

solver: скалярная форма нормального уравнения (Простая регрессия)	Домашняя работа
В этом курсе вы изучите следующие темы: Имплементация на Python Функция потерь Математический анализ Геометрический и физический смысл производной Дифференциал и нотация Лейбница Производная по определению через предел Частная производная Получаем формулу МНК с нуля Частные производные от функции потерь Теория рядов Выводим формулу МНК Линейная алгебра Метод Крамера и система линейных алгебраических уравнений (СЛАУ) Интерпретация формулы МНК Смысл формулы МНК Интерполяция и аппроксимация Линейная регрессия на Python с нуля Scikit-learn: linear regression Корреляционно-регрессионный анализ	Статья ноутбуки Kaggle Пайплайн с нуля (Boston) Топик дискуссия Вывод формулы нормального уравнения
10 примеров сфер применения простой линейной регрессии: Прогнозирование цен: цена дома в зависимости от его площади (метры квадратные). Цена автомобиля в зависимости от его возраста. Анализ продаж: объём продаж товара в зависимости от суммы рекламного бюджета. Доход магазина в зависимости от количества посетителей. Экономика и финансы: прогноз инфляции в зависимости от процентной ставки. Оценка роста ВВП в зависимости от инвестиций. Медицина: прогноз массы тела пациента в зависимости от его роста. Уровень холестерина в крови в зависимости от возраста. Образование: оценка успеваемости (баллы за экзамен) в зависимости от количества часов подготовки. Спорт: предсказание времени пробега дистанции в зависимости от количества тренировочных часов в неделю. Производство: время изготовления детали в зависимости от её сложности (например, количества операций). Агрономия: урожайность поля в зависимости от количества внесённых удобрений. Экология: прогноз уровня загрязнения воздуха в зависимости от количества автотранспорта. Энергетика: потребление электроэнергии в зависимости от температуры воздуха.

solver: скалярная форма нормального уравнения (Простая регрессия)

Домашняя работа

В этом курсе вы изучите следующие темы:

Имплементация на Python
Функция потерь
Математический анализ
Геометрический и физический смысл производной
Дифференциал и нотация Лейбница
Производная по определению через предел
Частная производная
Получаем формулу МНК с нуля
Частные производные от функции потерь
Теория рядов
Выводим формулу МНК
Линейная алгебра
Метод Крамера и система линейных алгебраических уравнений (СЛАУ)
Интерпретация формулы МНК
Смысл формулы МНК
Интерполяция и аппроксимация
Линейная регрессия на Python с нуля
Scikit-learn: linear regression
Корреляционно-регрессионный анализ

Статья ноутбуки Kaggle
Пайплайн с нуля (Boston)
Топик дискуссия
Вывод формулы нормального уравнения

10 примеров сфер применения простой линейной регрессии:

Прогнозирование цен: цена дома в зависимости от его площади (метры квадратные). Цена автомобиля в зависимости от его возраста.
Анализ продаж: объём продаж товара в зависимости от суммы рекламного бюджета. Доход магазина в зависимости от количества посетителей.
Экономика и финансы: прогноз инфляции в зависимости от процентной ставки. Оценка роста ВВП в зависимости от инвестиций.
Медицина: прогноз массы тела пациента в зависимости от его роста. Уровень холестерина в крови в зависимости от возраста.
Образование: оценка успеваемости (баллы за экзамен) в зависимости от количества часов подготовки.
Спорт: предсказание времени пробега дистанции в зависимости от количества тренировочных часов в неделю.
Производство: время изготовления детали в зависимости от её сложности (например, количества операций).
Агрономия: урожайность поля в зависимости от количества внесённых удобрений.
Экология: прогноз уровня загрязнения воздуха в зависимости от количества автотранспорта.
Энергетика: потребление электроэнергии в зависимости от температуры воздуха.

solver: нормальное уравнение (множественная регрессия)	Домашняя работа
В этом курсе Вы изучите следующие темы: Сравнение простой и множественной регрессии Реверс-инжиниринг кода (Python + sklearn) Параметры метода, фильтрация данных z-score: масштабирование признаков train_test_split: тестовая, обучающая выборка Математическое обоснование метода "insert" Формы записи уравнения линейной регресии Нормальное уравнение Обратная матрица Определитель Миноры Дополнения Правило Саррюса Правило треугольников Ранг матрицы Линейная независимость Вырожденная матрица Линейная комбинация Коллинеарность и мультиколлинеарность Матрица корреляции Регуляризация L1 vs L2 норма Матричное дифференцирование Система линейных алгебраических уравнений Метод Гаусса Геометрическая интерпретация метода наименьших квадратов Ортогональная проекция на столбцовое пространство матрицы Коэффициент детерминации R2 (SSR / SST) Корреляционно-регрессионный анализ	Вывод нормального уравнения Тестирование Яндекс Тестирование от Deep Геометрическая интерпретация OLS Экзамен 4 блок-схемы Прочитать метод Сенаторова Дискуссия Kaggle Строим пайплайн (intro): Описательная статистика Статистический вывод Взаимосвязь переменных Оптимизация: поиск идеальных весов Векторы и матрицы На каких данных обучать модель Предскажем цену на жилье Boston
10 примеров сфер применения множественной линейной регрессии: Прогнозирование цен: цена дома в зависимости от площади, количества комнат и удалённости от центра. Стоимость автомобиля в зависимости от возраста, пробега и марки. Анализ продаж: объём продаж товара в зависимости от рекламного бюджета, количества торговых точек и цен конкурентов. Доход магазина в зависимости от количества посетителей, средней покупки и дней скидок. Экономика и финансы: прогноз инфляции на основе процентной ставки, денежной массы и уровня безработицы. Рост ВВП в зависимости от инвестиций, экспорта и потребления домохозяйств. Медицина: масса тела пациента в зависимости от роста, возраста и уровня физической активности. Уровень холестерина в зависимости от диеты, возраста и индекса массы тела (ИМТ). Образование: балл за экзамен в зависимости от количества часов подготовки, посещаемости занятий и уровня тревожности. Средний балл по предмету в зависимости от предыдущих оценок, уровня участия и качества преподавания. Спорт: время пробега дистанции в зависимости от числа тренировок, сна и питания. Результаты соревнований в зависимости от возраста, тренировочного опыта и физиологических параметров. Производство: время изготовления детали в зависимости от сложности, количества операций и опыта оператора. Стоимость продукта в зависимости от сырья, времени производства и энергозатрат. Агрономия: урожайность в зависимости от количества удобрений, полива и типа почвы. Рост растений в зависимости от света, температуры и влажности. Экология: уровень загрязнения воздуха в зависимости от числа автомобилей, ветра и температуры. Качество воды в зависимости от отходов, глубины и pH. Энергетика: потребление электроэнергии в зависимости от температуры, времени суток и количества жителей. Загрузка электросети в зависимости от типа оборудования, числа подключений и времени года.

solver: нормальное уравнение (множественная регрессия)

Домашняя работа

В этом курсе Вы изучите следующие темы:

Сравнение простой и множественной регрессии
Реверс-инжиниринг кода (Python + sklearn)
Параметры метода, фильтрация данных
z-score: масштабирование признаков
train_test_split: тестовая, обучающая выборка
Математическое обоснование метода "insert"
Формы записи уравнения линейной регресии
Нормальное уравнение
Обратная матрица
Определитель
Миноры
Дополнения
Правило Саррюса
Правило треугольников
Ранг матрицы
Линейная независимость
Вырожденная матрица
Линейная комбинация
Коллинеарность и мультиколлинеарность
Матрица корреляции
Регуляризация
L1 vs L2 норма
Матричное дифференцирование
Система линейных алгебраических уравнений
Метод Гаусса
Геометрическая интерпретация метода наименьших квадратов
Ортогональная проекция на столбцовое пространство матрицы
Коэффициент детерминации R2 (SSR / SST)
Корреляционно-регрессионный анализ

Вывод нормального уравнения
Тестирование Яндекс
Тестирование от Deep
Геометрическая интерпретация OLS
Экзамен 4 блок-схемы
Прочитать метод Сенаторова
Дискуссия Kaggle

Строим пайплайн (intro):

Описательная статистика
Статистический вывод
Взаимосвязь переменных
Оптимизация: поиск идеальных весов
Векторы и матрицы
На каких данных обучать модель
Предскажем цену на жилье Boston

10 примеров сфер применения множественной линейной регрессии:

Прогнозирование цен: цена дома в зависимости от площади, количества комнат и удалённости от центра. Стоимость автомобиля в зависимости от возраста, пробега и марки.
Анализ продаж: объём продаж товара в зависимости от рекламного бюджета, количества торговых точек и цен конкурентов. Доход магазина в зависимости от количества посетителей, средней покупки и дней скидок.
Экономика и финансы: прогноз инфляции на основе процентной ставки, денежной массы и уровня безработицы. Рост ВВП в зависимости от инвестиций, экспорта и потребления домохозяйств.
Медицина: масса тела пациента в зависимости от роста, возраста и уровня физической активности. Уровень холестерина в зависимости от диеты, возраста и индекса массы тела (ИМТ).
Образование: балл за экзамен в зависимости от количества часов подготовки, посещаемости занятий и уровня тревожности. Средний балл по предмету в зависимости от предыдущих оценок, уровня участия и качества преподавания.
Спорт: время пробега дистанции в зависимости от числа тренировок, сна и питания. Результаты соревнований в зависимости от возраста, тренировочного опыта и физиологических параметров.
Производство: время изготовления детали в зависимости от сложности, количества операций и опыта оператора. Стоимость продукта в зависимости от сырья, времени производства и энергозатрат.
Агрономия: урожайность в зависимости от количества удобрений, полива и типа почвы. Рост растений в зависимости от света, температуры и влажности.
Экология: уровень загрязнения воздуха в зависимости от числа автомобилей, ветра и температуры. Качество воды в зависимости от отходов, глубины и pH.
Энергетика: потребление электроэнергии в зависимости от температуры, времени суток и количества жителей. Загрузка электросети в зависимости от типа оборудования, числа подключений и времени года.

solver: SVD Домашняя работа

solver: SVD	Домашняя работа
В этом курсе Вы изучите следующие темы: Сравнение метода INV и PINV. Псевдообратная матрица Мура-Пенроуза Изучаем библиотеку Linear algebra (`numpy.linalg`) Математическое обоснование применения PINV вместо INV Сингулярная и обратная матрица. Детерминант. Мультиколлинеарность Изучаем метод PINV (SVD): псевдообратная матрица Мура-Пенроуза Понятие вектора Понятие алгебраической структуры Полугруппа Моноид Группа. Группа подстановок. Симметрическая группа S3 Абелева группа. Коммутативная группа Кольцо Поле Векторное пространство Евклидово пространство Линейный оператор. Линейная трансформация / преобразования Базис: ортонормированный, ортогональный, аффинный. Коллинеарность Гомотетия: частный случай преобразования подобия Виды преобразований Основные понятия Геометрическая интерпретация Формальное определение Собственный вектор и значение линейного преобразования Алгоритм нахождения собственных чисел и векторов Матрица 2x2: алгоритм нахождения eigenvalue & eigenvector Матрица 3x3: алгоритм нахождения eigenvalue & eigenvector Комплексные числа Основные понятия. Eigenvalue decomposition Матрица 2x2: алгоритм нахождения Eigenvalue decomposition Геометрический смысл Eigenvalue decomposition. Матрица 2x2 Эрмитова матрица Сингулярное разложение матрицы Основные понятия. Singular Value Decomposition Алгоритм нахождения singular value decomposition Матрица 2x3. Прямоугольная - ШИРОКАЯ. Система уравнений. Метод Гаусса Матрица 4x3. Прямоугольная - ВЫСОКАЯ. Система уравнений. Метод Гаусса Матрица 3x3. Квадратная. Мультиколлинеарность. Находим SVD Резюмируем Усечённое (Truncated) SVD Сжатие изображения с помощью SVD Убираем шум с помощью SVD Рекомендательная система SVD Норма Фробениуса. След матрицы Теорема Эккарта Янга Геометрический смысл SVD Аналитический смысл SVD Сходство EVD и SVD Функция PINV. Псевдообратная матрица Мура-Пенроуза Выводим с нуля формулу для pinv - Moore-Penrose pseudoinverse Матрица 4x2. Прямоугольная - ВЫСОКАЯ Матрица 2x2. Квадратная. Мультиколлинеарность Прообраз и образ. Отображение Геометрический смысл pinv - Moore-Penrose pseudoinverse Метод наименьших квадратов: Мура-Пенроуза наилучшая аппроксимация Реверс инжиниринг scikit-learn, метод fit Функция PINV Резюмируем Пишем алгоритм PINV с нуля Плюсы, минусы, где применяется	тестирование от яндекс тестирование от deep Дискуссия kaggle Строим пайплайн (easy): Pandas EDA (основы статистики) Реализация модели с нуля Конструирование признаков Регуляризация Прогнозирование цены на автомобили
10 ПРИМЕРОВ СФЕР ПРИМЕНЕНИЯ SVD: Сжатие изображений. SVD позволяет оставить только самые важные сингулярные значения, уменьшая размер изображения без заметной потери качества. Рекомендательные системы. SVD используется в методах Latent Semantic Analysis (LSA) и Matrix Factorization — уменьшает размерность и выявляет скрытые связи между пользователями и товарами. Обработка текста (NLP). SVD применяется в семантическом анализе текста: выявляет главные смысловые компоненты слов (например, Word2Vec + PCA или LSA). Обработка звука и аудио. SVD помогает выделить основные частотные компоненты сигнала и подавить шум. Решение переопределённых систем уравнений. SVD используется для устойчивого решения систем вида Ax=b, даже если A — вырождённая или почти вырождённая. Principal Component Analysis (PCA). PCA реализуется через SVD — находит направления максимальной дисперсии данных (главные компоненты). Решение дифференциальных уравнений. EVD используется при решении систем линейных ОДУ: например, для анализа устойчивости, колебаний, диссипации. Квантовая механика и физика. EVD позволяет находить собственные значения гамильтонианов — фундаментально важно для определения уровней энергии. Обработка изображений (распознавание лиц). Метод Eigenfaces использует EVD или SVD для представления изображений лиц как линейной комбинации базисных образов. Машинное обучение и линейная регрессия. SVD используется в псевдообращении (Moore-Penrose), если матрица плохо обусловлена. EVD применяют в теоретическом анализе моделей, в Regularization (например, Ridge).

В этом курсе Вы изучите следующие темы:

Сравнение метода INV и PINV. Псевдообратная матрица Мура-Пенроуза
Изучаем библиотеку Linear algebra (numpy.linalg)
Математическое обоснование применения PINV вместо INV
Сингулярная и обратная матрица. Детерминант. Мультиколлинеарность
Изучаем метод PINV (SVD): псевдообратная матрица Мура-Пенроуза
Понятие вектора
Понятие алгебраической структуры
Полугруппа
Моноид
Группа. Группа подстановок. Симметрическая группа S3
Абелева группа. Коммутативная группа
Кольцо
Поле
Векторное пространство
Евклидово пространство
Линейный оператор. Линейная трансформация / преобразования
Базис: ортонормированный, ортогональный, аффинный. Коллинеарность
Гомотетия: частный случай преобразования подобия
Виды преобразований
Основные понятия
Геометрическая интерпретация
Формальное определение
Собственный вектор и значение линейного преобразования
Алгоритм нахождения собственных чисел и векторов
Матрица 2x2: алгоритм нахождения eigenvalue & eigenvector
Матрица 3x3: алгоритм нахождения eigenvalue & eigenvector
Комплексные числа
Основные понятия. Eigenvalue decomposition
Матрица 2x2: алгоритм нахождения Eigenvalue decomposition
Геометрический смысл Eigenvalue decomposition. Матрица 2x2
Эрмитова матрица
Сингулярное разложение матрицы
Основные понятия. Singular Value Decomposition
Алгоритм нахождения singular value decomposition
Матрица 2x3. Прямоугольная - ШИРОКАЯ. Система уравнений. Метод Гаусса
Матрица 4x3. Прямоугольная - ВЫСОКАЯ. Система уравнений. Метод Гаусса
Матрица 3x3. Квадратная. Мультиколлинеарность. Находим SVD
Резюмируем
Усечённое (Truncated) SVD
Сжатие изображения с помощью SVD
Убираем шум с помощью SVD
Рекомендательная система SVD
Норма Фробениуса. След матрицы
Теорема Эккарта Янга
Геометрический смысл SVD
Аналитический смысл SVD
Сходство EVD и SVD
Функция PINV. Псевдообратная матрица Мура-Пенроуза
Выводим с нуля формулу для pinv - Moore-Penrose pseudoinverse
Матрица 4x2. Прямоугольная - ВЫСОКАЯ
Матрица 2x2. Квадратная. Мультиколлинеарность
Прообраз и образ. Отображение
Геометрический смысл pinv - Moore-Penrose pseudoinverse
Метод наименьших квадратов: Мура-Пенроуза наилучшая аппроксимация
Реверс инжиниринг scikit-learn, метод fit
Функция PINV
Резюмируем
Пишем алгоритм PINV с нуля
Плюсы, минусы, где применяется

тестирование от яндекс
тестирование от deep
Дискуссия kaggle

Строим пайплайн (easy):

Pandas
EDA (основы статистики)
Реализация модели с нуля
Конструирование признаков
Регуляризация
Прогнозирование цены на автомобили

10 ПРИМЕРОВ СФЕР ПРИМЕНЕНИЯ SVD:

Сжатие изображений. SVD позволяет оставить только самые важные сингулярные значения, уменьшая размер изображения без заметной потери качества.
Рекомендательные системы. SVD используется в методах Latent Semantic Analysis (LSA) и Matrix Factorization — уменьшает размерность и выявляет скрытые связи между пользователями и товарами.
Обработка текста (NLP). SVD применяется в семантическом анализе текста: выявляет главные смысловые компоненты слов (например, Word2Vec + PCA или LSA).
Обработка звука и аудио. SVD помогает выделить основные частотные компоненты сигнала и подавить шум.
Решение переопределённых систем уравнений. SVD используется для устойчивого решения систем вида Ax=b, даже если A — вырождённая или почти вырождённая.
Principal Component Analysis (PCA). PCA реализуется через SVD — находит направления максимальной дисперсии данных (главные компоненты).
Решение дифференциальных уравнений. EVD используется при решении систем линейных ОДУ: например, для анализа устойчивости, колебаний, диссипации.
Квантовая механика и физика. EVD позволяет находить собственные значения гамильтонианов — фундаментально важно для определения уровней энергии.
Обработка изображений (распознавание лиц). Метод Eigenfaces использует EVD или SVD для представления изображений лиц как линейной комбинации базисных образов.
Машинное обучение и линейная регрессия. SVD используется в псевдообращении (Moore-Penrose), если матрица плохо обусловлена. EVD применяют в теоретическом анализе моделей, в Regularization (например, Ridge).

solver: QR Домашняя работа

solver: QR	Домашняя работа
В этом курсе Вы изучите следующие темы: Решение МНК с помощью QR-разложения Процесс ортогонализации Грама - Шмидта: Основные понятия Геометрический смысл скалярного произведения Норма вектора, L2, Евклидова норма Как найти скалярное произведение векторов? Угол между векторами: Острый, Тупой, Прямой. Коллинеарность. Скалярный квадрат вектора Алгебраический смысл скалярного произведения Свойства скалярного произведения Рекомендательная система. Косинусное сходство векторов Ортогональность векторов. Ортогональный и Ортонормированный базис, система векторов Как найти проекцию вектора на вектор? Косинус угла. Выводим с нуля формулу проекции. Основные понятия. Задача наименьших квадратов QR-разложение. Выводим формулу с нуля Алгоритм Грама-Шмидта Матрица 3х3. Квадратная. QR-разложение Матрица 3х2. Прямоугольная. Высокая и узкая. QR-разложение Матрица 2х2. Квадратная. QR-разложение Матрица 3х3. Квадратная. QR-разложение QR-разложение с поворотом (pivoting) Редуцированное QR Геометрический смысл Грама-Шмидта Линейная оболочка. Span. Явное обращение матрицы VS система линейных уравнений `scipy.linalg.lstsq`. Изучаем ядро библиотеки lapack: `gelsy` Шаг 0. Подключаем датасет и читаем CSV Шаг 1. Разведочный анализ (EDA). Стандартное отклонение. Дисперсия Шаг 2. Подготовка данных. `Sklearn.preprocessing.MinMaxScaler` Шаг 3. Построение модели ML. `Scikit-learn: linear regression` Шаг 4. Метрики: MAE, MSE, RMSE, R2 Шаг 5. QR-разложение VS Ridge регуляризация Test №1 Performance QR vs normal equation Test №2 Performance QR vs normal equation Плюсы, минусы, где применяется	тестирование от яндекс тестирование от deep Упражнения линейная алгебра DS Библиотека Numpy Библиотека Pandas Преобразование датафреймов Теория вероятностей на python Классификация данных и задачи EDA Интегральное исчисление с нуля Упражнения на нормальное распределение PDF/CDF EDA анализ с нуля Дискуссия kaggle Строим пайплайн (middle): Корреляция Параметрические и непараметрические тесты Анализ остатков и прогнозных значений Построение модели
10 Сфер применения QR-разложения: Линейная регрессия. QR-разложение используется для численно устойчивого решения нормальных уравнений в линейной регрессии, особенно когда матрица плохо обусловлена. Анализ главных компонент (PCA). QR-разложение применяется как альтернатива сингулярному разложению для понижения размерности данных и выделения главных компонент. Регуляризация моделей. Используется в гребневой регрессии (Ridge) и других методах регуляризации для численной стабильности при решении переопределенных систем. Градиентный спуск и оптимизация. QR-разложение помогает в предобуславливании (preconditioning) матриц Гессе для ускорения сходимости оптимизационных алгоритмов. Рекомендательные системы. Применяется для матричной факторизации и разложения пользовательских рейтинговых матриц для построения персонализированных рекомендаций. Обработка временных рядов. Используется в авторегрессионных моделях, фильтрации сигналов и прогнозировании временных рядов для решения систем линейных уравнений. Обработка изображений. QR-разложение применяется для сжатия изображений, шумоподавления и извлечения признаков из матриц пикселей. Нейронные сети и глубокое обучение. Используется для инициализации весов, ортогонализации матриц параметров и улучшения обусловленности градиентов. Классификация и кластеризация. Применяется в методе ближайших соседей, линейных классификаторах и для трансформации признакового пространства. Анализ больших данных (Big Data). QR-разложение используется в распределенных алгоритмах для обработки больших матриц данных, MapReduce вычислениях и параллельных алгоритмах машинного обучения.

В этом курсе Вы изучите следующие темы:

Решение МНК с помощью QR-разложения
Процесс ортогонализации Грама - Шмидта: Основные понятия
Геометрический смысл скалярного произведения
Норма вектора, L2, Евклидова норма
Как найти скалярное произведение векторов?
Угол между векторами: Острый, Тупой, Прямой. Коллинеарность.
Скалярный квадрат вектора
Алгебраический смысл скалярного произведения
Свойства скалярного произведения
Рекомендательная система. Косинусное сходство векторов
Ортогональность векторов.
Ортогональный и Ортонормированный базис, система векторов
Как найти проекцию вектора на вектор?
Косинус угла. Выводим с нуля формулу проекции.
Основные понятия.
Задача наименьших квадратов
QR-разложение. Выводим формулу с нуля
Алгоритм Грама-Шмидта
Матрица 3х3. Квадратная. QR-разложение
Матрица 3х2. Прямоугольная. Высокая и узкая. QR-разложение
Матрица 2х2. Квадратная. QR-разложение
Матрица 3х3. Квадратная. QR-разложение
QR-разложение с поворотом (pivoting)
Редуцированное QR
Геометрический смысл Грама-Шмидта
Линейная оболочка. Span.
Явное обращение матрицы VS система линейных уравнений
scipy.linalg.lstsq. Изучаем ядро библиотеки lapack: gelsy
Шаг 0. Подключаем датасет и читаем CSV
Шаг 1. Разведочный анализ (EDA). Стандартное отклонение. Дисперсия
Шаг 2. Подготовка данных. Sklearn.preprocessing.MinMaxScaler
Шаг 3. Построение модели ML. Scikit-learn: linear regression
Шаг 4. Метрики: MAE, MSE, RMSE, R2
Шаг 5. QR-разложение VS Ridge регуляризация
Test №1 Performance QR vs normal equation
Test №2 Performance QR vs normal equation
Плюсы, минусы, где применяется

тестирование от яндекс
тестирование от deep
Упражнения линейная алгебра DS
Библиотека Numpy
Библиотека Pandas
Преобразование датафреймов
Теория вероятностей на python
Классификация данных и задачи EDA
Интегральное исчисление с нуля
Упражнения на нормальное распределение PDF/CDF
EDA анализ с нуля
Дискуссия kaggle

Строим пайплайн (middle):

Корреляция
Параметрические и непараметрические тесты
Анализ остатков и прогнозных значений
Построение модели

10 Сфер применения QR-разложения:

Линейная регрессия. QR-разложение используется для численно устойчивого решения нормальных уравнений в линейной регрессии, особенно когда матрица плохо обусловлена.
Анализ главных компонент (PCA). QR-разложение применяется как альтернатива сингулярному разложению для понижения размерности данных и выделения главных компонент.
Регуляризация моделей. Используется в гребневой регрессии (Ridge) и других методах регуляризации для численной стабильности при решении переопределенных систем.
Градиентный спуск и оптимизация. QR-разложение помогает в предобуславливании (preconditioning) матриц Гессе для ускорения сходимости оптимизационных алгоритмов.
Рекомендательные системы. Применяется для матричной факторизации и разложения пользовательских рейтинговых матриц для построения персонализированных рекомендаций.
Обработка временных рядов. Используется в авторегрессионных моделях, фильтрации сигналов и прогнозировании временных рядов для решения систем линейных уравнений.
Обработка изображений. QR-разложение применяется для сжатия изображений, шумоподавления и извлечения признаков из матриц пикселей.
Нейронные сети и глубокое обучение. Используется для инициализации весов, ортогонализации матриц параметров и улучшения обусловленности градиентов.
Классификация и кластеризация. Применяется в методе ближайших соседей, линейных классификаторах и для трансформации признакового пространства.
Анализ больших данных (Big Data). QR-разложение используется в распределенных алгоритмах для обработки больших матриц данных, MapReduce вычислениях и параллельных алгоритмах машинного обучения.

solver: Cholesky Домашняя работа

solver: Cholesky	Домашняя работа
В этом курсе Вы изучите следующие темы: Основные понятия Алгоритм LU разложения Матрица 3х3. Система уравнение. СЛАУ. Метод Гаусса. Решаем систему AX = B. Прямой ход. Обратный ход LU-разложение с поворотом. Pivoting. Почему LU-разложение хуже чем Холецкий? Основные понятия Алгоритм разложения Холецкого Матрица 3х3. Система уравнение. СЛАУ. Решаем систему AX = B. Прямой ход. Обратный ход `np.linalg.cholesky` Сравнение: Normal equation, SVD, QR, Cholesky, Gradient descent Блок-схема выбора алгоритма Большой, малый датасет. Что такое МНК? Историческая справка. Критерий Кронекера и Квадратичной формы. Почему Adam и Momentum не нужен в машинном обучении? Условия и рекомендуемый метод поиска весов Регуляризация Тихонова, Гребневая, Ridge, применение Холецкого Скорость работы алгоритма Ресёрчим kaggle	тестирование от яндекс тестирование от deep Упражнения линейная алгебра DS Дискуссия kaggle анализ и обработка данных: Ошибки в данных Пропущенные значения Преобразование данных Выбросы в данных Кодирование категориальных переменных Пайплайн с нуля: New York City Airbnb Open Data (цены на жилье)
10 Сфер применения разложения Холецкого: Линейная регрессия Ridge-регрессия (ℓ₂-регуляризация) Гауссовские процессы (GP) Генерация многомерного нормального шума Методы Ньютона и квазиньютоновские методы Линейный дискриминантный анализ (LDA) Калмановские фильтры и рекурсивные байесовские модели Латентные переменные и вариационные автоэнкодеры (VAE) Preconditioning для итеративных методов Active Learning / Bayesian Optimization

В этом курсе Вы изучите следующие темы:

Основные понятия
Алгоритм LU разложения
Матрица 3х3. Система уравнение. СЛАУ. Метод Гаусса.
Решаем систему AX = B. Прямой ход. Обратный ход
LU-разложение с поворотом. Pivoting.
Почему LU-разложение хуже чем Холецкий?
Основные понятия
Алгоритм разложения Холецкого
Матрица 3х3. Система уравнение. СЛАУ.
Решаем систему AX = B. Прямой ход. Обратный ход
np.linalg.cholesky
Сравнение: Normal equation, SVD, QR, Cholesky, Gradient descent
Блок-схема выбора алгоритма
Большой, малый датасет.
Что такое МНК? Историческая справка.
Критерий Кронекера и Квадратичной формы.
Почему Adam и Momentum не нужен в машинном обучении?
Условия и рекомендуемый метод поиска весов
Регуляризация Тихонова, Гребневая, Ridge, применение Холецкого
Скорость работы алгоритма
Ресёрчим kaggle

тестирование от яндекс
тестирование от deep
Упражнения линейная алгебра DS
Дискуссия kaggle

анализ и обработка данных:

Ошибки в данных
Пропущенные значения
Преобразование данных
Выбросы в данных
Кодирование категориальных переменных

Пайплайн с нуля:

New York City Airbnb Open Data (цены на жилье)

10 Сфер применения разложения Холецкого:

Линейная регрессия
Ridge-регрессия (ℓ₂-регуляризация)
Гауссовские процессы (GP)
Генерация многомерного нормального шума
Методы Ньютона и квазиньютоновские методы
Линейный дискриминантный анализ (LDA)
Калмановские фильтры и рекурсивные байесовские модели
Латентные переменные и вариационные автоэнкодеры (VAE)
Preconditioning для итеративных методов
Active Learning / Bayesian Optimization

solver: GD	Домашняя работа
В этом курсе Вы изучите следующие темы: Реверс-инжиниринг кода (Python+sklearn) Параметры метода, Фильтрация данных z-score: масштабирование признаков train_test_split: Тестовая, обучающая выборка Инициализация параметров: Метод shape, bias, weights, previous. Численный метод что это? Математический анализ Понятие функции Монотонность функции Производная и монотонность функции Понятие Оптимизации Основные теоремы дифференциального исчисления Теорема Ферма. Точка экстремума. Критическая точка. Выпуклость. Вогнутость функции. Точка перегиба. Хорда Этапы оптимизации функции Основы оптимизации функции Теорема Ролля Основы тригонометрии. Теорема Лагранжа Стационарная точка. Функция нескольких переменных. Парабалойд learning rate. Формула градиентного спуска GDLinearRegression: Повторный реверс-инжиниринг Градиент и Функция потерь Геометрический смысл: Градиент и Функция потерь Ортонормированный базис. Линейная зависимость. Линейная комбинация Частные производные и Градиент Выводим с нуля формулу Скалярный квадрат. SSE. Матричное диффенцирование: линейная форма, квадратичная форма Экзамен на python Мини-Батч градиентный спуск Стохастический градиентный спуск Переобучение. недообучение модели: Underfit, good, overfit Сравнительный анализ. BGD VS MINI-BATCH VS SGD Плюсы, Минусы, Где применяется Корреляционно-регрессионный анализ	тестирование от яндекс тестирование от deep алгоритмы на python Домашка на английском: оптимизация 1 порядка ШАД лабораторная работа 1,2 кросс-вал и гиперпараметры Экзамен по книге (все темы)
10 примеров сфер применения градиентного спуска. Линейная и логистическая регрессия. Градиентный спуск используется для нахождения коэффициентов регрессии, минимизируя функцию потерь (например, MSE или логистическую ошибку). Нейронные сети и глубокое обучение. Алгоритмы, такие как SGD, Adam, RMSprop, являются модификациями градиентного спуска. Используются для обновления весов в backpropagation. Рекомендательные системы. В задачах матричной факторизации (например, ALS, SVD) градиентный спуск помогает находить скрытые факторы пользователя и товара. Обучение соотношений (Ranking). В поисковых системах или рекомендациях: градиентный спуск используется в RankNet, LambdaRank, XGBoost Rank, чтобы оптимизировать порядок выдачи. Обучение параметров в NLP (Natural Language Processing). Применяется в word2vec, transformer-based моделях (BERT, GPT), где требуется обучение на огромных текстовых датасетах. Снижение размерности (PCA, t-SNE, Autoencoders). В автоэнкодерах градиентный спуск минимизирует разницу между входом и восстановлением. В t-SNE используется модифицированный градиентный метод. Компьютерное зрение. Обучение CNN (сверточных нейронных сетей) для задач классификации, сегментации, детекции объектов. Обучение с подкреплением (Reinforcement Learning). Алгоритмы policy gradient, actor-critic используют градиентные методы для обновления политик агента. Финансовое моделирование. Прогнозирование временных рядов, оценка риска — с помощью моделей, обучаемых градиентным спуском. Оптимизация параметров в физике и биоинформатике. Градиентный спуск применяется для нахождения минимумов потенциальной энергии, оптимизации молекулярных структур и параметров моделей взаимодействия.

solver: GD

Домашняя работа

В этом курсе Вы изучите следующие темы:

Реверс-инжиниринг кода (Python+sklearn)
Параметры метода, Фильтрация данных
z-score: масштабирование признаков
train_test_split: Тестовая, обучающая выборка
Инициализация параметров: Метод shape, bias, weights, previous.
Численный метод что это?
Математический анализ
Понятие функции
Монотонность функции
Производная и монотонность функции
Понятие Оптимизации
Основные теоремы дифференциального исчисления
Теорема Ферма. Точка экстремума. Критическая точка.
Выпуклость. Вогнутость функции.
Точка перегиба. Хорда
Этапы оптимизации функции
Основы оптимизации функции
Теорема Ролля
Основы тригонометрии.
Теорема Лагранжа
Стационарная точка.
Функция нескольких переменных.
Парабалойд
learning rate. Формула градиентного спуска
GDLinearRegression: Повторный реверс-инжиниринг
Градиент и Функция потерь
Геометрический смысл: Градиент и Функция потерь
Ортонормированный базис. Линейная зависимость. Линейная комбинация
Частные производные и Градиент
Выводим с нуля формулу
Скалярный квадрат. SSE.
Матричное диффенцирование: линейная форма, квадратичная форма
Экзамен на python
Мини-Батч градиентный спуск
Стохастический градиентный спуск
Переобучение. недообучение модели: Underfit, good, overfit
Сравнительный анализ. BGD VS MINI-BATCH VS SGD
Плюсы, Минусы, Где применяется
Корреляционно-регрессионный анализ

тестирование от яндекс
тестирование от deep
алгоритмы на python

Домашка на английском:

оптимизация 1 порядка
ШАД лабораторная работа 1,2
кросс-вал и гиперпараметры
Экзамен по книге (все темы)

10 примеров сфер применения градиентного спуска.

Линейная и логистическая регрессия. Градиентный спуск используется для нахождения коэффициентов регрессии, минимизируя функцию потерь (например, MSE или логистическую ошибку).
Нейронные сети и глубокое обучение. Алгоритмы, такие как SGD, Adam, RMSprop, являются модификациями градиентного спуска. Используются для обновления весов в backpropagation.
Рекомендательные системы. В задачах матричной факторизации (например, ALS, SVD) градиентный спуск помогает находить скрытые факторы пользователя и товара.
Обучение соотношений (Ranking). В поисковых системах или рекомендациях: градиентный спуск используется в RankNet, LambdaRank, XGBoost Rank, чтобы оптимизировать порядок выдачи.
Обучение параметров в NLP (Natural Language Processing). Применяется в word2vec, transformer-based моделях (BERT, GPT), где требуется обучение на огромных текстовых датасетах.
Снижение размерности (PCA, t-SNE, Autoencoders). В автоэнкодерах градиентный спуск минимизирует разницу между входом и восстановлением. В t-SNE используется модифицированный градиентный метод.
Компьютерное зрение. Обучение CNN (сверточных нейронных сетей) для задач классификации, сегментации, детекции объектов.
Обучение с подкреплением (Reinforcement Learning). Алгоритмы policy gradient, actor-critic используют градиентные методы для обновления политик агента.
Финансовое моделирование. Прогнозирование временных рядов, оценка риска — с помощью моделей, обучаемых градиентным спуском.
Оптимизация параметров в физике и биоинформатике. Градиентный спуск применяется для нахождения минимумов потенциальной энергии, оптимизации молекулярных структур и параметров моделей взаимодействия.

solver: CG	Домашняя работа
Введение в метод сопряжённых градиентов Реверс-инжиниринг scikit-learn Геометрический смысл метода сопряжённых градиентов Общий подход к построение проекционных методов Условия Петрова - Галёркина Косой и ортогональный проекционный метод Проекционный оператор Образ и ядро проектора Линейное многообразие. Аффинное пространство. Матричные базисы Одномерные проекционные процессы Пространство: Линейное, Метрическое, Нормированное, Евклидово Подпространство Матрица проектирования и базис Ортогональное дополнение Энергетическая норма (A-норма) подпространство Крылова: Геометрический смысл подпространство Крылова: Алгебраический смысл Полиномиальная аппроксимация. Теорема Камильтона - Кэли. Метод наискорейшего спуска (Steepest Descent) Сопряжённые градиенты. A-Ортогональность. Квадратичная форма Разбор алгоритма CG в python Предобуславливатель CG для нормальных систем уравнений sparse_cg: Сопряжённые градиенты в ридж регрессии Аналитическое доказательство CG. Геометрическое доказательство CG и Метод Грама - Шмидта Геометрический смысл CG на подпространстве Крылова Академическое формальное доказательство	Тестирование от deep kaggle comptetition kaggle дискуссия пайплайн все мл модели end-to-end Кривые обучения Early stopping Упражнения и вопросы по пайплайну
10 СФЕР ПРИМЕНЕНИЯ сопряженных градиентов (CG) и подпространств Крылова: Логистическая регрессия и линейная регрессия Классик ML и Deep Learning Распределенные реализации Квантовые варианты AutoML интеграция Вычисление главных компонент (PCA) через степенной метод и Lanczos Спектральная кластеризация больших графов Оптимизация нейронных сетей ALS (Alternating Least Squares) для матричной факторизации Анализ временных рядов

solver: CG

Домашняя работа

Введение в метод сопряжённых градиентов
Реверс-инжиниринг scikit-learn
Геометрический смысл метода сопряжённых градиентов
Общий подход к построение проекционных методов
Условия Петрова - Галёркина
Косой и ортогональный проекционный метод
Проекционный оператор
Образ и ядро проектора
Линейное многообразие. Аффинное пространство.
Матричные базисы
Одномерные проекционные процессы
Пространство: Линейное, Метрическое, Нормированное, Евклидово
Подпространство
Матрица проектирования и базис
Ортогональное дополнение
Энергетическая норма (A-норма)
подпространство Крылова: Геометрический смысл
подпространство Крылова: Алгебраический смысл
Полиномиальная аппроксимация. Теорема Камильтона - Кэли.
Метод наискорейшего спуска (Steepest Descent)
Сопряжённые градиенты. A-Ортогональность.
Квадратичная форма
Разбор алгоритма CG в python
Предобуславливатель
CG для нормальных систем уравнений
sparse_cg: Сопряжённые градиенты в ридж регрессии
Аналитическое доказательство CG.
Геометрическое доказательство CG и Метод Грама - Шмидта
Геометрический смысл CG на подпространстве Крылова
Академическое формальное доказательство

Тестирование от deep
kaggle comptetition
kaggle дискуссия

пайплайн все мл модели end-to-end

Кривые обучения
Early stopping
Упражнения и вопросы по пайплайну

10 СФЕР ПРИМЕНЕНИЯ сопряженных градиентов (CG) и подпространств Крылова:

Логистическая регрессия и линейная регрессия
Классик ML и Deep Learning
Распределенные реализации
Квантовые варианты
AutoML интеграция
Вычисление главных компонент (PCA) через степенной метод и Lanczos
Спектральная кластеризация больших графов
Оптимизация нейронных сетей
ALS (Alternating Least Squares) для матричной факторизации
Анализ временных рядов

solver: LSQR	Домашняя работа
В этом курсе Вы изучите следующие темы: Введение в алгоритм LSQR Реверс-инжиниринг scikit-learn. Бидигоанализация Голуба - Кахана Где применяется LSQR? Метод Ланцоша. Историческая справка. Обусловленность (cond) СЛАУ И МНК. Проблема нормальных уравнений Процедура бидиагонализации Голуба - Кахана QR разложение с вращением Гивенса Дополнительное тестирование Оценка норм в критериях остановы. atol. btol. conlim. Анализ сходимости LSQR VS CG LSQR в современную эпоху Геометрический смысл LSQR Ключевые выводы по LSQR	Доверительный интервал Статистические гипотезы Проверка статистических гипотез Линейный коэффициент корреляции Уравнение линейной регрессии Проверка значимости линейной модели Модель однофакторной регрессии Уравнение множественной линейной регрессии kaggle дискуссия
10 СФЕР ПРИМЕНЕНИЯ LSQR и подпространств Крылова: Линейная регрессия и Ridge-регрессия Ridge классификация LinearDiscriminantAnalysis (Аналог PCA) Томография и медицинская визуализация ML c большими разреженными матрицами Обработка сигналов isotonic regression Оптимизация и методы Крылова Aстрофизика Cейсмика

solver: LSQR

Домашняя работа

В этом курсе Вы изучите следующие темы:

Введение в алгоритм LSQR
Реверс-инжиниринг scikit-learn. Бидигоанализация Голуба - Кахана
Где применяется LSQR?
Метод Ланцоша. Историческая справка.
Обусловленность (cond)
СЛАУ И МНК. Проблема нормальных уравнений
Процедура бидиагонализации Голуба - Кахана
QR разложение с вращением Гивенса
Дополнительное тестирование
Оценка норм в критериях остановы. atol. btol. conlim.
Анализ сходимости LSQR VS CG
LSQR в современную эпоху
Геометрический смысл LSQR
Ключевые выводы по LSQR

Доверительный интервал
Статистические гипотезы
Проверка статистических гипотез
Линейный коэффициент корреляции
Уравнение линейной регрессии
Проверка значимости линейной модели
Модель однофакторной регрессии
Уравнение множественной линейной регрессии
kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ LSQR и подпространств Крылова:

Линейная регрессия и Ridge-регрессия
Ridge классификация
LinearDiscriminantAnalysis (Аналог PCA)
Томография и медицинская визуализация
ML c большими разреженными матрицами
Обработка сигналов
isotonic regression
Оптимизация и методы Крылова
Aстрофизика
Cейсмика

solver: SAG	Домашняя работа
В этом курсе Вы изучите следующие темы: Введение в алгоритм SAG + Реверс-инжиниринг scikit-learn. Минимизация эмперического риска. Градиентный спуск, Стохастический Тестирование Анализ схождения стохастических и детерминированных методов Анализ схождения SAG vs LBFGS vs Координатные методы Сильная выпуклость и просто выпуклость Условия сходимости SAG Концепция алгоритма SAG Аналитический разбор алгоритма SAG Считаем вручную SAG L-Липшицев градиент. Собственные числа. Матрица Гессе. Структура SAG методов Смещённая оценка градиента SVRG SAGA	Оценка коэффициентов Определение точности оценки коэффициентов Определение точности оценки модели Оценка регрессионных коэффициентов Прочие факторы регрессионного моделирования Качественные предикторы Лабораторная работа (Boston) kaggle дискуссия
10 СФЕР ПРИМЕНЕНИЯ SAG/SAGA: Линейная и Ridge-регрессия на больших данных Логистическая регрессия для классификации Высокомерные разреженные данные (sparse ML) Обучение моделей с L1-регуляризацией Online / streaming-обучение (квази-online) Large-scale convex optimization Рекомендательные системы (линейные модели) Компьютерное зрение (линейные классификаторы) Скоринговые карты, стресс-тесты Научные вычисления

solver: SAG

Домашняя работа

В этом курсе Вы изучите следующие темы:

Введение в алгоритм SAG + Реверс-инжиниринг scikit-learn.
Минимизация эмперического риска. Градиентный спуск, Стохастический
Тестирование
Анализ схождения стохастических и детерминированных методов
Анализ схождения SAG vs LBFGS vs Координатные методы
Сильная выпуклость и просто выпуклость
Условия сходимости SAG
Концепция алгоритма SAG
Аналитический разбор алгоритма SAG
Считаем вручную SAG
L-Липшицев градиент. Собственные числа. Матрица Гессе.
Структура SAG методов
Смещённая оценка градиента
SVRG
SAGA

Оценка коэффициентов
Определение точности оценки коэффициентов
Определение точности оценки модели
Оценка регрессионных коэффициентов
Прочие факторы регрессионного моделирования
Качественные предикторы
Лабораторная работа (Boston)
kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ SAG/SAGA:

Линейная и Ridge-регрессия на больших данных
Логистическая регрессия для классификации
Высокомерные разреженные данные (sparse ML)
Обучение моделей с L1-регуляризацией
Online / streaming-обучение (квази-online)
Large-scale convex optimization
Рекомендательные системы (линейные модели)
Компьютерное зрение (линейные классификаторы)
Скоринговые карты, стресс-тесты
Научные вычисления

solver: LBFGS	Домашняя работа
В этом курсе Вы изучите следующие темы: Введение в алгоритм L-BFGS-B Реверс-инжиниринг исходников scikit-learn Введение в Newton. Quasi-Newton. BFGS. LBFGS. LBFGSB Анализ графиков схождения алгоритмов. Ньютон VS Градиентный спуск Что видит Ньютон? Условная и безусловная оптимизация Тестирование оптимизация УБ Процедура градиентного спуска Уравнение касательной Линейная аппроксимация Разложение в ряд Тейлора первого порядка Первый и второй порядок. Гессиан Квадратичная аппроксимация. Ряд Тейлора второго порядка Общая формула Тейлора и Маклорена Остаточный член. Радиус сходимости Геометрический смысл: аппроксимация полиномом vs рядом Тейлора Аналитический смысл: аппроксимация полиномом vs рядом Тейлора Как шагают методы первого и второго порядка? Сравнение градиентного спуска и метода Ньютона Зачем вообще аппроксимировать? Выпуклая и невыпуклая оптимизация. Гессиан Алгоритм Ньютона Пример на линейной регрессии Теорема Клеро. Смешанная производная. LOSS второго порядка Аффинная инвариантность: преимущества и Проклятие Размерности Метод касательной (Ньютона) Broyden-Fletcher-Goldfarb-Shanno algorithm. BFGS Метод секущих BFGS: Уравнение секущей. Bs = y BFGS: Разбор условий для уравнения секущей. Bs = y Аналитический разбор: Уравнение секущей Формула Шермана-Моррисона-Вудбери (Обновление обратной матрицы) Линейный поиск (Line Search) и Условия Вольфе (Армихо и Кривизны) Анализ графиков Newton vs BFGS Идея алгоритма LBFGS Реверс-инжиниринг: Скользящее окно памяти. Двухцикловая рекурсия Сравнительная таблица. Анализ сложности Идея алгоритма L-BFGS-B (Limited-memory BFGS with Bound) Точка Коши. Мин. в подпространстве. Active set vs Free set Сравнительная таблица. Анализ сложности	Описательная статистика Среднее, медиана, выбросы, стандартное отклонение, процентили, гистограммы Выборка и смещение Случайная выборка, смещенная выборка, систематическая ошибка, размер выборки Неопределенность оценки Выборочное распределение, стандартная ошибка, центральная предельная теорема Бутстрап и доверительные интервалы Как оценивать надежность результата без строгих предположений о распределении Основные распределения Нормальное, t-распределение, биномиальное, хи-квадрат, F-распределение, Пуассон Проверка гипотез Нулевая и альтернативная гипотезы, p-value, alpha, статистическая значимость Ошибки выводов Ошибки 1-го и 2-го рода, практическая значимость, множественное тестирование Статистические тесты t-тест, ANOVA, хи-квадрат тест, точный тест Фишера, перестановочный тест A/B-тесты Односторонние и двусторонние проверки, мощность теста, размер выборки Связи между переменными Корреляция, диаграммы рассеяния, сравнение числовых и категориальных данных kaggle дискуссия
10 СФЕР ПРИМЕНЕНИЯ LBFGS/L-BFGS-B: Логистическая регрессия и Ridge-регрессия Нейронные сети Ограниченная оптимизация (Box Constraints) Компьютерное зрение Обработка естественного языка (NLP) Гиперпараметрическая оптимизация image registration camera calibration калибровки моделей matrix factorization

solver: LBFGS

Домашняя работа

В этом курсе Вы изучите следующие темы:

Введение в алгоритм L-BFGS-B
Реверс-инжиниринг исходников scikit-learn
Введение в Newton. Quasi-Newton. BFGS. LBFGS. LBFGSB
Анализ графиков схождения алгоритмов. Ньютон VS Градиентный спуск
Что видит Ньютон?
Условная и безусловная оптимизация
Тестирование оптимизация УБ
Процедура градиентного спуска
Уравнение касательной
Линейная аппроксимация
Разложение в ряд Тейлора первого порядка
Первый и второй порядок. Гессиан
Квадратичная аппроксимация. Ряд Тейлора второго порядка
Общая формула Тейлора и Маклорена
Остаточный член. Радиус сходимости
Геометрический смысл: аппроксимация полиномом vs рядом Тейлора
Аналитический смысл: аппроксимация полиномом vs рядом Тейлора
Как шагают методы первого и второго порядка?
Сравнение градиентного спуска и метода Ньютона
Зачем вообще аппроксимировать?
Выпуклая и невыпуклая оптимизация. Гессиан
Алгоритм Ньютона
Пример на линейной регрессии
Теорема Клеро. Смешанная производная. LOSS второго порядка
Аффинная инвариантность: преимущества и Проклятие Размерности
Метод касательной (Ньютона)
Broyden-Fletcher-Goldfarb-Shanno algorithm. BFGS
Метод секущих
BFGS: Уравнение секущей. Bs = y
BFGS: Разбор условий для уравнения секущей. Bs = y
Аналитический разбор: Уравнение секущей
Формула Шермана-Моррисона-Вудбери (Обновление обратной матрицы)
Линейный поиск (Line Search) и Условия Вольфе (Армихо и Кривизны)
Анализ графиков Newton vs BFGS
Идея алгоритма LBFGS
Реверс-инжиниринг: Скользящее окно памяти. Двухцикловая рекурсия
Сравнительная таблица. Анализ сложности
Идея алгоритма L-BFGS-B (Limited-memory BFGS with Bound)
Точка Коши. Мин. в подпространстве. Active set vs Free set
Сравнительная таблица. Анализ сложности

Описательная статистика
Среднее, медиана, выбросы, стандартное отклонение, процентили, гистограммы
Выборка и смещение
Случайная выборка, смещенная выборка, систематическая ошибка, размер выборки
Неопределенность оценки
Выборочное распределение, стандартная ошибка, центральная предельная теорема
Бутстрап и доверительные интервалы
Как оценивать надежность результата без строгих предположений о распределении
Основные распределения
Нормальное, t-распределение, биномиальное, хи-квадрат, F-распределение, Пуассон
Проверка гипотез
Нулевая и альтернативная гипотезы, p-value, alpha, статистическая значимость
Ошибки выводов
Ошибки 1-го и 2-го рода, практическая значимость, множественное тестирование
Статистические тесты
t-тест, ANOVA, хи-квадрат тест, точный тест Фишера, перестановочный тест
A/B-тесты
Односторонние и двусторонние проверки, мощность теста, размер выборки
Связи между переменными
Корреляция, диаграммы рассеяния, сравнение числовых и категориальных данных
kaggle дискуссия

10 СФЕР ПРИМЕНЕНИЯ LBFGS/L-BFGS-B:

Логистическая регрессия и Ridge-регрессия
Нейронные сети
Ограниченная оптимизация (Box Constraints)
Компьютерное зрение
Обработка естественного языка (NLP)
Гиперпараметрическая оптимизация
image registration
camera calibration
калибровки моделей
matrix factorization

overfitting Домашняя работа

overfitting	Домашняя работа
В этом курсе Вы изучите следующие темы: Бизнес кейсы с полиномиальной регрессией Понятие монома (одночлен) Понятие полинома (многочлен) Моделирование полиномов в DESMOS Понятие ряд Тейлора Выводим формулу полиномиальной регрессии с нуля. Полиномиальные признаки: `sklearn.preprocessing.PolynomialFeatures` Реверс-инжиниринг Python кода Улучшаем код для выбора гиперпараметра модели Метрика MAPE Анализ метрик и выбор степени полинома. UNDERFITTING OVERFITTING Анализ графика полиномиальной регрессии Анализ коэффициентов регрессии Анализ графика остатков Понятие Bias-Variance Decomposition и Tradeoff Понятие Bias (смещение) Bias (смещение): математическое обоснование Понятие variance (разброс) Геометрический смысл bias и variance Кросс-валидация (краткий обзор) Variance (разброс): математическое обоснование Понятие noise (шум) Геометрический смысл noise Noise (шум): математическое обоснование Анализ графика: шум как неустранимая ошибка. PDF. График плотности нормального распределения Гаусса Выводим формулу с нуля. Bias varians decomposition Анализ графика model complexity Бритва Оккама или как выбрать гиперпараметр? Валидационная выборка Анализ кривых обучения (learning curves) Борьба с недообучением и переобучением BVD: Decision Tree, Random Forest, KNN, Логистическая, Нейросети Введение в сплайновую регрессию (с реализацией в Python)	Тестирование от deep Яндекс статья BVD kaggle дискуссия Методы повторной выборки Перекрестная проверка Метод проверочной выборки Перекрестная проверка по отдельным наблюдениям k-кратная перекрестная проверка Компромисс между смещением и дисперсией в k-кратной перекрестной проверке Бутстреп Лабораторная работа: перекрестная проверка и бутстреп Практика: метод проверочной выборки Практика: перекрестная проверка Практика: бутстреп Регрессионные сплайны Кусочно-полиномиальная регрессия Ограничения и сплайны Представление сплайнов с помощью базисных функций Выбор количества и расположения узлов Сравнение сплайнов с полиномиальной регрессией Сглаживающие сплайны Введение в сглаживающие сплайны Выбор сглаживающего параметра λ Локальная регрессия Обобщенные аддитивные модели GAM для регрессионных задач Проверка статистических гипотез Анализ расхождения между средним выборки и средним совокупности Выуживание данных Сложные выводы из-за ресэмплинга Бутстрэппинг с восполнением Тестирование гипотез при неизвестной дисперсии совокупности Пермутационный тест Сравнение средних выборок при неизвестных параметрах совокупности
10 Сфер применения полиномиальной регрессии: Прогнозирование временных рядов Экономика: цена на акции, процентных ставок, инфляции Прогнозирование спроса на товары Движение тел, рост кристаллов, термические процессы Рост населения бактерий, реакции на дозу лекарства Взаимосвязи между рекламными затратами и продажами Обработка сигналов Анализ качества и предсказания дефектов Геоинформационные системы (GIS) Потребления энергии в зависимости от времени суток

В этом курсе Вы изучите следующие темы:

Бизнес кейсы с полиномиальной регрессией
Понятие монома (одночлен)
Понятие полинома (многочлен)
Моделирование полиномов в DESMOS
Понятие ряд Тейлора
Выводим формулу полиномиальной регрессии с нуля.
Полиномиальные признаки: sklearn.preprocessing.PolynomialFeatures
Реверс-инжиниринг Python кода
Улучшаем код для выбора гиперпараметра модели
Метрика MAPE
Анализ метрик и выбор степени полинома. UNDERFITTING OVERFITTING
Анализ графика полиномиальной регрессии
Анализ коэффициентов регрессии
Анализ графика остатков
Понятие Bias-Variance Decomposition и Tradeoff
Понятие Bias (смещение)
Bias (смещение): математическое обоснование
Понятие variance (разброс)
Геометрический смысл bias и variance
Кросс-валидация (краткий обзор)
Variance (разброс): математическое обоснование
Понятие noise (шум)
Геометрический смысл noise
Noise (шум): математическое обоснование
Анализ графика: шум как неустранимая ошибка.
PDF. График плотности нормального распределения Гаусса
Выводим формулу с нуля. Bias varians decomposition
Анализ графика model complexity
Бритва Оккама или как выбрать гиперпараметр?
Валидационная выборка
Анализ кривых обучения (learning curves)
Борьба с недообучением и переобучением
BVD: Decision Tree, Random Forest, KNN, Логистическая, Нейросети
Введение в сплайновую регрессию (с реализацией в Python)

Тестирование от deep
Яндекс статья BVD
kaggle дискуссия
Методы повторной выборки
Перекрестная проверка
Метод проверочной выборки
Перекрестная проверка по отдельным наблюдениям
k-кратная перекрестная проверка
Компромисс между смещением и дисперсией в k-кратной перекрестной проверке
Бутстреп
Лабораторная работа: перекрестная проверка и бутстреп
Практика: метод проверочной выборки
Практика: перекрестная проверка
Практика: бутстреп
Регрессионные сплайны
Кусочно-полиномиальная регрессия
Ограничения и сплайны
Представление сплайнов с помощью базисных функций
Выбор количества и расположения узлов
Сравнение сплайнов с полиномиальной регрессией
Сглаживающие сплайны
Введение в сглаживающие сплайны
Выбор сглаживающего параметра λ
Локальная регрессия
Обобщенные аддитивные модели
GAM для регрессионных задач
Проверка статистических гипотез
Анализ расхождения между средним выборки и средним совокупности
Выуживание данных
Сложные выводы из-за ресэмплинга
Бутстрэппинг с восполнением
Тестирование гипотез при неизвестной дисперсии совокупности
Пермутационный тест
Сравнение средних выборок при неизвестных параметрах совокупности

10 Сфер применения полиномиальной регрессии:

Прогнозирование временных рядов
Экономика: цена на акции, процентных ставок, инфляции
Прогнозирование спроса на товары
Движение тел, рост кристаллов, термические процессы
Рост населения бактерий, реакции на дозу лекарства
Взаимосвязи между рекламными затратами и продажами
Обработка сигналов
Анализ качества и предсказания дефектов
Геоинформационные системы (GIS)
Потребления энергии в зависимости от времени суток

Ridge (L2-регуляризация)	Домашняя работа
В этом курсе Вы изучите следующие темы: Анализ графика регуляризации Регуляризация Тихонова. L2. Ridge Метод наименьших квадратов Сравнение Python кода линейной и гребневой регрессии Сравнение графиков линейной и гребневой регрессии Обзор формулы L2-регуляризации Что такое L2-норма? L2-норма вектора на плоскости L2-норма вектора в пространстве Ограничение через норму и квадрат нормы Что такое линии уровня? Геометрическая интерпретация регуляризации Тихонова Геометрическая интерпретация параметра регуляризации Уравнение окружности 4D Геометрическая интерпретация регуляризации Почему линии уровня это эллипсы? Выводим формулу L2-регуляризации с нуля Решатель: Нормальное уравнение. Python: Имплементация нормального уравнения в L2-регуляризации Решатель: Разложение Холецкого. Решатель: SVD. Сингулярное разложение матрицы Решатель: Градиентный спуск Python: Имплементация градиентного спуска в L2-регуляризации Геометрическая интерпретация коэффициентов регрессии Доказательство: почему L2 не зануляет веса? Теорема Гаусса-Маркова Bias: Cмещённая оценка гребневой регрессии. Ковариационная матрица. Ковариация против корреляции. Variance: Cмещённая оценка гребневой регрессии. Почему MSE гребневой регрессии меньше OLS? Фактор инфляции дисперсии (VIF) — мера мультиколлинеарности Обусловленность (cond) Геометрический смысл СЛАУ Логарифмическая шкала и параметр регуляризации Почему называется Гребневая регрессия? Резюмируем Регуляризация в других моделях ML	Яндекс статья регуляризация Тестирование от яндекс Яндекс ПАНДАН Курс: Box Plot & квартили, квантили, перцентили CDF, PDF, PPF, SF, ISF Нормальность распределения CLT и нормальное распределение Колмогорова-Смирнова Шапиро-Уилка QQ plot t-тест A/B tests Лабораторная работа: Методы сжатия Гребневая регрессия Лассо Выбор гиперпараметра Методы снижения размерности Метод главных компонент Метод частных наименьших квадратов Размышляя о большой размерности Данные большой размерности Что не так с данными большой размерности? Регрессия в условиях большой размерности Интерпретация результатов в задачах большой размерности Методы отбора Регрессия PCR и PLS kaggle дискуссия
10 Сфер применения Ridge регрессии: Прогнозирование временных рядов Экономика: цена на акции, процентных ставок, инфляции Прогнозирование спроса на товары Движение тел, рост кристаллов, термические процессы Рост населения бактерий, реакции на дозу лекарства Взаимосвязи между рекламными затратами и продажами Обработка сигналов Анализ качества и предсказания дефектов Геоинформационные системы (GIS) Потребления энергии в зависимости от времени суток

Ridge (L2-регуляризация)

Домашняя работа

В этом курсе Вы изучите следующие темы:

Анализ графика регуляризации
Регуляризация Тихонова. L2. Ridge
Метод наименьших квадратов
Сравнение Python кода линейной и гребневой регрессии
Сравнение графиков линейной и гребневой регрессии
Обзор формулы L2-регуляризации
Что такое L2-норма?
L2-норма вектора на плоскости
L2-норма вектора в пространстве
Ограничение через норму и квадрат нормы
Что такое линии уровня?
Геометрическая интерпретация регуляризации Тихонова
Геометрическая интерпретация параметра регуляризации
Уравнение окружности
4D Геометрическая интерпретация регуляризации
Почему линии уровня это эллипсы?
Выводим формулу L2-регуляризации с нуля
Решатель: Нормальное уравнение.
Python: Имплементация нормального уравнения в L2-регуляризации
Решатель: Разложение Холецкого.
Решатель: SVD. Сингулярное разложение матрицы
Решатель: Градиентный спуск
Python: Имплементация градиентного спуска в L2-регуляризации
Геометрическая интерпретация коэффициентов регрессии
Доказательство: почему L2 не зануляет веса?
Теорема Гаусса-Маркова
Bias: Cмещённая оценка гребневой регрессии.
Ковариационная матрица. Ковариация против корреляции.
Variance: Cмещённая оценка гребневой регрессии.
Почему MSE гребневой регрессии меньше OLS?
Фактор инфляции дисперсии (VIF) — мера мультиколлинеарности
Обусловленность (cond)
Геометрический смысл СЛАУ
Логарифмическая шкала и параметр регуляризации
Почему называется Гребневая регрессия?
Резюмируем
Регуляризация в других моделях ML

Яндекс статья регуляризация
Тестирование от яндекс
Яндекс ПАНДАН

Курс:

Box Plot & квартили, квантили, перцентили
CDF, PDF, PPF, SF, ISF
Нормальность распределения
CLT и нормальное распределение
Колмогорова-Смирнова
Шапиро-Уилка
QQ plot
t-тест
A/B tests

Лабораторная работа:

Методы сжатия
Гребневая регрессия
Лассо
Выбор гиперпараметра
Методы снижения размерности
Метод главных компонент
Метод частных наименьших квадратов
Размышляя о большой размерности
Данные большой размерности
Что не так с данными большой размерности?
Регрессия в условиях большой размерности
Интерпретация результатов в задачах большой размерности
Методы отбора
Регрессия PCR и PLS
kaggle дискуссия

10 Сфер применения Ridge регрессии:

Прогнозирование временных рядов
Экономика: цена на акции, процентных ставок, инфляции
Прогнозирование спроса на товары
Движение тел, рост кристаллов, термические процессы
Рост населения бактерий, реакции на дозу лекарства
Взаимосвязи между рекламными затратами и продажами
Обработка сигналов
Анализ качества и предсказания дефектов
Геоинформационные системы (GIS)
Потребления энергии в зависимости от времени суток

О школе

SenatorovAI — это не просто школа Data Science. Это структурное подразделение IT-организации, где обучение связано не только с теорией, но и с реальной инженерной средой, проектами, кодом, командной работой и практикой.

Программа обучения включает:

Изучение Git, GitHub и стандартов Open Source;
Изучение прикладной математики для Data Science – без лишней теории, теорем и доказательств
Практическое применение полученных знаний – здесь важно не просто пройти уроки, а встроиться в рабочий процесс: научиться писать код, понимать математику, работать с задачами, сдавать работы и получать оценку.ю

Чем мы отличаемся от других школ

школа встроена в IT-среду, а не существует отдельно от практики;
обучение идет через код, проекты, обсуждения и реальные задачи;
есть командная работа, ревью, pull request-практика и разборы решений;
студент видит не только теорию, но и то, как выглядит рабочий процесс в реальной команде.

Как проходит обучение

Внутри SenatorovAI можно учиться самостоятельно по материалам школы или идти под присмотром преподавателя. Есть несколько программ обучения, домашние задания, кураторы групп, регулярные созвоны, отчетность, персональные занятия и сопровождение по ходу роста.

Что получает студент

доступ ко всем материалам школы;
домашние задания и их проверку;
кураторов групп и регулярную обратную связь;
созвоны и обсуждения внутри школы;
доступ к тестам, видео и внутренним обсуждениям команды;
ревью и pull request-практику;
консультации по трудоустройству и составлению портфолио;
командные проекты по Data Science.

Практика и реальные задачи

Школа развивает студентов не только через учебные треки, но и через рабочую логику: проекты, командные задачи, инженерную дисциплину и практику, которая ближе к реальному IT-процессу. За счет этого обучение не отрывается от того, как затем выглядит настоящая работа в индустрии.

Для кого эта школа

SenatorovAI подходит как для тех, кто начинает с нуля, так и для тех, кто уже учится или работает и хочет вырасти в аналитике, машинном обучении и Data Science. Нами выстроена длинная траектория обучения: от базового входа до продвинутого уровня и перехода к middle Data Scientist.

Контакты

Telegram Руслана Сенаторова
@RuslanSenatorov

Telegram SenatorovAI
@SENATOROVAI

Основной YouTube-канал
youtube.com/SENATOROV

Дополнительный YouTube-канал
youtube.com/@RuslanSenatorov

Инженерная школаData Science.

Школа как часть реальной IT-среды

ML-Спецназа Сенаторова

О школе

Программа обучения включает:

Чем мы отличаемся от других школ

Как проходит обучение

Что получает студент

Практика и реальные задачи

Для кого эта школа

Контакты

Инженерная школа
Data Science.